Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

2021年美团技术年货 PDF 下载


分享到:
时间:2022-02-08 10:30来源:http://www.java1234.com 作者:转载  侵权举报
2021年美团技术年货 PDF 下载
失效链接处理
2021年美团技术年货 PDF 下载


本站整理下载:
提取码:b1my 
 
 
相关截图:
 
主要内容:
3. 特征平台建设
3.1 特征生产:海量特征的生产能力
特征同步的方式有多种,业界常见做法是通过开发 MR 任务 /Spark 任务 / 使用同步
组件,从多个数据源读取多个字段,并将聚合的结果同步至 KV 存储。这种做法实现
简单,但存在以下问题:
● 特征重复拉取:同一特征被不同任务使用时,会导致特征被重复拉取,造成资
源浪费。
● 缺乏全局调度:同步任务间彼此隔离,相互独立,缺乏多任务的全局调度管理
机制,无法进行特征复用、增量更新、全局限流等操作,影响特征的同步速度。
● 存储方式不够灵活健壮:新特征存储时,涉及到上下游代码 / 文件的改动,迭
代成本高,特征数据异常时,需长时间重导旧数据,回滚效率较低。
围绕上述几点问题,本文将从三个方面进行特征生产核心机制的介绍:
● 特征语义机制:用于解决平台从数百个数据源进行特征拉取和转化的效率问题。
● 特征多任务调度机制:用于解决海量特征数据的快速同步问题。
● 特征存储机制:用于解决特征存储在配置化和可靠性方面的问题。
3.1.1 特征语义
特征平台目前已接入上游 Hive 表数百个、特征配置近万个,其中大部分特征都需天
级别的更新。那平台如何从上游高效地拉取特征呢?直观想法是从特征配置和上游
Hive 表两个角度进行考虑:
特征配置角度:平台根据每个特征配置,单独启动任务进行特征拉取。
● 优点:控制灵活。
● 缺点:每个特征都会启动各自的拉取任务,执行效率低且耗费资源。
上游 Hive 表角度:Hive 表中多个特征字段,统一放至同一任务中拉取。
○ 优点:任务数量可控,资源占用低。
6  > 2021年美团技术年货
● 缺点:任务逻辑耦合较重,新增特征时需感知 Hive 表其它字段拉取逻辑,导
致接入成本高。
上述两种方案都存在各自问题,不能很好满足业务需求。因此,特征平台结合两个方
案的优点,并经过探索分析,提出了特征语义的概念:
● 特征语义:由特征配置中的上游 Hive 表、特征维度、特征过滤条件、特征
聚合条件四个字段提取合并而成,本质就是相同的查询条件,比如:Select
KeyInHive,f1,f2 From HiveSrc Where Condition Group by Group,
此时该四个字段配置相同,可将 F1、F2 两个特征的获取过程可合并为一个
SQL 语句进行查询,从而减少整体查询次数。另外,平台将语义合并过程做
成自动化透明化,接入方只需关心新增特征的拉取逻辑,无需感知同表其它字
段,从而降低接入成本。
特征平台对特征语义的处理分为两个阶段:语义抽取和语义合并,如下图所示:

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐