失效链接处理 |
2021年美团技术年货 PDF 下载
本站整理下载:
相关截图:
![]()
主要内容:
1. 背景
美团外卖业务种类繁多、场景丰富,根据业务特点可分为推荐、广告、搜索三大业务
线以及数个子业务线,比如商家推荐、菜品推荐、列表广告、外卖搜索等等,满足了
数亿用户对外卖服务的全方面需求。而在每条业务线的背后,都涉及用户、商家、平
台三方面利益的平衡:用户需要精准的展现结果;商家需要尽可能多的曝光和转化;
平台需要营收的最大化,而算法策略通过模型机制的优化迭代,合理地维护这三方面
的利益平衡,促进生态良性发展。
随着业务的发展,外卖算法模型也在不断演进迭代中。从之前简单的线性模型、树模
型,到现在复杂的深度学习模型,预估效果也变得愈发精准。这一切除了受益于模型
参数的不断调优,也受益于外卖算法平台对算力增长的工程化支撑。外卖算法平台通
过统一算法工程框架,解决了模型 & 特征迭代的系统性问题,极大地提升了外卖算法
的迭代效率。根据功能不同,外卖算法平台可划分为三部分:模型服务、模型训练和
特征平台。其中,模型服务用于提供在线模型预估,模型训练用于提供模型的训练产
出,特征平台则提供特征和样本的数据支撑。本文将重点阐述外卖特征平台在建设过
程中遇到的挑战以及优化思路。
2 > 2021年美团技术年货
诚然,业界对特征系统的研究较为广泛,比如微信 FeatureKV 存储系统聚焦于解决
特征数据快速同步问题,腾讯广告特征工程聚焦于解决机器学习平台中 Pre-Trainer
方面的问题,美团酒旅在线特征系统聚焦于解决高并发情形下的特征存取和生产调度
问题,而外卖特征平台则聚焦于提供从样本生成 -> 特征生产 -> 特征计算的一站式
链路,用于解决特征的快速迭代问题。
随着外卖业务的发展,特征体量也在快速增长,外卖平台面对的挑战和压力也不断增
大。目前,平台已接入特征配置近万个,特征维度近 50 种,日处理特征数据量几十
TB,日处理特征千亿量级,日调度任务数量达数百个。面对海量的数据资源,平台
如何做到特征的快速迭代、特征的高效计算以及样本的配置化生成?下文将分享美团
外卖在平台建设过程中的一些思考和优化思路,希望能对大家有所帮助或启发。
2. 特征框架演进
2.1 旧框架的不足
外卖业务发展初期,为了提升策略迭代效率,算法同学通过积累和提炼,整理出一套
通用的特征生产框架,该框架由三部分组成:特征统计、特征推送和特征获取加载。
算法 < 3
如下图所示:
● 特征统计:基于基础数据表,框架支持统计多个时段内特定维度的总量、分布
等统计类特征。
● 特征推送:框架支持将 Hive 表里的记录映射成 Domain 对象,并将序列化后
的结果写入 KV 存储。
● 特征获取加载:框架支持在线从 KV 存储读取 Domain 对象,并将反序列化后
的结果供模型预估使用。
该框架应用在外卖多条业务线中,为算法策略的迭代提供了有力支撑。但随着外卖业
务的发展,业务线的增多,数据体量的增大,该框架逐渐暴露以下三点不足:
● 特征迭代成本高:框架缺乏配置化管理,新特征上线需要同时改动离线侧和在
线侧代码,迭代周期较长。
● 特征复用困难:外卖不同业务线间存在相似场景,使特征的复用成为可能,但
框架缺乏对复用能力的很好支撑,导致资源浪费、特征价值无法充分发挥。
● 平台化能力缺失:框架提供了特征读写的底层开发能力,但缺乏对特征迭代完
整周期的平台化追踪和管理能力。
2.2 新平台的优势
针对旧框架的不足,我们在 2018 年中旬开始着手搭建新版的特征平台,经过不断的
摸索、实践和优化,平台功能逐渐完备,使特征迭代能力更上一层台阶。
特征平台框架由三部分组成:训练样本生成(离线)、特征生产(近线)以及特征获取
计算(在线),如下图所示:
|