失效链接处理 |
阿里巴巴大数据及AI实战 PDF 下载
本站整理下载:
提取码:gyd3
相关截图:
主要内容:
简介:如今,推荐系统已经成为各大电商平台的重要流量入口,谁才能够做到比
用户更懂用户,谁占据了新零售时代的主动权。手机淘宝的推荐更是淘宝最大的流量
入口和最大的成交渠道之一,其背后是最为复杂的业务形态和最复杂的场景技术,那
么究竟如何打造手淘背后的推荐系统呢?本次首席技术官大数据专享会上,阿里巴巴
搜索推荐事业部资深算法专家欧文武(三桐)为大家解密了淘宝的推荐实战。
手淘推荐简介
手淘推荐的快速发展源于 2014 年阿里“All in 无线”战略的提出。在无线时代,
手机屏幕变小,用户无法同时浏览多个视窗,交互变得困难,在这样的情况下,手淘
借助个性化推荐来提升用户在无线端的浏览效率。经过近几年的发展,推荐已经成为
手淘上面最大的流量入口,每天服务数亿用户,成交量仅次于搜索,成为了手淘成交
量第二大入口。
6 > 解密淘宝推荐实战,打造 “比你还懂你” 的个性化 APP
今天的推荐不仅仅包含商品,还包含了直播、店铺、品牌、UGC,PGC 等,手
淘整体的推荐物种十分丰富,目前手淘的整体推荐场景有上百个。推荐与搜索不同,
搜索中用户可以主动表达需求,推荐很少和用户主动互动,或者和用户互动的是后台
的算法模型,所以推荐从诞生开始就是大数据 +AI 的产品。
手淘推荐特点
相比于其他推荐产品,手淘推荐也有自身的如下特点:
1. 购物决策周期:手淘推荐的主要价值是挖掘用户潜在需求和帮助用户购买决
策,用户的购物决策周期比较长,需要经历需求发现 , 信息获取,商品对比
和下单决策的过程,电商推荐系统需要根据用户购物状态来做出推荐决策。
2. 时效性:我们一生会在淘宝购买很多东西,但是这些需求通常是低频和只在
很短的时间窗口有效,比如手机 1~2 才买一次但决策周期只有几小时到几
天,因此需要非常强的时效性,需要快速地感知和捕获用户的实时兴趣和探
索未知需求 , 因此,推荐诞生之初就与 Flink、Blink 实时计算关系非常紧密。
3. 人群结构复杂:手淘中会存在未登录用户、新用户、低活用户以及流式用户
等,因此需要制定差异化的推荐策略,并且针对性地优推荐模型。
4. 多场景:手淘推荐覆盖了几百个场景,每个场景都独立进行优化显然是不可
能的,而且每个场景的条件不同,因此超参也必然不同,无法依靠人工逐个
优化场景模型的参数,因此需要在模型之间进行迁移学习以及自动的超参学
习等,通过头部场景的迁移学习来服务好尾部场景。
5. 多目标和多物种。
解密淘宝推荐实战,打造 “比你还懂你” 的个性化 APP < 7
推荐技术框架
如下图所示的是手淘推荐的技术框架。2019 年双 11,整个阿里巴巴的业务全部
实现上云,因此手淘推荐的技术架构也是生长在云上的。推荐的 A-B-C 包括了推荐
算法和模型、原始日志和基于日志加工出来的特征和离在线计算及服务能力,比如向
量检索、机器学习平台、在线排序服务等。除了云,今年我们通过把深度学习模型部
署到了端上,实现了云和端的协同计算。
8 > 解密淘宝推荐实战,打造 “比你还懂你” 的个性化 APP
接下来将主要围绕数据、基础设施以及算法模型进行介绍。
数据 - 基础数据
手淘的推荐数据主要包括几种,即描述型数据比如用户画像 , 关系数据比如二部
图或稀疏矩阵 , 行为序列和图数据等。基于用户行为序列推荐模型在手淘商品推荐应
用最为广泛,图模型则是近两年发展较快的模型,因为序列通常只适合于同构的数
据,而在手淘里面,用户的行为有很多种,比如看视频、搜索关键词等,通过 graph
embedding 等技术可以将异构图数据对齐或做特征融合。
数据 - 样本
数据样本主要包含两部分元素,label 和特征。label 一般在手淘推荐中有几类,
比如曝光、点击、成交以及加购等。特征则比较多了,比如用户自己的特征、用户上
下文特征、商品本身特征以及两两组合特征等。根据用户的特征和行为日志做 Join
就形成样本表,这些表格存储的时候就是按照稀疏矩阵方式进行存储,一般而言是按
天或者按照时间片段形成表格,样本生成需要占用很大一部分离线计算资源。
解密淘宝推荐实战,打造 “比你还懂你” 的个性化 APP < 9
离线计算 - 计算模式
离线计算主要有三种模式,即批处理、流处理和交互式查询。批处理中比较典型
的就是 MapReduce,其特点是延迟高但并行能力强,适合数据离线处理,比如小时
/ 天级别特征计算,样本处理和离线报表等。流计算的特点是数据延迟低,因此非常
适合进行事件处理,比如用户实时点击,实时偏好预测,在线学习的实时样本处理和
实时报表等。交互式查询则主要用于进行数据可视化和报表分析。
|