今年阿里双十一提升广告点击率居然用的是这种算法?!

文 | 阿里巴巴定向广告团队

源 | 知乎


写在前面的碎碎念

这篇文章主要是介绍我们在CTR建模领域最新的工作CAN,CAN已经在双十一前全面在阿里定向广告落地,在线效果提升非常显著。一般文章会以事后的视角来写,这样思考会更完整,会屏蔽掉中途的一些旁枝末节,会显得思路更清晰也没犯啥蠢,不过这篇文章我想试试以顺序(流水账?)的视角来更真实的记录一下这个工作的诞生过程,具体对方法的描述,以及CAN的精简思路,大家看论文会体验更好一些:
https://arxiv.org/abs/2011.05625
过去几年,我们团队一直在兴趣建模方面投入了非常多的精力,也产出了一些工作。其实我们一直还有另一条坚持的技术主线,表征建模。

第一次冲锋:在17年开始我就在表征建模上投入了大量的精力,毕竟是做NLP出身的,当然想蹭蹭过去学到的一些小技巧。最开始是想模仿Google做一个真·AI,当时XDL还没完全交接给工程同学,负责一部分XDL架构和开发的工作。当时想,如果各个业务线都在用XDL,如果我做一个parameter bank用来存放各类ID的embedding。各个业务线的模型训练任务通过这个parameter bank共享这些embedding参数,并且为它共享梯度,有没有可能学出一个淘宝体系里最普适的ID representation,最后学出一些我们意想不到的知识?后来这个想法告吹了,因为它背后更新/维护/多个业务线的耦合风险无法说服所有人,同时我当时接到的任务是把图像用到CTR任务里,这个方案看起来并不是为了完成这个任务目标最直接和现实的方式。到最后这个初始想法演变成了减少我们迭代负担的model bank,然后这个工作一直也没公开: )

第二次冲锋:18年的时候,如何对十亿淘宝商品进行表征建模,或者简单点如何对item id学一个泛化性更强的embedding又开始来撩拨我的思想。想了一个res-embedding的方案,如果说直接学习每个item的embedding很难,那么把相似的item学习一个共享的mid embedding,再去学习每个item特有的信息 res embedding,用它们相加来表达一个item,相似item通过mid embedding共享信息可以缓解稀疏带来的学习难度,一定程度上提升泛化性。具体在如何找相似的item,以及如何设置mid时,我采用了图的方法,通过用户行为把item连接起来,最后这个方案有点类似后来比较火的graph sage。

不过这个方案实际使用时在样本量几亿规模时非常有效,到几十亿上百亿规模时收效甚微,这说明我还是没找到更好的表征建模方案。

第三次冲锋:后续陆陆续续做了非常多碎的尝试,也学习了很多研究思路,包括GNN、Contrastive Learning、Information Bottleneck、Cognitive Rec等等,但是每次尝试我都发现要写论文很简单,很多方法在“小”(甚至几亿规模)数据集上总是有效,但是在我面对的实际业务问题规模上,几乎都没什么效果。我甚至开始怀疑我所解的这个业务问题,到底需不需要研究表征建模这个问题,毕竟CV/NLP/语音的原始输入数据本身就是为表意而存在,天然具备一些连续相关性,而电商业务场景的数据并不是表意的。这到底是水平不够,还是说问题本身只是一个执念。后来我们做了一个简单的推演,CTR类模型的核心参数量都在embedding部分,而我们组的大部分工作和模型迭代都在后面的MLP部分,比如DIN/DIEN/MIMN。可是一旦embedding学习方式确定了,如果输入信息本身学习不够好,后面的模型空间是有限的。因此我们认为输入端信息建模应该是有一个比较大的潜在效果空间。然后就成立了一个项目组,搞了一年,没有完整的产出,成员们压力极大: (

在第三次冲锋后期,我们推断出了一个对输入端信息做交互建模的方法,算是为我们团队找到了一个新的迭代路径,我个人也认为这个方法如果算作特征交互,算是一个新的思路。

回到特征交互

其实我对特征交互方面的工作一直以来态度都比较尴尬。一方面我认为手工交叉特征工程如果又能解决业务问题,又不影响迭代效率,其实挺好的,我们的业务模型里就有部分手工设计的交叉特征。技术都是为了解决问题而存在的,没有原罪,也没有原善,有克制的组合特征是能接受的,不能接受的是漫无目,无视迭代负担,冗余的大规模组合。另一方面,学术界一些比较熟知的工作,FM/NCF/deepFM/PNN/DCN等等(说实话DCN不是很想提,不用看到实验部分,方法本身都有问题),这些工作以我浅薄的见解,我实在看不太出来和FM有啥区别,到效果上,我们的业务数据里确实都没效果,因为FM在我们的模型基础上叠加就没啥效果。虽然我一直很努力想理解这个在CTR建模领域比兴趣建模更为普适的路线到底在研究啥,这些工作一步步思路如何推进的。结果还是看不懂,也就不太想碰。

不过第三次冲锋,和之前一些同事的尝试到是找到了一个比较有意思的实事:CTR预估建模问题里,把待预估的商品信息(如item id)和用户历史行为序列信息(如item id sequence)做笛卡尔积,形成一个新的id sequence,对其直接做embedding后pooling效果很好,会在DIN和DIEN的基础上再有比较明显的提升。

为何笛卡尔积有效

当时细想一下,笛卡尔积有效并不神奇,同时一定能找到参数量更少的模型方案来替代笛卡尔积这种hard的id组合方式。比如用户行为序列中有一个商品ID为A,待预估商品为B,笛卡尔积形成新的ID A&B,A&B每次在一条样本里出现,训练时都会更新独立属于自己的embedding。而这个A&B的embedding,我们认为其学习的是A,B两个ID在一条样本共现后对Label的co-action信息。

这个co-action信息为什么重要其实很好理解,比如CTR预估问题,要解决的本来就是每条样本最后预测是否点击,其实解的问题就是所有输入信息X条件下点击的概率 。建模co-action信息就是单独建模 。具体的,如果A和B分别是待预估的商品ID,和用户行为序列里的商品ID。如果我们对行为序列做SUM/AVG pooling就等于忽视了ID间的co-action,对序列做DIN/DIEN类似的aggregation,在co-action的视角下可以看做是一个scalar的co-action,没有方向,且只能对原始行为序列ID的embedding做一个纯量的修正。那么每个序列的ID都和预估商品ID做一个笛卡尔积呢,把原始的序列变成一个笛卡尔积ID序列,再给每个ID都学习一个embedding。这个时候co-action就是用向量来建模,且这个新的embedding和原始序列的embedding完全独立,自由度更大,模型capacity更大。如果原始ID的co-action信息建模本身有用,那么笛卡尔积就是建模co-action最直接的方式。 笛卡尔积+端到端学习的embedding其实很像一个大的memory network,只不过写入和读出的索引相同,都是笛卡尔积化后的ID。这样的模式下这些代表co-action的笛卡尔积ID的embedding在训练时,具备样本穿越性。训练时,任意一个笛卡尔积ID A&B的embedding都是独立学习的,同时强保证了,在下一条A&B出现的样本里,这个embedding能把当前学到的co-action信息无损的带入。而简单的特征cross方法,比如把 的embedding和 的embedding做外积,这个时候 的co-action为 ,它在训练时也会被 embedding本身的学习和 等更新,很难保证学习到的co-action信息在下一次出现时,还保留上一次学习的信息。

笛卡尔积不是终局

笛卡尔积其实是非常常用也比较好理解其实现方式的一个方案。不过对用户行为序列item seq和待预估item做笛卡尔积组合其实有蛮多弊端,即使已经看到了离线的部分提升,我对着急把这样的方案推进全面生产化不是很感兴趣。
1. 这种序列笛卡尔积在训练端和在线服务端其实成本蛮大的。训练可能比较好解决,但是在线服务会有比较明显的瓶颈,因为每一次预估需要生成的ID,和查询embedding的ID会急剧膨胀,而这些操作是需要CPU计算的,这部分的可优化空间也比较小。算下来成本比一个计算复杂型模型要高不少,至少对于我们,一个熟知如何优化计算复杂型的团队是这样。
2. 笛卡尔积意味着强记忆性,是比较hard的方案,对于一些样本里未出现的ID组合,是直接无法学习的。同时稀疏的组合和稀疏的ID,学习效果也很差,大部分情况下只能选择过滤。
3. 笛卡尔积的参数膨胀本身就会带来模型无论从性能还是维护迭代上鲁棒性的进一步降低。

下面我们来推演一下在笛卡尔积有效的情况下,我们有没有机会找到参数量更少的模型方案来替代笛卡尔积这种hard的id组合方式。第一条线索,参数空间视角:前文提到二维笛卡尔积的方式,如果我们局限以对Item ID做co-action建模分析,可以看做是一个全参数空间为 的方法,N为item ID的数量,D是embedding的维度。这个参数空间是非常大的, 在淘宝是十亿以上的规模。当然了实际上训练时不需要那么大的空间,因为并不是所有ID的组合都会在样本中出现,但是笛卡尔积这个方法的假设参数空间依旧是 。意味着在它有效的状态下,也是存在大量的参数空间冗余的,再考虑到稀疏出现的笛卡尔积,如出现次数个位数的笛卡尔积embedding无法有效学习。笛卡尔积方法,大部分的假设参数空间都是无效的。第二条线索,学习难度视角: 前文提到,笛卡尔积的方式保障了任意一组co-action组合的学习是独立且强记忆能实现样本穿越的。而如直接外积的方式很难建模co-action,因为没有参数来稳定维持对co-action的建模学习信息。虽然笛卡尔积的方式是有效且看上去对co-action建模最直接的,但是难以忽视的一点是比如在电商场景,商品与商品之间是有联系的,是有相似性的,任意两个商品之间的co-action信息也应该有overlap的部分,不应该是完全独立的。直接外积的方式呢,共享的维度过大,单侧ID的信息完全共享,参数空间为 。如果我们能有效利用不同co-action之间有信息可共享,我们就有机会找到把参数空间降低到 的方法,其中

CAN:Co-Action Net

最开始我们从memory net的视角想了一种方案,把item id的参数从 扩展到 ,即把embedding变成一个有T个slot的矩阵,这种方案下任意一个ID都有T个slot,每个slot存放维度为D的vector。这时候可以借如attention的思路来建模co-action并保持不同组合co-action学习的部分独立性。比如在建模co-action时,让不同的slot对另一个ID的所有slot做attention aggregation,并和aggregation后的结果做外积(element wise乘法):

(向右滑动查看完整公式)

核心的思想是,建模不同的co-action时,采纳T个slot中不同的参数,同时更新不同的参数,保持co-action建模一定的参数独立性。当然这种思路下可以去设计和尝试的具体模型方案非常多,整个交叉实验代价还蛮大的。

既然我们的核心目的是让co-action的建模过程中有相对比较稳定和独立的参数来维持对建模信息的学习记录,同时又想让不同的co-action间有一定的信息共享。不同于memory net的这个思路,我们组的小伙伴提出了一种更简单的方案:把co-action希望建模的两个ID,一端信息作为输入,另一端信息作为MLP的参数,用MLP的输出来表达co-action信息。

整体模型结构如下图所示,CAN的部分在左侧:

这种方式下,由于MLP的有多层,再加上每一层插入非线性函数,如此, 和不同的ID做co-action,如 ,其输出co-action有一定信息共享,在参数更新时也会不同,比如MLP的激活函数如果是relu,甚至是稀疏会更新一部分,就做到了我们之前说的通过部分保留参数更新的独立性,而实现co-action的稳定性。当然了具体的我们的实际方法里这部分激活函数是Tanh,这其实是个实验结论。做实验的小兄弟认为:因为我们在第一层输入时,手动增加了输入信息的多阶计算, ,Tanh会保护训练时输出更平滑。不过我没有完全接受这个观点,relu或者dice都会更贴近我们最初设计的思路。

最后这个方法我们无论是在我们的业务数据集,还是公开数据集都做了比较完备的实验。CAN确实性能优异,效果比笛卡尔积更好,同时模型参数量并不会急剧膨胀,因为这种方式需要查询参数的ID数不变,对在线服务CPU和RT也比较友好。至于增加的GPU计算部分嘛,一个是GPU的算力增长还是比较符合摩尔定律的,增加GPU负担比较便宜,另一个这部分的计算优化本来就是定向广告团队的拿手好戏: )。毕竟到现在都还有人没办法相信DIEN的在线服务,可能在线优化这块真的很难?在工程团队的给力配合下,我们很快就将这样的方案全面生产化,给业务带来了明显增长。

这个工作是我们团队在原始输入信息交互建模上的第一次尝试,如果真实业务情况笛卡尔积用着比较舒服,也不影响RT和迭代,其实笛卡尔积就是蛮好的方式。CAN是我们希望推进找到模型化的方案替代笛卡尔积建模co-action,背后希望的是找到一条新的路,让交互信息建模还有进一步的迭代空间。毕竟如果终结于笛卡尔积的方式,我很担心我们走上step1:手动加特征 step2:无脑增加多阶特征 step3:讲AutoML做特征搜索的故事 step4:跳槽开始step1的循环。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479697.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring之AOP实现

文章目录前言环境搭建前置业务类编写一、注解实现AOP1.编写注解实现的增强类2.在Spring配置文件中,注册bean,并增加支持注解的配置3.测试二、配置文件实现AOP1.编写自定义增强类2.Spring配置文件中,注册bean,配置增强2.测试总结前…

LeetCode 90. 子集 II(回溯+剪枝)

文章目录1. 题目信息2. 解题2.1 循环2.2 回溯1. 题目信息 给定一个可能包含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集)。 说明:解集不能包含重复的子集。 示例:输入: [1,2,2] 输出: [[2],[1],[1,2,2],[2,2],[1,2…

BAT研发Java面试36题总结:Spring+Redis+Docker+Dubbo

一面: ArrayList和linkedlist区别。ArrayList是否会越界。 ArrayList和hashset有何区别。hashset存的数是有序的么。 volatile和synchronized区别 多态的原理 数据库引擎Innodb和myisam区别 Redis的数据结构 Redis是基于内存的么 Redis的list zset的底层实现…

中文版GPT-2,可用于写小说、诗歌、新闻等

原文链接&#xff1a;https://www.sohu.com/a/336251713_610300 有人做出了中文版GPT-2&#xff0c;可用于写小说、诗歌、新闻等&#xff1b;15亿参数版GPT-2被两名研究生复现 2019-08-25 12:01 来源:量子位 </div>原标题&#xff1a;有人做出了中文版GPT-2&#xff0…

一份来自清华的数据分析笔记,请查收!

之前发过很多数据分析的文章&#xff0c;收到不少好评&#xff0c;但也有一些困惑&#xff1a;入门数据分析该学哪些知识点&#xff1f;该看哪些书&#xff1f;是从 Python入手还是 R 语言&#xff1f;常用的算法有哪些&#xff1f;练手做项目的数据库去哪里找&#xff1f;好用…

LeetCode 9. 回文数

文章目录1. 题目信息2. 解题1. 题目信息 判断一个整数是否是回文数。回文数是指正序&#xff08;从左向右&#xff09;和倒序&#xff08;从右向左&#xff09;读都是一样的整数。 示例 1:输入: 121 输出: true 示例 2:输入: -121 输出: false 解释: 从左向右读, 为 -121 。 …

Redis系列教程(四):Redis为什么是单线程、及高并发快的3大原因详解

Redis的高并发和快速原因 1.redis是基于内存的&#xff0c;内存的读写速度非常快&#xff1b; 2.redis是单线程的&#xff0c;省去了很多上下文切换线程的时间&#xff1b; 3.redis使用多路复用技术&#xff0c;可以处理并发的连接。非阻塞IO 内部实现采用epoll&#xff0c;采…

Bing与DuckDuckGo搜索结果惊人一致?Google展现强势差异

文 | 乐乐QvQ搜索引擎之间有何不同&#xff1f;随着世界上最大的两家公司Google和Microsoft争夺Web Search空间的愈发激烈&#xff0c;一超多强的搜索格局已经形成。在目前眼花缭乱的搜索市场中&#xff0c;是搜索结果的千篇一律&#xff0c;九九归一&#xff1b;还是搜索结果的…

图解gpt-2

原文链接&#xff1a;https://www.sohu.com/a/336262203_129720 完全图解GPT-2&#xff1a;看完这篇就够了&#xff08;一&#xff09; 2019-08-25 12:47 来源:机器之心Pro </div>原标题&#xff1a;完全图解GPT-2&#xff1a;看完这篇就够了&#xff08;一&#xff0…

java程序员学习路线以及我的学习经验

本文作者为优知学院创始人陈睿&#xff08;mike&#xff09;,作者有10年以上技术&产品经验&#xff0c;曾任百度研发经理、携程定制旅游CTO。 “ 这是一篇完整的java程序员学习线路图&#xff0c;一共分为六个阶段。 我以java为例&#xff0c;展示完整的学习步骤。 最后…

这几个模型不讲“模德”,我劝它们耗子尾汁

文 | Sheryc_王苏NLP模型要以和为贵&#xff0c;要讲“模德”&#xff08;Modal&#xff09;&#xff0c;不要搞窝里斗。——《王苏老师被多模态预训练模型偷袭实录》&#xff08;全文在末尾&#xff0c;必读&#xff09;最近是不是被马保国“不讲武德”“耗子尾汁”的视频和语…

Java多线程系列(六):深入详解Synchronized同步锁的底层实现

谈到多线程就不得不谈到Synchronized&#xff0c;很多同学只会使用&#xff0c;缺不是很明白整个Synchronized的底层实现原理&#xff0c;这也是面试经常被问到的环节,比如&#xff1a; synchronized的底层实现原理 synchronized锁与JVM的实现 synchronized锁升级顺序 sync…

LeetCode 89. 格雷编码

文章目录1. 题目信息2. 解题1. 题目信息 格雷编码是一个二进制数字系统&#xff0c;在该系统中&#xff0c;两个连续的数值仅有一个位数的差异。 给定一个代表编码总位数的非负整数 n&#xff0c;打印其格雷编码序列。格雷编码序列必须以 0 开头。 示例 1:输入: 2 输出: [0,…

分布式数据层中间件详解:如何实现分库分表+动态数据源+读写分离

分布式数据层中间件&#xff1a; 1.简介&#xff1a; 分布式数据访问层中间件&#xff0c;旨在为供一个通用数据访问层服务&#xff0c;支持MySQL动态数据源、读写分离、分布式唯一主键生成器、分库分表、动态化配置等功能&#xff0c;并且支持从客户端角度对数据源的各方面&a…

清华硕士眼中的2021届算法岗秋招

文 | 李金泽一晃接近三个月过去了&#xff0c;秋招也到了尾声&#xff0c;之前一直忙于写毕业论文&#xff0c;现在在这里想总结一些自己求职互联网大厂算法岗的面经和心得&#xff0c;希望帮助后来的学弟学妹们收获自己心仪的offer。今年的算法岗求职较往年竞争也更加激烈&…

LeetCode 124. 二叉树中的最大路径和(DFS)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个非空二叉树&#xff0c;返回其最大路径和。 本题中&#xff0c;路径被定义为一条从树中任意节点出发&#xff0c;达到任意节点的序列。该路径至少包含一个节点&#xff0c;且不一定经过根节点。 示例 1:输入: [1,2,3]1/ \2 …