推荐中的attention有什么作用?

c5336409d88c442b74e970a5a9878596.png

文 | 水哥
源 | 知乎

Saying

1. attention要解决两个问题:(1)attention怎么加,在哪个层面上做attention;(2)attention的系数怎么来,谁来得到attention
2. Attention常见的本质原因是求和的普遍存在,只要有求和的地方,加权和的DNA就动了。有人对这种做法就直接叫attention非常不以为然(但是趋势却不可阻挡)
3. attention的本质可能是,极其紧凑的二阶人海战术,或者极其高效的复杂度换涨点方法

这是【从零单排推荐系统】的第19讲。上一讲对于attention开了一个头,主要为了说明的是,为什么我们要做attention,它能起到什么样的作用。DIN/DIEN对attention的作用主要是用作用户行为序列建模,目的是为了得到更好地用户特征表示。实际上,attention可以出现在其他很多环节,也可以起到五花八门的作用。在这一讲,我们对此做一个详细的总结。

从做法上来讲,attention分为这么几种:

  • 加权和,最简单的,也是最常见的。原先的结构中存在一个求和,我们可以变为加权和

  • element/slot/module-wise乘,生成的attention分数虽然乘上了,但是不做求和,可以认为有体现重要性差异的作用

  • 以Q-K-V的形式做抽象,这种就是特指transformer里面那种了

从作用上讲就比较丰富多彩了,在本讲中总结了这么几种,但实际上可以有很多其他的:

  • 凸显用户的兴趣峰

  • 特征进一步的细化/抽象

  • 对模块进行分化

从输入上来讲,attention也可以分为self-attention和非self的attention,区别在于,产出attention和attention作用的对象,二者用的输入是不是一样的。

Attention的做法

加权和

如果要说最简单的attention方式,就是加权和了。在某环节我们可能需要对特征做sum pooling:

这个过程中每一个 地位是平等的。那么可以简单的给他们分配权重,变为:

此处的 就是attention系数。要注意的是, 可以是数量,向量,也可以是张量。

在推荐系统中使用这种方式的典型例子是这里的AFM(Attentional Factorization Machines,AFM[1])方法,求和的过程恰好是FM中各个embedding求和的操作。AFM的结构如下图:

c29d8d383b4b37da3ae3fea0a4e25d0e.png

从sparse input这里,挑出所有非0的特征,拿出对应的embedding,然后两两交叉得到若干个pair-wise的interaction。其中每一个都是一个等长的向量 ,中间的 表示element-wise乘法。假如没有attention这回事,后面的结果就是把上面所有的交互结果加起来。那么可以看出这里有一个加的过程,我们attention的DNA就可以动了:在加的过程中给每一个embedding分配一个attention系数,则后面的结果变为:

其中所有的attention系数已经由Softmax归一化。

接下来要阐述的是attention系数怎么来,本文的每个成员的attention系数由它自己输入,即前面的向量 经过一个共享的FC层得到系数。注意一个点是,attention生成的时候一定要纵观全局 , 就是一定要有一个环节能看的见所有成员,否则attention这件事就无从谈起。AFM把看到全局的这个任务交给了一个共享的FC层,这个做法可能是考虑到前面的交互embedding很多,如果都做输入会放不下。

在DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks[2]中也提到了一个非常相似的做法,区别只是后者的主体网络建模是基于RNN的。

element/slot/module-wise乘

element-wise的典型例子是LHUC[3],即生成一个和原来激活元等长的attention向量,然后以element-wise的形式乘上去,在LHUC的原始论文中该系数是一个自由的参数(所以他们可能也不想把这个工作归类在attention上),而在 【1.9万亿参数量,快手落地业界首个万亿参数推荐精排模型[4]】 中,这个mask则是由输入特征变换得来的。

有的工作是把CV中的SENet用在推荐[5]:我们对所有特征的embedding先求和,可以视为Squeeze操作,然后经过DNN输出attention分数,输出的结果和slot数量,即特征数量是相等的。之后每一个特征的embedding整体乘上对应的attention分数,即Excitation操作。这就是slot-wise的乘法的例子,相当于在整段特征之间做轻重的区别。

Q-K-V的形式

这里专指transformer的做法,具体的细节我们留到下一讲。

Attention的作用

上面介绍了attention常见的几种做法,归纳起来其实就是“加权”,求不求和倒无所谓的。attention应用很广泛的原因并不在于操作有多新颖或者多复杂,而是它可以起到的作用非常丰富。在每一个环节都可以考虑。

Attention凸显最相关的兴趣峰

用来凸显用户行为中的兴趣峰就是特指上一讲提到的DIN和DIEN,由于已经详细介绍过这两个工作,这里就不展开了。我们放在一个attention的历史行程下来考虑,这类工作把attention应用到用户行为序列建模的动机还是在于凸显和当前item最相关的兴趣峰。这种用法在下一讲可以由transformer发扬光大。

Attention作为特征进一步细化/抽象工具

上面讲的SENet的操作体现在slot层面即特征层面上,那么对于下一层来说,输入特征的重要性相当于已经最了细化。

在AutoInt[6]中,attention没有作为结果融合或者接近结果处融合的工具,而是作为一个非线性环节出现。一开始把所有的embedding拼接起来,然后用Multi-Head Attention做一步抽象。这个过程会在下一讲详细描述,我们可以先粗略的知道对于Query(Q),Key(K)和Value(V)都是同样的输入,经过抽象后可以得到一个更进一步非线性的表示。那么把这个过程层层堆叠起来,实际上就用Multi-Head Attention替代了DNN在特征抽象上的作用,如下图:

49fc1e1869e024829125ceafef70e96f.png

若干层Multi-Head Attention的输出结果直接经过激活函数就是输出了,相当于在这里,Attention替代了DNN原先在非线性映射方面的作用

Attention用作分化模块的工具

Attention的操作是根据输入的不同,生成不同的权重,来决定后面模块中突出的是谁,抑制的是谁。那么反过来说,只要attention分数分布不是一成不变的情况下,后续的模块也会对输入产生特殊的倾向。某种输入产生了大的attention分数,那么对应位置的模块相当于更多承担这种输入的预测。久而久之,不同的模块会对不同的用户/任务有所专注,这就是标题所说的“分化”。

一个典型的例子就是MMoE[7],MMoE中根据任务的不同会生成不同的gate(attention),然后作用在module(expert)上。对于CTR任务,总有的gate输出会偏大,那么对应位置的expert在CTR任务中就要扛起责任,同理,有的expert就是专注在CVR任务上。

还有我们提出的POSO[8],POSO本身是我本年度最自豪的工作之一,其中的细节我们会留到难点篇,在用户冷启动问题上大讲(吹)特讲(吹),在这里只是先提一下,POSO的主要环节是模块的输出的加权和:

其中 是若干个形式一致的模块,而 是gating network的输出,也可以看做是attention的一种。其中控制attention的输入( 是新老用户,比如新用户attention分数中第1-2个数字比较大,而对于老用户则是3-4的分数较大,那么模块中1-2就会变的专注于新用户,而其他的专注于老用户。

为什么attention如此有用?

迄今为止,我们说attention非常有用,但没有讨论过它为什么这么有用。有读者可能会说,因为attention做了更高程度的个性化/因为attention非常符合人的认知呀!这样的大道理当然没错,但是要注意,这些说法只能说明attention可能有用,或者大概率有用,不能推出attention如此有用。现在的现状是什么呢?几乎只要是个地方放个attention就能涨点,有点太work了,这不是大道理能cover的。从CV领域的SENet,到NLP的Multi-head attention,似乎attention是哪里都能用的。而且最奇怪的点是,self-attention(即attention作用的对象和生成attention的特征都由相同的输入决定)也是很work的,比如SENet这样的做法。这不是很奇怪吗,没有添加额外的信息就涨点了,天上真的掉馅饼了?

我自己想了两点假说(没有搜到相关资料,如果有好的资料欢迎指出),供大家讨论:

  1. attention的本质可能是,极其紧凑的二阶人海战术

即attention十分work的本质是因为人海战术十分work。当只有两个成员的时候,一个成员组成feature map,一个成员组成attention score,并且相互交叉乘起来的形式是只有两个成员情况下的最优(或者极优)形式。如果顺着这个思路的话,实验验证应该是两个模型分别训练,然后结果求和,和feature map x attention map这种形式做对比,如果后者比前者有效,是不是就能证明这一点?(ICML等等我)

2. attention是一种效率极高的复杂度换涨点方法

虽然attention轻,但它终究还是加了东西的。这些东西加在特征维度上,加在通道上,都不如加在mask上效率高。这个假说和上面那个不是完全互斥的,存在overlap。

下期预告

推荐系统精排之锋(14):Transformer的升维打击

往期回顾

1.召回 粗排 精排,如何各司其职?

2.拍不完的脑袋:推荐系统打压保送重排策略

3.简单复读机LR如何成为推荐系统精排之锋?

4.召回粗排精排-级联漏斗(上)

5.召回粗排精排-级联漏斗(下)

6.推荐系统精排:看阿里妈妈再试线性模型

7.推荐精排之锋:FM的一小步,泛化的一大步

8.推荐中使用FNN/PNN/ONN/NFM优化特征交叉

9.聊聊推荐系统的高阶特征交叉问题

10.真正的高阶特征交叉:xDeepFM与DCN-V2

11.GBDT是如何成为推荐系统顶级工具人的?

12.DNN与推荐两大门派,一念神魔,功不唐捐

13.再论推荐特征与embedding生成

14.DIN+DIEN,机器学习唯一指定涨点技Attention

fa693486a2204b2400ceb291d2562bc2.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

e1f8e26bcfc5eb7824aeacb9dd00d987.gif d0448a6956a940261103fb6cba34d7ba.png

[1] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks,IJCAI,2017 https://www.ijcai.org/proceedings/2017/0435.pdf

[2] DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks https://www.kdd.org/kdd2016/papers/files/rfp0289-zhaiA.pdf

[3] Learning Hidden Unit Contributions for Unsupervised Acoustic Model Adaptation,2016 https://arxiv.org/pdf/1601.02828.pdf

[4] https://zhuanlan.zhihu.com/p/358779957

[5] 1.9万亿参数量,快手落地业界首个万亿参数推荐精排模型 https://finance.sina.com.cn/tech/2021-02-03/doc-ikftpnny3601504.shtml

[6] AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks,CIKM,2019 https://arxiv.org/pdf/1810.11921.pdf

[7] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts,KDD,2018 https://www.kdd.org/kdd2018/accepted-papers/view/modeling-task-relationships-in-multi-task-learning-with-multi-gate-mixture-

[8] POSO: Personalized Cold Start Modules for Large-scale Recommender Systems,2021 https://arxiv.org/pdf/2108.04690.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 667. 优美的排列 II(找规律)

1. 题目 给定两个整数 n 和 k,你需要实现一个数组,这个数组包含从 1 到 n 的 n 个不同整数,同时满足以下条件: ① 如果这个数组是 [a1, a2, a3, ... , an] ,那么数组 [|a1 - a2|, |a2 - a3|, |a3 - a4|, ... , |an-1…

图谱实战 | 医学知识图谱的价值与应用场景

转载公众号 | OMAHA联盟随着技术的进步和市场的逐渐成熟,人工智能在医疗等领域的应用日益广泛和深入。而知识图谱技术作为一种从海量文本和图像中抽取结构化知识的手段,正在成为推动人工智能发展的核心驱动力之一。◆ ◆ ◆知识图谱概述知识图谱是一种…

Spring Cloud Alibaba基础教程:Sentinel Dashboard中修改规则同步到Nacos

上一篇我们介绍了如何通过改造Sentinel Dashboard来实现修改规则之后自动同步到Apollo。下面通过这篇,详细介绍当使用Nacos作为配置中心之后,如何实现Sentinel Dashboard中修改规则同步到Nacos。关于下面改造的原理和分析可以见上一篇《Sentinel Dashboa…

OCR完整技术栈10天掌握!教程完全开源,更有产学研大佬们联合授课!

你日常会用到OCR(光学字符识别)技术吗?“妈妈再也不用担心我的学习了”、“老板来问进度了,文献还没整”... ...除了点读机广告,很多人对OCR的印象主要是肝文章的时候被OCR“救过命”,这项技术最早也是被用…

论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...

论文作者:吴林娟,天津大学,研究方向为自然语言理解论文链接:http://arxiv.org/abs/2204.00996代码地址:https://github.com/wulinjuan/SSDM_MRC摘要多语言预训练模型在机器阅读理解(Machine Reading Comprehension, MR…

LeetCode 1017. 负二进制转换(负数进制转换)

1. 题目 给出数字 N,返回由若干 “0” 和 "1"组成的字符串,该字符串为 N 的负二进制(base -2)表示。 除非字符串就是 “0”,否则返回的字符串中不能含有前导零。 示例 1: 输入:2 输…

公益:开放一台Nacos服务端给各位Spring Cloud爱好者

之前开放过一台公益Eureka Server给大家,以方便大家在阅读我博客中教程时候做实验。由于目前在连载Spring Cloud Alibaba,所以对应的也部署了一台Nacos,并且也开放出来,给大家学习测试之用。 Nacos控制台 地址:http:/…

一份北大信科内部流传的 “CS 自救指南”(无广推荐)

文 | PKUFlyingPig,智商掉了一地编 | 小轶小编记:从上周开始,一篇 github 博客就在北大同学的朋友圈之间刷屏。不到一周时间,已收获了 1.8 k stars。这是一篇来自一位北大学弟的博客——“CS自学指南”,一份自学式 cs …

论文浅尝 | Rot-Pro:通过知识图谱嵌入中的投影建模关系的传递性

笔记整理:陈湘楠,浙江大学硕士在读。研究背景知识图嵌入模型学习知识图谱中实体和关系的表示,以预测实体之间的缺失链接(关系)。它们的有效性深受建模和推断不同关系模式(如对称、不对称、逆向、组合和传递…

隐马尔科夫模型(HMM)笔记(公式+代码)

文章目录1. 基本概念1.1 HMM模型定义1.2 盒子和球模型1.3 观测序列生成过程1.4 HMM模型3个基本问题2. 概率计算问题2.1 直接计算法2.2 前向算法2.2.1 前向公式证明2.2.2 盒子和球例子2.2.3 前向算法Python代码2.3 后向算法2.3.1 后向公式证明2.3.2 后向算法Python代码2.4 一些概…

Spring Cloud Alibaba基础教程:Sentinel Dashboard中修改规则同步到Apollo

在之前的两篇教程中我们分别介绍了如何将Sentinel的限流规则存储到Nacos和Apollo中。同时,在文末的思考中,我都指出了这两套整合方案都存在一个不足之处:不论采用什么配置中心,限流规则都只能通过Nacos界面或Apollo界面来完成修改…

中科院科研人员自白:我为什么离开北京

文 | 榴莲EDU源 | 知乎北大本硕博毕业,毕业到中科院北京某所。今年是我工作第三年,年前刚刚调动了工作,转战南京某高校。为什么?细说起来一大堆,总结起来就两个字:房子。上学的时候不了解墙外的世界&#x…

评测通知 | 2022年全国知识图谱与语义计算大会评测任务发布

一、任务简介CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS 2021评测竞赛环节共设立了5个主题共计14个任务&#xf…

Spring Cloud Alibaba基础教程版本升级:0.2.1-gt;0.2.2

最近Spring Cloud Alibaba发布了最新版本,其中包含了一些比较重要的内容,比如:Nacos 1.0.0支持,Dubbo的支持等。所以把之前的系列文章中内容以及代码案例都做了升级,其中包括: Spring Cloud Alibaba 从 0.…

Google掀桌了,GLUE基准的时代终于过去了?

文 | Severus大家好,我是Severus,一个在某厂做中文文本理解的老程序员。今年11月,Google 在 NeurIPS2021 投稿了一篇文章,名为 AI and the Everything in the Whole Wide World Benchmark,矛头直指评估AI模型“通用”能…

技术动态 | W3C计划成立RDF-star工作组

转载公众号 | W3C资讯W3C 计划成立 RDF-star 工作组,现开始筹备小组工作章程,界定标准化范畴及工作模式。详情参见以下章程草案:https://w3c.github.io/rdf-star-wg-charter/RDF-star(最初拼写为 RDF*)是 RDF 的一种扩…

LeetCode 1282. 用户分组(桶排序思想)

1. 题目 有 n 位用户参加活动,他们的 ID 从 0 到 n - 1,每位用户都 恰好 属于某一用户组。给你一个长度为 n 的数组 groupSizes,其中包含每位用户所处的用户组的大小,请你返回用户分组情况(存在的用户组以及每个组中用…

Spring Cloud Alibaba 新版本发布:众多期待内容整合打包加入!

在Nacos 1.0.0 Release之后,Spring Cloud Alibaba也终于发布了最新的版本。该版本距离上一次发布,过去了整整4个月!下面就随我一起看看,这个大家期待已久的版本都有哪些内容值得我们关注。 版本变化 之前在《Spring Cloud Aliba…

MSRA-万字综述 直击多模态文档理解

文 | 付奶茶随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction&…

LeetCode 991. 坏了的计算器(逆向思考)

1. 题目 在显示着数字的坏计算器上,我们可以执行以下两种操作: 双倍(Double):将显示屏上的数字乘 2;递减(Decrement):将显示屏上的数字减 1 。 最初,计算器…