深度学习在工业推荐如何work?Netflix这篇论文「深度学习推荐系统Netflix案例分析」阐述DL在RS的优劣与经验教训...

3e7c4e779bc1e5d8d454e0035a67f196.png

来源:专知

深度学习在推荐系统中如何发挥作用是一个重要的问题。最近来自Netflix的文章详细阐述了这一点指出:在建模用户物品交互方面,深度学习相比传统基线方法并无太大优势,而对于异质特征的表示融入深度学习则具有很好建模性能。具体深入阅读这篇论文

ceac74021ce328ad69025f02f087b852.png

深度学习深刻地影响了机器学习的许多领域。然而,在推荐系统领域,它的影响需要一段时间才能感受到。在本文中,我们概述了在Netflix的推荐系统中使用深度学习所遇到的一些挑战和经验教训。我们首先概述了Netflix服务上的各种推荐任务。我们发现不同的模型架构擅长于不同的任务。尽管许多深度学习模型可以被理解为现有(简单)推荐算法的扩展,但我们最初并没有发现在性能上有显著的改善。只有当我们在输入数据中添加了大量异构类型的特征时,深度学习模型才开始在我们的设置中崭露头角。我们还观察到,深度学习方法可能会加剧离线-在线度量(错误)对齐的问题。在解决了这些挑战之后,深度学习最终使我们的推荐在线下和线上都得到了很大的改进。在实践方面,将深度学习工具箱集成到我们的系统中,可以更快更容易地实现和试验各种推荐任务的深度学习和非深度学习方法。我们总结了一些可以推广到Netflix之外的其他应用的经验,以此来总结这篇文章。

https://ojs.aaai.org/index.php/aimagazine/article/view/18140

在2010年代初,深度学习在机器学习领域开始崭露头角,这得益于在计算机视觉、语音识别和自然语言处理(NLP)等不同领域的各种任务上取得的令人印象深刻的结果。当时,在推荐系统研究界有一种说法:深度学习的浪潮是否也会席卷推荐系统,从而带来巨大的改进?和其他许多人一样,我们netflix对这个问题以及深度学习改善推荐的潜力很感兴趣。虽然深度学习对于推荐系统的作用已经很明显了,但是要想了解深度学习在哪些方面比现有的推荐方法更有优势,却是一项艰巨的任务。这可以从这种方法在研究界获得关注花了多少年的时间得到证明。但这是一条有益的道路,随后有关这一主题的大量工作证明了这一点。我们自己对Netflix深度学习的研究也走了类似的道路: 最初的兴奋面对着需要精调方法的严酷现实。这使得我们对深度学习和其他推荐模型之间的关系有了更清晰的认识。当我们将这些方法的经验教训与不同深度学习方法所擅长的问题及其局限性相结合时,这些障碍就消失了。在此过程中,它还提供了如何让深度学习在现实世界的推荐设置中工作的实践经验。

在本文中,我们首先概述了Netflix服务上的各种个性化任务,并重点介绍了Netflix服务上的电影和电视节目的个性化排名这一关键任务。然后,我们将讨论在Netflix等推荐设置中可用的数据的几个特定属性,以及它们在创建推荐算法时带来的实际挑战。通过推荐的视角观察深度学习,我们可以研究Netflix不同推荐任务的各种模型。由此,我们将分享对几个重要类型的模型的见解。首先,我们讨论使用会员观看视频集的物品袋模型。虽然功能强大,但这些模型忽略了时间信息,因此我们随后将讨论解决这一缺陷的序列序模型。我们发现这两种方法对于不同的任务都很有价值。经过深度学习方法最初的挣扎,我们的实验表明,当我们为深度学习算法提供额外的异质特征和信息源时,它在推荐问题上开始特别有效。相比之下,其他模型在仅使用用户-项目交互数据的经典推荐设置中仍然具有竞争力(这是文献中经常出现的情况,参见Ferrari Dacrema、Cremonesi和Jannach(2019)),当这些方法被适当调整时。然而,这种深度学习模型的灵活性允许我们找到这样的场景:我们可以构建在历史数据上评估的离线指标中获得巨大改进的模型。

在发现离线指标的改进后,我们随后发现,这些收益(即使非常大)并不总是能够转化为与真实成员进行的A/B测试中的在线性能。为了解决这个问题,我们需要新的离线指标来更好地替代在线指标。除此之外,我们还将介绍在支持数亿用户的推荐系统中使用深度学习所需的其他实践方面。现有的深度学习工具箱提供了一个灵活的框架,使得在实践中开发和修改推荐系统的模型体系结构非常容易。

最后,在我们集中讨论在Netflix推荐系统中使用深度学习的关键经验的同时,我们也会概述一些可以推广到其他应用的经验。

NetFlix推荐系统

我们在Netflix的推荐系统的主要任务是帮助我们的会员发现他们会观看和享受的内容,以最大化他们的长期满意度。这是一个具有挑战性的问题,原因有很多,包括每个人都是独一无二的,在不同的环境下有不同的兴趣,当他们不确定他们想看什么时,最需要一个推荐系统。做好这一点意味着每个成员都能获得独特的体验,从而最大限度地利用Netflix。作为一个月订阅服务,会员的满意度与一个人保留我们服务的可能性紧密相连,这直接影响我们的收入。因此,一个推荐系统的价值可以通过会员留存率的增加来衡量。经过多年的个性化和推荐技术的发展,我们能够不断地在保留度上创造有意义的改进(Gomez-Uribe和Hunt 2015)。

建模方法

在本节中,我们将概述在试验各种深度学习模型以获得推荐时的学习情况,从简单的基线到更复杂的方法。我们将这些模型分为以下两组: 项目袋方法和序列序模型。还讨论了两种类型的模型所共有的属性。在此之后,我们描述了我们的关键见解,即深度学习推荐算法擅长于结合许多异质特征。相比之下,我们发现,当只使用用户-物品交互时,经过良好调整的简单模型具有很好的性能(正如文献中经常出现的情况,参见Ferrari Dacrema, Cremonesi和Jannach(2019))。

c34b6f44edb6930901b1301d85b3d016.png

结论

深度学习模型的成功并在Netflix推荐系统中被广泛采用,为机器学习研究和工程提供了宝贵的学习经验。特别是,用一种新的方法(深度学习)来解决现有的问题(例如,传统的推荐系统)有时只会带来有限的好处。事实上,当只使用用户项交互数据时,经过良好调优的传统方法是非常强的基线。深度学习可以有效地解决传统方法难以解决的新问题,比如为时域找到好的表示,或者扩展输入的范围和模态,比如图像、文本和视频。在推荐问题的传统框架之外应用这些技术,将会带来相当大的改进。

另一方面,强大的深度学习模型的使用也会放大推荐系统的弱点,例如,短期代理目标的过度拟合可能与长期目标(如用户满意度)不一致。找到更好地编码这些长期目标的方法,以及测量长期用户满意度的受控实验,是关键。

使用深度学习的另一个积极的副作用是其卓越的机器学习软件堆栈。它能够更快地进行模型训练、实现、部署和调试,并更好地支持现有的基础设施。许多最初在机器学习的其他领域开发的深度学习模型,如NLP,已经成功地适应于推荐系统领域。虽然这种交叉交流可能会继续下去,但我们也希望开发出新的方法,这些新方法甚至更具体地适用于可用数据的属性和各种推荐任务。

f877b68a2cd934ab2614d322fff4ed52.png

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f2f6832e9544d1e89320898b52e946ab.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482691.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5.3.4 TCP流量控制

5.3.4 TCP流量控制 文章目录tcp流量控制tcp流量控制

Nature封面,硅量子计算达到99%的准确率

来源:ScienceAI编辑:萝卜皮在 2022 年 1 月 20 日发布的《Nature》上,有三篇论文独立介绍了基于硅的量子计算平台,它们使用了多量子比特纠缠:一篇来自新南威尔士大学(UNSW) Andrea Morello 团队…

[poj3261]Milk Patterns

求出后缀数组和height数组&#xff0c;然后二分答案后分组查询&#xff0c;一个块内如果有超过k个那么这个答案就可以。 1 #include<bits/stdc.h>2 using namespace std;3 #define N 500054 int n,m,ans,a[N],b[N],h[N],sum[N],ra[N<<1],sa[N];5 char s[N],s1[N];6…

5.3.5 TCP拥塞控制

5.3.5 TCP拥塞控制 文章目录流量控制与拥塞控制区别

一文读懂2022年国家自然科学基金限项新旧政策对比

来源&#xff1a;国家自然科学基金委员会、微信公众号“锐动源”近日&#xff0c;《2022年度国家自然科学基金项目指南》正式发布&#xff0c;相较于2021年的项目指南&#xff0c;从对比来看&#xff0c;2022年度项目指南变动不大&#xff0c;最重要的几项改革在指南发布前均已…

神经网络通过研究任意单个星系,揭示整个宇宙的组成

来源&#xff1a;ScienceAI编译&#xff1a;绿萝科学家可能偶然发现了一种全新的宇宙学研究方法。宇宙学家通常通过尽可能多地观察宇宙来确定宇宙的组成。但这些研究人员发现&#xff0c;机器学习算法可以检查单个模拟星系&#xff0c;并预测其存在的数字宇宙的整体构成——这一…

手把手教你实现Java发送邮件(1)-发送简单的文本

说明&#xff1a;本博客已经收藏至我的gitee中的code_demo仓库&#xff08;点击此链接跳转&#xff09;中&#xff0c;且gitee中有相应的代码~ 欢迎访问~~ 不仅仅是code&#xff0c;还有一些通俗的讲解哦~ 文章目录一、Java实现邮件发送二、Java发送邮件Java实现纯文本邮件发送…

量化涌现:信息论方法识别多变量数据中的因果涌现

来源&#xff1a;集智俱乐部作者:Fernando E. Rosas, Pedro A. M. Mediano, Henrik J. Jensen等译者:潘佳栋审校:梁金编辑&#xff1a;邓一雪导语大量个体聚集起来&#xff0c;常常涌现出新的复杂结构。鸟儿聚集起来形成兼具灵活性与秩序的鸟群&#xff0c;大量神经元聚集产生强…

4.1_ 1_ 初识文件管理

4.1_ 1_ 初识文件管理

case函数,replace函数

&#xff08;case 字段 when 数据1 then 输出1 when 数据2 then 输出2 when 数据3 then 输出3 else 其他数据输出一致 end&#xff09; as 字段 replace(字段,原子字符串,新子字符串) as 字段 select username,(case rolewhen 0 then 班长when 1 then 课代表when 2 then 组长wh…

阿斯麦CEO:中国不太可能独立造出顶尖光刻机 但也别那么绝对

来源&#xff1a;世界先进制造技术论坛“中国不太可能独立复制&#xff08;replicate&#xff09;出顶尖的光刻技术&#xff0c;因为阿斯麦依赖于不懈的创新&#xff0c;以及整合只有从非中国供应商处才能获得的零部件。但我的意思并不是绝对不可能&#xff0c;因为中国的物理定…

2.42死锁的处理策略一预防死锁

2.42死锁的处理策略一预防死锁

《科学》:中国科学家揭示,人脑中间神经元多样性从何而来?

来源&#xff1a;学术经纬编辑&#xff1a;药明康德内容团队编辑 在我们的大脑皮层中&#xff0c;有两类神经元源自发育的端脑结构。除了兴奋性神经元&#xff0c;中间神经元是另一类重要的神经元&#xff0c;它们可以通过释放γ&#xff0d;氨基丁酸&#xff08;GABA&#xf…

快速入门虚拟机+linux安装(附带视频)

配合视频食用更佳哦~ 01_虚拟机Linux 快速入门 02_手把手教你安装centos7&#xff08;不会你来打我&#xff09; 这是bai du yun 群链接&#xff0c;存放UP主视频中的那个“开箱即用”虚拟机文件压缩包 https://pan.baidu.com/s/4hwvNmIS 文章目录下载地址概念介绍关于虚拟机&a…

03_linux 常用命令(上)

声明&#xff1a;此文档中的部分内容来自于培训班笔记&#xff0c;如有侵权&#xff0c;请联系UP主&#xff0c;即刻删除视频。03_linux 常用命令&#xff08;上&#xff09; 配合视频食用更佳哦~&#xff08;点击蓝色字样&#xff0c;查看up主录制的视频&#xff09; 内容要…

多模态AI崛起,2022年人工智能5大发展趋势

来源&#xff1a;CSDNnews转自&#xff1a;中国机器人网前言国外一家专注于开源和堆栈技术新闻网站 TheNewStark 盘点出 2022 年值得人们期待的五个人工智能发展趋势。随着深度学习的开放&#xff0c;人工智能在几年中快速发展&#xff0c;尖端技术慢慢向普及应用到各行各业。以…

OpenStack组件——Keystone身份认证

1.keystone介绍 keystone 是OpenStack的组件之一&#xff0c;用于为OpenStack家族中的其它组件成员提供统一的认证服务&#xff0c;包括身份验证、令牌的发放和校验、服务列表、用户权限的定义等等。云环境中所有的服务之间的授权和认证都需要经过 keystone. 因此 keystone 是云…

1_RabbitMQ初入门入门Hello消费者+生产者

文章目录1_RabbitMQ初入门1.RabbitMQ的介绍1.工作原理&发送/接收消息的流程2. 为什么要使用消息队列&#xff1f;3.使用了消息队列有什么缺点&#xff1f;2.安装RabbitMQ3.入门程序Hello_消费者&生产者_1.导入依赖2.生产者1.设置连接信息2.获取connection&#xff08;连…