推荐系统顶会RecSys’20亮点赏析

文 | banana

源 | 知乎


RecSys 2020原计划是在南美洲巴西举办,因为疫情的原因不得不改到线上。虽说线上举办会议,参会效果会打折扣,但也为远在北京的我提供了参会便利。得益于各方的努力和软件的应用,整体来看此次参会的效果高于我对它的预期。这里分享一些从工程师角度发现的一些亮点,希望对大家有所帮助。

会议组织的一些亮点

先简单介绍一下此次会议的组织方式,不得不说组织方确实用心了,有人员有的可能24个小时都没休息。

  • 为了使全球各时区的参会人员都能方便地听到文章作者们的演讲,大多数演讲作者会在不同的时间段演讲两次

  • 为了线上会议的流程可以顺利进行,大会利用Whova软件帮助整个流程,Whova当中包括了会议时间表,直播平台,收集提问,论坛交友,活动组织等功能

  • 为了参会者可以方便集合自由讨论,大会用Gather.town 组织Poster Session等活动,大家可以自行在一个虚拟的空间进行交流,下图,我站在这个虚拟空间过道的RECSYS面板前,算是拍照留念了。

Gather.town虚拟空间

会议最新研究的一些亮点

这是我第三次参加RecSys。推荐系统的研究进展并不快,在会议上常常可以看到一些奇怪的研究方向,重复的研究结果,不过也能看到一些亮点。

工业方向亮点有:

  • PURS: Personalized Unexpected Recommender System for Improving User Satisfaction,

  • Behavior-based Popularity Ranking on Amazon Video

  • Query as Context for Item-to-Item Recommendation

这些方法要么经过工业界AB测试的验证,要么是工程实现简单,并能解决一些问题。

学术方向亮点有:

  • Counterfactual Learning for Recommender System

  • Debiasing Item-to-Item Recommendations with Small Annotated Datasets

  • A Large-scale Open Dataset for Bandit Algorithms

这些方法要么新奇,未来前景广泛,要么包含公开源代码或者数据。

下面我对这些亮点一一做简单的介绍

PURS: Personalized Unexpected Recommender System for Improving User Satisfaction

作者Pan Li是NYU Stern School of Business的一名博士生,这个工作是与阿里巴巴合作的成果,为了解决推荐系统当中的Filter Bubble的问题,他们提出了PURS,这个工作的优势包括

  • 在优酷App进行了AB测试,并在一些关键指标上面有很大的提升,其中人均观看时长提升了4.6%

  • 这个工作和Filter Bubble有关,这个话题大家讨论很多,但是这个方向的有效的研究并不多,这个工作少有奏效的方法

  • 这个工作考虑到了Exploration个性化的问题,有些人愿意探索不同类型的视频内容,有些人就不愿意,作者有考虑到这一点,实现了个性化的Exploration

PURS的推荐思路在Embedding上面的实现

Behavior-based Popularity Ranking on Amazon Video

作者Lakshmi Ramachandran是Amazon Video的Applied Scientists,介绍了他们的Popularity Ranking的一个工作。

之前我以为Popularty Ranking用当前统计的Populartity即可完成排序,没想到Popularity Ranking也可以利用机器学习解决Popularity Ranking当中的冷启动的问题:一些新的内容无法通过普通的Popularity Ranking排到一个好的位置,曝光给用户。

作者利用内容本身的一些文本信息、之前的流行度、和用户的交互信息等数据预测当前的Popularity,最终以预测的Popularity进行排序。一个有趣的现象是内容在平台上存在的时长这一特征,这个特征会给新内容高的分数。下面的截图提到了Age Feature(在平台上存在的时长)的影响

Age Feature(在平台上存在的时长)的影响,X轴为Age,Y轴为预测的Popularity

Query as Context for Item-to-Item Recommendation

作者Moumita Bhattacharya是 ESTY.COM 一家电商网站的Senior Applied Scientist,她介绍了ESTY打造相关商品推荐的技术选择。他们有6500万的商品这使得他们的技术选择和Amazon Video就会很不一样,Amazon Video的视频数量可能也就是几万的量级。

用户所看到的ESTY.COM的相关物品推荐

ESTY.COM 相关物品推荐的两个阶段

相关物品推荐分成两个阶段,在第一个阶段的Candidate Set Generation部分,他们利用Word2Vector的技术,把用户搜索点击的内容作为训练数据,给每个内容生成Embedding,之后用 Faiss: A library for efficient similarity search,返回与当前物品最相似物品列表作为Candidate Set。

第二阶段用lightGBM对Candidate Set进行排序。

他们提到的工作当中,有一个亮点是,他们利用了Context进行相关物品的个性化。下图是提到的可以将当前的节目作为Context,比如说在万圣节时期,对于一个给一个红色推荐相关的物品,是不是可以把一些适合万圣节的物品,同时相关的物品推荐出来,而不是只单单推荐红色的帽子。

在万圣节期间,可以利用当前的节日作为Context,推荐符合当前节日的物品

Counterfactual Learning for Recommender System

作者Zhenhua Dong是华为诺亚方舟实验室的Principal Researcher,这次演讲汇总了华为在Counterfactual方向上的一系列成果。为了解决Counterfactual的问题,作者提出Uniform Unbiased Data,通过在从1%流量当中,随机选择内容地向用户展现,使得每一个内容都有机会收集到用户的反馈。利用Uniform Unbiased Data,作者展开了一系统的研究和实验,取得了一系列的成果,其中之一是利用这1%的流量产生的Unbiased Data,创造了3%的指标提升。

作者在介绍Counterfactual machine learning

Debiasing Item-to-Item Recommendations with Small Annotated Datasets

作者Tobias Schnabel是来自微软研究院的研究员,提出利用小规模的标注数据来提升Item-to-Item的推荐(和之前提到的一个物品的相关推荐一样)。智能不够,人工来凑。实验表明这种方式的确有效,这说明我们的训练数据当中有很多干扰,并不能完全表示用户对所有物品的喜好。工业界或许可以利用之前提到的Unbiased Data达到Small Annotated Dataset的效果。

文章当中的方法比其它的方法都要好

Large-scale Open Dataset for Bandit Algorithms

From Workshop: REVEAL 2020: Bandit and Reinforcement Learning from User Interactions

Yann Lecun说RL是整个机器学习蛋糕上面的樱桃

作者Yuta Saito是一名本科生,在这次Workshop展示了他在RL&Bandits方向的工作。

强化学习的核心问题之一是如何在上线或者进行实验之前,评估训练好的强化学习的模型,也就是Offline Policy Evaluation。学术界提出了很多的方法,很多都是用模拟器产生的数据,但是少有一些实际数据的支持。

这个工作提供了两组通过Uniform Rank和 Bernoliour Rank产生的服饰购物行为数据,可以用来测评不同的Offline Policy Evaluation的效果,也可以用来开发新的Policy,用Offline Policy Evaluation来评测 。
https://github.com/st-tech/zr-obp Open Bandits Pipeline 开源代码代码质量高,有很多代码注释。

在3个展示位置收集的用户购物行为

作者提出的OPEN BANDIT PIPELINE

推荐系统不像图像识别,理论上推荐系统是典型的强化学习的应用场景,但限于各种工程约束,理论的不成熟,强化学习一直没有很好地应用于推荐系统,最近几年业界开始有成功的应用。这个领域值得继续关注。

总结

这次线上RecSys体验别具一格,并没有像我之前担心的那样,效果打很多折扣,很多参会者也是有很认真地了准备演讲。希望下次RecSys能看到更多的有亮点的工作。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术研讨会 | 2019 恒生技术开放日产业链知识图谱专场开始报名

知识图谱旨在采用图结构 (Graph Structure) 来建模和记录世界万物之间的关联关系和知识,是互联网时代的知识工程方法,能够对纷繁复杂、多源异构的金融资讯大数据进行加工整合,提升决策分析的效率,已经得到金融行业从业人士的普遍认…

01.神经网络和深度学习 W1.深度学习概论

文章目录1. 什么是神经网络2. 使用神经网络进行监督学习3. 神经网络的兴起4. 练习题1. 什么是神经网络 它是一个强大的学习算法,类似于人脑的工作方式。 例子1. 单个神经网络 给定房地产市场上房屋大小的数据,预测其价格。这是一个线性回归问题。 …

中文任务型对话系统中的领域分类

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ:项目地址:https://gitee.com/yh14232988/CrossWOZ?_fromgitee_search 具体介绍:https://cloud.tencent.com/developer/article/1617197 北邮张庆恒:如何基于 rasa 搭建一…

互联网热门职位薪酬报告

“ 很多同学毕业后想进入互联网领域,当前有什么热门的互联网工作机会,薪资结构怎么样?看图说话,我简短给 大家做一个回报。 互联网职位需求最热的TOP20 mikechen:我个人比较看好旅游、金融板块、医疗健康板块&#x…

算法岗面试前怎样高效刷题?

如果不是为了面试AI工程师刷题有用吗?把时间都放在项目上不香嘛?作为一个战五渣,我特地去观察和询问了身边很多精通此道的大神,他们对于“刷题”还是保持着认可的态度:很清晰地理解问题的本质,并进行合理的…

征稿 | JIST 2019 Regular Technical Papers

JIST 2019: The 9th Joint International Semantic Technology ConferenceNov. 25-27, 2019, Hangzhou, China.http://jist2019.openkg.cn/第 9 届国际语义技术联合会议 JIST 2019 将于今年 11 月在美丽的杭州召开,投稿截止日期临近 (Abstract submission: 23:59 (H…

DGL_子图

用途一:数据集太大,无法画图,取子图看看是有向图/无向图 import dgl import matplotlib.pyplot as plt import networkx as nx G dgl.DGLGraph() G.add_nodes(5) # G.add_edges([0, 1, 2, 3, 4], [1, 2, 3, 4, 0]) # 有向图 G.add_edges(…

史上最全互联网八大技术岗位详解

“互联网技术岗位详解,涉及到前段开发、后端开发、移动端开发、大数据、项目管理、测试、运维、技术管理等八大领域。 架构师 每个产品线都有架构师,在技术平台部门也需要技术平台的架构师。 架构师负责设计系统整体架构,从需求到设计的每个…

什么?!“路由器”也会做信息抽取了?

文 | 雨城编 | QvQ前几周,一个“撞脸”路由器的联合抽取模型TPLinker横空出世,将NYT数据集的分数直接刷上了90,提高了2个百分点。卖萌屋邀请到作者雨城,来聊一聊他们在关系抽取上的工作。目前,该工作已经被COLING 2020…

征稿 | ​第 9 届国际语义技术联合会议征稿(截稿日 9 月 8 号)

第 9 届国际语义技术联合会议 JIST2019 将于今年 11 月在美丽的杭州召开,投稿截止日期延迟至 9 月 8 日。现在征集优秀的研究论文,本届会议还专门设置了 special session track,优秀论文将被推荐到 SCI 期刊发表,目前已申请到 Sem…

LeetCode 142. 环形链表 II(链表环的检测)

文章目录1. 题目链接2. 解题1. 题目链接 给定一个链表,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始)。 如…

一篇文章详解BAT薪资构成、晋升体系、绩效考核

“ BAT薪资、级别与晋升这一块,全国采取的都是一套体系,下面就为大家详细介绍腾讯、阿里巴巴、百度内部的薪资等级情况。 一:腾讯 薪资、级别与晋升这一块,BAT一般全国采取的都是一套体系,下面就为大家详细介绍。 1…

文末送书 | Facebook:易于解释的神经元可能会阻碍神经网络的学习

文 | Matthew Leavitt、Ari Morcos编 | 张倩、杜伟源 | 机器之心易于解释的神经元对于提升神经网络的性能来说是必要的吗?Facebook 的研究者给出了出人意料的答案。AI 模型能「理解」什么?为什么能理解这些东西?回答这些问题对于复现和改进 A…

技术动态 | ACL 2019 知识图谱的全方位总结

本文转载自公众号:AI科技评论。 ACL 2019 已经结束,但其空前的规模仍然震撼人心:2900多篇提交论文,660篇被接收,3000多名会议注册人员,以及4个超过400人的研讨会(比一些国际CS会议都大&#xff…

LeetCode 287. 寻找重复数(BitMap)

文章目录1. 题目信息2. 解题2.1 BitMap2.2 set去重2.3 官方解题,快慢指针1. 题目信息 给定一个包含 n 1 个整数的数组 nums,其数字都在 1 到 n 之间(包括 1 和 n),可知至少存在一个重复的整数。假设只有一个重复的整…

参加完阿里Java面试:一面+二面+三面+HR四面,后的复盘经验总结!

阿里中间件团队一面: 第一步先自我介绍? 介绍自己的项目经验和个人的擅长点,面试官主要考察你的表达能力和语言精简能力。 第二步:项目中做了什么,难点在哪里? 主要是想了解参与过技术难度最大的项目难点,技术难点…

IDEA解决Maven项目编译后classes文件中没有.xml或.properties问题

IDEA解决Maven项目编译后classes文件中没有.xml或.properties问题 方式一、在 pom.xml 中添加下面的代码 <build><!--解决Maven项目编译后classes文件中没有.xml问题--><resources><resource><directory>src/main/java</directory><in…

NLP太卷,我去研究蛋白质了~

为什么“单词”被省略了&#xff1a;单词的本质是含义简单且可以高频重复的信息&#xff0c;句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看&#xff0c;大的片段相当于句子&#xff0c;对这些片段再分段起单词作用&#xff0c;密码子&#xff08;…

论文浅尝 | 利用关系标签的主题语义知识为关系抽取提供监督 (IJCAI 2019)

本文转载自公众号&#xff1a;知识工场。作者&#xff1a;蒋海云&#xff0c;复旦大学2016级计算机博士生&#xff0c;研究方向为知识图谱与自然语言处理。目前已在 IJCAI&#xff0c;AAAI&#xff0c;ACL&#xff0c;DASFAA等会议上发表文章。IJCAI 2019&#xff08;The 28th …

LeetCode 268. 缺失数字

文章目录1. 题目信息2. 解题1. 题目信息 给定一个包含 0, 1, 2, …, n 中 n 个数的序列&#xff0c;找出 0 … n 中没有出现在序列中的那个数。 示例 1:输入: [3,0,1] 输出: 2 示例 2:输入: [9,6,4,2,3,5,7,0,1] 输出: 8 说明: 你的算法应具有线性时间复杂度。你能否仅使用额…