论文笔记:推荐系统去偏(Debiased Recommendation)研究综述

1 推荐系统的偏差

  • 出现偏差的原因:用户行为数据是观察所得(Observational)而不是实验所得(Experimental),因此会存在各种偏差,如用户对物品的选择偏差、系统对物品的曝光偏差等;
  • 偏差带来的问题:不考虑偏差,直接利用数据来构建模型会导致性能欠佳,在一定程度上也损害了用户对推荐系统的体验和信任,如何去除推荐系统偏差已经成为推荐系统研究领域的一个新方向
  • 解决方案:随着因果推断(Causal Inference)的兴起,倾向分数(Propensity Score)、反事实(Counterfactual)思想以及去除混淆因子(Confounder)等手段在此领域也得到广泛应用,为推荐系统去偏提供了一些思路。

本文主要介绍推荐系统去偏的研究进展情况,包括各种偏差及解决思路概括和对近几年各大会议录用的部分该领域文章的解读。

2 偏差分类

2.1 选择偏差(Selection Bias)

  • 定义: 主要来自用户的显式反馈,如对物品的评分。由于用户倾向于对自己感兴趣的物品打分,很少对自己很少对自己不感兴趣的物品打分,造成了数据非随机缺失(Missing Not At Random, MNAR)问题,观察到的评分并不是所有评分的代表性样本,于是产生了选择偏差。
  • 解决方法: 数据填充(Data Imputation);倾向分数等。

2.2 一致性偏差(Conformity Bias)

  • 定义:用户对物品的评分受用户所在的群体影响,与群体里的其他用户的评分趋于一致,即使这个评分与自己的感受不相符。这导致用户的评分并不总是能反应该用户的真实偏好。
  • 解决方法:对社会群体或流行度效应进行建模等。

2.3 曝光偏差(Exposure Bias)

  • 定义:主要来自用户的隐式反馈,如点击。用户只能看到一部分系统曝光的物品,并作出点击等反应。但是数据中不包含的交互并不一定代表用户不喜欢,还有可能是用户不知道该物品。
  • 解决方法:启发性置信权重;采样(Sampling)等。

2.4 位置偏差(Position Bias)

  • 定义:用户倾向于与推荐列表顶部的物品产生交互(点击、购买等),尽管这些物品可能是不相关的或不是最符合偏好的。这导致交互的物品可能并没有很高的相关性。
  • 解决方法:点击模型(Click models);倾向分数等。

2.5 流行度偏差(Popularity Bias)

  • 定义: 推荐系统数据存在长尾现象,少部分流行度高的物品占据了大多数的交互。推荐模型基于这些数据训练时,通常给流行度高的物品高分,给流行度低的物品低分,这就导致流行度高的物品更频繁地出现在数据中。流行度偏差会降低推荐系统的个性化水平,并导致推荐结果的不公平。
  • 解决方法:正则化(Regularization);对抗学习(Adversarial learning);因果图(Causal graph)等。

2.6 不公平带来的偏差(Unfairness)

  • 定义:不公平是指系统不公平地对待某些个人或群体,而偏袒其他用户。如在有些岗位推荐系统中,相比于男性而言,女性可能会更少地被推荐高薪或职业指导服务等广告,造成了性别不公平。
  • 解决方法:再平衡(Rebalancing);正则化;对抗学习;因果建模(Causal modeling)等。

2.7 反馈回路放大偏差(Feedback Loop Amplifies Biases)

  • 定义:真实的推荐系统通常会形成一个恶性循环,从而扩大各种偏差。以流行度偏差为例,推荐系统的反馈回路会导致流行度高的物品更加流行,而流行度低的物品变得更不受欢迎,这种效应会降低推荐结果的多样性,导致用户的同质化。
  • 解决方法:通过收集随机数据或强化学习等方式打破循环。

2.8 归纳偏差(Inductive Bias)

  • 定义:通过作出一系列假设,使得模型能更好地学习目标函数进而完成推荐任务。很多假设对推荐模型效果提升都是有帮助的,如MF算法将用户和物品的交互估算成二者向量的内积。
  • 这个偏差对模型的训练不但无害还有利。

3 主要论文

3.1 Recommendations as Treatments: Debiasing Learning and Evaluation (ICML2016)

在这里插入图片描述

  • 问题:选择性偏差selection biases;
  • 方法:本文提出利用逆倾向分数(Inverse Propensity Score, IPS) 处理选择偏差。倾向分数可以看作是每个数据被观察到的概率。从因果推断的角度看待推荐问题,认为在推荐系统中给用户曝光某个商品类似于在医学中给病人施加某种治疗方式。这两个任务的共同点是,只知道少数病人(用户)对少数治疗方式(物品)的反应,而大多数的病人-治疗(用户-物品)对的结果是观察不到的。本文提出的方法可以在数据有偏的情况下实现无偏的性能估计,并提供了一个矩阵分解方法。

3.2 Doubly robust joint learning for recommendation on data missing not at random (ICML2019)

参考文献

1 Bias and Debias in Recommender System: A Survey and Future Directions
2 推荐系统去偏(Debiased Recommendation)研究进展概述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ 内存管理_Python Bindings - 从 Python 调用 C/C++

python 最被人诟病的问题是什么? 慢,这是被人诟病最多的问题,很少人知道具体原因,极少人愿意去深入了解并找到原因,更极少的人愿意付出时间去解决这个问题,很多人都是停留在抱怨吐槽阶段,知乎上…

python安装idle_(1)Python 安装使用IDLE

安装Windows x86 web-based installer 在线安装 Windows x86 executable installer 离线安装 x86-64 64位软件 配置环境变量path下添加 python安装路径 查看版本号:运行Python 输入 help()一、IDLE介绍 IDLE是Python自带简单的集成开发环境,安装python的…

S-MBRec学习笔记

1 动机 传统推荐系统一般只考虑购买行为,忽略了放入购物车、浏览行为;本文将购买、放入购物车、浏览三个行为一起考虑;考虑购买和放入购物车行为的差异,进行对比学习;考虑购买和浏览行为的差异,进行对比学…

小米5点位图_最新!地铁5号线、6号线部分车站文化墙设计出炉!你选哪个?

情忆汉长安、惊鸿游龙、星辰大海……这些绝美的名字属于地铁文化墙近日西安地铁5号线和6号线一期工程的6座车站文化墙设计方案新鲜出炉邀请广大市民乘客对文化墙设计进行投票并提出宝贵建议西安地铁“一站一景”一直以来,西安地铁因其“一站一景”的独立logo设计、精…

python 编辑距离_最小编辑距离python

1 什么是编辑距离 在计算文本的相似性时,经常会用到编辑距离(Levenshtein距离),其指两个字符串之间,由一个字符串转成另一个所需的最少编辑操作次数。在字符串形式上来说,编辑距离越小,那么两个…

asp多表查询并显示_MySQL多表查询与事务

回顾1. DQL单表高级查询条件 where比较运算逻辑运算符in关键字between关键字if null关键字like关键字% 多个任意字符_ 单个任意字符排序 order byascdesc聚合函数count(*) 统计行,包括null值maxminavgsum分组 group by 分组字段 having 分组后条件过滤分页 limit 开…

Bias and Debias in Recommender System: A Survey and Future Directions学习笔记

1 引言 2006-2020发表的有关推荐系统去偏的论文统计: 2 推荐系统的偏差 偏差发生在推荐系统的不同阶段: 用户交互到生成数据的阶段: – 选择偏差: – 一致性偏差(从众偏差): – 曝光偏差&a…

卡扇区数据教程_分享一款硬盘分区和数据恢复软件

最近有朋友留言,自己的硬盘被格式化了,没法恢复。今天给大家介绍一款解决硬盘恢复软件--DiskGenius,文末附下载地址,觉得有用点个在看吧。DiskGenius是一款功能非常强大的硬盘分区及数据恢复软件,算法精湛、功能强大&a…

名图1.8智能隐藏功能_7年后再度回归 全新一代名图“大”不同_搜狐汽车

本文车型速览除了文章作者的主观观点外,我们正尝试基于全网可查的客观数据,为您提供中立、客观的参考依据:本文部分车型速览:畅销车型质量排行top10展开微信扫码,直接一次看完附近所有城市低价(附近城市均有经销商可售…

3 vue 线条箭头_线条眉要如何处理才能更自然?

更多纹绣内容关注公众号:法米索半永久学堂。眉头的操作确实不是一件容易的事,都说万事开头难,很多纹绣师把握不好眉头的操作技巧,一不小心就会把眉头做的方了、圆了,总之就是非常不自然。但只要我们把眉头做好了&#…

git rebase用法_Git:Clone别人的代码之后push到自己码云上失败的解决办法

最近也是刚开始使用gitee,比较生疏。场景是这样的:clone了朋友的一份代码到自己的本地,然后自己想把它保存到自己的gitee 私有仓库上,就在gitee上面创建了一个私有的仓库,然后多次push都失败了,实践了网上提…

fpga板子怎么和电脑连_windows7台式电脑怎么连接路由器?台式win7电脑连路由器步骤...

相信还有许多在使用windows7系统,尽管使用很长一段时间了,不过对win7系统的一些功能还是不太了解。大家家里应该都有路由器,那么windows7台式电脑怎么连接路由器,下面我们就一起来看看台式win7电脑连接路由器步骤。win7台式电脑连…

英特尔核显自定义分辨率_让免费的核显更好用!英特尔酷睿集成的GPU如何优化?...

点击上方电脑爱好者关注我们在笔记本领域,无论是英特尔酷睿还是AMD锐龙,都采取了“买一赠一”的策略,即都在处理器内集成了性能还不赖的核显,虽然它们无法驾驭3A游戏大作,但应对《英雄联盟》级别的游戏还是不成问题的。…

python脚本式编程_Python编程入门(一)

Python编程入门(一)概述:编程语言 1.脚本编程语言★脚本编程语言如php,perl,python,java等为脚本编程语言,通常需要通过解释器解释运行。 ★python(java)程序的执行过程s…

for循环里面有异步操作_JS 线程与异步的那些事

已知,JavaScript 是单线程的,天生异步,适合 IO 密集型,不适合 CPU 密集型,但是,为什么是异步的喃,异步由何而来的喃,我们将在这里逐渐讨论实现。一、进程与线程1. 浏览器是多进程的它…

FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记

1 广告 这篇工作由字节跳动商业化技术团队与新加坡南洋理工大学合作完成。 话不都说,先看效果: FDRNet的效果看上去有点好,可惜没有源代码提供。 2 相关工作 2.1 几何形变恢复方法Geometric Document Restoration 由相机传感器捕获的文档…

通讯可以并联吗_工业控制知识:吃透RS485通讯的连接方式,接485总线就简单多了...

RS485被广泛使用,可以支持ModBus协议。由于其简单、价优、可靠和成熟,因此,被广泛应用于工业控制、智能仪器和电力通信。我们来看看RS485的一个典型组网结构:理论上,RS485总线的传输距离可以达到1200米。然而&#xff…

python编程a的x次方_「Python 面试」第四次更新

阅读本文大约需要 5 分钟。 15.说一说 GIL 前面有提到由于 Python 基于 C 语言编写的解释器中设置了一个 GIL 全局变量锁,该锁使得 Python 的多线程在处理 CPU 计算密集型任务时,同一时刻只能有一个线程在运行,这也是为什么说 Python 的多线程…

Exploiting Vector Fields for Geometric Rectification of Distorted Document Images学习笔记

1 广告 [1] Exploiting Vector Fields for Geometric Rectification of Distorted Document Images 利用矢量场对变形文档图像进行几何校正。 2018年发表在ECCV会议上的一篇非深度学习的文档去扭曲。 本文提出了一种对手持相机捕获的扭曲文档图像进行几何校正的无分段方法。…

java 单元测试_在springboot中写单元测试解决依赖注入和执行后事务回滚问题

往期文章「Java并发编程」谈谈Java中的内存模型JMM面试官:说说你知道多少种线程池拒绝策略为什么不要在MySQL中使用UTF-8编码方式前言很多公司都有写单元测试的硬性要求,在提交代码的时候,如果单测通不过或者说单元测试各种覆盖率不达标&…