Bias and Debias in Recommender System: A Survey and Future Directions学习笔记

1 引言

2006-2020发表的有关推荐系统去偏的论文统计:
在这里插入图片描述

2 推荐系统的偏差

偏差发生在推荐系统的不同阶段:

  • 用户交互到生成数据的阶段:
    – 选择偏差:
    – 一致性偏差(从众偏差):
    – 曝光偏差:
    – 位置偏差:
  • 数据到模型的阶段:
    – 归纳偏差:
  • 模型到用户交互阶段:
    – 流行度偏差:
    – 不公平带来的偏差:
    在这里插入图片描述
    在这里插入图片描述

2.1 在数据上的偏差

2.1.1 在显式反馈上的偏差

(1)选择偏差

根据下图有两个发现:

  • 用户倾向于选择他喜欢的商品进行评分;
  • 用户尤其喜欢对他认为好的或者差的商品进行评分。
    在这里插入图片描述

(2)一致性偏差

用户倾向于和组内的其他人评分保持一致。
在这里插入图片描述

2.1.2 在隐式反馈上的偏差

(1)曝光偏差

当用户只接触特定项目的一部分时,会出现暴露偏差,因此未观察到的交互并不总是代表负面偏好。
在这里插入图片描述
在这里插入图片描述

(2)位置偏差

位置偏差发生在用户倾向于与推荐列表中较高位置的项目交互时,而不管项目的实际相关性如何,因此交互的项目可能不是高度相关的。
在这里插入图片描述

2.2 在模型上的偏差

归纳偏差是指模型为更好地学习目标函数和对训练数据以外的数据进行泛化而做出的假设。
将预测推广到未见的例子的能力是机器学习的核心。如果没有对数据或模型的假设,就无法实现泛化,因为看不见的示例可能具有任意的输出空间。类似地,构建RS需要添加一些关于目标函数性质的假设。例如Johnson et al.[38]假设可以通过嵌入内积来估计一个交互作用,而He et al.[39]则采用神经网络作为更好的泛化方法。除了目标函数,在其他方面增加了归纳偏差。一个例子是自适应负采样器[40],[41],[42],[43],它旨在对“困难的”实例进行过采样,以提高学习速度,即使最终的损失函数将与原来的显著不同。另一个例子是离散排序模型[44],[45],[46],它将用户和商品作为二进制代码嵌入,以提高推荐效率为代价,牺牲了表示能力。

2.3 在推荐结果上的偏差和不公正

2.3.1 流行性偏差

受欢迎的项目甚至比它们的受欢迎程度更频繁地被推荐。
在这里插入图片描述
忽视流行偏见会导致很多问题:

    1. 它降低了个性化的水平,伤害了意外发现。由于不同用户的偏好是不同的,总是推荐流行的项目会损害用户体验,特别是对于喜欢小众项目的用户。
    1. 降低了推荐结果的公正性。受欢迎的商品并不总是高质量的。过度推荐受欢迎的商品会降低其他商品的可见性,即使它们非常匹配,这是不公平的。
    1. 大众偏见会进一步增加热门项目的曝光机会,使热门项目更加受欢迎——为未来培训收集的数据变得更加不平衡,产生所谓的“马太效应”问题。

2.3.2 不公平

推荐算法系统地、不公平地歧视某些个人或个人群体,而偏袒其他人。
在这里插入图片描述

2.4 反馈回路放大偏差

现实世界的推荐系统通常会产生一个有害的反馈循环。前面的小节总结了在循环的不同阶段中发生的偏差,而这些偏差可能会随着时间的推移在循环中进一步加强。以位置偏差为例,排名靠前的项目通常受益于更大的流量,这反过来提高了它们的排名突出度和接收的流量,从而导致一个更富的场景[36]。许多研究者还研究了反馈回路对受欢迎度偏差[57],[58],[59]的影响。他们的模拟结果表明,反馈循环会放大流行偏差,受欢迎的项目变得更受欢迎,不受欢迎的项目变得更不受欢迎。这些被放大的偏见还会减少多样性,加剧用户的同质化,产生所谓的“回音室”或“过滤气泡”[60],[61]。

3 推荐方法上的偏差

表2列出了已有的推荐算法处理的偏差类型及采用的方法:
在这里插入图片描述

3.1 推荐算法上的选择偏差

在观察到的评分数据上训练和测试推荐模型会产生选择偏差,因为观察到的评分并不是所有评分的代表性样本。本节首先介绍如何在有偏差的评分数据下评估推荐模型,然后回顾在推荐训练中减轻选择偏差的四种方法。

3.1.1 在评价指标上的去偏

常用的评价指标有 Mean Absolute Error (MAE), Mean Squared Error (MSE), Discounted Cumulative Gain@k (DCG@k) or Precision (Pre@k):
H(R^)=1nm∑u=1n∑i=1mδu,i(r,r^)(1)H(\hat{R})=\frac{1}{n m} \sum_{u=1}^{n} \sum_{i=1}^{m} \delta_{u, i}(r, \hat{r}) \tag1 H(R^)=nm1u=1ni=1mδu,i(r,r^)(1)
MAE:δu,i(r,r^)=∣ru,i−r^u,i∣MSE:δu,i(r,r^)=(ru,i−r^u,i)2(2)\begin{array}{c} \mathrm{MAE}: \delta_{u, i}(r, \hat{r}) & = & \left|r_{u, i}-\hat{r}_{u, i}\right| \\ \mathrm{MSE}: \delta_{u, i}(r, \hat{r}) & = & \left(r_{u, i}-\hat{r}_{u, i}\right)^{2} \end{array} \tag2 MAE:δu,i(r,r^)MSE:δu,i(r,r^)==ru,ir^u,i(ru,ir^u,i)2(2)
此处:

  • ru,ir_{u, i}ru,i:用户uuu对商品iii的评分;
  • r^u,i\hat{r}_{u, i}r^u,i:用户uuu对商品iii的预测评分。
    DCG@k:δu,i(r,r^)=(I/log⁡(rank⁡(r^u,i)))ru,iPre@k:δu,i(r,r^)=(I/k)ru,i⋅1{rank⁡(r^u,i)≤k}(3)\begin{array}{c} \mathrm{DCG@k}: \delta_{u, i}(r, \hat{r})&=&\left(I / \log \left(\operatorname{rank}\left(\hat{r}_{u, i}\right)\right)\right) r_{u, i}\\ \mathrm{Pre@k}: \delta_{u, i}(r, \hat{r})&=&(I / k) r_{u, i} \cdot \mathbf{1}\left\{\operatorname{rank}\left(\hat{r}_{u, i}\right) \leq k\right\} \end{array} \tag3 DCG@k:δu,i(r,r^)Pre@k:δu,i(r,r^)==(I/log(rank(r^u,i)))ru,i(I/k)ru,i1{rank(r^u,i)k}(3)
    此处:
  • III:?
  • kkk:?
  • log⁡(rank⁡(r^u,i))\log \left(\operatorname{rank}\left(\hat{r}_{u, i}\right)\right)log(rank(r^u,i)):?
  • 1{rank⁡(r^u,i)≤k}\mathbf{1}\left\{\operatorname{rank}\left(\hat{r}_{u, i}\right) \leq k\right\}1{rank(r^u,i)k}:?

由于真实评分通常是部分观察到的,传统的评价通常只使用观察到的条目的平均值:
H^naive (r^)=1∣{(u,i):Ou,i=1}∣∑(u,i):Ou,i=1δu,i(r,r^)(4)\hat{H}_{\text {naive }}(\hat{r})=\frac{1}{\left|\left\{(u, i): O_{u, i}=1\right\}\right|} \sum_{(u, i): O_{u, i}=1} \delta_{u, i}(r, \hat{r}) \tag4 H^naive (r^)={(u,i):Ou,i=1}1(u,i):Ou,i=1δu,i(r,r^)(4)
这不是对真实性能的无偏估计:
EO[H^naive (r^)]≠H(r^)(5)E_{O}\left[\hat{H}_{\text {naive }}(\hat{r})\right] \neq H(\hat{r}) \tag5 EO[H^naive (r^)]=H(r^)(5)

  • H^naive (r^)\hat{H}_{\text {naive }}(\hat{r})H^naive (r^)为期望除以观测概率。这种差距是由选择偏差造成的,这使得观察到的评分不是所有评分的代表性样本。

参考文献

Bias and Debias in Recommender System: A Survey and Future Directions

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卡扇区数据教程_分享一款硬盘分区和数据恢复软件

最近有朋友留言,自己的硬盘被格式化了,没法恢复。今天给大家介绍一款解决硬盘恢复软件--DiskGenius,文末附下载地址,觉得有用点个在看吧。DiskGenius是一款功能非常强大的硬盘分区及数据恢复软件,算法精湛、功能强大&a…

名图1.8智能隐藏功能_7年后再度回归 全新一代名图“大”不同_搜狐汽车

本文车型速览除了文章作者的主观观点外,我们正尝试基于全网可查的客观数据,为您提供中立、客观的参考依据:本文部分车型速览:畅销车型质量排行top10展开微信扫码,直接一次看完附近所有城市低价(附近城市均有经销商可售…

3 vue 线条箭头_线条眉要如何处理才能更自然?

更多纹绣内容关注公众号:法米索半永久学堂。眉头的操作确实不是一件容易的事,都说万事开头难,很多纹绣师把握不好眉头的操作技巧,一不小心就会把眉头做的方了、圆了,总之就是非常不自然。但只要我们把眉头做好了&#…

git rebase用法_Git:Clone别人的代码之后push到自己码云上失败的解决办法

最近也是刚开始使用gitee,比较生疏。场景是这样的:clone了朋友的一份代码到自己的本地,然后自己想把它保存到自己的gitee 私有仓库上,就在gitee上面创建了一个私有的仓库,然后多次push都失败了,实践了网上提…

fpga板子怎么和电脑连_windows7台式电脑怎么连接路由器?台式win7电脑连路由器步骤...

相信还有许多在使用windows7系统,尽管使用很长一段时间了,不过对win7系统的一些功能还是不太了解。大家家里应该都有路由器,那么windows7台式电脑怎么连接路由器,下面我们就一起来看看台式win7电脑连接路由器步骤。win7台式电脑连…

英特尔核显自定义分辨率_让免费的核显更好用!英特尔酷睿集成的GPU如何优化?...

点击上方电脑爱好者关注我们在笔记本领域,无论是英特尔酷睿还是AMD锐龙,都采取了“买一赠一”的策略,即都在处理器内集成了性能还不赖的核显,虽然它们无法驾驭3A游戏大作,但应对《英雄联盟》级别的游戏还是不成问题的。…

python脚本式编程_Python编程入门(一)

Python编程入门(一)概述:编程语言 1.脚本编程语言★脚本编程语言如php,perl,python,java等为脚本编程语言,通常需要通过解释器解释运行。 ★python(java)程序的执行过程s…

for循环里面有异步操作_JS 线程与异步的那些事

已知,JavaScript 是单线程的,天生异步,适合 IO 密集型,不适合 CPU 密集型,但是,为什么是异步的喃,异步由何而来的喃,我们将在这里逐渐讨论实现。一、进程与线程1. 浏览器是多进程的它…

FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记

1 广告 这篇工作由字节跳动商业化技术团队与新加坡南洋理工大学合作完成。 话不都说,先看效果: FDRNet的效果看上去有点好,可惜没有源代码提供。 2 相关工作 2.1 几何形变恢复方法Geometric Document Restoration 由相机传感器捕获的文档…

通讯可以并联吗_工业控制知识:吃透RS485通讯的连接方式,接485总线就简单多了...

RS485被广泛使用,可以支持ModBus协议。由于其简单、价优、可靠和成熟,因此,被广泛应用于工业控制、智能仪器和电力通信。我们来看看RS485的一个典型组网结构:理论上,RS485总线的传输距离可以达到1200米。然而&#xff…

python编程a的x次方_「Python 面试」第四次更新

阅读本文大约需要 5 分钟。 15.说一说 GIL 前面有提到由于 Python 基于 C 语言编写的解释器中设置了一个 GIL 全局变量锁,该锁使得 Python 的多线程在处理 CPU 计算密集型任务时,同一时刻只能有一个线程在运行,这也是为什么说 Python 的多线程…

Exploiting Vector Fields for Geometric Rectification of Distorted Document Images学习笔记

1 广告 [1] Exploiting Vector Fields for Geometric Rectification of Distorted Document Images 利用矢量场对变形文档图像进行几何校正。 2018年发表在ECCV会议上的一篇非深度学习的文档去扭曲。 本文提出了一种对手持相机捕获的扭曲文档图像进行几何校正的无分段方法。…

java 单元测试_在springboot中写单元测试解决依赖注入和执行后事务回滚问题

往期文章「Java并发编程」谈谈Java中的内存模型JMM面试官:说说你知道多少种线程池拒绝策略为什么不要在MySQL中使用UTF-8编码方式前言很多公司都有写单元测试的硬性要求,在提交代码的时候,如果单测通不过或者说单元测试各种覆盖率不达标&…

java编译_解析 Java 即时编译器原理。

↑ 点击上面 “时代Java”关注我们,关注新技术,学习新知识!一、导读常见的编译型语言如C,通常会把代码直接编译成CPU所能理解的机器码来运行。而Java为了实现“一次编译,处处运行”的特性,把编译的过程分成…

ios nsstring根据ascii码大小排序_iOS(NSPredicate) 谓词的使用

参考iOS-谓词的使用详解NSPredicate 谓词NSPredicateA definition of logical conditions used to constrain a search either for a fetch or for in-memory filtering.一种逻辑条件的定义,可以根据定义的模糊查询条件,对内存对象进行过滤搜索。1.比较运…

恒位油杯故障原因_抽油烟机常见故障及处理方法

您知道抽油烟机常见故障及处理方法是什么吗?抽油烟机通电后不能启动,可能是因为电源线断路或接头脱焊,仔细查出断路点或脱焊点,重新焊牢。通断开关断路或触点接触不良,检查断路器处是否焊好,若触点接触不良…

会议容易中吗_在装配式建筑中重要又容易被忽视的部分,你中招了吗?

装配式 建筑装配式建筑大家应该都有听过,那么这种建筑又是怎样构成的呢?装配式建筑概览▲▲▲装配式建筑粘结方案▲▲▲密封胶作为装配式建筑中的重要材料,起到不可忽视的作用~SMP密封胶,1978年开始生产,最初是针对硅酮…

Document image dewarping using text-lines and line Segments学习笔记

1 核心思想 论文:Robust Document Image Dewarping Method Using Text-Lines and Line Segments 论文:Document Dewarping via Text-line based Optimization 代码:https://github.com/taeho-kil/Document-Image-Dewarping 传统的基于文本行的文档去扭曲方法在处理复杂布局…

官网mysql安装目录_官网下载MySQL 并安装

官网下载MySQL 并安装一、下载二、安装:这里不再叙述安装步骤三、MySQL环境变量配置不是必须的。MySQL环境变量作用:找到MySQL安装目录下的bin目录,才能使用MySQL相关命令。配置环境变量后就不必找到bin目录了。说到这里解释一下Java &#x…

ai二维码插件_送你60款AI脚本插件包,已整合成插件面板的形式,方便在AI中调用...

送你60款AI脚本插件包,已整合成插件面板的形式,方便在AI中调用。(领取方式见文章末尾)【AI脚本插件合集包】此AI插件包目前有66款ai脚本插件,已经整合成插件面板的形式,方便在AI中调用。软件内置刀模线绘制、二维码生成、条码制作…