RS(1)--10分钟了解什么是推荐系统

总第 110 篇文章,本文大约 3200 字,阅读大约需要 10 分钟

2020 年第一篇技术文章,以一个新的系列开始--推荐系统(Recommend System),第一篇文章会简单介绍推荐系统的定义和应用,目录如下:

  • 什么是推荐系统

  • 你真的需要推荐系统吗

  • 推荐系统的问题模式

  • 推荐系统存在的问题

  • 推荐系统的应用

什么是推荐系统

来自维基百科的定义:

推荐系统是一种信息过滤系统,手段是预测用户(user)对物品(item)的评分和偏好。

进一步从以下三个方面来回答这个问题

1. 推荐系统能做什么--推荐系统最终可以把那些会在用户和物品之间产生的连接提前找出来。

这里说的连接,含义非常广泛,凡是能够产生关系的都是连接,包括用户对物品的行为,或者用户的某些属性和物品的某些属性。

这里这么说的依据是基于这样一个事实:万事万物都有相互连接的大趋势。

2. 推荐系统需要什么--需要已经存在的连接,从已有的连接去预测未来的连接。

3. 推荐系统怎么做--预测用户评分和偏好。具体说就是机器推荐和人工推荐,也就是通常说的个性化推荐和编辑推荐。

总体来说,推荐系统实际上是在目前信息爆炸的时代,可以帮助用户过滤大量无效信息,获取到感兴趣的信息或者物品的算法,并且也可以挖掘出一些长尾物品。当然,过度依赖推荐系统,实际上也可能让你只接受到同一类的信息或者单一领域的物品,这也是推荐系统存在的一个问题,探索与利用问题。

推荐系统是如何工作的呢?这里可以用一个看电影的例子来解释,比如我们在不确定看什么电影的时候,通常可能会有这几种方法来做决定:

  • 咨询朋友。不仅是问朋友,也可能是发个朋友圈或者发微博,即利用社交产品来问这个问题。这种方式在推荐系统中成为社会化推荐(social recommendation),即让好友推荐;

  • 我们也可能因为演员或者导演来决定看什么电影,可能的做法就是通过搜索引擎来搜索喜欢的演员和导演有没有在上映的电影,或者是还没看过的电影。这种方式叫做基于内容的推荐(content-based filtering)

  • 我们也还会打开豆瓣,查看豆瓣的电影排行榜,看看哪些高分电影是不错的,或者通过和自己历史兴趣形似的用户,查看他们看过的电影,然后选择一部自己感兴趣的来看。这种方式叫做基于协同过滤(collaborative filtering)的推荐,也就是根据相似用户或者相似物品来进行推荐。

上述也只是3种推荐方式,实际上推荐系统还有其他的推荐方法,但本质上都是需要用户和物品之间存在连接,通过已有的连接来预测未来的连接。

你需要推荐系统吗

从两个方面考虑这个问题:

  1. 产品的目的。如果一个产品的目的是建立的连接越多越好,那最终需要一个推荐系统。反之,对于工具类的产品,并不需要推荐系统;

  2. 产品现有的连接。当产品中的物品很少,少到人工可以应付的时候,用户产生的连接肯定也不多,这时候连接的瓶颈在于物品数量,这时候不适合搭建推荐系统;另一种情况就是物品不少,但用户产生的连接也不多,这种情况就是用户留存回访很少,需要的是找到用户流失原因,而不是推荐系统。

这里有一个简单的判断是否需要推荐系统的公式

分子表示增加的连接数量,分母就是增加的活跃用户数和增加的有效物品数。

这个简单的指标是这样的:

  • 如果增加连接数主要依靠活跃用户数和物品数,那么这个指标会很小,表示不适合推荐系统

  • 如果增加的连接数和新增活跃用户数以及物品关系不大,说明连接数已经有自发增长的趋势,适合加入推荐系统。

最后,是否需要推荐系统从战术上看是需要考虑投入产出比的问题,需要组建团队、购置计算资源、积累数据和花费时间优化等;但如果是战略问题,那就不需要讨论了。

推荐系统的问题模式

根据上文的介绍,推荐系统的目标就是预测用户和物品的连接,其预测问题模式,从达成的连接目标角度区分,分为两大类:

  1. 评分预测

  2. 行为预测

评分和行为其实是反映了用户对推荐结果的两类反馈,前者是一个显式反馈,直接表明用户对推荐的物品的喜好程度,而后者更多展示的是隐式反馈,比如用户仅仅是浏览阅读了推荐的物品,或者说电商类的加入购物车,收藏物品等等。

评分预测

评分预测主要做的事情就是,提前预测用户对物品的评分,比如对电影评分1-5分,或者是商品打多少颗星星。

一个比较朴素的实现思想:建立一个模型,基于用户历史评分的物品来预测分数

如何衡量预测的好坏,通常可以用均方根误差(RMSE)来作为损失函数:

其中 n 是样本的总数, 是用户对物品的打分,表示模型预测的分数,因此它们的相减就是模型和用户实际打分的误差,而 RMSE 只关心绝对值大小。

评分问题主要用于各种点评类产品,比如豆瓣、Imdb等等,但评分推荐存在这些问题:

  1. 数据不易收集

  2. 数据质量不能保证,伪造数据门槛低

  3. 评分的分布不稳定,整体评分在不同时期会差别很大,个人评分也会因时间而有不同标准,人和人之间的标准差很大

行为预测

行为预测就是利用隐式反馈数据预测隐式反馈的发生概率。行为预测更受到重视的原因有这几点:

  1. 数据比显式反馈更加稠密。评分数据总体来说是很稀疏的;

  2. 隐式反馈更代表用户的真实想法

  3. 隐式反馈常常和模型的目标函数关联更密切,也通常更容易在 AB 测试中和测试指标挂钩。比如 CTR 预估关注的就是点击这个隐式反馈。

行为预测的方式有很多,常见的是这两种方式:

  • 直接预测行为本身发生的概率,也叫做点击率预估(CTR预估),但实际应用中也可以是收藏、购买行为的预估;

  • 预测物品的相对排序

推荐系统存在的问题

推荐系统发展到现在,依然还是有些问题一直没有很好的通用解决方案,并且不容易被重视。

1. 冷启动问题

推荐系统实际上是数据贪婪型应用,也就是对数据的需求绝无足够的那一天。

冷启动问题可以分为:

  • 新用户或者不活跃用户;

  • 新物品或者展示次数较少的物品(长尾物品)

  • 系统本身没有用户和用户行为,只有物品数据

通常的解决办法是:想办法引入数据,从已有数据中主动学习(一种半监督学习),比如用户的注册信息,物品的描述信息等等。

2.探索与利用问题

这个问题也叫 EE(Explore & Exploit) 问题:

  • 探索:也就是挖掘用户身上未知的兴趣爱好,推荐和用户兴趣不相关或者不相似的物品,包括长尾物品;

  • 利用:利用已知的用户的兴趣爱好,推荐相似的物品

通常最好的做法是推荐大部分用户感兴趣的物品,小部分是新的其他领域的物品,比如已知用户是数码产品爱好者,那么大部分推荐的就是电脑、键盘等数码产品,然后推荐少量的其他类的物品,比如运动健身产品或者衣服等;

但这里需要考虑的就是这个比例的问题,不同的用户的推荐比例也不一样,可能有的用户就是喜欢探索新奇的物品,但有的用户只喜欢感兴趣的物品。

3.安全问题

推荐系统也是存在安全问题,可能会被攻击,被攻击的影响有以下几个:

  • 给出不靠谱的推荐结果,影响用户体验并最终影响品牌形象;

  • 收集了不靠谱的脏数据,这个影响会一直持续留存在产品中,很难完全消除;

  • 损失了产品的商业利益,这是直接的经济损失;

推荐系统的应用

推荐系统的应用特别广泛,包括电子商务、电影和视频、音乐、社交网络、阅读、基于位置的服务、个性化邮件和广告等等。

  1. 电子商务:国内的淘宝、京东等都有个性化推荐系统,通过用户浏览、点击、购买、收藏、加入购物车的行为,给用户推荐相似的商品;

  2. 电影和视频:比如豆瓣、爱奇艺等视频网站,豆瓣会有根据用户的评分来获取用户的兴趣,然后推荐的方式可以是看过这部电影的用户也喜欢看的电影(基于用户的协同过滤推荐)或者是其他相似的电影(基于物品的协同过滤)

  3. 音乐:最有代表性的就是网易云音乐,其推荐算法确实是比其他国内的音乐产品要做得更加出色;

  4. 社交网络:微博,会有多个维度的推荐,热门话题,同城,或者分领域,娱乐、科技、体育等;

  5. 阅读:主要就是各类的新闻门户网站,其中做得最好的就是今日头条;

事实上,当产品的用户和物品数据越来越大的时候,都需要考虑使用个性化推荐系统,给用户个性化的体验。


参考

  1. 《推荐系统实践》第一章

  2. 极客时间《推荐系统三十六式》


欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!

如果觉得不错,在看、转发就是对小编的一个支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/408443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当搭配遇上个性化推荐

总第 111 篇文章,本文大约 3000 字,阅读大约需要 10 分钟今天介绍的是一篇个性化搭配推荐的论文,是 2017 年时候的论文,这也是比较早的开始结合搭配和个性化推荐的一个工作,基于度量学习和排序学习的方法。论文题目&am…

2020年周记(1/50)

总第 112 篇文章,本文大约 1200 字,阅读大约需要 3 分钟正如标题所言,希望 2020 年能写满 50 篇周记吧,刚好前两周没有发,所以希望接下来每周完成一篇。周记的内容主要是这几方面的内容:工作学习阅读&…

python版代码整洁之道

总第 113 篇文章,本文大约 8000 字,阅读大约需要 20 分钟原文:https://github.com/zedr/clean-code-pythonpython 版的代码整洁之道。目录如下所示:介绍变量函数1. 介绍软件工程的原则,来自 Robert C. Martins 的书--《…

MVC 3.0错误 HTTP 404您正在查找的资源(或者它的一个依赖项)可能已被移除,或其名称已更改,或暂时不可用。请检查以下 URL 并确保其拼写正确。...

MVC3.0框架开发项目: 有时在程序运行的时候会出现“HTTP 404。您正在查找的资源(或者它的一个依赖项)可能已被移除,或其名称已更改,或暂时不可用。请检查以下 URL 并确保其拼写正确。”的错误提示。 在这里我们以运行时打开登录页面&#xff…

2020年1月总结

总第 114 篇文章,本文大约 1300 字,阅读大约需要 4 分钟这是 2020 年的第一篇月总结,总结的内容和周记差不多,也还是从这几个方面进行总结:工作学习阅读&写作2月计划工作这个月的工作时间大概是2周多一点&#xff…

python技巧(1)--如何转换itertools.chain对象为数组

总第 115 篇文章,本文大约 900 字,阅读大约需要 3 分钟之前做1月总结的时候说过希望每天或者每2天开始的更新一些学习笔记,这是开始的第一篇。这篇介绍的是如何把一个 itertools.chain 对象转换为一个数组。参考 stackoverflow 上的一个回答&…

python技巧(2)--碾平列表和列表去重

总第 116 篇文章,本文大约 1000 字,阅读大约需要 3 分钟今天介绍和列表相关的两个小技巧:碾平列表(flatten list),也就是列表里的元素也带有列表的情况;列表去重,保留原始顺序和不保…

原来电脑并不需要重装系统才能恢复出厂设置,这个操作学起来!

前言 小伙伴们应该都知道手机上有恢复出厂设置的功能,如果想要把手机送给朋友或者卖给别人,就会先恢复出厂设置。 但换到Windows电脑上之后,如果出现同样的情况,就会第一时间想到重装系统。就好像Windows电脑上不存在恢复出厂设…

2020年周记(2/50)

总第 117 篇文章,本文大约 1400 字,阅读大约需要 5 分钟因为春节假期的延长,中间还是休息过长,少了两周的周记了,这是2020年的第二篇周记,内容还是这几个方面:工作学习阅读&写作其他下周计划…

一日一学:返回排序好的列表的索引顺序

总第 118 篇文章,本文大约 700 字,阅读大约需要 2 分钟今天介绍的是对列表排序后,返回排序好的索引顺序。问题描述:给定一个列表 [2, 3, 1, 4, 5] ,怎么返回排序后的索引顺序,即 [2,0,1,3,4] ?解决方法&a…

2020年周记(3/50)

总第 119 篇文章,本文大约 700 字,阅读大约需要 2 分钟第三篇周记,依然在家办公的一周。工作学习阅读&写作其他下周计划ps. 昨天发文章后才发现有些地方需要修改,所以删除了发出的文章,修改后再发出来&#xff1…

一日一学--如何对数值型特征进行分桶

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 120 篇文章,本文大约 1200 字,阅读大约需要 3 分钟今天这篇文章主要是介绍在特征工程中,对数值型特征进行分桶操作的方法。简介分桶是离散化的常用…

常见的数据增强项目和论文介绍

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 121 篇文章,本文大约 1100 字,阅读大约需要 3 分钟在机器学习项目中,数据集对算法模型的性能是有很大的影响的,特别是现在深度学习&a…

PS网页设计教程XXIX——如何在PS中设计一个画廊布局

作为编码者,美工基础是偏弱的。我们可以参考一些成熟的网页PS教程,提高自身的设计能力。套用一句话,“熟读唐诗三百首,不会作诗也会吟”。 本系列的教程来源于网上的PS教程,都是国外的,全英文的。本人尝试翻…

RS(2)--从文本数据到用户画像

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 122 篇文章,本文大约 5100 字,阅读大约需要 15 分钟上一篇文章简单介绍了推荐系统的定义和应用,推荐系统第二篇,简单介绍用户画像的知…

深度学习算法简要综述(上)

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 123 篇文章,本文大约 2300 字,阅读大约需要 7 分钟原文:https://theaisummer.com/Deep-Learning-Algorithms/作者:Sergios Karagianna…