协同过滤

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。

1 什么是协同过滤

协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。

换句话说,就是借鉴和你相关人群的观点来进行推荐,很好理解。

2 协同过滤的实现

要实现协同过滤的推荐算法,要进行以下三个步骤:

收集数据——找到相似用户和物品——进行推荐

收集数据

这里的数据指的都是用户的历史行为数据,比如用户的购买历史,关注,收藏行为,或者发表了某些评论,给某个物品打了多少分等等,这些都可以用来作为数据供推荐算法使用,服务于推荐算法。需要特别指出的在于,不同的数据准确性不同,粒度也不同,在使用时需要考虑到噪音所带来的影响。

找到相似用户和物品

这一步也很简单,其实就是计算用户间以及物品间的相似度。以下是几种计算相似度的方法:

  欧几里德距离

   

  皮尔逊相关系数

  

  Cosine 相似度

  

  Tanimoto 系数

  

进行推荐

在知道了如何计算相似度后,就可以进行推荐了。

在协同过滤中,有两种主流方法:基于用户的协同过滤,和基于物品的协同过滤。具体怎么来阐述他们的原理呢,看个图大家就明白了

基于用户的 CF 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到 K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。 下图给出了一个例子,对于用户 A,根据用户的历史偏好,这里只计算得到一个邻居 - 用户 C,然后将用户 C 喜欢的物品 D 推荐给用户 A。


基于物品的 CF 的原理和基于用户的 CF 类似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他。从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。下图给出了一个例子,对于物品 A,根据所有用户的历史偏好,喜欢物品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推断出用户 C 可能也喜欢物品 C。


总结

  以上两个方法都能很好的给出推荐,并可以达到不错的效果。但是他们之间还是有不同之处的,而且适用性也有区别。下面进行一下对比

  计算复杂度

  Item CF 和 User CF 是基于协同过滤推荐的两个最基本的算法,User CF 是很早以前就提出来了,Item CF 是从 Amazon 的论文和专利发表之后(2001 年左右)开始流行,大家都觉得 Item CF 从性能和复杂度上比 User CF 更优,其中的一个主要原因就是对于一个在线网站,用户的数量往往大大超过物品的数量,同时物品的数据相对稳定,因此计算物品的相似度不但计算量较小,同时也不必频繁更新。但我们往往忽略了这种情况只适应于提供商品的电子商务网站,对于新闻,博客或者微内容的推荐系统,情况往往是相反的,物品的数量是海量的,同时也是更新频繁的,所以单从复杂度的角度,这两个算法在不同的系统中各有优势,推荐引擎的设计者需要根据自己应用的特点选择更加合适的算法。

  适用场景

  在非社交网络的网站中,内容内在的联系是很重要的推荐原则,它比基于相似用户的推荐原则更加有效。比如在购书网站上,当你看一本书的时候,推荐引擎会给你推荐相关的书籍,这个推荐的重要性远远超过了网站首页对该用户的综合推荐。可以看到,在这种情况下,Item CF 的推荐成为了引导用户浏览的重要手段。同时 Item CF 便于为推荐做出解释,在一个非社交网络的网站中,给某个用户推荐一本书,同时给出的解释是某某和你有相似兴趣的人也看了这本书,这很难让用户信服,因为用户可能根本不认识那个人;但如果解释说是因为这本书和你以前看的某本书相似,用户可能就觉得合理而采纳了此推荐。

  相反的,在现今很流行的社交网络站点中,User CF 是一个更不错的选择,User CF 加上社会网络信息,可以增加用户对推荐解释的信服程度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293397.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信改成右滑删除_手机文件数据恢复,怎样恢复已过期的微信附件呢?

手机文件数据恢复,怎样恢复已过期的微信附件呢?我们在恢复手机删除的文件之前,很多人都想知道,为什么自己的文件删除了可以被恢复,既然能被恢复,是我彻底删除不了手机的文件吗?文件真的消失了吗…

【.NET 遇上 GraphQL】使用 Hot Chocolate 构建 GraphQL 服务

Hot Chocolate 是 .NET 平台下的一个开源组件库, 您可以使用它创建 GraphQL 服务, 它消除了构建成熟的 GraphQL 服务的复杂性, Hot Chocolate 可以连接任何服务或数据源,并创建一个有凝聚力的服务,为您的消费者提供统一的 API。在本文中, 我会在 .NET 应…

PHP命令注入***

PHP命令注入***漏洞是PHP应用程序中常见的脚本漏洞之一,国内著名的Web应用程序Discuz!、DedeCMS等都曾经存在过该类型漏洞。本文描述了常见的PHP命令注入***漏洞存在形式和利用方法,结合漏洞实例进行分析和漏洞利用,并针对如何防范PHP命令注入…

电脑用户名_仁霸下料优化软件如何找回密码、更换绑定电脑?

今天有客户来找我们管件管家,说注册密码忘记了,登陆不上软件问怎么找回;还有个用户因为换了电脑,需要将账号移到新电脑上。此前我们以玻璃软件为例说了如何下载以及在哪里找到下载文件的位置,这期还是以玻璃软件为例讲…

linux之universal usb installer安装ubuntu

Universal-USB-Installer这个工具是用来制作U盘启动盘的,下面以制作Ubuntu版本Linux系统的U盘启动盘为例,方法如下: 1、安装Universal USB Installer软件,打开后,点击“Browse”按钮浏览下载到本地磁盘的Ubuntu系统ISO…

Android系统的体系结构、开发语言及源码结构

整理自android系统体系结构 Android 是google公司针对手机开发的一个平台,并公布了其中大部分代码,其大部分应用程序都是用JAVA开发的,毕竟它是商业性的产品嘛,有所保留也是理所 当然的。对于搞嵌入式linux开发的人来说我们可以从…

Blazor系列终结!

终于完结Blazor系列转载终结啦,其实站长在25号时就已完成转载,并同步在Dotnet9网站(https://dotnet9.com)发布,并创建了一个专辑《大家一起学Blazor》,大家可随时在网站浏览。Dotnet9网站同步转载感受 ASP.…

Mysql安装及自动化部署脚本方案

一.简介 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库, 每个数据库都有一个或多个不同的API用于创建,访问,管理,搜索和复制所保存的数据。 我们也可以将数据存储在文件中,但是在…

男人对待恋爱的不同阶段......

1 小猫咪为何那样恨我(via.豆瓣哈组,侵删)▼2 驾驶位上方的扶手有什么用?(素材来源网络,侵删)▼3 回村听到最劲爆的消息(素材来源网络,侵删)▼4 男人对待恋…

2个网页跳来跳去_好人网页同步器,使用教程

好人网页同步器,点我下载软件作用:操作N个浏览器,且动作同步操作。软件操作流程:1、打开软件,点击注册账号,系统就算1小时测试时间给你。然后用你的账号登录到好人网页同步器。2、进入主界面后,…

Wpf控件ListBox使用实例2

2.Xaml绑定选择结果 <StackPanel Orientation"Vertical"><TextBlock Margin"10,10,10,10" FontWeight"Bold"> Pick a color from below list</TextBlock><ListBox Name"mcListBox" Height"100" Width…

FBI承认特斯拉是外星人?公开354页文件,揭秘特斯拉研究UFO,制造“死光武器”.........

全世界只有3.14 % 的人关注了爆炸吧知识作业太少吃得太饱特斯拉是外星人吗&#xff1f;偶然点开这个问题&#xff0c;让超模君震惊得心律不齐。作为人类有史以来最伟大的科学家之一&#xff0c;特斯拉一度被称为“最接近神的人”。但估计特斯拉本人也没有想到&#xff0c;在他长…

操作主机 RID matser

一个以活动目录为核心的基础架构管理环境运行效率的高低取决于操作主机和DC的位置的设计&#xff0c;在后期域环境的维护工作中也起着非常重要的作用。今天跟大家介绍在 Active Directory 中&#xff0c;RID Master &#xff08;RID主机&#xff09;的相关设定和所负责的功能。…

pads中如何设置等长_期货如何设置止损止盈避免交易中被套-期货学习

导读:在期货交易中&#xff0c;有一个非常重要的问题&#xff0c;止损止盈&#xff0c;对于一般投资者来讲&#xff0c;止盈比止损要简单一些&#xff0c;毕竟止盈是在获取利润后的操作&#xff1b;可止损呢&#xff01;止损可不是那...在期货交易中&#xff0c;有一个非常重要…

数学图形(2.18)Hyperbolical conical spiral双曲圆锥螺线

双曲圆锥螺线 #http://www.mathcurve.com/courbes3d/spiralehyperbolique/spiralehyperbolique.shtmlvertices 12000t from (-20*PI) to (20*PI)r 10 a rand2(PI*0.2, PI*0.8)x r*cos(t)/t z r*sin(t)/t y r*cot(a)/t 看其脚本代码与截图,当t为无穷大时,上下两端的曲线才…

读书笔记-互联网思维必读10本书之一《免费》

分享一个读书笔记&#xff0c;具备互联网思维必读10本书之一《免费》&#xff0c;作者克里斯.安德森5年前就能通过“免费”串起众多互联网模式&#xff0c;有些至今还很受用&#xff0c;说明前瞻性思维太重要了

单身的原因终于找到了!原来是这几个......

1 单身的原因&#xff08;素材来源网络&#xff0c;侵删&#xff09;▼2 哈利波特&#xff1a;没说过&#xff0c;不是我&#xff08;素材来源网络&#xff0c;侵删&#xff09;▼3 我与朋友的健身日记&#xff08;素材来源网络&#xff0c;侵删&#xff09;▼4 娘亲给我的床…

概率与统计知识复习

一. 随机变量 1.1 概率分布 概率分布 定义 : 随机变量X取各个值$x_i$的概率称为X的概率分布. 对于离散型随机变量: $ P(Xx_i)p_i, (i1,2,3,...) $ 特性 : a. $p_i>0$ b. $\sum_i^{\infty} p_i 1 $ 累积概率分布(CDF) 定义 : $F(x)P(X \le x) $, 对于离散型随机变量 $F(x)\s…

mathwin.top 联系我们_设计:“有目的”的“因果联系”

什么是设计&#xff0c;康石石估计这是很多同学的疑问&#xff0c;甚至这个疑问会一直拖到从业以后的N多年。 似乎到现在&#xff0c;设计都仍没有一个明确的定义&#xff0c;当然康石石并没有野心试图为设计定义&#xff0c;谨希望通过此篇文章&#xff0c;帮助同学们更加深入…