推荐系统算法 协同过滤算法详解(二)皮尔森相关系数

目录

前言

协同过滤算法(简称CF)

皮尔森(pearson)相关系数公式

算法介绍

 算法示例1:

算法示例2


前言

理解吧同胞们,实在是没办发把wps公式复制到文章上,只能截图了,我服了!!!

协同过滤算法(简称CF)

在早期,协同过滤几乎等同于推荐系统。主要的功能是预测和推荐。协同过滤推荐算法分为两类,分别是:

(英文userCF)

  1. 基于用户的协同过滤算法(相似的用户可能喜欢相同物品);这个一般适合推荐新闻和皮皮虾之类的,数据跟人有很大关系,而且信息是每日都是更新的。如果你推荐购物这种,因为一个新建的用户可能购买的商品不足全量商品万分之1,商品数据量大,人对商品购买少,很难找到相似的人;随着用户和物品数量的增加,计算复杂度增加,所以需要这种更适合第二种算法。

(英文itemCF)

  1. 基于物品的协同过滤算法(这种方法通过分析物品之间的相似性,推荐与用户之前喜欢的物品相似的其他物品)。当然也有缺点:需要足够的用户-物品交互数据来找出物品之间的相似性。

当然你除此之外,还有基于模型的协同过滤方法。这就属于更高级的推荐了,他一般是多因素,也是现代化推荐系统的主力。

  • 利用机器学习算法(如矩阵分解、深度学习等)来预测用户对物品的评分或偏好。
  • 优点:能够处理大规模数据集,提高推荐质量。
  • 缺点:模型训练可能需要大量计算资源。

上一章讲 协同过滤算法详解(一)过了下杰卡德相似度 和 余弦相似度,如果跳不进去,直接在我的博客搜索

推荐系统算法 协同过滤算法详解(一)杰卡德相似度和余弦相似度使用、缺陷-CSDN博客

这两者都是衡量相似度的方法,但它们通常不直接被称为协同过滤算法。不过,它们可以用于协同过滤算法中计算用户或物品之间的相似度。下面讲重点了。

皮尔森(pearson)相关系数

        余弦相似度的优化版本就是皮尔森相关系数(通过使用用户平均分对独立评分进行修正,减少了用户评分偏移设置的影响),两个相似度比较其实就是两条线,这两个都是通过计算三角的度数来判断相似度。当然还有个欧氏距离,这个是两边之间的距离的如果距离越长则相似度越低。

        欧氏距离适合做活跃度那这种,因为此时,你不是去看两条线比例和夹角,两个线还是要看红线距离

算法介绍

皮尔森(pearson)相关系数是一个结果介于-1(相反行为)和1之间的数值,绝对值越大表明相关性越强。

相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

0到-1 负相关

但是有一个明显的缺陷就是,它只对线性关系敏感。如果关系是非线性的,哪怕两个变量之间是一一对应的关系,皮尔森相关系数也可能接近0。

事实上,皮尔森相关系数有几种不同的计算公式,它们在数学上是等价的,但形式上略有不同。这可能导致在不同情境下使用不同的公式。

这次主要说下面常用的两种,

        两个公式在数学上是等价的,它们都衡量的是两个变量之间的线性关联程度。选择哪个公式取决于具体的计算需求和可用数据。例如,在使用计算机或统计软件时,第一个公式可能更常用,因为计算均值是很直接的。而在手动计算或当有全部数据且数据量不大时,第二个公式可能更方便。

 算法示例1:

        以下图表为例进行两个推荐,下图是个商品购买评分表,user_id是用户编号,good_id是商品编号,score是评分(范围是1-5分)

1002和1003的皮尔森系数

求:x为user_id是1003用户,y是user_id是1002用户,求二者皮尔森系数。

分子部分:

解:

 xy相同购买过商品id是1、2、9、10,列出1、2、9、10商品分数

        x={5,4,5,4}

        y={4,3,2,2}

x相加总分是18,则平均分是4.5,y的商品id是1、2、9、10相加是11,平均分是2.75。

=(5-4.5)(4-2.75)+(4-4.5)(3-2.75)+(5-4.5)(2-2.75)+(4-4.5)(2-2.75)

=0.5*1.25 -0.5*0.25-0.5*0.75+0.5*0.75

=0.625-0.125-0.375+0.375

=0.5

分母部分:

解:

结果:

        0.5/1.66 =0.301

        上述也会算出1001和1003的皮尔森系数是1,那么相对于0.3如果要推荐就推荐1001,1001内1003没有的商品就是要推荐的商品。

算法示例2

我们有两个变量 X 和 Y,每个变量有 5 个观察值:

X = {1, 2, 3, 4, 5}

Y = {2, 4, 5, 4, 5}

其中,n 是观察值的数量,x 和 y 是观察值,而 Σ 表示求和。

让我们一步一步计算:

  • Σx = 1 + 2 + 3 + 4 + 5 = 15
  • Σy = 2 + 4 + 5 + 4 + 5 = 20
  • Σxy = 1×2 + 2×4 + 3×5 + 4×4 + 5×5 = 2 + 8 + 15 + 16 + 25 = 66
  • Σx² = 1² + 2² + 3² + 4² + 5² = 1 + 4 + 9 + 16 + 25 = 55
  • Σy² = 2² + 4² + 5² + 4² + 5² = 4 + 16 + 25 + 16 + 25 = 86
  • n = 5

所以,这两组数据的皮尔森相关系数大约是 0.7746,表明它们之间存在较强的正相关关系。

------------------------------------------与正文内容无关------------------------------------
如果觉的文章写对各位读者老爷们有帮助的话,麻烦点赞加关注呗!作者在这拜谢了!

混口饭吃了!如果你需要Java 、Python毕设、商务合作、技术交流、就业指导、技术支持度过试用期。请在关注私信我,本人看到一定马上回复!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/644463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【进口控制器替代】基于Zynq-7020 FPGA的NI 8槽CompactRIO控制器

667 MHz双核CPU,512 MB DRAM,1 GB存储容量,Zynq-7020 FPGA,更宽工作温度范围,8槽CompactRIO控制器 cRIO-9068是一款坚固耐用的无风扇嵌入式控制器,可用于高级控制和监测应用。这款软件设计控制器搭载FPGA、…

c++的第一天

思维导图 输入一个字符串&#xff0c;计算大小写&#xff0c;数字&#xff0c;空格和其他字符 #include <array> #include <string>using namespace std;int main() {string str;cout << "请输入一串包含大写小写数字和空格的字符串:" ;getline(c…

flask_apscheduler源码分析

前言 遵循flask框架的标准的库&#xff0c;都称为flask扩展&#xff0c;flask_apscheduler是对apscheduler的扩展&#xff0c;也称为flask的扩展&#xff0c;最近使用flask_apscheduler遇到了一个job死亡的bug。现象&#xff1a;job平时是正常启动的&#xff0c;突然某个时刻全…

MODNet 剪枝再思考: 优化计算量的实验历程分享

目录 1 写在前面 2 模型分析 3 遇到问题 4 探索实验一 4.1 第一部分 4.2 第二部分 Error 1 Error 2 4.3 实验结果 ①参数量与计算量 ②模型大小 ③推理时延 5 探索实验二 5.1 LR Branch 5.2 HR Branch 5.2.1 初步分析 5.2.2 第一部分 enc2x 5.2.3 第二部分 en…

量化交易科普

量化 语言和逻辑层面&#xff0c;用量词指定一个谓词的有效性的广度的构造 一些、很多、所有 量化交易 针对可交易的投资商品&#xff0c;理性地运用逻辑分析和归纳统计判断市场趋势 量化策略 常用的股票量化指标 相关平台 财经网站&#xff1a;新浪、雅虎、东方财富等 证券公…

数据结构(C语言版)代码实现(三)——单链表部分代码实现

目录 格式 头文件 宏定义 线性表的单链表存储结构 按位查找 插入元素 删除元素 头插法建立单链表 合并非递减单链表 其他基本操作 完整版 测试代码&#xff08;主函数&#xff09; 测试结果 格式 参考 2.3节 线性表的链式表示和实现 头文件 宏定义 #pragma onc…

【C++】命名空间详解

目录 前言 命名空间的定义 命名空间的使用 前言 在C/C中&#xff0c;变量、函数和后面要学到的类都是大量存在的&#xff0c;这些变量、函数和类的名称将都存 在于全局作用域中&#xff0c;可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化&#xff0c; 以…

【LeetCode力扣】面试题 17.14. 最小K个数(top-k问题)

目录 1、题目介绍 2、解题思路 2.1、优先队列解法 2.2、top-k问题解法 1、题目介绍 原题链接&#xff1a;面试题 17.14. 最小K个数 - 力扣&#xff08;LeetCode&#xff09; 题目要求非常简短&#xff0c;也非常简单&#xff0c;就是求一组数中的k个最小数。 2、解题思路 …

数据结构:完全二叉树(递归实现)

如果完全二叉树的深度为h&#xff0c;那么除了第h层外&#xff0c;其他层的节点个数都是满的&#xff0c;第h层的节点都靠左排列。 完全二叉树的编号方法是从上到下&#xff0c;从左到右&#xff0c;根节点为1号节点&#xff0c;设完全二叉树的节点数为sum&#xff0c;某节点编…

uniapp使用uni-forms表单校验无效

查看是否写了name属性&#xff0c;且name属性的属性值得和下面v-model绑定的一致&#xff0c;否则校验不生效 官网

一种解决常用存储设备无法被电脑识别的方法

一、通用串行总线控制器描述 通用串行总线&#xff08;Universal Serial Bus&#xff0c;简称USB&#xff09;&#xff0c;是连接电脑与设备的一种序列总线标准&#xff0c;也是一种输入输出&#xff08;I/O&#xff09;连接端口的技术规范&#xff0c;广泛应用于个人电脑和移动…

关于大模型学习中遇到的4

来源&#xff1a;网络 相关学习可查看文章&#xff1a;Transformer and Pretrain Language Models3-4​​​​​​​ 什么是MLP? MLP是多层感知器&#xff08;Multilayer Perceptron&#xff09;的缩写&#xff0c; 多层感知机&#xff08;MLP&#xff09;是一种人工神经网…

【C++】初步认识基于C的优化

C祖师爷在使用C语言时感觉到了不方便的一些点&#xff0c;于是一步一步改进优化&#xff0c;最后形成了C 本文将盘点一下基于C的语法优化 目录 命名空间&#xff1a;命名空间定义&#xff1a;命名空间使用&#xff1a; C输入&输出&#xff1a;cout&#xff1a;endl&#…

C语言每日一题(47)两数相加II

力扣 445 两数相加II 题目描述 给你两个 非空 链表来代表两个非负整数。数字最高位位于链表开始位置。它们的每个节点只存储一位数字。将这两数相加会返回一个新的链表。 你可以假设除了数字 0 之外&#xff0c;这两个数字都不会以零开头。 示例1&#xff1a; 输入&#xff…

(2024,强化学习,扩散,奖励函数)扩散模型的大规模强化学习

Large-scale Reinforcement Learning for Diffusion Models 公和众和号&#xff1a;EDPJ&#xff08;进 Q 交流群&#xff1a;922230617 或加 VX&#xff1a;CV_EDPJ 进 V 交流群&#xff09; 目录 0. 摘要 3. 方法 3.1. 使用多步骤 MDP 的策略梯度 3.2. 基于分布的奖励函…

2023 中国互联网公司 Top 100 排行榜

中国互联网协会发布了《中国互联网企业综合实力指数&#xff08;2023&#xff09;》报告&#xff0c;来源&#xff1a;https://www.isc.org.cn/article/18458024914186240.html 预览如下&#xff1a; 这份报告总结了互联网公司的排名&#xff0c;毫不意外&#xff0c;腾讯、阿里…

设计模式⑧ :管理状态

文章目录 一、前言二、Observer 模式1. 介绍2. 应用3. 总结 三、Memento 模式1. 介绍2. 应用3. 总结 四、State 模式1. 介绍2. 应用3. 总结 参考文章 一、前言 有时候不想动脑子&#xff0c;就懒得看源码又不像浪费时间所以会看看书&#xff0c;但是又记不住&#xff0c;所以决…

大势浏览器DasViewer的底图能否改为卫星底图?

支持的。官网3.2.4版本tif格式的影像图可以加进来。 DasViewer是由大势智慧自主研发的免费的实景三维模型浏览器,采用多细节层次模型逐步自适应加载技术,让用户在极低的电脑配置下,也能流畅的加载较大规模实景三维模型,提供方便快捷的数据浏览操作。 #DasViewer##实景三维##三…

写了7年代码,第一次见这么狗血的小Bug!

大家好&#xff0c;我是程序员鱼皮。 孽起 Bug 年年有&#xff0c;今年特别多。前段时间给大家分享过一个 特别坑的小 Bug&#xff0c;结果这两天我个倒霉蛋又遇到一个特别离谱的 Bug&#xff0c;有多离谱&#xff1f;大家可以看看视频&#xff1a;https://www.bilibili.com/vi…

23111 C++ day1

思维导图 提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数 要求使用C风格字符串完成 #include <iostream> #include<array>using namespace std;int main() {int a0,A0,num0,space0,other0;array<char…