利用SVD-推荐未尝过的菜肴2

推荐未尝过的菜肴-基于SVD的评分估计

实际上数据集要比我们上一篇展示的myMat要稀疏的多。

from numpy import linalg as la
from numpy import *
def loadExData2():return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],[0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],[0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],[3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],[5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],[0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],[4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],[0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],[0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],[0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],[1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

一、计算一下到底有多少个奇异值能达到总能量的90%(下一篇我们将用一个函数实现该功能)

U, Sigma, VT = la.svd(mat(loadExData2()))
Sigma
array([15.77075346, 11.40670395, 11.03044558,  4.84639758,  3.09292055,2.58097379,  1.00413543,  0.72817072,  0.43800353,  0.22082113,0.07367823])
总能量:
Sig2 = Sigma ** 2 
sum(Sig2)
541.9999999999995
总能量的90%:
sum(Sig2) * 0.9
487.7999999999996
计算前两个元素所包含的能量:
sum(Sig2[:2])
378.8295595113579
该值低于总能量的90%,计算前三个元素所包含的能量:
sum(Sig2[:3])
500.5002891275793
该值高于总能量的90%,我们将一个11维的矩阵转换成一个三维的矩阵,下面对转换后的三维空间构造出一个相似度计算函数

二、相似度计算(欧式距离、皮尔逊相关系数、余弦相似度)

# 相似度计算
# 计算欧式距离
def ecludSim(inA, inB):return 1.0 / (1.0 + la.norm(inA - inB))# pearsim()函数会检查是否存在3个或更多的点
# corrcoef直接计算皮尔逊相关系数,范围[-1, 1],归一化后[0, 1]
def pearsSim(inA, inB):# 如果不存在,该函数返回1.0,此时两个向量完全相关if len(inA) < 3:return 1.0return 0.5 + 0.5 * corrcoef(inA, inB, rowvar=0)[0][1]# 计算余弦相似度,如果夹角为90度,相似度为0;如果两个向量的方向相同,相似度为1.0
def cosSim(inA, inB): num = float(inA.T * inB)denom = la.norm(inA) * la.norm(inB)return 0.5 + 0.5 * (num / denom)

三、基于SVD的评分估计

# 基于SVD的评分估计
# 在recommend()中,这个函数用于替换对standEst()的调用,该函数对给定用户、给定物品构建了一个评分估计值
def svdEst(dataMat, user, simMeas, item):"""svdEst()Args:dataMat  训练数据集user     用户编号simMeas  相似度计算方法item     未评分的物品编号Returns:ratSimTotal / simTotal   评分(0~5之间的值)"""# 物品数目n = shape(dataMat)[1]# 对数据集进行SVD分解simTotal = 0.0ratSimTotal = 0.0# 奇异值分解# 在SVD分解之后,我们只利用包含了90%能量值的奇异值,这些奇异值会以Numpy数组的形式得以保存U, Sigma, VT = la.svd(dataMat)# 如果要进行矩阵运算,就必须要用这些奇异值构建出一个对角矩阵Sig4 = mat(eye(4) * Sigma[: 4])# 利用U矩阵将物品转换到低维空间中,构建转换后的物品xformedItems = dataMat.T * U[:, :4] * Sig4.I# 对于给定的用户,for循环在用户对应行的元素上进行遍历# 这和standEst()函数中的for循环的目的一样,只不过这里的相似度计算是在低维空间下进行的for j in range(n):userRating = dataMat[user, j]if userRating == 0 or j == item:continue# 相似度的计算方法也会作为一个参数传递给该函数similarity = simMeas(xformedItems[item, :].T, xformedItems[j, :].T)# 对相似度不断累加求和simTotal += similarity# 对相似度及对应评分值的乘积求和ratSimTotal += similarity * userRatingif simTotal == 0:return 0else:# 计算估计评分return ratSimTotal/simTotal

四、排序获取最后的推荐结果

# recommend()函数,就是推荐引擎,它默认调用 svdEst()函数,产生了最高的N个推荐结果
# 如果不指定N的大小,则默认值为3,该函数另外的参数该包括相似度计算方法和估计方法
def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=svdEst):"""recommend()Args:dataMat 训练数据集user    用户编号simMeas 相似度计算方法estMethod 使用的推荐算法Returns:返回最终N个推荐结果"""# 寻找未评级的物品# 对给定用户建立一个未评分的物品列表unratedItems = nonzero(dataMat[user, :].A == 0)[1]# 如果不存在未评分物品,那么就退出函数if len(unratedItems) == 0:return 'you rated everything'# 物品的编号和评分值itemScores = []for item in unratedItems:# 获取 item 该物品的评分estimatedScore = estMethod(dataMat, user, simMeas, item)itemScores.append((item, estimatedScore))# 按照评分得分,进行逆排序,获取前N个未评级物品进行推荐return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[: N]
myMat = mat(loadExData2())
recommend(myMat, 1, simMeas=pearsSim)
[(4, 3.346952186702173), (9, 3.33537965732747), (6, 3.3071930278130366)]
这表明用户1(从0开始计数,对应是矩阵第2行),对物品4的预测评分为3.34,对物品9预测评分为3.33,对物品6预测评分为3.30
试试另一种相似度
recommend(myMat, 1, simMeas=cosSim)
[(4, 3.344714938469228), (7, 3.3294020724526967), (9, 3.3281008763900686)]

 

转载于:https://www.cnblogs.com/gezhuangzhuang/p/10205284.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449879.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在图像中截取小图并保存

实现以横向步长step_row、纵向步长step_col&#xff0c;在一幅大图上剪裁宽度为width、高度为height的小图像&#xff0c;图像命名形式为“数字(递增)_大图名”格式&#xff0c;将小图保存在argv[6]的文件夹中。 #include <opencv2/opencv.hpp> #include <string> …

Linux 文件与目录管理、ls、cd、pwd、mkdir、rmdir、cp、 rm

见&#xff1a;http://www.runoob.com/linux/linux-file-content-manage.html我们知道Linux的目录结构为树状结构&#xff0c;最顶级的目录为根目录 /。 其他目录通过挂载可以将它们添加到树中&#xff0c;通过解除挂载可以移除它们。 在开始本教程前我们需要先知道什么是绝对路…

软件设计的真谛

假设我们身边的一切都是用制造材料加以描述的&#xff1a;“空调”不是“空调”&#xff0c;而是“由金属和塑料做成的物体”&#xff1b;“书”不是“书”&#xff0c;而是“由纤维和墨做成的物体”。沟通时我们也不用“空调”和“书”这样的词汇&#xff0c;而是“金属和塑料…

脱单特质

1.上进心 所有人都想过好日子&#xff0c;物质不行&#xff0c;一定要有上进心&#xff0c;可以做出未来给予 2.外在形象 注重打理外在形象&#xff0c;所有人都是爱美的 3.无法控制自己&#xff0c;同时不去了解女生 控制住自己&#xff0c;才有更多的时间去了解和思考女…

云栖社区云栖号(团队博客)攻略【2018版】

云栖社区云栖号是什么&#xff1f; 这是一个为技术团队打造的专区&#xff08;小站&#xff09;&#xff0c;团队成员的技术文章将在这里汇总&#xff0c;可以帮助团队沉淀优质技术内容、打造技术品牌和影响力等。 云栖号申请条件 点击https://yq.aliyun.com/teams页面右侧的【…

1030 完美数列 (25 分)二分

1030 完美数列 &#xff08;25 分&#xff09;给定一个正整数数列&#xff0c;和正整数 p&#xff0c;设这个数列中的最大值是 M&#xff0c;最小值是 m&#xff0c;如果 M≤mp&#xff0c;则称这个数列是完美数列。 现在给定参数 p 和一些正整数&#xff0c;请你从中选择尽可能…

两性位置

男生不被女生当回事&#xff0c;在自己身上&#xff0c;需要从自身找原因 1.过度看重对方&#xff0c;会让对方看轻自己 2。气场比较弱&#xff0c;本身实力弱&#xff0c;会让对方俯视自己 3.太过善良&#xff0c;一昧迁就&#xff0c;会导致自己失去生活重心&#xff0c;让…

高质高效软件开发组织能力模型

背景至今&#xff0c;我在Motorola网络部工作超过了5年&#xff0c;所在的产品线也是采用统一软件开发过程和敏捷思想(但不是SCRUM)来组织软件开发活动的&#xff0c;但这5年多的工作经历从未引起我象微博上对于SCRUM话题的激烈讨论这样的思考。原因之一可能是&#xff0c;公司…

python并发编程之多线程

多线程 线程 1.什么是线程 进程是一个执行空间 , 线程就是其中真正工作的单位 , 每一个进程至少有一个线程(如果我们把操作系统比喻为一个工厂 , 进程就是车间 , 线程就是流水线) 进程包含了运行该程序所需要所有资源 , 进程是一个资源单位 , 线程是CPU的最小执行单位 每一个进…

JavaScript几个难点

1. 立即执行函数 立即执行函数&#xff0c;即Immediately Invoked Function Expression (IIFE)&#xff0c;正如它的名字&#xff0c;就是创建函数的同时立即执行。它没有绑定任何事件&#xff0c;也无需等待任何异步操作&#xff1a; (function() { // 代码 // ...})(); f…

真格量化学习

真格量化学习使用 期权的量化回测 引入必须的库: from PoboAPI import * import datetime import time import numpy as np初始化参数设定 以50为例 def OnStart(context) :print("I\m starting...")#设定一个全局变量品种,本策略交易50ETF期权g

智能小程序档案馆——如何给“包”瘦身

上传小程序代码的时候包体积太大不知如何是好&#xff1f;小程序打开速度慢&#xff0c;流量耗费大不知如何优化&#xff1f;在今天的文章里&#xff0c;我们一起来讨论一下如何给“包”瘦身。 为什么要限制包的大小&#xff1f; 我们都知道小程序作为一种 Hybrid 的解决方案&a…

软件架构师的能力与特质

软件开发工程师的职业发展无非两大类&#xff1a;一是做“官”&#xff0c;从事管理工作&#xff1b;二则继续从事技术工作。对于后者&#xff0c;软件架构师&#xff08;software architect&#xff09;是很多软件开发工程师追求的理想岗位。在这我想谈一谈软件架构师所需的几…

IntelliJ IDEA编码设置

见&#xff1a;https://www.cnblogs.com/winner-0715/p/6364306.html项目中为了避免乱码等问题应该使用UTF-8编码方式,其实把编码方式设置成UTF-8是创建完项目后就要做的事,按照如图所示进行设置&#xff1a;这里要将Transparent native-to-ascii conversion选项勾选, 否则项目…

C#实现像微信PC版一样的扫码登录功能

现在好些网站都支持扫码登录,感觉上安全了很多,但是本地程序扫码登录的不多,就用C#实现了一下,需要作如下准备 在官网上申请一个企业微信,有条件的话做个企业认证吧,我们的是认证过的,所以账号和本地其他系统的账号是统一的.在应用中创建一个应用,这个是关键,我们扫码就是和它有…

JVM(一)史上最佳入门指南

2019独角兽企业重金招聘Python工程师标准>>> 提到Java虚拟机&#xff08;JVM&#xff09;&#xff0c;可能大部分人的第一印象是“难”&#xff0c;但当让我们真正走入“JVM世界”的时候&#xff0c;会发现其实问题并不像我们想象中的那么复杂。唯一真正令我们恐惧的…

如何成为一个技术“牛人”

今天给浙江大学过来的几个还没有毕业的研究生做面试&#xff0c;这些研究生是想来公司实习的。在面试的过程中&#xff0c;一个学生问我“我们有C/C、JAVA等等多种语言&#xff0c;我如何才能成为某一方面的一个技术牛人呢&#xff1f;这一问题一直困扰着我”&#xff0c;对于这…

python量化数据处理小细节(以后还会不断补充)

使用tushare数据源获取数据后处理 以下都是本人在获得数据后&#xff0c;进行量化回测时&#xff0c;处理数据遇到的各种坑以及解决方案&#xff0c;有些甚至都很幼稚&#xff0c;切勿嘲笑 获取数据 导包 import tushare as ts import pandas as pd import matplotlib #(ju…

Linux find和grep的区别

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 grep是查找文件中匹配条件的行&#xff0c;find是搜索匹配条件的文件。 1.find:查找文件或目录语法: find 查找位置 文件名或目录名如:在…

Mysql 忘记密码重置教程

https://jingyan.baidu.com/article/454316ab4e9e65f7a7c03ad1.html 百度经验转载于:https://www.cnblogs.com/leaf-cq/p/10410694.html