数据挖掘——相似文章推荐

  相似文章推荐:在用户阅读某篇文章时,为用户推荐更多的与在读文章内容相类似的文章

  相关概念:

推荐(Recommended):指介绍好的人或事物,希望被任用或接受。数据挖掘领域,推荐包括相似推荐和协同过滤推荐。

相似推荐(Similar Recommended): 指当用户表现出对某人或者某物的兴趣时,为他推荐与之相类似的人或者物,核心定理:人以群分,物以类聚。

协同过滤推荐(Collaborative Filtering Recommendation):指利用已有用户群过去的行为或意见,预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣

相关文章推荐主要基于余弦相似度的计算原理。

余弦相似度(Cosine Similarity):用向量空间中两个向量夹角的余弦值作为衡量两个个体见差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这个特征叫做余弦相似性。

          

 

文章的余弦相似度:

素材:文章A、文章B

#对两篇文章进行分词,  得到  [A] 、 [B]  两个分词列表

#根据分词结果构建分词语料库,得到 [C] = [A] | [B] 

#根据语料库分别统计A、B的词频(向量化,需要严格按照分词语料库单词的顺序)

#计算余弦值

 

具体实现:在构建语料库/中文分词/文档向量化之后

#计算余弦相似度
from sklearn.metrics import pairwise_distances 
#计算每行之间的距离,得到距离矩阵
distance_matrix = pairwise_distances(textVector,metric='cosine')#排序得到距离第2-6名的矩阵元素
sort = np.argsort(distance_matrix,axis=1)[:,1:6]
similar5 = pd.Index(filepath)[sort].values#得到相似度前5的文章路径数据框
similarDF = pd.DataFrame({'filepath':corpos.filePath,'s1':similar5[:,0],'s2':similar5[:,1],'s3':similar5[:,2],'s4':similar5[:,3],'s5':similar5[:,4],})

 

转载于:https://www.cnblogs.com/rix-yb/p/9720999.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/537784.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win10投影无法正常使用:我们正在确认此功能 解决方法

鼠标移动到开始按钮,右键----- windows powershell(管理员) 输入命令: netsh winsock reset 然后重启电脑,问题解决

青海师大c语言研究生专业课,2016年青海师范大学计算机应用技术C语言程序设计考研复试题库...

一、选择题1. 有如下程序:程序运行后的输出结果是( )。答:C【解析】题目中判断if 条件是否成立,后a 自增 得if 条件不成立执行else 函数体,输出F 。最后执行语句故C 选项正确。 按照格式输出2. 有如下程序:先取值为0, …

产品经理和项目经理的差别

原文地址:https://blog.csdn.net/verifocus/article/details/79219539 --------------------------------------------------------------------- 项目经理与产品经理的区别,用一句话概括就是:产品经理是做正确的事情,项目经理是…

c语言设计一个按时间片轮转法实现处理器调度的程序,设计一个按时间片轮转法实现处理器调度的程序...

实验一处理器调度一、实习内容选择一个调度算法,实现处理器调度。;二、实习目的在采用多道程序设计的系统中,往往有若干个进程同时处于就绪状态。当就绪进程个数大于处理器数时,就必须依照某种策略来决定哪些进程优先占用处理器。…

Perl的浅拷贝和深度拷贝

首先是深、浅拷贝的概念: 浅拷贝:shallow copy,只拷贝第一层的数据。Perl中赋值操作就是浅拷贝深拷贝:deep copy,递归拷贝所有层次的数据,Perl中Clone模块的clone方法,以及Storable的dclone()函…

程序员分析报告(2018)-总结篇

一、生活中的程序员 居住篇 在主要职业群体中,程序员更倾向于租房,20.9%的受访程序员目前自己有房,此比例明显低于其他职业。大概是因为程序员大部分还比较 年轻,传说中的超高薪水并不能让很多人拥有自己的房子而更长的工作…

linux lvm 查看,Linux LVM 详解

逻辑卷管理LVM是一个多才多艺的硬盘系统工具。无论在Linux或者其他类似的系统,都是非常的好用。传统分区使用固定大小分区,重新调整大小十分麻烦。但是,LVM可以创建和管理“逻辑”卷,而不是直接使用物理硬盘。可以让管理员弹性的管…

cnblogs修改网站图标icon

以下修改网络地址即可 <script type"text/javascript" language"javascript">//Setting ico for cnblogsvar linkObject document.createElement(link);linkObject.rel "shortcut icon";linkObject.href "icon的网络地址";do…

maven settings.xml国内仓库配置

<?xml version"1.0" encoding"UTF-8"?> <settings xmlns"http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/SETTINGS/1.…

智慧园区-楼宇建模技巧之【建楼篇】

一、国际惯例先上图 二、有什么用&#xff1f;用什么搞的&#xff1f;花了多久&#xff1f; 用途 室内定位(会议室、停车位查找等)安防监控(直接定位到某个楼道的摄像头拉取视频流)各种传感器数据三维可视化请问哪里可以买到呢(含笑半步癫2333) 我这里正好有一个。https://iot.…

android meta工具,android ota 升级包制作分析 (5 工具)

工具1 mkbootfsmkbootfs的源代码在system/core/cpio中。??mkbootfs -f boot_filesystem_config.txt targetfiles/BOOT/RAMDISK | minigzip > ramdisk.img2 mkbootimgmkbootimg的源代码在system/core/mkbootimg中。mkbootimg --kernel kernel --ramdisk ramdisk.img --outp…

asp.net core输出中文乱码的问题

原文:asp.net core输出中文乱码的问题 摘要 在学习asp.net core的时候&#xff0c;尝试在控制台&#xff0c;或者页面上输出中文&#xff0c;会出现乱码的问题。 问题重现 新建控制台和站点 public class Program{public static void Main(string[] args){ Console.W…

android oom工具,Android OOM-Heap,MAT工具检测内存泄露

概述在android的开发中&#xff0c;要时刻主要内存的分配和垃圾回收&#xff0c;因为系统为每一个dalvik虚拟机分配的内存是有限的&#xff0c;在google的G1中&#xff0c;分配的最大堆大小只有16M&#xff0c;后来的机器一般都为24M&#xff0c;实在是少的可怜。这样就需要我们…

windows 端微信多开

假设微信安装目录为 "E:\Program Files\WeChat\WeChat.exe" 打开记事本&#xff0c;复制一下命令&#xff0c;保存为 bat 文件 echo off start /d "E:\Program Files\WeChat\" WeChat.exe start /d "E:\Program Files\WeChat\" WeChat.exe exi…

超详细MFS网络分布式文件系统

-----------------------MFS---------------------- (1)分布式原理 分布式文件系统( Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上&#xff0c;而是通过计算机网络与节点相连。简单来说&#xff0c;就是把一些分散的(分布在局域网内各个…

markdown文件转word文件

工具&#xff1a; https://github.com/jgm/pandoc/releases/tag/2.2.3.2 下载pandoc安装包之后&#xff0c;像安装普通软件一样点开安装就可以了。安装完成之后&#xff0c;打开cmd命令行&#xff0c;输入pandoc -v&#xff0c;如果正常显示出类似下面的信息就表明安装成功&a…

android全面屏系统哪个版本开始,Android全面屏

所谓全面屏手机&#xff0c;就是屏幕纵横比大于1.86的设备。例如&#xff1a;举个例子.png官方文档&#xff1a;If your app targets Android 8.0 (API level 26) or higher, it fills the entire screen, according to its layout.If your app targets Android 7.1 (API level…

AliOS Things声源定位应用演示

摘要&#xff1a; 1. 概述 利用麦克风阵列进行声源定位在智能降噪、语音增强、语音识别等领域有广泛应用和研究前景。本文介绍基于AliOS Things STM32F413H Discovery开发板实现声源定位算法集成和功能演示。 概述利用麦克风阵列进行声源定位在智能降噪、语音增强、语音识别等…

Mysql 使用正则表达式

需求&#xff1a;匹配出姓名字段里非中文的 SELECT * FROM 表 WHERE REAL_NAME REGEXP ([\\u4e00-\\u9fa5]{1,20}|[a-zA-Z\\.\\s]{1,20}) ; 查询结果如下

Android点击返回键销毁自己,Activity界面销毁 软键盘未收回

在项目开发过程中&#xff0c;界面包含EditText输入框时&#xff0c;输入内容时软键盘弹起。但是此时我们调用界面中自定义的返回按钮执行.finish()方法销毁Activity后发现软键盘并没有跟随关闭收回&#xff0c;参考了网上各种方法后&#xff0c;试验总结出自己项目中可用的方案…