计算多个文档之间的文本相似程度

首先我们上代码：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
'UNC played Duke in basketball',
'Duke lost the basketball game',
'I ate a sandwich'
]
vectorizer = CountVectorizer(binary=True,stop_words='english')#设置停用词为英语，这样就会过滤掉
#过滤掉a an the 等不必要的冠词，同时设定英语里的同种词的形式，单复数，过去式等为同样的词语
print(vectorizer.fit_transform(corpus).todense())
print(vectorizer.vocabulary_)

输出：

[[0 1 1 0 0 1 0 1][0 1 1 1 1 0 0 0][1 0 0 0 0 0 1 0]]
{'unc': 7, 'played': 5, 'duke': 2, 'basketball': 1, 'lost': 4, 'game': 3, 'ate': 0, 'sandwich': 6}

　前面三行的矩阵只有0和1两个值，每一个矩阵都有8个0或者1，这里说明了我们的词库当中一共有8个不同的英语词汇，由于之前我们使用了代码：

vectorizer = CountVectorizer(binary=True,stop_words='english')#设置停用词为英语，这样就会过滤掉
#过滤掉a an the 等不必要的冠词，同时设定英语里的同种词的形式，单复数，过去式等为同样的词语

因此我们已经过滤掉了a an tne 这种英语里的冠词，每一个名次的单复数，动词的过去，过去完成时等词，比如说我们的play和played计算机就会默认为是同一个词了，真的神奇。

后面的输出0和1表示了所有词库当中的某一个词是否出现，我们所有的词汇的所对应的数值已经计算出：

{'unc': 7, 'played': 5, 'duke': 2, 'basketball': 1, 'lost': 4, 'game': 3, 'ate': 0, 'sandwich': 6}

　在每一句话当中，出现就记为1，不出现则记为0，这就是上述矩阵的含义了。最后我们通过sklearn库当中的函数来计算这三个句子特征向量的欧式距离，其实就是把我们的矩阵拿来计算，计算的公式如下：

代码如下：

from sklearn.metrics.pairwise import euclidean_distances
counts = vectorizer.fit_transform(corpus).todense()
for x,y in [[0,1],[0,2],[1,2]]:dist = euclidean_distances(counts[x],counts[y])print('文档{}与文档{}的距离{}'.format(x,y,dist))

因此我们有输出：

文档0与文档1的距离[[2.]]
文档0与文档2的距离[[2.44948974]]
文档1与文档2的距离[[2.44948974]]

　说明文档2和文档1、0的相似程度是一样的。

转载于:https://www.cnblogs.com/geeksongs/p/11189136.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/461928.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

计算多个文档之间的文本相似程度

相关文章

判断操作系统的位数

几个ubuntu16.04镜像下载地址

转】未指定 INSTANCESHAREDWOWDIR 命令行值。如果指定INSTANCESHAREDDIR 值，则必须指定该值 ....

C#使用StreamReader类读取文件文件

三种不使用中间参数，交换两个参数的值的方法

双边滤波

java代码做repeat次运算，从键盘输入几个数，比最值

与C语言有关的面试题目

用SQL语句更改数据库名，表名，列名

将区块链哈希转化为文字标题？IPSE哈希技术Hashlink解释

Gabor滤波器原理

Linux中的MAN命令

java程序调用Oracle 存储过程获取返回值(无返回，非结果集，结果集)

jeecms附件标签用法

递归的理解

点云配准

支持多并发的单例有哪几种写法

兼容各种浏览器的自动左右滚动兼左右点击滚动代码

同步数据库仅在Worker内，目前只有Chrome6支持

全局曝光和卷帘曝光的区别