如何识别“答非所问”?使用gensim进行文本相似度计算

在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。

评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。

再比如知乎、贴吧等问答社区内问题下面有很多回复者,如何快速过滤掉与问题无关的回答或者垃圾广告??

那么Python 里面有计算文本相似度的程序包吗,恭喜你,不仅有,而且很好很强大。

使用gensim进行文本相似度计算

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf:term frequency 词频

idf:inverse document frequency 倒文档频率

主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

第一步:把每个网页文本分词,成为词包(bag of words)。

第三步:统计网页(文档)总数M。

第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)

第四步:重复第三步,计算出一个网页所有词的tf-idf 值。

第五步:重复第四步,计算出所有网页每个词的tf-idf 值。

3、处理用户查询

第一步:对用户查询进行分词。

第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。

学习目标:

  1. 利用gensim包分析文档相似度

  2. 使用jieba进行中文分词

  3. 了解TF-IDF模型

注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。

安装相关包

pip install jieba

pip install gensim

关于结巴分词,这里推荐

https://github.com/WenDesi/zhcnSegment

已经将主要功能封装好,包括添加自定义语料,添加停用词等,简单、易调用

首先引入分词API库jieba、文本相似度库gensim


import jieba
from gensim import corpora,models,similarities

以下doc0-doc7是几个最简单的文档,我们可以称之为目标文档,本文就是分析doc_test(测试文档)与以上8个文档的相似度。


doc0 = "我不喜欢上海"

doc1 = "上海是一个好地方"

doc2 = "北京是一个好地方"

doc3 = "上海好吃的在哪里"

doc4 = "上海好玩的在哪里"

doc5 = "上海是好地方"

doc6 = "上海路和上海人"

doc7 = "喜欢小吃"

doc_test="我喜欢上海的小吃"

分词

首先,为了简化操作,把目标文档放到一个列表all_doc中。


all_doc = []
all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
all_doc.append(doc4)
all_doc.append(doc5)
all_doc.append(doc6)
all_doc.append(doc7)

以下对目标文档进行分词,并且保存在列表all_doc_list中


all_doc_list = []for doc in all_doc:
doc_list = [word for word in jieba.cut(doc)]
all_doc_list.append(doc_list)

把分词后形成的列表显示出来:

print(all_doc_list)

[[‘我’, ‘不’, ‘喜欢’, ‘上海’],
[‘上海’, ‘是’, ‘一个’, ‘好’, ‘地方’],
[‘北京’, ‘是’, ‘一个’, ‘好’, ‘地方’],
[‘上海’, ‘好吃’, ‘的’, ‘在’, ‘哪里’],
[‘上海’, ‘好玩’, ‘的’, ‘在’, ‘哪里’],
[‘上海’, ‘是’, ‘好’, ‘地方’],
[‘上海’, ‘路’, ‘和’, ‘上海’, ‘人’],
[‘喜欢’, ‘小吃’]]

以下把测试文档也进行分词,并保存在列表doc_test_list中


doc_test_list = [word for word in jieba.cut(doc_test)]
doc_test_list

[‘我’, ‘喜欢’, ‘上海’, ‘的’, ‘小吃’]

制作语料库

首先用dictionary方法获取词袋(bag-of-words)

dictionary = corpora.Dictionary(all_doc_list)

词袋中用数字对所有词进行了编号

dictionary.keys()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

编号与词之间的对应关系

dictionary.token2id

{‘一个’: 4,
‘上海’: 0,
‘不’: 1,
‘人’: 14,
‘北京’: 8,
‘和’: 15,
‘哪里’: 9,
‘喜欢’: 2,
‘在’: 10,
‘地方’: 5,
‘好’: 6,
‘好吃’: 11,
‘好玩’: 13,
‘小吃’: 17,
‘我’: 3,
‘是’: 7,
‘的’: 12,
‘路’: 16}

以下使用doc2bow制作语料库


corpus = [dictionary.doc2bow(doc)
for doc in all_doc_list]

语料库如下。语料库是一组向量,向量中的元素是一个二元组(编号、频次数),对应分词后的文档中的每一个词。

[[(0, 1), (1, 1), (2, 1), (3, 1)],
[(0, 1), (4, 1), (5, 1), (6, 1), (7, 1)],
[(4, 1), (5, 1), (6, 1), (7, 1), (8, 1)],
[(0, 1), (9, 1), (10, 1), (11, 1), (12, 1)],
[(0, 1), (9, 1), (10, 1), (12, 1), (13, 1)],
[(0, 1), (5, 1), (6, 1), (7, 1)],
[(0, 2), (14, 1), (15, 1), (16, 1)],
[(2, 1), (17, 1)]]

以下用同样的方法,把测试文档也转换为二元组的向量


doc_test_vec = dictionary.doc2bow(doc_test_list)
doc_test_vec

[(0, 1), (2, 1), (3, 1), (12, 1), (17, 1)]

相似度分析

使用TF-IDF模型对语料库建模。

gensim包提供了这几个模型: TF-IDF、LSI 、LDA

因此我们直接拿来用就好


tfidf = models.TfidfModel(corpus)

#models.LsiModel()

#models.LdaModel()

获取测试文档中,每个词的TF-IDF值

tfidf[doc_test_vec]

[(0, 0.08112725037593049),
(2, 0.3909393754390612),
(3, 0.5864090631585919),
(12, 0.3909393754390612),
(17, 0.5864090631585919)]

对每个目标文档,分析测试文档的相似度


index = similarities.SparseMatrixSimilarity(tfidf[corpus],
num_features=len(dictionary.keys()))
sim = index[tfidf[doc_test_vec]]
sim


array([ 0.54680777, 0.01055349, 0. , 0.17724207, 0.17724207,
0.01354522, 0.01279765, 0.70477605], dtype=float32)

根据相似度排序

sorted(enumerate(sim), key=lambda item: -item[1])

[(7, 0.70477605),
(0, 0.54680777),
(3, 0.17724207),
(4, 0.17724207),
(5, 0.013545224),
(6, 0.01279765),
(1, 0.010553493),
(2, 0.0)]

从分析结果来看,测试文档与doc7相似度最高,其次是doc0,与doc2的相似度为零。大家可以根据TF-IDF的原理,看看是否符合预期。


原文发布时间为:2018-09-6

本文来自云栖社区合作伙伴“大数据挖掘DT机器学习”,了解相关信息可以关注“大数据挖掘DT机器学习”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/537914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

防抓包重放php,超简单最基本的WEB抓包改包重放的方法

【注意:此文章为博主原创文章!转载需注意,请带原文链接,至少也要是txt格式!】很多很多刚刚接触的同事问我如何抓包,如果讲用工具可能还涉及什么装证书,熟悉使用工具等等,特别繁琐&am…

mysql查询很慢优化方法1

解决方法: 关联的字段建索引。 具体分析如下:举例: 表格:培训学生表,班级报名表 需求:查询出学生报了哪些班级 两表有个关联字段“CD”(学生学号)。 视图sql: SELECTt_px…

ubuntu进行apt-get时候出现Package ssh is not available, but is referred to by another package 错误...

今天在ubuntu进行ssh安装的时候,出现如下错误。Reading package lists... Done Building dependency tree... Done Package ssh is not available, but is referred to by another package. This may mean that the package is missing, has been obsoleted, or is …

php找出函数定义位置,WordPress如何快速定位PHP函数所在文件位置及代码行号?

有时候我们需要修改别人源码里的代码,却找不到对应的函数放在了哪儿,就可以用使用本文介绍的办法,帮你快速定位函数位置。特别是某些写法不规范的WordPress主题,各种模块,函数到处放,找半天的那种。那么Wor…

微信公众号每次调用接口正确或错误的返回码

原文连接:https://blog.csdn.net/pansanday/article/details/65448868 ----------------------------------------- 公众号每次调用接口时,可能获得正确或错误的返回码,开发者可以根据返回码信息调试接口,排查错误。 全局返回码…

Phoenix:全局索引设计实践

概述 全局索引是Phoenix的重要特性,合理的使用二级索引能降低查询延时,让集群资源得以充分利用。 本文将讲述如何高效的设计和使用索引。 全局索引说明 全局索引的根本是通过单独的HBase表来存储数据表的索引数据。我们通过如下示例看索引数据和主表数据…

php 美颜,怀念以前无滤镜美颜的影视剧

滤镜是为了照片质量更高一些,色彩更真实突出的一种补助工具。自从有了美颜和滤镜后,大家的生活都变成了彩色。开了滤镜美颜,小伙伴们有木有感觉生活水平变高了?但影视剧,好像变成了单色?!(注意&…

select2控件动态更新option

原文连接:https://blog.csdn.net/u010784959/article/details/77893674 ----------------------------------------------------------------------------- 根据输入框中内容,动态更新select2组件中option内容 监听输入框内容变化事件,先销…

在Python中定义和使用抽象类的方法

https://www.jb51.net/article/87710.htm 像java一样python也可以定义一个抽象类。 在讲抽象类之前,先说下抽象方法的实现。 抽象方法是基类中定义的方法,但却没有任何实现。在java中,可以把方法申明成一个接口。而在python中实现一个抽象方法…

把 Rational Rose 的图表保存为图片文件

原文连接:https://blog.csdn.net/xiaobing_122613/article/details/56485456 ------------------------------------------------ Rational Rose 本身没有保存为 JPG/GIF 图片格式的功能。 1. 可以通过全选、复制、粘贴可以把图表直接粘贴到打开的 Word 文档里 …

lppl模型 matlab,对LPPL模型的思考

2013-05-10 16:19:29最近,LPPL模型在金融市场中的运用越来越广,LPPL模型认为金融市场处于自组织临界状态,泡沫的产生往往伴随着市场参与者之间行为的正反馈作用,泡沫也会因此越来越大,并在奇点处崩溃,详细介…

代码质量管理工具】——sonar

原文地址:https://blog.csdn.net/luckystar689/article/details/53871821 ------------------------------------------------------------------------ 【前言】 bug越改越多,程序一换数据就崩,这就是目前我们系统的一个现状。在这之前&am…

马凯军201771010116《面向对象程序设计(java)》第二周学习总结

第一部分:理论知识学习部分 (1)基本知识:简单应用程序的结构;Java环境里的注释方式; (2)数据类型(4种整型、2种浮点型、1种字符型‘char’、真值型‘Boolean’。 &#x…

【代码质量管理工具】-由sonar引发的思考

原文路径:https://blog.csdn.net/luckystar689/article/details/53968102 ---------------------------------------------------------------------------------------- 之前,在看《笑傲江湖》的时候,郭德纲在给一对夫妻的表演做评审的时候…

php curl 模拟多线程,php利用curl 多线程 模拟 并发的详解

php利用curl 多线程 模拟 并发的详解发布于 2014-12-07 10:17:25 | 265 次阅读 | 评论: 0 | 来源: 网友投递PHP开源脚本语言PHP(外文名: Hypertext Preprocessor,中文名:“超文本预处理器”)是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点&…

新版DAEMON Tools Lite打不开 bin 文件解决方法

DAEMON Tools Lite 支持打开 *.cue 解决方法很简单:将*.bin 重命名为 *.cue 就可以打开

Linux集群架构(LVS DR模式搭建、keepalived + LVS)

为什么80%的码农都做不了架构师?>>> LVS DR模式搭建 准备工作:三台机器 分发器,也叫调度器(简写为dir):192.168.248.128 rs1 :192.168.248.129 rs2 : 192.168.248.130 vip : 192.16…

java手机状态栏圆形图标,android实现状态栏添加图标的函数实例

本文实例讲述了android实现状态栏添加图标的函数。分享给大家供大家参考。具体如下:private void showNotification() {// 创建一个NotificationManager的引用NotificationManager notificationManager (NotificationManager)AutoFile.this.getSystemService(andro…

Windows下SVN回滚到旧版本(TortoiseSVN)

原文地址:https://www.cnblogs.com/tommy-huang/p/4729634.html ---------------------------------------- 当发现新提交的代码有问题,然后想将某个旧的版本作为最新的版本时,可以使用回滚, 操作步骤如下: 1. 签出…

看懂架构设计中的服务隔离

前言 我们在做系统架构设计的时候,经常离不开的一个话题就是进行服务的隔离设计。 那什么是「服务隔离」呢? 顾名思义,它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时…