Doc2Bow简介与实践Demo

Doc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。

1、BoW模型原理

Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档.。近年来,BoW模型被广泛应用于计算机视觉中。
基于文本的BoW模型的一个简单例子如下:
首先给出两个简单的文本文档如下:

    John likes to watch movies. Mary likes too.John also likes to watch football games.

基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

 {"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

上面的词典中包含10个单词, 每个单词有唯一的索引, 那么每个文本我们可以使用一个10维的向量来表示。如下:

     [1, 2, 1, 1, 1, 0, 0, 0, 1, 1][1, 1,1, 1, 0, 1, 1, 1, 0, 0]

该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率。
也是通过余弦定理计算两个句子的相似度。

2、实践Demo

import gensim
import jieba
# 训练样本
from gensim import corpora
from gensim.similarities import Similarity# fin = open("questions.txt",encoding='utf8').read().strip(' ')   #strip()取出首位空格
jieba.load_userdict("userdict.txt")
stopwords = set(open('stopwords.txt',encoding='utf8').read().strip('\n').split('\n'))   #读入停用词
raw_documents = ['0无偿居间介绍买卖毒品的行为应如何定性','1吸毒男动态持有大量毒品的行为该如何认定','2如何区分是非法种植毒品原植物罪还是非法制造毒品罪','3为毒贩贩卖毒品提供帮助构成贩卖毒品罪','4将自己吸食的毒品原价转让给朋友吸食的行为该如何认定','5为获报酬帮人购买毒品的行为该如何认定','6毒贩出狱后再次够买毒品途中被抓的行为认定','7虚夸毒品功效劝人吸食毒品的行为该如何认定','8妻子下落不明丈夫又与他人登记结婚是否为无效婚姻','9一方未签字办理的结婚登记是否有效','10夫妻双方1990年按农村习俗举办婚礼没有结婚证 一方可否起诉离婚','11结婚前对方父母出资购买的住房写我们二人的名字有效吗','12身份证被别人冒用无法登记结婚怎么办?','13同居后又与他人登记结婚是否构成重婚罪','14未办登记只举办结婚仪式可起诉离婚吗','15同居多年未办理结婚登记,是否可以向法院起诉要求离婚'
]
corpora_documents = []
for item_text in raw_documents:item_str = jieba.lcut(item_text)print(item_str)corpora_documents.append(item_str)
print(corpora_documents)
# 生成字典和向量语料
dictionary = corpora.Dictionary(corpora_documents)
corpus = [dictionary.doc2bow(text) for text in corpora_documents]
#num_features代表生成的向量的维数(根据词袋的大小来定)
similarity = Similarity('-Similarity-index', corpus, num_features=400)test_data_1 = '你好,我想问一下我想离婚他不想离,孩子他说不要,是六个月就自动生效离婚'
test_cut_raw_1 = jieba.lcut(test_data_1)print(test_cut_raw_1)
test_corpus_1 = dictionary.doc2bow(test_cut_raw_1)
similarity.num_best = 5
print(similarity[test_corpus_1])  # 返回最相似的样本材料,(index_of_document, similarity) tuplesprint('################################')test_data_2 = '家人因涉嫌运输毒品被抓,她只是去朋友家探望朋友的,结果就被抓了,还在朋友家收出毒品,可家人的身上和行李中都没有。现在已经拘留10多天了,请问会被判刑吗'
test_cut_raw_2 = jieba.lcut(test_data_2)
print(test_cut_raw_2)
test_corpus_2 = dictionary.doc2bow(test_cut_raw_2)
similarity.num_best = 5
print(similarity[test_corpus_2])  # 返回最相似的样本材料,(index_of_document, similarity) tuples

运行结果:
这里写图片描述

针对以上程序,你可以自定义词库和停用词来使最终的结果更好。

参考:https://blog.csdn.net/vs412237401/article/details/52238248

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SPOJ 694/705 后缀数组

思路&#xff1a; 论文题*n Σn-i-ht[i]1 就是结果 O(n)搞定~ //By SiriusRen #include <cstdio> #include <cstring> #include <algorithm> using namespace std; #define N 55555 int cases,n,cntA[N],cntB[N],A[N],B[N],rk[N],sa[N],tsa[N],ht[N]; char…

如何用余弦定理来进行文本相似度的度量

在做文本分析的时候&#xff0c;经常会到说将文本转化为对应的向量&#xff0c;之后利用余弦定理来计算文本之间的相似度。但是最近在面试时&#xff0c;重复上面这句话&#xff0c;却被面试官问到&#xff1a;“什么是余弦定理&#xff1f;”当时就比较懵逼&#xff0c;于是把…

Mongodb 备份和恢复

为什么80%的码农都做不了架构师&#xff1f;>>> Mongodb 备份和恢复 mongodump -h host -u "username" -p "userpass" -d dbname -o backfilename tar -cvzf backfilename.tar backfilename tar -xvzf backfilename.tar mongorestore -h…

【linux】Ubuntu 18.04 设置桌面快捷启动方式

使用Ubuntu终端进行打开&#xff1a; 方法一&#xff08;使用vim&#xff09;&#xff1a; sudo vi /usr/share/applications/pycharm.desktop 方法二&#xff08;使用gedit&#xff09;&#xff1a; sudo gedit /usr/share/applications/pycharm.desktop 然后就会弹出一个…

在 Pycharm下使Python2和Python3共用Anaconda中的各种库/包的解决方法

参考&#xff1a;https://www.cnblogs.com/MoonST/p/7610460.html 目录&#xff1a;前言&#xff1a;1、同时下载两个版本的anaconda2、主版本conda的安装3、辅助版本Anaconda的安装 目录&#xff1a; 前言&#xff1a; 最近在看一些机器学习方面的教程&#xff0c;里面的一…

MySQL安装和完全卸载-Linux ubantu18.04

MySQL数据库 千万不要安装5.7版本全是坑~&#xff01;&#xff01; 千万不要安装5.7版本全是坑~&#xff01;&#xff01; 千万不要安装5.7版本全是坑~&#xff01;&#xff01; ubantu18.04版本 正确道路应该是走安装MySQL 8.0&#xff1a; 第一步&#xff1a;更新文件…

机器学习中的数学基础相关知识总结

文章目录目录&#xff1a;前言&#xff1a;1、导数(曲线变化的快慢)、二阶导数&#xff08;曲线斜率变化的快慢特别是反映曲线的凸凹性&#xff09;的概念。2、常用的导数公式&#xff1a;3、微分和积分的数学含义&#xff1a;4、泰勒公式及含义5、梯度的概念及数学含义&#x…

特征工程

上周参加了学校的数据挖掘竞赛&#xff0c;总的来说&#xff0c;在还需要人工干预的机器学习相关的任务中&#xff0c;主要解决两个问题&#xff1a;&#xff08;1&#xff09;如何将原始的数据处理成合格的数据输入&#xff08;2&#xff09;如何获得输入数据中的规律。第一个…

Linux下快速安装MySQL教程

转自&#xff1a;https://blog.csdn.net/sl1992/article/details/53634674 目录&#xff1a;前言&#xff1a;1.执行yum install mysql-server进行安装2.输入y进行确认3.安装成功4.查看MySQL是否启动5.启动MySQL6.查看是否运行7.设置开机启动MySQL8.创建MySQL管理员root9.登录M…

UIView类绘图出现错误提示

一:问题: Jan 16 15:49:53 CUBOT Band Ⅲ[2082] <Error>: CGContextSetLineWidth: invalid context 0x0. If you want to see the backtrace, please set CG_CONTEXT_SHOW_BACKTRACE environmental variable. Jan 16 15:49:53 CUBOT Band Ⅲ[2082] <Error>: CGCo…

MySQL8.0版本和5.7通过Navicat远程连接

首先在数据库创建好连接的用户 进入mysql服务器终端&#xff1a; 命令窗口终端&#xff1a; mysql -u用户名 -p密码 sudo mysql -uroot -p 创建用户部分-- 使用mysql 数据库 USE mysql&#xff1b; -- 为mysql创建用户&#xff1a;root1 密码为&#xff1a;root1 …

HUE配置文件hue.ini 的zookeeper模块详解(图文详解)(分HA集群)

不多说&#xff0c;直接上干货&#xff01; 我的集群机器情况是 bigdatamaster&#xff08;192.168.80.10&#xff09;、bigdataslave1&#xff08;192.168.80.11&#xff09;和bigdataslave2&#xff08;192.168.80.12&#xff09; 然后&#xff0c;安装目录是在/home/hadoop/…

CF #366(div.2) C 模拟,思维

CF #366(div.2) C. Thor 题意&#xff1a;一个手机n个联系人&#xff0c;有q个操作。每次给出ty和ai&#xff0c;如ty1&#xff0c;表示收到ai的一条信息&#xff1b;如ty2&#xff0c;表示将ai发的信息都看掉&#xff1b;如ty3&#xff0c;表示将第1条到第ai条信息都看掉…

MySQL基本指令汇总

创建数据库&#xff1a; create database 数据库名字; 删除数据库: drop database 数据库名字; 查看数据库: show databases; 切换数据库: use databasename; select database(); Create table 表名&#xff08;列名 数据类型 [约束]&#xff0c;列名 数据类型 [约束]&a…

linux命令行在任意目录下启动任意的脚本的方法

目录&#xff1a;前言&#xff1a;1、直接在命令行中设置PATH2、在profile中设置PATH3、在当前用户的profile中设置PATH 目录&#xff1a; 前言&#xff1a; 这应该算是一个常识吧&#xff0c;但是对于许多像我们这样的新手来说&#xff0c;一旦你出点小差错&#xff0c;整个…

阿里云centos 安装和配置 DokuWiki

DokuWiki 是一个开源的 wiki 项目&#xff0c; 可方便进行知识和内容的管理和分享&#xff0c;不用安装数据库&#xff0c;内置权限管理&#xff0c;书写直观方便&#xff0c;有大量的插件支持。特别适用于企业内部的内容和知识管理&#xff0c;只允许内部员工编辑和查阅的场景…

python-爬虫

网络爬虫&#xff08;又被称为网页蜘蛛&#xff0c;网络机器人&#xff0c;在FOAF社区中间&#xff0c;更经常的称为网页追逐者&#xff09;&#xff0c;是一种按照一定的规则&#xff0c;自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟…

MySQL5.7升级到8.0 之后,配合ubantu18.04遇到的常规问题以及非常规问题的解决方案

从MySQL5.7升级到8.0后首先会发现在创建用户和授权大大不同&#xff1b;其次还有更多常规问题以及非常规问题的解决方案 写本篇博客记录踩过的坑 MySQL8.0配合ubantu18.04 一、创建用户和授权 在mysql8.0创建用户和授权和之前不太一样了&#xff0c;其实严格上来讲&#xf…

机器学习之数理统计与参数估计的相关知识总结

文章目录目录&#xff1a;1、知道期望/方差/偏度/峰度&#xff0c;独立和不相关等概念是什么。2、契比雪夫不等式3、大数定理/中心极限定理4、伯努利定理5、矩估计6、最大似然估计7、协方差和相关系数目录&#xff1a; 1、知道期望/方差/偏度/峰度&#xff0c;独立和不相关等概…

Angular属性型指令

2019独角兽企业重金招聘Python工程师标准>>> 属性型指令 — 改变元素、组件或其它指令的外观和行为的指令 属性性指令的创建步骤如下&#xff1a; import语句需要从 Angular 的core库导入的一些符号。 Directive提供Directive装饰器功能。 ElementRef注入到指令构造…