lda 可以处理中文_中文分词(jieba)和语料库制作(gensim)

bb0d7fe1ab55b7b6a5fa9710417bd51d.png

本文的内容为以下两个部分:

  1. 文本分词(jieba)
  2. 语料库制作(gensim)

结巴(jieba)分词

在自然语言处理领域中,分词和提取关键词都是对文本处理时通常要进行的步骤。用Python语言对英文文本进行预处理时可选择NLTK库,中文文本预处理可选择jieba库。结巴分词是基于统计的分词方法,它对给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。

jieba分词的三种模式:

  • 精确模式:将句子最精确的分开,适合文本分析
  • 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义
  • 搜索引擎模式:在精确的基础上,对长词再次切分,提高召回

结巴分词的其他特点诸如:支持繁体分词,支持自定义词典,基于Trie树结构实现高效的词图扫描,采用了动态规划查找最大概率路径等特点。

jieba库中分词函数

1、jieba.cut()方法
参数string:需要接受分词的字符串。
参数cut_all:控制是否采用全模式分词发,参数为True时表示采用全模式。
参数HMM:控制是否使用HMM模型,参数为True时表示使用HMM模型。

2、jieba.cut_for_search()
参数string:需要接受分词的字符串。
参数HMM:控制是否使用HMM模型,参数为True时表示使用HMM模型。

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语。jieba.lcut和jieba.lcut_for_search参数和上面两个方法一致但返回的是一个list。

import jiebastring='上海市浦东新区世纪大道100号楼501'#精准模式
text_cut=jieba.cut(string)
print(" ".join(text_cut))#全模式
text_cut=jieba.cut(string,cut_all=True)
print(" ".join(text_cut))#搜索模式
text_cut=jieba.cut_for_search(string)
print(" ".join(text_cut))

三种模式的输出结果:

精准模式:上海市浦东新区 世纪 大道 100 号楼 501

全模式:上海 上海市 上海市浦东新区 海市 浦东 浦东新区 新区 世纪 纪大 大道 100 号 楼 501

搜索引擎模式:上海 海市 浦东 新区 上海市 上海市浦东新区 世纪 大道 100 号楼 501

jieba分词自定义字典

在使用jieba时,用户除了直接对文本进行分词外,还可以自行添加新词,已达到优化分词效果的目的。

1、加载自定义字典jieba.load_userdict()
参数filename:为文件类对象或自定义词典的路径
词典格式分为3个部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。

2、从字典中添加或删除词汇add_word、del_word
add_word(word,freq=None,tag=None),add_word有3个参数,添加词名称,词频,词性
del_word(word),del_word只有一个参数词语名称

3、词频调整suggest_freq
suggest_freq(segment,tune=True)
调节单个词语的词频,可以使其能(或不能)被分出来,词频越高在分词时,能够被分出来的概率越大。

import jieba#载入自定义词典
jieba.load_userdict('word_dict.txt')#查看用户自定义词典中的内容
print(jieba.user_word_tag_tab)#往自定义词典中添加新词
jieba.add_word('人民广场',freq=5,tag='n')#添加新词后的结果
print(jieba.user_word_tag_tab)string='上海市浦东新区世纪大道100号楼501'
text_cut=jieba.cut(string)
print(" ".join(text_cut))#调整词频,重新分词
jieba.suggest_freq(('上海市','浦东新区'),tune=True)
text_cut=jieba.cut(string)
print(" ".join(text_cut))

输出结果:

载入词典内容:{'世纪大道': 'n', '浦东新区 2 ': 'n', '世纪公园 3 ': 'n'}

添加新词后:{'世纪大道': 'n', '浦东新区 2 ': 'n', '世纪公园 3 ': 'n', '人民广场': 'n'}

结巴原始字典库,分词结果:上海市浦东新区 世纪 大道 100 号楼 501

使用自定义词典后,分词结果:上海市浦东新区 世纪大道 100 号楼 501

调整词频后,分词结果:上海市 浦东新区 世纪大道 100 号楼 501

Gensim

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。

相关概念

  • 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。
  • 向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。在向量空间模型中,每个文档被表示成了一组特征,比如,一个单一的特征可能被视为一个问答对。
  • 稀疏向量(SparseVector):通常,大部分问题的答案都是0,为了节约空间,我们会从文档表示中省略他们,向量中的每一个元素是一个(key, value)的元组,比如(1,3),(2,4),(5,0),其中(5,0)是一个稀疏向量,在表示是会被忽略。
  • 模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

把几个概念组织起来表述:gensim可以通过读取一段语料,输出一个向量,表示文档中的一个词。为了节约空间,通常稀疏的词向量会被忽略,剩下的词向量则可以用来训练各种模型,即从原有的文本表达转向另一种文本表达。

语料库制作

语料库制作主要包含两个过程:
获取词袋:本文主要来自于结巴分词结果
向量转换:对获取的词袋进行向量转换

1、获取词袋函数 gensim.corpora.Dictionary()
gensim.corpora.dictionary.Dictionary可以为每个出现在语料库中的单词分配了一个独一无二的整数编号id。这个操作收集了单词计数及其他相关的统计信息。

import jieba
import gensimprint(jieba.user_word_tag_tab)
string=['上海市浦东新区世纪大道100号楼501','上海市世纪大道100号楼501']texts_list=[]
for sentence in string:sentence_list=[ word for word in jieba.cut(sentence)]texts_list.append(sentence_list)dictionary=gensim.corpora.Dictionary(texts_list)
print(dictionary)
print(dictionary.token2id)

输出结果:
Dictionary(7 unique tokens: ['100', '501', '上海市浦东新区', '世纪', '号楼']...)
{'100': 0, '501': 1, '上海市浦东新区': 2, '世纪': 3, '号楼': 4, '大道': 5, '上海市': 6}

第一行结果告诉我们语料库中有7个不同的单词,这表明每个文档将会用7个数字表示(即7维向量)。
第二行结果是查看单词与编号之间的映射关系。

2、向量转换 dictionary.doc2bow()

函数doc2bow() 简单地对每个不同单词的出现次数进行了计数,并将单词转换为其编号,然后以稀疏向量的形式返回结果。

corpus = [dictionary.doc2bow(doc) for doc in texts_list]
print(corpus)

输出结果:
[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1)], [(0, 1), (1, 1), (3, 1), (4, 1), (5, 1), (6, 1)]]

以上结果中,表示两个字符串中,每个词的id以及它对应的出现频次,比如第一个元组(0,1)代表的是编号为0的词在第一个字符串中出现一次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/499103.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js时间搓化为今天明天_秋冬国产搓背神器!360°无死角,让你搓背不求人,太舒服了...

秋冬国产搓背神器!360无死角,让你搓背不求人,太舒服了!夏季悄然离去,秋季快步走来,距离冬季也不远了~天气变冷以后,下班、放学回家了最惬意不过的就是洗个澡,如果泡完澡再搓个背&…

用html制作广告图片切换效果,基于jquery实现图片广告轮换效果代码

效果图:实现代码:hotmarquee*{margin: 0;padding: 0;}body{font: 12px;padding-top: 50px;padding-right: 200px;padding-bottom: 100px;padding-left: 200px;}ul{list-style: none;}img{padding: 2px;border: 1px solid #eee;}a{outline: none;}#imgs{width: 410px;margin-rig…

matplotlib柱状图上方显示数据_Python数据分析matplotlib可视化之绘图!

Matplotlib是一个基于python的2D画图库,能够用python脚本方便的画出折线图,直方图,功率谱图,散点图等常用图表,而且语法简单。Python中通过matplotlib模块的pyplot子库来完成绘图。Matplotlib可用于创建高质量的图表和…

应付账款账龄分析模板_企业财务报表分析论文应如何着手?

首先是企业的选择,最好选取上市公司进行分析,上市公司的财务数据比较透明,完全可以从新浪财经、中国证券网等平台获得详尽的报表数据资料,一般选取近三到五个年度。有了数据就可以着手分析了,我们可以从下面几个方法入…

dbeaver导入excel文件_PyQT5练习:制作Excel文件导入MySQL窗口

本文环境配置:系统>windows10:64位工具>PyCharm:2018.3.1语言>Python:3.7.1第三方库PyQT5:5.11.3pyqt5-tools:5.11.3.1.4PyMySQL:0.9.3openpyxl:2.5.12练手:制作…

编程中的蛇形填空问题_PCB—蛇形线的作用,这次真的是把你搞懂了

经常能看到论坛里有人在问蛇形线的问题。平时我们能看到蛇形线的地方大都是一些高速高密度板,好像带有蛇形线的板子就更高级,会画蛇形线就是高手了。网上关于蛇形线的文章也有很多,总感觉有些帖子的内容会误导新手,给人们带来困扰…

html5控制gif速度,gif加速软件 教你加快GIF图片的播放速度

一位狸友在编辑GIF动态图片时碰到了一个问题,就是不知怎么把GIF动画的播放速度加快(或减慢)。如果你也正巧碰到此类疑问或想知道GIF加速的方法,可以接着往下看哦。其实先理解了GIF动画的原理,并找对合适的gif编辑软件,解决这问题并…

android studio mvvm模板生成_使用Vue快速生成shape背景图

写在前面在日常的Android开发之中,我们通常都会根据UI图去手动创建shape或者selector背景图,虽说创建起来很简单,但是未免也会感到繁琐,因此也研究了一些这方面的知识,包括自定义shapedrawable、dataBinding&#xff0…

python 句子中没有中文_人生感悟经典句子,生活中可以没有诗歌,但不能没有诗意...

也曾有过一些热忱和勇气,为了自以为的命中注定颠沛流离,本想有一段花好月圆,却未曾想过就此天各一方。不是不爱,不是不会爱,只是少了坚持走下去的勇气。想必这是很多人的心声。错过抑或过错,都是爱情里常有…

图像迁移风格保存模型_图像风格迁移也有框架了:使用Python编写,与PyTorch完美兼容,外行也能用...

原标题:图像风格迁移也有框架了:使用Python编写,与PyTorch完美兼容,外行也能用选自Medium作者:Philip Meier 机器之心编译 编辑:陈萍 易于使用的神经风格迁移框架 pystiche。 将内容图片与艺术风格图片进行…

vivo设置全屏后状态栏黑色_vivo手机用2年内存占满,是这3个功能捣乱,一键按下全部释放...

vivo手机用2年内存占满,是这3个功能"捣乱",一键按下全部释放经常使用手机如果没有清理习惯,那么应用一多,产生的文件就会变多,这样手机就会没用2年就出现卡顿的现象。今天来教大家怎样一键释放vivo手机内存。…

学计算机之路写一篇作文,我的学习之路作文(2篇)

我的学习之路作文(2篇)在我们平凡的日常里,大家对作文都再熟悉不过了吧,作文根据写作时限的不同可以分为限时作文和非限时作文。那要怎么写好作文呢?以下是小编整理的我的学习之路作文,仅供参考,欢迎大家阅读。我的学习…

js生日计算年龄_你知道用EXCEL可以从身份证中提取生日、性别、年龄、生肖吗?...

首先我们先了解下中国身份证号码的编排规则,中国公民身份证共18位,1~6位为省份地区信息码;7~14位为出生日期码;15~16位数字表示所在地的派出所的代码;第17位数字表示性别(奇数表示男性,偶数表示女性)&#…

docker 修改阿里镜像源_国内部署kubernetes集群的最佳实践(一)—官方教程+阿里镜像源

项目github地址:https://github.com/usualheart/install_k8s_official在国内环境下,借助阿里镜像源,按照官方的指导,使用脚本一步一步安装kubernetes。参考教程【官方】在ubuntu上安装dockerhttps://docs.docker.com/engine/insta…

html 指定对象为块元素,html内联(行内)元素、块级(块状)元素和行内块元素分类...

HTML可以将元素分类方式分为内联(行内)元素、块级(块状)元素和行内块元素三种。注:HTML是标签语言,那么既然是标签,就可以自己定义一些自己元素(如自定义的元素等),自定义元素浏览器默认解析为内联元素,为防止不同浏览…

defaultdict python_在python中怎样使用defaultdict-百度经验

defaultdict是collection模块下面的一个类,用于在执行字典的时候,遇到没有设置的属性的时候,可以设置默认的值,那么在python中怎样使用defaultdict呢?下面小编就带大家来看看详细的教程!工具/原料 python版…

微型计算机除具有计算机的一般特点外,10秋学期《计算机应用基础》第1次在线作业答案免费6/15...

10秋学期《计算机应用基础》第1次在线作业答案免费6/152011-02-17 00:02:57266有学员问关于10秋学期《计算机应用基础》第1次在线作业答案免费6/15的题目的参考答案和解析,具体如下:2010秋学期《计算机应用基础》第一次在线作业试卷总分:100 …

java面试换背景颜色_三年经验Java程序员记一次失败的面试分享:鹅厂三面让我体无完肤!...

欢迎关注专栏:里面定期分享Java架构技术知识点及解析,还会不断更新的BATJ面试专题,欢迎大家前来探讨交流,如有好的文章也欢迎投稿。程序员圈内那点事​zhuanlan.zhihu.com经过半年的沉淀,加上对MySQL,redis…

git 获取最新代码_github从远程仓库获取

前面我们说明了如何将本地的代码push到远程的仓库中,现在我们将学习从远程仓库上的获取代码到本地。1,建立一个新的文件夹,以从远端获取完整的git项目命令1:git clone https://github.com/huangguojie880/git-demo.git2&#xff0…

golang 远程批量执行shell_S2061远程代码执行漏洞复现及批量检测脚本(CVE202017530)...

声明由于传播、利用此文所提供的信息或工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,博鸿科技安全服务中心以及文章作者不为此承担任何责任。博鸿科技安全服务中心拥有对此文章的修改和解释权。如欲转载或传播此文章,必须保…