python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...

模块介绍

安装:pip install jieba 即可

jieba库,主要用于中文文本内容的分词,它有3种分词方法:

1. 精确模式, 试图将句子最精确地切开,适合文本分析:

2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。

我们用个小例子演示下

这上面的小例子中我们看到了一个问题,如果我们只是简简单单的将所有词切分出来,然后去统计它们出现的次数,那么你会发现,其中的“是”,“的”等等词语以及各种标点符号是出现频率最高的,那么这里有2种方式,1是直接去掉长度为1的所有词语,比如上面所说的“是”,“的”或者标点符号等等,还有一种呢,是用到了TF-IDF技术TF-IDF (term frequency-inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,比较容易理解的一个应用场景是当我们手头有一些文章时或者微博评论,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能偶用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。这个方法又称为"词频-逆文本频率"。

不好理解的话,我们一样来写一个小例子:

withWeight=True 参数为是否返回权重值,默认是关闭的,我们直接打印出所有词和它对于的权重,就可以用于计算了!

小说词频分析

简单的写个小demo,分析小说的词频,并将前10个打印出来!篇幅有限,就以《天龙八部》的第1章为例,大概有4万多个字符,直接上代码了!

在第425行,进行分词,然后将结果进行遍历(426-433行),遍历中,剔除单个字符,每个词语和它所出现的次数写入字典,第434、435行将字典转化为元组所组成的列表,并依据出现次数进行排序,然后遍历列表,取出前10名。

第二段代码(441-445行)是依据权重取出了关键词,可以看出,这章小说,主要讲的就是段誉的事情了,不论是权重还是词频都是他最高。。。

文本内容有大概400多行,就折叠了,大家可以直接套用代码,自己试试。

后记

今天的分享就这些了,python的自然语言处理其实还有好多内容,比如停止词的使用,词性等等好多,大家如果有兴趣,可以来找我一起深入学习!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java修改已创建程序界面_Java应用程序的Web用户界面

应用服务器。您认为Tomcat在运行时占用空间、学习量或…?我倾向于选择与一个IDE有良好集成的东西。所以EclipseTomcat或者ApacheGeronimo,可能在里面WebSphere Community Edition伪装可以完成这项工作。从我所看到的情况来看,这些足以满足您的需求,而且学习曲线实际上是可以管…

python+selenium获取cookie session_selenium获取cookie及设置cookie

获取cookie:在打开的页面使用self.driver.get_cookies()返回下面数据:[{domain: .linkedin.com,expiry: 1553,httpOnly: False,name: liap,path: /,secure: False,value: true},{domain: .linkedin.com,expiry: 154613,httpOnly: False,name: lidc,path:…

js url解码gbk_JS中对URL进行转码与解码

1. escape 和 unescapeescape()不能直接用于URL编码,它的真正作用是返回一个字符的Unicode编码值。采用unicode字符集对指定的字符串除0-255以外进行编码。所有的空格符、标点符号、特殊字符以及更多有联系非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在…

python常用模块用法_python常用模块(一)

#什么是模块呢?就是用一大坨代码来完成一个功能的代码集合,是不是简单易懂#类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合。而对于一个复杂的功能…

java jdbc init_Java 的JDBC 数据库连接池实现方法

虽然 J2EE 程序员一般都有现成的应用服务器所带的JDBC 数据库连接池,不过对于开发一般的 Java Application 、 Applet 或者 JSP、velocity 时,我们可用的JDBC 数据库连接池并不多,并且一般性能都不好。 Java 程序员都很羡慕 Windows ADO &…

python db文件_python中查看.db文件中表格的名字及表格中的字段操作

1.问题描述: 我桌面上有一个“账号密码.db”文件,我现在想知道里面有几张表格table、表格的名字、表头结构。2.使用SQL语句"""select name from sqlite_master where typetable order by name""",查找表格的名…

django调用java_07.手把手教将深度学习利用Django将模型发布成服务供java调用

标题问题一.python发布成服务1.先建立一个深度学习模型并训练好2.建立一个预测方法去调用训练好的模型3.建立一个Django工程4.将python利用模型预测的代码放入Django项目中5.get请求加上参数6.github二.JAVA请求url,返回json数据问题python作为一个含科学计算与深度…

springboot转发http请求_网易后端实习生分享:Springboot异常和错误处理规范

由于错误在所难免,异常处理已经成为开发工作中不可或缺的部分。在web开发中,我们通常不希望用户看到一个写满StackTrace的错误页面;同时,我们希望出现错误或发生异常时,开发运维人员可以看到详细的错误信息&#xff0c…

java 偏向锁 怎么用_Java锁升级、偏向锁、轻量级锁

偏向锁当锁对象第一次被线程获取时,虚拟机会把对象头的锁状态标志设置为01(即偏向状态),同时,使用CAS操作把获取到这个锁的线程的ID记录在对象头的mark word中。如果这个CAS操作成功,那么,以后持有这个偏向锁的线程在进…

springmvc 拦截器_Spring MVC拦截器学习

1 介绍Spring Web MVC是基于Servlet API构建的原始Web框架。2 拦截器2.1 定义springmvc框架的一种拦截机制2.2 使用2.2.1 两步走实现HandlerInterceptor接口注册(xml或者注解 )2.2.2 HandlerInterceptor接口实现HandlerInterceptor接口import org.spring…

python如何生成列表和元组数据_Python数据类型(列表和元组)

1.3 List(列表)列表由一系列按特定顺序排列的元素组成。在Python中,用方括号[ ]来表示列表,并用逗号来分隔其中的元素。1.3.1 访问列表元素在Python中,第一个列表元素的索引为0,而不是1。>>> bicycles [trek, cannondal…

mysql socket 与IP区别_MySQL本地用IP登陆而非socket

##想当然的指定hostname和端口。。。。失败[rootmysql01 ~]# /opt/mysql/bin/mysql -uroot -h localhost -P 3307 -pEnter password:ERROR 2002 (HY000): Cant connect to local MySQL server through socket /tmp/mysql.sock (2)##正确方法,指定通信协议 --protoco…

python画矩形函数drawrectangle_Python3 tkinter基础 Canvas create_rectangle 画矩形

Python : 3.7.0OS : Ubuntu 18.04.1 LTSIDE : PyCharm 2018.2.4Conda : 4.5.11typesetting : Markdowncode"""Author : 行初心Date : 18-9-30Blog : www.cnblogs.com/xingchuxinGitee : gitee.com/zhichengjiu"""from tkinter import *def main(…

java文件读入原理_描述一下JVM加载class文件的原理机制

1、JVM 简介JVM 是我们Javaer 的最基本功底了,刚开始学Java 的时候,一般都是从“Hello World ”开始的,然后会写个复杂点class ,然后再找一些开源框架,比如Spring ,Hibernate 等等,再然后就开发…

python为什么closed_为什么Python无法解析此JSON数据? [关闭] - Why can't Python parse this JSON data? [closed]...

问题:I have this JSON in a file: 我在文件中有此JSON:{"maps": [{"id": "blabla","iscategorical": "0"},{"id": "blabla","iscategorical": "0"}],"…

mysql 缓解竞争热点_MySQL优化之缓存优化

高兴的是有博友mark了我的文章。我知道mark之后,很少会再来继续关注的。但是从侧面说明了在博友点开博客的同时,他感觉这篇博客是有价值的,是能够弥补他的知识欠缺。一篇博客最重要的是对自己有用,如果再对别人有用,那…

python for循环1 到10_python for循环(1)

对于一个初学者来说for循环可能会击溃很多人,因为网上找的python的for循环没有详细的介绍for循环的条件以及for循环后面定义的东西是什么意思。首先我先举一个常用的例子。for i in range(1,10) :print i上面这两条代码是用来在屏幕上打印1到9的。这里就不对range这…

java maven junit_【JUnit】JUnit 与 maven 集成

环境JDK 11JUnit 4.13Spring Tool Suite 4.6.2Maven 3.6.3与 maven 集成因为已经是 maven 项目了,所以不再需要任何东西,默认就与 maven 集成了。不过由于 maven-surefire-plugin 自身的缺陷,导致测试时,如果有中文,则…

最长不重复子串python_python经典算法题:无重复字符的最长子串

题目:无重复字符的最长子串。给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: “abcabcbb”输出: 3解释: 因为无重复字符的最长子串是 “abc”,所以其长度为 3。示例 2:输入: “bbbbb”输出: 1解释: 因为无重复字…

python构造referer_Python爬虫小偏方:修改referer绕开登录和访问频率限制

看官们在写爬虫程序时应该都会遇到如下问题:你的爬虫程序开发时能正常抓取网页,但是正式大量抓取时,抓取的网站总是返回403或者500等;你抓取的网站需要登录,要花大量时间去研究网站登录流程。遇到问题1,我们…