python统计英文句子每个单词字数_Python小书3-文本英文单词统计

之前写Python Web小书第三小节本来用的垃圾邮件的案例三郎：Python贝叶斯推理垃圾邮件分类zhuanlan.zhihu.com

后来发现里面的东西，涉及到概率，程序太复杂了。。。哈哈哈

所以就想着，哪天重写一下，选来选去，觉得垃圾邮件分类里面的单词统计，可以深入给大家好好讲讲这个小案例。

这里选用的是一部英文哈利波特小说第一部：3496行，443725个字符

下面我们开始捋思路，我们拿到的是一部有很多单词和符号的小说，我们要做的事就是要对所有的单词出现的次数进行统计。

第一步，先读出整部小说的内容

第二步，对小说的内容进行清洗，只保留所有的单词

第三步，构建字典，遍历所有单词，进行次数统计

是不是感觉好简单，那我们上路吧！！！！！！！

首先我们先读取小说的全部内容

fp = open("HarryPotter1.txt",'r')#文件名，r为读模式

print(fp.read())

打印输出如下

我们要把上图里面的这些符号干掉，有没有什么好办法呢，当然有啦，这就要用到我们的正则表达式，代码如下：

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())#第一个参数\W和第二个参数空格的意思是替换所有非字符为空格

print(content)

同时，我们发现一个单词如果在句首字母会大写，比如The和the如果不处理会被理解为两个词汇。于是我们继续更新代码

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

print(content)

到现在为止，我们对初始文本做了过滤标点符号和统一大小写的预处理，下面就是把这个文本分割为一个个单词，代码如下

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

print(content)

现在我们得到一个包含所有单词的列表，下面就可以进行单词统计了，首先生成空字典word_counter，然后循环遍历整个单词列表进行词数统计

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

print(word_counter)

因为上面看起来很别扭，我想按照顺序，一行行打印，于是我试着做如下操作

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter:

print(key,value)

结果，报错，因为Dict不能同时对key和value同时遍历，所以有三种方式

#1.遍历键，然后索引到值

for key in word_counter:

print(key+':'+word_counter[key])

for key in word_counter.keys():

print(key+':'+word_counter[key])

#2.遍历值

for value in word_counter.values():

print(value)

#3.遍历字典项

for kv in word_counter.items():

print(kv)

for key,value in word_counter.items():

print(key+':'+value)

于是，需要将字典转化为列表，也就有了如下代码

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter.items():

print(key,value)

因为控制台太短，无法全部显示，所以我们保存到文件处理，而且我们关注的字数统计，更核心的是哪些词出现的更多，于是有了如下代码

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

fp=open("result.txt","w")

for (key,value) in sort_items:

fp.write(key+" "+str(value)+"\n")

然后我们要注意，文件操作，打开一定要关闭，这里用到自动关闭的with语句，于是最终的代码，加了注释后如下

import re#正则表达式

#open函数打开文件会得到一个文件对象fp，'r'读文件

with open("HarryPotter1.txt",'r') as fp:

#用正则表达式对文件内容里的标点符号全部清理掉

content = re.sub('\W',' ',fp.read())

#将所有单词的大写转化为小写，方便我们统一处理

content = content.lower()

#split分割所有的单词，默认是用空格做分割点

#得到了一个单词列表

content = content.split()

#我们定义一个空字典，来保存我们的单词和统计次数

word_counter = {}

#对单词列表做遍历循环每个单词

for word in content:

#如果字典里出现了这个单词，那就次数加1

if word in word_counter:

word_counter[word]+=1

#如果没出现过，那就次数赋值初始化为1

else:

word_counter[word]=1

#依据每个单词出现的次数，我们来对整个单词表做排序

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

print(sort_items)

#我们为了方便后面查阅，要把排序好的结果保存的文件里

#新建一个文件，以"w"写文件的模式打开这个文件

with open("result.txt","w") as fp:

#循环遍历我们已经排序好的单词统计次数的列表

for (key,value) in sort_items:

#每个单词和统计次数，按照行写入到我们的文件里

fp.write(key+" "+str(value)+"\n")

旅程结束，希望能够帮到你！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/260301.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python统计英文句子每个单词字数_Python小书3-文本英文单词统计

相关文章

java9特性_96.java基础10(java9/10/11新特性)

MonoRail - 简介 [基础知识篇]

结对编程（黄金点游戏）

qtgl 鼠标平移 c++_罗技真爱粉的MX Master 3无线鼠标体验

java实验指导书(实验四)答案_java程序设计实验指导书答案

php代码规范说明文档

下载网页中的图片到本地

nacos linux启动_微服务系列之Nacos配置中心之一：Nacos介绍与安装

演练：在组件设计器中创建 Windows 服务应用程序

绝对震撼 7款HTML5动画应用及源码

maven打包指定main函数

java 任意数平均值_【编程题】通过键盘输入三个任意的数字，计算三个值的平均值，并输出结果。...

【转】Direct3D顶点结构使用总结

quick cocos2d-x 精灵大小（宽高）获取

velocityjs 动画库比jquery默认的animate强

python中的可变数据类型有列表和元组_Python中列表的 += 和 .extend() 的异同

简易贪吃蛇小游戏java版_用GUI实现java版贪吃蛇小游戏

几种代价函数

Markdown文件导出为HTML的小程序

python制作自动回复脚本_python itchat实现微信自动回复的示例代码