python统计英文句子每个单词字数_Python小书3-文本英文单词统计

之前写Python Web小书第三小节本来用的垃圾邮件的案例三郎:Python贝叶斯推理垃圾邮件分类​zhuanlan.zhihu.com

后来发现里面的东西,涉及到概率,程序太复杂了。。。哈哈哈

所以就想着,哪天重写一下,选来选去,觉得垃圾邮件分类里面的单词统计,可以深入给大家好好讲讲这个小案例。

这里选用的是一部英文哈利波特小说第一部:3496行,443725个字符

下面我们开始捋思路,我们拿到的是一部有很多单词和符号的小说,我们要做的事就是要对所有的单词出现的次数进行统计。

第一步,先读出整部小说的内容

第二步,对小说的内容进行清洗,只保留所有的单词

第三步,构建字典,遍历所有单词,进行次数统计

是不是感觉好简单,那我们上路吧!!!!!!!

首先我们先读取小说的全部内容

fp = open("HarryPotter1.txt",'r')#文件名,r为读模式

print(fp.read())

打印输出如下

我们要把上图里面的这些符号干掉,有没有什么好办法呢,当然有啦,这就要用到我们的正则表达式,代码如下:

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())#第一个参数\W和第二个参数空格的意思是替换所有非字符为空格

print(content)

同时,我们发现一个单词如果在句首字母会大写,比如The和the如果不处理会被理解为两个词汇。于是我们继续更新代码

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

print(content)

到现在为止,我们对初始文本做了过滤标点符号和统一大小写的预处理,下面就是把这个文本分割为一个个单词,代码如下

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

print(content)

现在我们得到一个包含所有单词的列表,下面就可以进行单词统计了,首先生成空字典word_counter,然后循环遍历整个单词列表进行词数统计

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

print(word_counter)

因为上面看起来很别扭,我想按照顺序,一行行打印,于是我试着做如下操作

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter:

print(key,value)

结果,报错,因为Dict不能同时对key和value同时遍历,所以有三种方式

#1.遍历键,然后索引到值

for key in word_counter:

print(key+':'+word_counter[key])

for key in word_counter.keys():

print(key+':'+word_counter[key])

#2.遍历值

for value in word_counter.values():

print(value)

#3.遍历字典项

for kv in word_counter.items():

print(kv)

for key,value in word_counter.items():

print(key+':'+value)

于是,需要将字典转化为列表,也就有了如下代码

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter.items():

print(key,value)

因为控制台太短,无法全部显示,所以我们保存到文件处理,而且我们关注的字数统计,更核心的是哪些词出现的更多,于是有了如下代码

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

fp=open("result.txt","w")

for (key,value) in sort_items:

fp.write(key+" "+str(value)+"\n")

然后我们要注意,文件操作,打开一定要关闭,这里用到自动关闭的with语句,于是最终的代码,加了注释后如下

import re#正则表达式

#open函数打开文件会得到一个文件对象fp,'r'读文件

with open("HarryPotter1.txt",'r') as fp:

#用正则表达式对文件内容里的标点符号全部清理掉

content = re.sub('\W',' ',fp.read())

#将所有单词的大写转化为小写,方便我们统一处理

content = content.lower()

#split分割所有的单词,默认是用空格做分割点

#得到了一个单词列表

content = content.split()

#我们定义一个空字典,来保存我们的单词和统计次数

word_counter = {}

#对单词列表做遍历循环每个单词

for word in content:

#如果字典里出现了这个单词,那就次数加1

if word in word_counter:

word_counter[word]+=1

#如果没出现过,那就次数赋值初始化为1

else:

word_counter[word]=1

#依据每个单词出现的次数,我们来对整个单词表做排序

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

print(sort_items)

#我们为了方便后面查阅,要把排序好的结果保存的文件里

#新建一个文件,以"w"写文件的模式打开这个文件

with open("result.txt","w") as fp:

#循环遍历我们已经排序好的单词统计次数的列表

for (key,value) in sort_items:

#每个单词和统计次数,按照行写入到我们的文件里

fp.write(key+" "+str(value)+"\n")

旅程结束,希望能够帮到你!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/260301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java9特性_96.java基础10(java9/10/11新特性)

126.java 9 新特性1(模块化功能):1.java模块化2.java 交互式环境jshell3.泛型package com.atguigu.java;import org.junit.Test;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.Ar…

MonoRail - 简介 [基础知识篇]

MonoRail - 简介 起源 MonoRail是一个.NET的MVC web开发框架, 原名Castle On Rails, 是CastleProject的一个子项目. 作者hammett在使用过Ruby On Rails后, 觉得非常棒, 他希望在享受ror的开发模式的同时能使用大量现有的资源, 于是就用.NET写出了一个Castle On Rails. 后来ror那…

结对编程(黄金点游戏)

我扮演的角色是驾驶员 一、结对伙伴 领航员:赵峻 作业地址见我的博客。 二、代码地址 https://coding.net/u/k2048/p/huangjindian/git/blob/master/main.c 三、总结 1、个人总结 本次作业我扮演驾驶员,赵峻扮演领航员,我负责算法实现以及代码…

qtgl 鼠标平移 c++_罗技真爱粉的MX Master 3无线鼠标体验

​这是一篇关于罗技MX Master3的晒单,顺带也翻出我的库存清洁整理一下吧。在决定购买一款新鼠标的时候,我的第一目标其实是MX Vertical垂直鼠标,不过MX Vertical目前优势只在外形上,在MX系列中明显属于低配,自由滚轮、…

java实验指导书(实验四)答案_java程序设计实验指导书答案

? 狗生活在陆地上(是一种陆生动物),既是哺乳类的也是肉食性的。狗通常的时候和人打招呼会通过“摇摇尾巴”,在被抚摸感到舒服的时候,会“旺旺叫”,而在受到惊吓情绪烦躁时,会发出“呜呜”声;? 猫也生活在…

php代码规范说明文档

命名规则:采用驼峰标识,尽量做到见名知义 PHP编码规范与原则: //命名:类,方法,函数,变量, 注释:开发中难免留下一些临时代码和调试代码,此类代码必须添加注释…

下载网页中的图片到本地

简单的一个下载如下 : string url "http://avatar.csdn.net/A/2/6/2_yefengzhixia.jpg";string filepath "D:\\pic.jpg";WebClient mywebclient new WebClient();mywebclient.DownloadFile(url, filepath);MessageBox.Show("OK");…

nacos linux启动_微服务系列之Nacos配置中心之一:Nacos介绍与安装

一、Nacos 介绍Nacos 是 Alibaba 公司推出的开源工具,用于实现分布式系统的服务发现与配置管理。英文全称 Dynamic Naming and Configuration Service,Na 为 Naming/NameServer 即注册中心,co 为 Configuration 即配置中心,Servic…

演练:在组件设计器中创建 Windows 服务应用程序

http://msdn.microsoft.com/zh-cn/library/zt39148a(vvs.80).aspx 演练:在组件设计器中创建 Windows 服务应用程序 .NET Framework 2.0其他版本5(共 5)对本文的评价是有帮助 - 评价此主题注意 Visual Studio 标准版中不提供“Windows 服务”模…

绝对震撼 7款HTML5动画应用及源码

除非特别声明,PHP100新闻均为原创或投稿报道,转载请注明作者及原文链接 原文地址: http://www.php100.com/html/it/mobile/2014/0702/7030.html [导读] 关于HTML5动画,我们已经分享太多了,当然也有很多利用纯CSS3实现的…

maven打包指定main函数

2019独角兽企业重金招聘Python工程师标准>>> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-jar-plugin</artifactId> <version>2.4</version> <configuration> <archive> …

java 任意数平均值_【编程题】通过键盘输入三个任意的数字,计算三个值的平均值,并输出结果。...

【单选题】对放大电路测试NPN型硅管测得Ube>0,Ubc>0,Uce>0【简答题】Even ordinary men understand now that the universe is something vaster and broader than ever thought before.【单选题】【其它】The Einsteins,however,could not afford to pay for the adv…

【转】Direct3D顶点结构使用总结

【转】Direct3D顶点结构使用总结 D3D里面最基本的就是顶点了&#xff0c;虽说一直在用&#xff0c;可是却也是自己比较模糊的一个点&#xff0c;知道其中的意思&#xff0c;却不是很清楚&#xff0c;今天就总结一下&#xff0c;扫一下这个盲区&#xff1a; D3D中的顶点缓冲区的…

quick cocos2d-x 精灵大小(宽高)获取

quick下sprite的大小获取&#xff0c;记录一下&#xff1a; local w sprite:getContentSize().width local h sprite:getContentSize().height 今天连这个最基本的&#xff0c;都不知道怎么获取。挺实用的代码额~转载于:https://www.cnblogs.com/vokie/p/3822248.html

velocityjs 动画库 比jquery默认的animate强

神坑记录&#xff1a; 1、transform: translate3d(80%,0,0); 无法作为参数&#xff0c;必须修改为这种&#xff1a;translateX: 0% 官方文档 http://velocityjs.org/ github地址 https://github.com/julianshapiro/velocity npm下载安装 npm install velocity-animate --save-d…

python中的可变数据类型有列表和元组_Python中列表的 += 和 .extend() 的异同

一道Python题最近有朋友“考”了我一个Python的题&#xff1a;使用和.extend()两种方法扩展元组中的列表会发生什么。虽然我对Python中的可变数据类型、不可变数据类型的概念都有较深的理解&#xff0c;并且也对list的、、.extend()、.append()做过性能分析&#xff0c;但是和.…

简易贪吃蛇小游戏java版_用GUI实现java版贪吃蛇小游戏

本文实例为大家分享了java版贪吃蛇小游戏的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下项目结构新建一个JFrame窗口,作为程序入口public class GameStart{public static void main(String[] args) {JFrame jFrame new JFrame();jFrame.setBounds(100,100,900,720…

几种代价函数

SAD&#xff08;Sum of Absolute Difference&#xff09;SAE&#xff08;Sum of Absolute Error)即绝对误差和 SATD&#xff08;Sum of Absolute Transformed Difference&#xff09;即hadamard变换后再绝对值求和 SSD&#xff08;Sum of Squared Difference&#xff09;SSE&am…

Markdown文件导出为HTML的小程序

Markdown文件导出为HTML的小程序为什么做 最近把一些学习经验记下来&#xff0c;总结成MarkDown文件&#xff0c;不知不觉已经有12篇了。 Sublime Text 的 MarkDown Preview 插件能够将MarkDown语法转换为HTML&#xff0c;并提供三种预览方式&#xff1a;浏览器预览、保存为HTM…

python制作自动回复脚本_python itchat实现微信自动回复的示例代码

今天在实验楼发现一个特别好玩的&#xff0c;Python 微信库itchat,可以实现自动回复等多种功能&#xff0c;好玩到根本停不下来啊&#xff0c;尤其是调戏调戏不懂计算机的&#xff0c;特别有成就感&#xff0c;哈哈&#xff01;&#xff01;代码如下&#xff1a;#codingutf8imp…