一篇英文文档中找出频数最多的10个单词

"""
一篇英文文档中找出频数最多的10个单词
collections:
Counter 提供计数器工具以支持方便和快速的计数
most_common(n) 返回n个最常见元素及其计数的列表,从最常见到最少。
如果省略nNone,则 most_common()返回计数器中的所有元素。
"""
import re
from collections import Counter
# print(dir(Counter))
with open('english.txt', 'r' ) as f:
words = f.read() # 将文件的内容全部读取成一个字符串
# print(re.split(r"\W+",words))
count = Counter(re.split(r"\W+", words)) # 以单词为分隔 \w:用于匹配字母,数字或下划线字符\W:用于匹配所有与\w不匹配的字符;
result = count.most_common(10) # 统计最常使用的前10个
print(result)

转载于:https://www.cnblogs.com/guichao/p/11137461.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/462168.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中断共享(硬件角度)

中断共享: 和别人讨论的时候,谈到了中断共享,下面记录下几种不同的情况:1、一个IP模块中只有一个中断引脚连接到中断控制器,该IP模块中只有一个部件可以产生中断请求;2、一个IP模块中只有一个中断引脚连…

web绿色环境搭建

开篇 需要的软件及他们各自的版本apache-tomcat-6.0.32(绿色版,能直接下载得到)java-jdk1.6.0_25/jre6(安装后制作的绿色版,不能直接下载得到)MyEclipse6.5(安装后制作的绿色版,不能直接下载得到)MySql_5.1.3(绿色版,直接下载得到…

Babel+vscode实现APICloud开发中兼容ES6及以上代码

本文出自APICloud官方论坛, 感谢论坛版主 penghuoyan 的分享。 使用APICloud开发时,考虑到兼容问题一直使用ES5开发,时间越久感觉越落后,整理了一个兼容ES6的开发环境,供大家参考。 步骤1: 安装Node开发环境…

sql完整性

转至:http://www.cnblogs.com/2007/archive/2007/08/24/868428.html更新数据库时,表中不能出现不符合完整性要求的记录,以保证为用户提供正确、有效的数据。实现该目的最直接的方法,是在编写数据库应用程序时,对每个更…

html小知识

字符文本中字符太多 一、正确&#xff1a; <a hrefShowFile.aspx?ID<%# DataBinder.Eval(Container.DataItem, "ID") %>>查看文件</a> 二、错误&#xff1a; <a href"ShowFile.aspx?ID<%# DataBinder.Eval(Container.DataItem, ID) %…

基本数据结构:树(tree)

参考博客 &#xff08;1&#xff09;基本数据结构&#xff1a;树&#xff08;tree&#xff09; - andyidea - 博客园 &#xff08;2&#xff09;《大话数据结构》 &#xff08;3&#xff09;《啊哈&#xff01;算法》 1、树的相关定义 &#xff08;1&#xff09;树&#xff1a;…

参数估计方法简介

1.参数估计和非参数估计 前面提到随机变量的分布不是很明确时&#xff0c;我们需要先对随机变量的分布进行估计。有一种情况是我们知道变量分布的模型&#xff0c;但是具体分布的参数未知&#xff0c;我们通过确定这些未知参数就可以实现对变量的估计&#xff0c;这种方式就是参…

VMware Workstation 8下Ubuntu 13.04中安装VMware Tools出错

vm 8.0上安装ubuntu 13.04系统以后&#xff0c;需要安装一个vm tool 方便屏幕适应和文件拷贝&#xff0c;但是发现由于ubuntu 13.04 使用的内核太新了&#xff0c;而vm8.0 不能够提供这样的文件&#xff0c;导致安装失败。现在总结一下解决方法。首先下载最新版本的linux 头文件…

如何在工作组环境win 7远程管理Hyper-v server R2 SP1配置(三)

在 如何在工作组环境win 7远程管理Hyper-v server R2 SP1配置&#xff08;二&#xff09; 文中末尾&#xff0c;出现下图报错&#xff1a; 一般情况下&#xff0c;按上篇提到的hvremote.wsf 脚本配置说明文件HVRemote Documentation操作后&#xff0c;不会出现此报错&#xff0…

异或运算交换两个整数

异或运算有两个特性&#xff1a; 1、一个数异或本身恒等于0&#xff0c;如5^5恒等于0&#xff1b; 2、一个数异或0恒等于本身&#xff0c;如5^0恒等于5。 基于此&#xff0c;交换操作如下&#xff1a; aa^b; bb^a; ab^a;

Liferay中使用portlet:resourceURL触发serveResource()方法调用的细节

引入&#xff1a;大家在Portlet 开发中经常用到<portlet:resourceURL>&#xff0c;而大体上都会去调用相应的serveResource()方法&#xff0c;这个过程虽然大家都清楚&#xff0c;但是能弄明白这个过程细节的&#xff0c;我相信全世界不超过100人&#xff0c;至少我去年就…

使用ESP定律_手工脱壳

ESP定律脱壳一般的加壳软件在执行时&#xff0c;首先要初始化&#xff0c;保存环境&#xff08;保存各个寄存器的值&#xff09;&#xff0c;一般利用PUSHAD&#xff08;相当于把所有寄存器都压栈&#xff09;&#xff0c;当加壳程序的外壳执行完毕以后&#xff0c;再来恢复各个…

原码、反码、补码,以及负数的位操作

1、 原码&#xff1a;将符号位数码化了的数&#xff0c;其中“”用0表示&#xff0c;“-”用1表示。 反码&#xff1a;正数的反码表示与原码表示一样&#xff1b;负数的反码表示是原码表示的符号位不变&#xff0c;数值位逐位取反。 补码&#xff1a;正数的补码表示与原码表…

IT菜鸟之DHCP

DHCP 动态主机配置协议&#xff08;Dynamic host configuration protocol&#xff09;作用&#xff1a;分配网络地址选项&#xff1a;excluded-address 排除地址pool IP地址池&#xff08;网段 - 排除地址 地址池&#xff09;relay DHCP代理服务器&#xff08;无用&#xff09…

override render 方法

有时候需要在ASP.net 或MVC 中在页面呈现前&#xff0c;把要显示的内容作一个拦截&#xff0c;更改内容后显示。 只要重写 protected override void Render(System.Web.UI.HtmlTextWriter writer) 方法。 例如&#xff1a; 我把返回的内容中的html 的标题进行改变&#xff0c;…

Sliverlight MD5

突然想在WP上用MD5 &#xff0c;c#的MD5方法在SL下是不能用的额 搜索下MSDN&#xff0c;找到解决方法&#xff1a; http://archive.msdn.microsoft.com/SilverlightMD5 下载那两个类添加到工程中&#xff0c;然后添加代码: 1: protected string GetMD5Hash(string input) 2: { …

“指针+1”的理解

1、一个32位的机器&#xff0c;该机器的指针是多少位的&#xff1f; 指针是多少位只要看地址总线的位数就行了&#xff0c;80386以后的机子都是32的地址总线&#xff0c;所以指针的位数就是4个字节了。 2、指针加1&#xff0c;结果是对该指针增加1个储存单位。 &#xff08;…

apache-apollo启动报错

启动Apollo后&#xff0c;进入网页版管理中心后报错&#xff1a;500: Server Error https://127.0.0.1:61681/console/index.html 网页抓包 报错&#xff1a;{"code":"500: Internal Server Error","message":"java.lang.IllegalArgumentEx…

android 标签对应的代码怎么写alignParentRight、marginRight

2019独角兽企业重金招聘Python工程师标准>>> android:layout_alignParentRight"true" LayoutParams lp new LayoutParams(mp); lp.addRule(RelativeLayout.ALIGN_PARENT_RIGHT); 转载于:https://my.oschina.net/zhangjie830621/blog/158899

TinyXML保存UTF-8编码的XML

最近的项目在Linux下用到了TinyXML库&#xff0c;但是输出xml中的中文总是显示乱码&#xff0c;用UltraEdit查看输出文件为ASCII编码&#xff0c;求助Google大神&#xff0c;发现只需要将tinyxml.cpp源文件中的3处useMicrosoftBOM false;改为useMicrosoftBOM true;即可输出UT…