python字频统计软件_python结巴分词以及词频统计实例

python结巴分词以及词频统计实例

发布时间:2018-03-20 14:52,

浏览次数:773

, 标签:

python

# coding=utf-8

'''

Created on 2018年3月19日

@author: chenkai

结巴分词

支持三种分词模式:

精确模式:     试图将句子最精确地切开,适合文本分析;

全模式:       把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

'''

import jieba

import jieba.analyse

seg_list =  jieba.cut("我来到北京清华大学找妹子,我很开心",cut_all=True)

print  "全模式: ", "/".join(seg_list)

seg_list2 =  jieba.cut("我来到北京清华大学找妹子,我很开心",cut_all=False)

print  "精确模式: ", "/".join(seg_list2)

#jieba.cut() 默认是精确模式

seg_list3 = jieba.cut_for_search("我来到北京清华大学找妹子,我很开心")  # 搜索引擎模式

print  "搜索引擎模式: ", "#".join(seg_list3)

list2="/".join(seg_list3)

'''

关键词提取

基于 TF-IDF 算法的关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20

withWeight 为是否一并返回关键词权重值,默认值为 False

allowPOS 仅包括指定词性的词,默认值为空,即不筛选

jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

'''

sentence="我来到北京清华大学找妹子,我很开心"

listGJC=jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,

allowPOS=())

print "关键词提取:",",".join(listGJC)

---------------------词频统计

# coding=utf-8

'''

Created on 2018年3月19日

@author: chenkai

结巴分词

支持三种分词模式:

精确模式:     试图将句子最精确地切开,适合文本分析;

全模式:       把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

'''

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import jieba

import jieba.analyse

import re,collections

def getNum(text,path):

word = []

counter = {}

seg_list3 = jieba.cut(text,cut_all=True)

listStr="#".join(seg_list3)

#print  "全模式: ",listStr

list3 = listStr.decode("utf-8").split('#')

for w in list3:

if not w in word:

word.append(w)

if not w in counter:

counter[w] = 1

else:

counter[w] += 1

counter_list = sorted(counter.items(), key=lambda x: x[1], reverse=True)

#print counter_list

f = open(path,"w")

for j in counter_list:

text= "\""+j[0].encode("gb18030").decode("gb18030")+"\","+str(j[1])

print text

f.write(text+"\n")

print "the result write in "+path+"..."

print "finish..."

f.close()

getNum(sys.argv[1],sys.argv[2])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/258616.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html从入门到卖电脑(三)

CSS3中和动画有关的属性有三个 transform、 transition 和 animation。下面来一一说明: transform 从字面来看transform的释义为改变,使…变形;转换 。这里我们就可以理解为变形。那都能怎么变呢? none 表示不进行变换; rotat…

visual studio 2015安装 无法启动程序,因为计算机丢失D3DCOMPILER_47.dll 的解决方法

对于题目中的解决方法,我查到了微软提供的一个方案:https://support.microsoft.com/en-us/help/4019990/update-for-the-d3dcompiler-47-dll-component-on-windows 进入如下页面:http://www.catalog.update.microsoft.com/Search.aspx?qKB4…

UI1_UIView层操作

// // ViewController.m // UI1_UIView层操作 // // Created by zhangxueming on 15/7/1. // Copyright (c) 2015年 zhangxueming. All rights reserved. //#import "ViewController.h"interface ViewController ()endimplementation ViewController- (void)view…

JavaScript Patterns 1 Introduction

1.1 Pattern "theme of recurring events or objects… it can be a template or model which can be used to generate things" (http://en.wikipedia.org/wiki/Pattern). • Design patterns - Elements of Reusable Object-Oriented Software. • Coding patte…

基于像素聚类的分割方法基于slic的方法_博士论文摘要 | 张荣春:数码影像与TLS点云数据融合提取地质结构面方法研究...

《测绘学报》构建与学术的桥梁 拉近与权威的距离数码影像与TLS点云数据融合提取地质结构面方法研究张荣春1,21.南京邮电大学地理与生物信息学院, 江苏 南京 210023;2.河海大学地球科学与工程学院, 江苏 南京 211100收稿日期:2019-03-27基金项目:国家自然…

制作IOS 后台极光推送时,遇到的小问题

推送广义上分为两种, 一种是 程序在前台的时候,不想在任务栏里面显示通知,直接在app中进行某种操作。这个叫做自定义消息。这个是在前台时,app与极光后台建立了一个长链接。 另一种是 程序处于前、后台 或者杀死状态的时候&…

Visual Studio 2008 环境变量的配置(参考设置VS2010)

本文转载自:http://blog.csdn.net/tracyliang223/article/details/21539361COPY FROM:http://www.cnblogs.com/waterlin/archive/2011/10/31/2230341.html 在调试 Visual Studio 2008 程序时,经常有一些动态链接库(即 dll 文件&am…

Linq 中 Any与All

昨天突然看到之前写的一个积累文档&#xff0c;其中文档中有一个Linq Any和All的注意事项&#xff1a;注意Any 和 All var list new List<int>(); var aa list.All(n > n > 1); var bb list.Any(n > n > 1); // aa: true bb: false其中List是一个元…

jaxb转xml空值双标签_单品运营思维:标签-词路-聚焦-直搜-超直

非标品标签思维&#xff1a;针对非标品 主要是2.0为主的打法根据搜索入池的关键词&#xff0c;有什么词做什么词。有个细节&#xff1a;不一定进什么词做什么词&#xff0c;这个维度当中加入3.0的思维3.0入手 转2.0再切3.0(检测词路健康度&#xff0c;非严格意义估算单量)举例&…

如何在PFSense中设置故障转移和负载平衡

故障转移是一种备份操作模式&#xff0c;仅在主系统由于系统故障或任何计划停机时间而变得不可用时&#xff0c;系统组件&#xff08;如网络&#xff09;的操作才由辅助系统承担。在本教程中&#xff0c;我们将看到如何设置故障转移和负载平衡&#xff0c;以使pfSense能够将流量…

图像金字塔总结

本文转载自&#xff1a; http://blog.csdn.net/dcrmg/article/details/52561656 一、 图像金字塔 图像金字塔是一种以多分辨率来解释图像的结构&#xff0c;通过对原始图像进行多尺度像素采样的方式&#xff0c;生成N个不同分辨率的图像。把具有最高级别分辨率的图像放在底部…

表单的get和post使用情景

GET和POST两种方法都是将数据送到服务器&#xff0c;但你该用哪一种呢&#xff1f;HTTP标准包含这两种方法是为了达到不同的目的。POST用于创建资源&#xff0c;资源的内容会被编入HTTP请示的内容中。例如&#xff0c;处理订货表单、在数据库中加入新数据行等。 当请求无副作用…

什么叫做罗列式_项目起盘的时候,如何确定自己该做什么社群?

这是祁杰『社群日记』第48篇持续日更&#xff0c;做最懂社群的营销咨询人很多人手上有资源&#xff0c;准备起盘项目的时候&#xff0c;总会思考一个问题&#xff1a;我能做什么样的社群&#xff1f;今天我们从用户需求出发&#xff0c;拆解一下哪些社群是能够确切地满足用户的…

C++ exit 与 return 浅析

【摘要】 本文从代码形式。经常使用方式&#xff0c;相关概念&#xff0c;调用关系和比較分析&#xff0c;这5个维度浅析 exit 与 return 在C的同样点与差别。【常见形式】 exit(0)&#xff1a; 正常执行程序并退出程序。 exit(1)&#xff1a; 非正常执行导致退出程序&…

Feature Pyramid Networks for Object Detection 总结

最近在阅读FPN for object detection,看了网上的很多资料&#xff0c;有些认识是有问题的&#xff0c;当然有些很有价值。下面我自己总结了一下&#xff0c;以供参考。 1. FPN解决了什么问题&#xff1f; 答&#xff1a; 在以往的faster rcnn进行目标检测时&#xff0c;无论…

最近工作

最近的工作忙且乱&#xff0c;以至于&#xff0c;我第天早晨早早起来到晚上11点多才能回到家。今天早晨写代码的时候腰突然猛疼&#xff0c;疼的我直叫唤。躺在床上半天起不来。 最近每天的工作要计划一下了&#xff0c;不能客户说干嘛就干嘛&#xff0c;这样累坏了自己&#x…

LeetCode OJ - Candy

题目&#xff1a; There are N children standing in a line. Each child is assigned a rating value. You are giving candies to these children subjected to the following requirements: Each child must have at least one candy.Children with a higher rating get mor…

那些 IT 界的神翻译,原来我学不好编程的原因就在这

近日博主 ruanyf 在网上发布了一条关于套接字“socket”的解释&#xff0c;引发了网友对于那些 IT 界的神翻译的讨论&#xff1a; 突然想到&#xff0c;socket就是插座。服务器的socket&#xff0c;就是服务器提供插座&#xff0c;等着客户端的插头插进来。一旦插入完成&#x…

navicat 结构同步会加锁吗_被柜员怠慢的张小波,真的会永久地转走几个亿的结构性存款吗?...

4月7日下午&#xff0c;北京凤凰联动文化传媒有限公司总裁张小波发布微博称&#xff0c;前几天去安贞附近一银行&#xff0c;想把借记卡的转帐额度从每天五百万上调一下&#xff0c;没有想到&#xff0c;在其问到“最高可调到多少”时&#xff0c;柜员回答一个亿并“鄙夷地看了…

Mask RCNN笔记

mask rcnn简介 mask rcnn是何凯明基于以往的faster rcnn架构提出的新的卷积网络&#xff0c;一举完成了object instance segmentation. 该方法在有效地目标的同时完成了高质量的语义分割。 文章的主要思路就是把原有的Faster-RCNN进行扩展&#xff0c;添加一个分支使用现有的检…