目录
1、认识Python
2、环境与工具
2.1 python环境
2.2 pycharm编译
3、对文本进行分词
3.1 代码构思
3.2 代码示例
3.3 运行结果
4、总结
1、认识Python
Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。
Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字或标点符号,它具有比其他语言更有特色的语法结构。
2、环境与工具
2.1 python环境
在Windows上使用命令行窗口查看所安装的python版本
python
2.2 pycharm编译
在这里可以直接使用社区版的pycharm进行代码编译。
3、对文本进行分词
3.1 代码构思
使用re模块的split()函数对字符串进行分隔
3.2 代码示例
import re
from collections import Counter# 定义函数,用于查找文本字符串中的每一个单词,并计算出现次数
def get_char(txt):# 拆分方式,过滤掉空字符串vlist = re.findall(r'\b\w+\b', txt.lower())# 使用Counter来统计词频vdic_fre = Counter(vlist)# 按照频率排序vdic_sort = vdic_fre.most_common()return vdic_sortif __name__ == '__main__':# 读取文本文件with open('test.txt', 'r', encoding='utf-8') as f:vtext = f.read()# 调用排序函数vstr = get_char(vtext)print('列出文本中的单词:\n')print(vstr)
3.3 运行结果
还需要在代码的目录下新建一个文件:test.txt
输入内容并保存,然后运行程序
4、总结
使用该函数可用作对文本内容进行整理,按照设定的分词方式进行文本分词。