学会python——文本分词(python实例一)

目录

1、认识Python

2、环境与工具

2.1 python环境

2.2 pycharm编译

3、对文本进行分词

3.1 代码构思

3.2 代码示例

3.3 运行结果

4、总结


1、认识Python

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字或标点符号,它具有比其他语言更有特色的语法结构。

2、环境与工具

2.1 python环境

在Windows上使用命令行窗口查看所安装的python版本

python 

2.2 pycharm编译

在这里可以直接使用社区版的pycharm进行代码编译。

3、对文本进行分词

3.1 代码构思

使用re模块的split()函数对字符串进行分隔

3.2 代码示例

import re
from collections import Counter# 定义函数,用于查找文本字符串中的每一个单词,并计算出现次数
def get_char(txt):# 拆分方式,过滤掉空字符串vlist = re.findall(r'\b\w+\b', txt.lower())# 使用Counter来统计词频vdic_fre = Counter(vlist)# 按照频率排序vdic_sort = vdic_fre.most_common()return vdic_sortif __name__ == '__main__':# 读取文本文件with open('test.txt', 'r', encoding='utf-8') as f:vtext = f.read()# 调用排序函数vstr = get_char(vtext)print('列出文本中的单词:\n')print(vstr)

3.3 运行结果

还需要在代码的目录下新建一个文件:test.txt

输入内容并保存,然后运行程序

4、总结

使用该函数可用作对文本内容进行整理,按照设定的分词方式进行文本分词。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++面向对象程序设计 - 异常处理

在C发展后期,加了一些功能,作为工具来使用,其中主要有模板(包括函数模板和类模板)、异常处理、命名空间和运行时类型识别,以帮助程序设计人员更方便地进行程序设计和调试工作。 程序中常见的错误有两大类&a…

【天池科普】1. 为啥人人都要学AI

大家好!欢迎来到天池的AI科普系列课程,本期是第一期内容。在这个信息爆炸的时代,人工智能(AI)不仅是技术进步的标志,更是推动社会向前发展的强大引擎。无论你是AI领域的新手,还是有一定基础的学…

ER实体关系图与数据库模型图绘制

属性分析 1、用户表(user)、用户钱包表(user_wallet)(与user是1对1关系)、用户钱包交易日志表(user_wallet_log)(与user是1对多关系)。 user:用户表通常包含用户的基本信息,例如用户ID(主键)、用户名、密码(通常加密…

【Three.js】知识梳理二:Three.js引用和环境搭建

1.文件包下载和目录简介 1.1 文件包下载 a. 官方网站下载: 访问 Three.js 的官方网站(threejs.org/)并点击 "Download" 按钮,下载最新版本的文件包。 b. GitHub仓库下载: 访问 Three.js 的 GitHub 仓库&a…

家具板材ENF级甲醛释放量检测 板材甲醛含量测定

ENF级甲醛释放量检测 ENF级是指甲醛释放量非常低的板材,它代表了无醛添加的最高级别。根据最新的国家标准GB/T 39600-2021,ENF级板材的甲醛释放量不得超过0.025 mg/m。这个标准比欧洲的E1级(甲醛释放量≤0.124 mg/m)和美国的P2标准…

【Redis】解决 Redis 运行在 Protected Mode 下的 DENIED 错误:消除 Redis 受保护模式的完美方案

【Redis】解决 Redis 运行在 Protected Mode 下的 DENIED 错误:消除 Redis 受保护模式的完美方案 大家好 我是寸铁👊 总结了一篇【Redis】解决 Redis 运行在 Protected Mode 下的 DENIED 错误:消除 Redis 受保护模式的完美方案✨ 喜欢的小伙伴…

LangChain Agent(代理)技术分析与实践

LangChain代理是利用大语言模型和推理引擎执行一系列操作以完成任务的工具,适用于从简单响应到复杂交互的各种场景。它能整合多种服务,如Google搜索、Wikipedia和LLM。代理通过选择合适的工具按顺序执行任务,不同于链的固定路径。代理的优势在…

【YOLOv5进阶】——修改网络结构(以C2f模块为例)

一、站在巨人的肩膀上 这里我们借鉴YOLOv8源码: 上期说到,对于网络模块定义详情在common.py这个文件,如Conv、CrossConv、C3f等。本期要修改的需要参考YOLOv8里的C2f模块,它定义在YOLOv8的module文件夹的block.py文件里&#xf…

测试开发面经分享,面试七天速成

1. get、post、put、delete的区别 a. get请求: i. 用于从服务器获取资源。请求参数附加在URL的查询字符串中。 ii. 对服务器的请求是幂等的,即多次相同的GET请求应该返回相同的结果。 iii. 可以被缓存,可以被收藏为书签。 iv. 对于敏感数据不…

高考后的家庭移民新选择

随着高考的落幕,您是否在思考未来的更多可能性?移民,作为一种生活选择,为许多家庭提供了一个全新的生活和教育环境。我们理解,每个家庭都希望为自己的孩子提供最好的未来。 移民国家通常拥有多元和包容的教育体系&…

四川蔚澜时代电子商务有限公司抖音电商服务怎么样?

随着数字经济的蓬勃发展,电商行业已成为推动经济增长的重要引擎。在这个充满变革与机遇的时代,四川蔚澜时代电子商务有限公司凭借对抖音电商的深入理解和专业服务,迅速崛起为行业的佼佼者,引领着潮流营销的新风尚。 四川蔚澜时代…

ARM32开发--串口库封装(初级)

知不足而奋进望远山而前行 目录 文章目录 前言 目标 内容 开发流程 文件目录创建 分组创建 接口定义 完整代码 总结 前言 在嵌入式软件开发中,封装抽取流程和抽取封装策略是非常重要的技术,能够提高代码的复用性和可维护性。本文将介绍如何在文…

这可能是最清晰易懂的 G1 GC 资料

滑动验证页面 概述 G1 (Garbage-First) 于JDK 6u14版本发布,JDK 7u4版本发行时被正式推出,在JDK9时已经成了默认的垃圾回收器,算是CMS回收器的替代 方案(CMS在JDK9以后已经废弃) G1是一款分代的 (generational)&a…

如何使用C++ STL标准模板库中的算法函数(附源码)

目录 1、概述 2、调用sort函数对列表元素进行排序 3、调用count_if查找满足条件的元素个数 4、调用find_if函数找到目标元素的信息 5、调用remove_copy_if函数搜索满足条件的多个元素 6、总结 VC++常用功能开发汇总(专栏文章列表,欢迎订阅,持续更新...)https://blog.…

LeetCode刷题之HOT100之子集

2024/6/11 周二,闷热,很热。两天没有做题了,前天去附近一景点《十八重溪》游玩,去了才知道暂停开放,只能在附近转转了,瀑布是看不到了。昨天在宿舍呆了一天,今天早上起来就来了实验室。补三张图…

端午节,来看看这本应景的“龙舟书”吧!

大家端午安康呀图片~~ 端午节,不仅要吃粽子,还要看龙舟!图片 所以,今天就和大家分享一本“龙舟书”——《精进ChatGPT:高效应用实战88例》! 不仅和今天的端午节应景,还和当今的AI时代很配图片…

AI Agent 热门的10篇论文

人工智能代理领域广阔,涵盖广泛的主题,包括多代理系统、强化学习、上下文感知系统以及将大型语言模型 (LLMs) 集成到基于代理的系统中。以下是 arXiv 的一些顶级论文,涵盖了人工智能代理的各个方面: A Framework For Intelligent Multi Agent System Based Neural Network …

Python 基础语法详解(四)

Python 基础语法详解(四) Python 条件语句最简单的 if 语句基本的 if 语句实战: 复杂 if 语句实战: 看一看 elif 的好处题目:代码实现: 三元表达式格式为:实操: Python 条件语句 在…

Windows 托盘图标实现类封装及使用(附源码)

在系统桌面右下角的托盘区域,创建一个托盘图标,已经是很多软件的标配了,特别是IM即时通讯软件,要在托盘图标上显示来消息时的闪动头像。 其实托盘图标创建很简单,使用起来也比较方便,主要是调用Shell_NotifyIcon API函数,传入不同参数表示对应的操作: 1)NIM_AD…