实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

 

代码

import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:academy_titles = file.readlines()# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:job_titles = file.readlines()# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:words = jieba.cut(title)filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/776544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

火山引擎VeDI:A/B测试开放平台正式上线,企业个性化平台一键定制

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 火山引擎数智平台VeDI旗下的A/B测试平台(DataTester),旨在为企业提供科学且可信的A/B测试能力及丰富的场景实验支持。随着企业的…

java常用优秀开发框架及工具类汇总

目录 1、各类系统及简称扫盲2、开发框架2.1、若依(ruoyi) 3、工具组件3.1、java工具类库3.1.1、HuTool3.1.2、office、excel、pdf文档处理3.1.3、运行日志管理3.1.4、数据层框架3.1.5、数据库连接池 java发展了很多年,为了便于开发,出现刴优秀的开发框架…

知识图谱操作的探索与利用

目录 前言1 搜索(Search)1.1 基于关键词搜索1.2 属性搜索1.3 模式匹配 2 过滤(Filtering)2.1 属性过滤2.2 关系过滤 3 引导(Guidance)3.1 相关实体推荐3.2 路径推荐 4 合并(Merging)…

WPF自定义Panel:让拖拽变得更简单

在 WPF 应用程序中,拖放操作是实现用户交互的重要组成部分。通过拖放操作,用户可以轻松地将数据从一个位置移动到另一个位置,或者将控件从一个容器移动到另一个容器。然而,WPF 中默认的拖放操作可能并不是那么好用。为了解决这个问…

智慧公厕的技术融合策略

智慧公厕是迎合现代城市发展需要的一项重要基础设施,其设计的技术融合策略在实现公共厕所泛在感知、互通互联、协同构筑智慧城市等方面起到了关键作用。本文将以智慧公厕源头实力厂家广州中期科技有限公司,大量精品案例现场实景实图实例,从物…

Mathematica使用笔记

文章目录 1. 数组定义及访问2. 表达式替换3. 清除变量4. 匿名函数(纯函数)5. 化简6. 求导7. 积分8. 求解方程及方程组8.1 求解方程形式8.2 求解方程组形式8.3 设置根式解显示方式 9. 表达式转C10. 提取多项式系数 1. 数组定义及访问 A {1,2,3} B {{1,…

数字兆欧表的量程选择技巧,你需要知道的秘密!

使用数字兆欧表的方法如下: 步骤一:准备工作 在开始操作之前,务必确保待测电气设备已经断电并进行了充分放电,以保证操作的安全性。此外,还需检查数字兆欧表的电量是否足够,外观是否完好,并确保…

元宇宙虚拟展厅——虚拟场景同现实世界的结合宣传

元宇宙作为具有前瞻性和先导性的未来产业,在政策布局、产业发展以及应用融合等方面也都实现了诸多探索。元宇宙虚拟展厅是虚拟场景同现实世界的结合,元宇宙与展厅的应用融合打破了传统展厅、传统宣传对时间和空间的限制,以往我们印刷过数不胜…

Wagtail-基于Python Django的内容管理系统CMS实现公网访问

目录 ⛳️推荐 前言 1. 安装并运行Wagtail 1.1 创建并激活虚拟环境 2. 安装cpolar内网穿透工具 3. 实现Wagtail公网访问 4. 固定Wagtail公网地址 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给…

MySQL 8 索引原理详细分析

千山万水总是情, 问问索引行不行? 轻舟已过万重山, 有种尽管来发难。 索引是在数据库优化时的重要手段之一,今天 V 哥从索引的角度展开讲一讲索引的各个要点,希望可以通过这篇文章,帮助大家彻底搞透索引的关键点。 1.索引的定义与作用2.索引的类型3.索引原理4.二分查…

C语言模拟试题一

模拟试题一 一、选择题(本大题30 分,每小题2 分) 1下列说法正确的是。 E) main函数必须放在C程序的开头 F) main函数必须放在C程序的最后 G) main函数可以放在C程序的中间部分,但在执行C程序时是从程序开头执 行的 H) main函数可以放在C 程序的中间部分,但在执行C 程序时…

Redis 不再“开源”:中国面临的挑战与策略应对

Redis 不再“开源”,使用双许可证 3 月 20 号,Redis 的 CEO Rowan Trollope 在官网上宣布了《Redis 采用双源许可证》的消息。他表示,今后 Redis 的所有新版本都将使用开源代码可用的许可证,不再使用 BSD 协议,而是采用…

leetcode 1035.不相交的线

思路:最长公共子序列的动态规划问题。 其实简单来说就是将最长公共子序列那道题的字符串改成了数字而已,其实都是一样的,那么我就在这里不多讲了,如果要看思路可以看博主这篇leetcode 1143.最长公共子序列-CSDN博客 注意&#x…

玩一下Proxmox,硬盘扩容

问题 今天用proxmox系统新建了一个debian系统,当时只是见识下,发现还很好用,于是就又加了一块存储盘,如何扩容,过程记录一下。 扩容过程 1.首先要给proxmox添加硬盘,是一个旧的,所以分区怎么也删不干净,只好用下面的命令清零 dd if=/dev/zero of=/dev/sdb bs=512 co…

C++进阶学习(5)继承中的重名成员与静态成员

文章目录 一、重名成员1.重名数据成员2.重名成员函数 二、派生类中访问静态成员 一、重名成员 派生类定义了与基类同名的成员,在派生类中访问同名成员时屏蔽了基类的同名成员 在派生类中使用基类的同名成员,显式地使用类名限定符: 类名 :: …

dapr学习

dapr学习 5.1、概念知识 官方文档: Dapr 配置选项概述 | Dapr 文档库 run CLI 命令参考 | Dapr 文档库 该部分持续更新中… dapr云原生框架,服务于开发人员的,是一个cs服务框架 5.2、dapr配置redis中间件组件 1、首先下载redis进行并…

国产算力芯片排行榜前十名

算力芯片是指用于进行大规模计算的集成电路芯片,它的性能和效率将直接影响到人工智能、大数据分析、密码学和区块链等领域的发展。近年来,随着国内算力芯片制造企业的迅速崛起,国产算力芯片在技术研发和市场表现上都取得了显著的进步。下面就…

CBO VS ABO,哪种策略才更能优化FB广告?

海外创业时,FB广告无疑是吸引目标受众、推动业务增长的重要渠道之一!然而令大家头疼的却是在CBO与ABO的选择上,今天就带大家一起解读这两种常见的广告策略。了解两者之间的区别、优缺点及适用场景。 CBO 和 ABO 分别是什么? CBO&a…

从数据治理到数据资产管理,释放新质生产力

在当前的数字化浪潮中,数据作为第五大生产要素,正日益成为企业激活新质生产力的关键引擎。数据治理和数据资产管理作为数据管理的重要环节,对企业提升竞争力、实现数字化转型具有重大意义。本文将对数据治理和数据资产管理进行深入探讨&#…

vue3封装Element动态表单组件

1. 封装组件DymanicForm.vue 使用component实现动态组件组件不能直接使用字符串传入,所以根据传入的组件名称找到对应的组件校验规则,可使用rule传入自定义规则,也可以使用封装好的基本规则 示例中使用了checkRequired暴露重置方法和校验方法…