【传知代码】私人订制词云图-论文复现

文章目录

  • 概述
  • 原理介绍
  • 核心逻辑
    • 1、选取需要解析的txt文档
    • 2、选取背景图明确形状
    • 3、配置停用词
    • 4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题
  • 技巧
    • 1、中文乱码问题,使用的时候指定使用的文字字体
    • 2、更换背景图
    • 3、词库下载以及格式转换方式
    • 4、jieba的快速说明
    • 5、支持自定义文字颜色
  • 环境配置/部署方式
  • 小结

本文涉及的源码可从私人订制词云图该文章下方附件获取

概述

词云图(Word Cloud)是一种文本数据的可视化表示方法,它通过将文本中每个单词的大小与其在文本中出现的频率或重要性相关联,从而以视觉方式展示文本数据的关键信息。词云图在数据分析、文本挖掘、社交媒体分析等领域中广泛应用,因为它能够直观地展示大量文本数据中的主题、关键词或情感倾向。

在这里插入图片描述

在这里插入图片描述

原理介绍

词云图(Word Cloud)的原理可以清晰地分为以下几个步骤,这些步骤共同协作,以生成一种可视化的文本数据表示方式:

  1. 分词
    • 词云图的第一步是将输入的文本数据划分为一个个单独的词语。这个过程通常被称为分词,它涉及到将连续的文本字符串拆分成单独的词汇单元。
  2. 统计词频
    • 在分词完成后,词云图生成工具会统计每个词语在文本中出现的次数。这个步骤是确定词语在词云图中重要性的关键,因为词频高的词语通常会被视为更重要或更相关的。
  3. 去除停用词
    • 停用词是指那些出现频率高但通常不带有实际意义的词语,如“的”、“了”等。为了提高词云图的质量,这些词语通常会被从词频统计中去除,以便更准确地反映文本的主题。
  4. 去除重复词语
    • 如果文本中存在多个相同的词语,词云图生成工具通常只会计算它们的一次出现。这是为了确保词频统计的准确性,避免重复计数。
  5. 计算权重
    • 根据词语在文本中出现的频率,词云图生成工具会计算每个词语的权重。这个过程可能会使用到不同的算法,如TF-IDF(词频逆文档频率)算法,以更准确地反映词语在文本中的重要性。
  6. 显示词云
    • 在计算完词语的权重后,词云图生成工具会将这些词语按照其权重进行排列和分布,形成词云图。在这个过程中,词语的大小、颜色等视觉元素通常会被用来表示其权重,即出现频率高或重要性大的词语会显得更大、更突出。

核心逻辑

以python为例,主要使用的库

import wordcloud #词云库
import jieba #分词工具

1、选取需要解析的txt文档

text_file_path = "./《山海经》先秦白话文版.txt"

也可以从解析某个网站数据(本文是以txt文本为例,没有采取下面代码方式)

# 从网站获取文本内容
url = "https://baidu.com"
response = requests.get(url)
response.encoding = 'utf-8'  # 设置编码,确保正确处理中文字符
html_content = response.text# 使用BeautifulSoup解析HTML,提取文本内容
soup = BeautifulSoup(html_content, "html.parser")
text_data = soup.get_text()

2、选取背景图明确形状

background_image_path = "./心.png" # 地图.png

3、配置停用词

# 设置停用词
#wordcloud库允你排除一些词汇,这样它们就不会出现在词云图中。你可以使用 stopwords 参数来指定要排除的词汇。
def load_stopwords(file_path):with open(file_path, "r", encoding="gb18030") as file:return set(file.read().splitlines())stopwords_path = "./stopwords.txt"
stopwords = load_stopwords(stopwords_path)
# 添加额外的停用词
stopwords.update(["注释", "译文", "这座", "名称", "很多", "名曰", "之山", "一种"])

4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题

# 加载词典(分词的时候不拆开,比如‘山海经’不应该被拆成‘山’、‘海’、‘经’等)
# 主要用于定义一些专有名词
jieba.load_userdict('山海经异兽_22个.txt')
jieba.add_word('山海经')
jieba.add_word('先秦')

技巧

所有技巧(坑)都在演示视频里面逐一演示,注意避坑。

1、中文乱码问题,使用的时候指定使用的文字字体

font_path = ("./simsun.ttc") #指定字体,否则可能会中文乱码

2、更换背景图

需要选择透明背景色的,有的白底的图,肉眼看起来没问题,但是程序却认为整张图片是一个形状,比如下面的图就不行(出来的词云图是外框矩形):

而这张图就可以:

在这里插入图片描述

3、词库下载以及格式转换方式

词库搜索下载地址

在这里插入图片描述

现在下来后的格式是.scel的,需要转换成txt
转换地址

在这里插入图片描述

4、jieba的快速说明

# -*- coding: utf-8 -*-
import jiebaseg_str = "好好学习,天天向上。"print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

结果:

好好学习/,/天天向上/。
好好/好好学/好好学习/好学/学习/,/天天/天天向上/向上/。
好好/好学/学习/好好学/好好学习/,/天天/向上/天天向上/。

5、支持自定义文字颜色

colormaps = mpl.colormaps['tab10'] # tab20
# 也支持自定义文字颜色
# colormaps = colors.ListedColormap(['#FF0000','#FF7F50','#FFE4C4'])

环境配置/部署方式

python wordsCloud.py

小结

词云图的一些主要特点:

  1. 可视化效果:词云图以图像的形式呈现文本数据,使得人们能够直观地看到文本中的主要词汇和它们之间的关系。通过颜色、大小、字体等视觉元素,词云图能够突出显示重要的词汇,帮助用户快速理解文本的核心内容。
  2. 频率或重要性表示:在词云图中,每个单词的大小通常与其在文本中出现的频率或重要性成正比。这意味着出现频率高或重要性大的词汇在词云图中会显得更大、更突出。这种表示方式有助于用户快速识别文本中的关键信息。
  3. 自定义程度高:词云图具有很高的自定义程度,用户可以根据需要调整词汇的颜色、大小、字体等属性,以及选择特定的词汇过滤条件,从而生成符合自己需求的词云图。
  4. 支持多种文本数据源:词云图可以处理来自各种文本数据源的数据,包括社交媒体帖子、新闻报道、用户评论、书籍、文章等。这使得词云图在各个领域都有广泛的应用前景。
  5. 揭示文本主题:通过词云图,用户可以快速了解文本的主题和关键词。例如,在社交媒体分析中,词云图可以帮助用户了解用户讨论的热点话题和关键词;在新闻报道分析中,词云图可以帮助用户了解新闻的主要内容和情感倾向。
  6. 局限性:虽然词云图具有很多优点,但也存在一些局限性。例如,词云图通常只能展示文本中的词汇信息,而无法展示词汇之间的语法关系或上下文信息。此外,词云图对于某些特定的文本数据可能不太适用,例如诗歌、散文等文学作品。

词云图是一种非常有用的文本数据可视化工具,它能够帮助用户快速了解文本的主要内容和关键词,揭示文本的主题和情感倾向。在实际应用中,用户可以根据需要选择合适的词云图生成工具和数据源,以生成符合自己需求的词云图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多线程编程(12)之HashMap1.8源码分析

之前已经分析过了一版1.7版本的HashMap,这里主要是来分析一下1.8HashMap源码。 一、HashMap数据结构 HashMap 是一个利用散列表(哈希表)原理来存储元素的集合,是根据Key value而直接进行访问的数 据结构。 在 JDK1.7 中&#xff…

内网穿透端口映射内外网反弹 shell 回顾

内网穿透&端口映射&内外网反弹 shell 回顾 内网概念 我们常说的内网,一般指的是非公有 IPv4 地址的网络比如学校机房里的电脑一般为私有网络,家里的网络也是私有网络 私有网络的范围与划分 ipaddressareaA 类地址10.0.0.0~10.255.…

521源码-免费下载-WordPress全能自动采集与发布插件 – WP-AutoPostPro 汉化版

更多网站源码学习教程,请点击👉-521源码-👈获取最新资源 本工具下载地址:WordPress全能自动采集与发布插件 – WP-AutoPostPro 汉化版 - 521源码 WP-AutoPostPro是一款出类拔萃的WordPress自动采集发布插件,凭借其卓…

Yolov5保姆及入门-含源码【推荐】

前言 YOLO系列模型作为一种实时目标检测算法,自从YOLO1发布以来,就以其检测速度快、准确率高而受到广泛关注。随着技术的迭代,YOLO系列已经发展到了YOLO8。本文将详细介绍YOLO5的技术规格、应用场景、特点以及性能对比。 yolov5源码下载地址…

海外真实机房给云手机上“福利”

不论是做出海跨境方面的业务,大家都不自觉的把目光放在了海外的云手机上,尤其是有直播群控,引流获客这样的一个刚需,只有处在海外真实环境了,那么在一些活动的过程中,才能表现的更稳,而不会触发…

Android --- 交换两个布局

准备布局 exchange_out_layout exchange_in_layout <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"andr…

免费,Python蓝桥杯等级考试真题--第13级(含答案解析和代码)

Python蓝桥杯等级考试真题–第13级 一、 选择题 答案&#xff1a;C 解析&#xff1a;正向下标由0开始&#xff0c;下标3代表第四个元素&#xff0c;故答案为C。 答案&#xff1a;A 解析&#xff1a;range&#xff08;0,4&#xff09;的取前不取后&#xff0c;元组的符号是小括…

【CGAL】Region_Growing 检测平面并保存

目录 说明一、算法原理二、代码展示三、结果展示 说明 本篇博客主要介绍CGAL库中使用Region_Growing算法检测平面的算法原理、代码以及最后展示结果。其中&#xff0c;代码部分在CGAL官方库中提供了例子。我在其中做了一些修改&#xff0c;使其可以读取PLY类型的点云文件&…

【搭建大语言模型】使用LocalGPT搭建本地大语言模型服务并实现远程访问进行交互

文章目录 前言环境准备1. localGPT部署2. 启动和使用3. 安装cpolar 内网穿透4. 创建公网地址5. 公网地址访问6. 固定公网地址 前言 本文主要介绍如何本地部署LocalGPT并实现远程访问&#xff0c;由于localGPT只能通过本地局域网IP地址端口号的形式访问&#xff0c;实现远程访问…

设计模式15——享元模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 享元模式&#xff08;Flyweigh…

Linux信号:信号的概念及意义

目录 一、什么是信号 kill-l查看信号 二、信号的产生 2.1系统调用 kill raise abort 2.2软件条件 13)SIGPIPE pipe信号 14&#xff09;SIGAKARM alarm信号 2.2硬件中断 2.3异常 8)SIGFPE 除0异常 11)SIGSEGV 野指针 2.4信号处理的常见方式 三、Core Dump和term…

一文详解SaaS增长模式:PLG、MLG、SLG哪种更适合你?

在SaaS&#xff08;软件即服务&#xff09;的领域中&#xff0c;增长策略的选择对于企业的成功至关重要。其中&#xff0c;PLG&#xff08;产品驱动增长&#xff09;、MLG&#xff08;市场驱动增长&#xff09;和SLG&#xff08;销售驱动增长&#xff09;是三种常见的策略&…

Centos 7 安装刻录至服务器

前言 在日常测试中&#xff0c;会遇到很多安装的场景&#xff0c;今天给大家讲一下centos 7 的安装&#xff0c;希望对大家有所帮助。 一.下载镜像 地址如下&#xff1a; centos官方镜像下载地址https://www.centos.org/download/ 按照需求依次点击下载 二.镜像刻录 镜像刻…

强悍!轻量级 Viedo Download 项目!!【送源码】

今天给大家分享一个非常轻量实用的命令行视频下载项目&#xff1a;Lux。 项目简介 Lux是一款基于Golang编写的快速、简单的视频下载库和命令行工具&#xff0c;支持众多个流行的视频网站&#xff0c;包括 YouTube、Bilibili、优酷、爱奇艺、腾讯视频、抖音快手等。 界面简洁易…

重生之 SpringBoot3 入门保姆级学习(07、整合 Redis 案例)

重生之 SpringBoot3 入门保姆级学习&#xff08;07、整合 Redis 案例&#xff09; 导入 Maven 依赖并刷新 Maven <dependencies><!--springboot3 Web 依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring…

高效至臻,Media Encoder 2024 for Mac——您的专业媒体处理首选

Media Encoder 2024 for Mac是一款专为Mac用户打造的专业视频和音频编码工具&#xff0c;凭借其卓越的编码能力和智能编辑功能&#xff0c;为用户提供了前所未有的媒体处理体验。无论是高清、4K还是8K的视频文件&#xff0c;Media Encoder 2024都能轻松驾驭&#xff0c;确保在压…

学习javascript的函数

1.什么是函数&#xff1f; 可以重复被使用的代码块 作用&#xff1a;函数可以把具有相同或者相似逻辑的代码“包裹起来”&#xff0c;有利于代码的复用。 2.函数的基本使用 1.定义函数 利用关键字Function 定义函数&#xff08;声明函数&#xff09; function 函数名(){函…

4、xss-labs之level4、lecel5

一、level4 1、测试分析 level4跟之前的3一样的思路&#xff0c;闭合value的值&#xff0c;但是通过双引号闭合&#xff0c;然后使用onclick的属性弹窗绕过 输入3的payload&#xff1a; 2、所以构造payload payload&#xff1a;"οnclickalert(1)// 二、level5 1、测…

uniapp高校二手书交易商城回收系统 微信小程序python+java+node.js+php

每年因为有大量的学生在接受教育&#xff0c;每到大学毕业季的时候&#xff0c;所使用的大量书籍对他们自己来说&#xff0c;很多是没有用&#xff0c;同时由于书籍多和不方便携带&#xff0c;导致很多大学生在毕业时将教材直接丢弃是在校大学生处理已用教材的一种主要方式。然…

数据结构-二叉树系统性学习(四万字精讲拿捏)

前言 这里我会从二叉树的概念开始讲解&#xff0c;其次涉及到概念结构&#xff0c;以及堆的实现和堆排序。 目的是&#xff0c;堆比二叉树简单&#xff0c;同时堆本质上是二叉树的其中一种情况&#xff0c;堆属于二叉树顺序结构的实现 最后完善二叉树的讲解&#xff0c;也就是…