SPSSAU【文本分析】|LDA主题分析

LDA主题分析

LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等,接下来将具体进行说明。

进行LDA主题分析时,首先需要确定主题个数(理论上有确定主题个数的方式,但实际研究分析时,通常是研究者结合实际意义情况来确定主题个数,通常主题个数介于2~8个之间即可)。

特别提示:

LDA主题分析相对较为耗时,尤其是关键词个数较多时,但通常不会超过3分钟。

SPSSAU中呈现LDA主题分析包括如下内容或功能:

说明
主题与关键词权重表格表格化展示各主题与关键词的权重值
主题与关键词权重对应关系图可视化展示各主题与关键词的权重值,点击主题气泡时可仅展示该主题时关键词的权重(且从大到小排序)
主题分布表格展示各行隶属的主题编号
主题与关键词权重对应气泡图可视化展示各主题与关键词的权重值,气泡越大说明权重越大
修改主题名称确认好主题的实际名称后,可修改主题名称,重新展示表格和图信息等

LDA主题分析时,关键的信息在于主题与关键词的权重大小,权重越大,意味着该关键词与该主题之间的关系紧密度越高,结合权重大小及实际意义,最终可对各主题进行命名(而不是机器化的主题1,主题2等)。本demo数据进行LDA主题分析时设置主题个数为3,结果如图所示:

表格中,可点击排序按钮查看权重大小,比如上图中按主题1时各关键词的权重排序后,显示主题1与‘城市更新’、‘体验’、‘试点’、‘工作’、‘小区’等关键词有着较为紧密的关系,那么依据此种情况,可对主题1命名为‘城市试点’。当然,查看各主题与关键词之间的权重大小,还可通过两种图形进行展示,如下所述:

点击左侧的气泡图时,右侧便展示出各关键词的权重大小,并且按降序进行展示,便于查看,国也方便地看到,主题1与‘城市更新’、‘体验’、‘试点’、‘工作’、‘小区’等关键词有着较为紧密的联系。另上图中气泡的大小代表该主题的权重大小,该信息可通过‘主题分布’表格进行查看。除此之外,还可直接通过一张图直观查看全部主题与全部关键词之间的关系情况,如下图所示:

上图可以看到3个主题分别与关键词之间的关系情况,图中气泡的大小表示权重的大小。可以看到:3个主题与关键词之间的关系区分较为明显,但是‘住户’这个关键词与主题2和主题3均有较为紧密的关系。结合3个主题分别与关键词的权重信息,可考虑对3个主题分别命名为:‘城市试点’、‘住房工程’和‘城乡建设’,即意味着demo数据提取出3个主题信息,即本份demo数据(取自于住建委2023年12月 “建设要闻”栏目下面41条新闻全文内容),其主要在讲述3个关键点,分别是:‘城市试点’、‘住房工程’和‘城乡建设’。当对3个主题名后,此时可在页面修改3个主题的名称,这样图和表格便会呈现出对应的名称,操作如下图所增:

与此同时,3个主题也有自己分别的权重大小,可通过主题分布表格进行查看,如下图所示:

上图显示,主题1的重要性最高为36.697%,即‘城乡试点’相对更加重要,其次为主题3即‘城乡建设’(35.711%),主题2的重要性为27.593%即‘住房工程’。总结上看,可以看到:‘住建委2023年12月 “建设要闻”栏目下面41条新闻全文内容’主要在讲3个事情,按照3个事情的重要性大小依次为:城市试点、住房工程和城乡建设,3个事情的重要性分别为36.697%、35.711%和27.593%。

与此同时,上表格还展示中数据文档中每个主题的分布行数,比如有17行数据均为城乡建设,15个主题均住房工程,9行为城市试点。简言之即41条新闻中,其中有17条主要是讲城乡建设相关,15条讲住房工作相关,城市试点相关的有9条。每行对应的主题标识信息,可通过下载按钮进行‘下载主题标识’进行下载后使用。

特别提示:

主题分析是一种信息的浓缩和提取,其并不具有‘绝对性’,比如某条新闻时,它可能即在讲主题1又在讲主题2的内容,因而主题分布出现行数,与主题的重要性之间并没有必然联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyCharm 自动添加文件头注释

PyCharm 自动添加文件头注释 1. File and Code Templates2. Python FileReferences 1. File and Code Templates File -> Settings -> Editor -> File and Code Templates -> Python Script Reformat according to style & Enable Live Templates Created by…

stm32--笔记

一、引脚与变量 ​​​​​​​​​​​​​​ 二、STM32时钟 [STM32-时钟系统详解_stm32时钟_KevinFlyn的博客-CSDN博客] 三、定时器中断实验 1、定时器中断实验 ​ stm32关于通用定时器的周期、频率计算公式_stm32tim频率计算_胶囊咖啡的博客-CSDN博客 ​ 【STM32】通用…

2024.2.18 C++QT 作业

思维导图 练习题 1>定义一个基类 Animal&#xff0c;其中有一个虛函数perform&#xff08;)&#xff0c;用于在子类中实现不同的表演行为。 #include <iostream>using namespace std;class Animal { public:virtual void perform() {cout << "这是一个动…

pytest 框架自动化测试

随笔记录 目录 1. 安装 2. 安装pytest 相关插件 2.1 准备阶段 2.2 安装 2.3 验证安装成功 3. pytest测试用例的运行方式 3.1 主函数模式 3.1.1 主函数执行指定文件 3.1.2 主函数执行指定模块 3.1.3 主函数执行某个文件中的某个类、方法、函数 3.1.4 主函数执行生…

Deployment

一、Deployment&#xff1a;管理部署发布的控制器 1、背景问题&#xff1a; 应用中的 Pod 如果出现了一些故障&#xff0c;如何保证集群内可用 Pod 的数量&#xff1f; 如何为所有 Pod 更新镜像版本&#xff1f; 在更新过程中&#xff0c;如何保证服务的可用性&#xff1f;…

PyCharm 调试过程中控制台 (Console) 窗口内运行命令 - 实时获取中间状态

PyCharm 调试过程中控制台 [Console] 窗口内运行命令 - 实时获取中间状态 1. yongqiang.py2. Debugger -> Console3. Show Python PromptReferences 1. yongqiang.py #!/usr/bin/env python # -*- coding: utf-8 -*- # yongqiang chengfrom __future__ import absolute_imp…

MyBatis框架-动态SQL

动态SQL 什么是动态SQL&#xff1a;动态SQL指的是根据不同的查询条件 , 生成不同的Sql语句. 动态 SQL 是 MyBatis 的强大特性之一。如果你使用过 JDBC 或其它类似的框架&#xff0c;你应该能理解根据不同条件拼接 SQL 语句有多痛苦&#xff0c;例如拼接时要确保不能忘记添加必…

Axios学习

文章目录 Axios1.Json-server的搭建2.Axios的基本使用3.Axios的其他使用4.Axios响应结果的结构分析5.Axios配置对象详细说明6.axios的默认配置7.axios创建实例对象&#xff08;create&#xff09;8.axios拦截器1.请求拦截器2.响应拦截器 9.取消请求10.源码分析 Axios 1.Json-s…

小迪安全25WEB 攻防-通用漏洞SQL 读写注入MYSQLMSSQLPostgreSQL

#知识点&#xff1a; 1、SQL 注入-MYSQL 数据库 2、SQL 注入-MSSQL(SQL server) 数据库 3、SQL 注入-PostgreSQL 数据库 #详细点&#xff1a; Access 无高权限注入点-只能猜解&#xff0c;还是暴力猜解 因为access的数据库是独立存在的&#xff0c;不存在统一管理 …

GitLab安装配置

一、GitLab的简介 GitLab是开源的代码托管平台&#xff0c;提供版本控制功能、代码审查、持续集成等工具&#xff0c;帮助团队协作开发软件项目。用户可以创建仓库存储代码&#xff0c;管理问题追踪&#xff0c;部署自动化流程等。 二、GitLab的安装 1、Rocky_Linux 下载安装 …

应用回归分析:多重共线性

多重共线性的概念 在回归分析中&#xff0c;我们通常关注的是如何利用一个或多个自变量&#xff08;解释变量&#xff09;来预测一个因变量&#xff08;响应变量&#xff09;。当我们使用多元线性回归模型时&#xff0c;理想的情况是模型中的每一个自变量都能提供独特的、对因…

【嵌入式学习】C++QT-Day6-C++基础

作业&#xff1a; 1.思维导图 见我的博客&#xff1a;https://lingjun.life/wiki/EmbeddedNote/19Cpp 2.编程题&#xff1a; 以下是一个简单的比喻&#xff0c;将多态概念与生活中的实际情况相联系&#xff1a; 比喻&#xff1a;动物园的讲解员和动物表演 想象一下你去了…

2024 前端面试题(GPT回答 + 示例代码 + 解释)No.114 - No.121

本文题目来源于全网收集&#xff0c;答案来源于 ChatGPT 和 博主&#xff08;的小部分……&#xff09; 格式&#xff1a;题目 h3 回答 text 参考大佬博客补充 text 示例代码 code 解释 quote 补充 quote 上一篇链接&#xff1a;2024 前端面试题&#xff08;GPT回答 示例…

汽车网络安全--关于供应商网络安全能力维度的思考

目录 1.关于CSMS的理解 2.OEM如何评审供应商 2.1 质量评审 2.2 网络安全能力评审 3.小结 1.关于CSMS的理解 最近在和朋友们交流汽车网络安全趋势时&#xff0c;讨论最多的是供应商如何向OEM证明其网络安全能力。 这是很重要的一环&#xff0c;因为随着汽车网络安全相关强…

三防平板电脑丨亿道工业三防平板丨三防平板定制丨机场维修应用

随着全球航空交通的增长和机场运营的扩展&#xff0c;机场维护的重要性日益凸显。为确保机场设施的安全和顺畅运行&#xff0c;采取适当的措施来加强机场维护至关重要。其中&#xff0c;三防平板是一种有效的工具&#xff0c;它可以提供持久耐用的表面保护&#xff0c;使机场维…

微信小程序 搜索框实现模糊搜索(带模拟数据,js,wxml,wxss齐全)

最近在做一个小程序的页面&#xff0c;搜索框困扰了我很久&#xff0c;今天终于把搜索框给做了出来&#xff0c;记录一下过程 我主要使用的就是wx的if&#xff0c;当我输入框用户点击的时候&#xff0c;我前面的显示界面添加上false属性&#xff0c;然后我搜索页面显示出true的…

【Jvm】类加载机制(Class Loading Mechanism)原理及应用场景

文章目录 Jvm基本组成一.什么是JVM类的加载二.类的生命周期阶段1&#xff1a;加载阶段2&#xff1a;验证阶段3&#xff1a;准备阶段4&#xff1a;解析阶段5&#xff1a;初始化 三.类初始化时机四.类加载器1.引导类加载器&#xff08;Bootstrap Class Loader&#xff09;2.拓展类…

leetcode13题罗马数字转成整数

代码 public static int romanToInt(String s) {// 创建一个HashMap&#xff0c;将罗马数字字符映射为整数值HashMap<Character, Integer> map new HashMap<>();map.put(I, 1);map.put(V, 5);map.put(X, 10);map.put(L, 50);map.put(C, 100);map.put(D, 500);map.…

Eclipse 创建 Hello World 工程

Eclipse 创建 Hello World 工程 1. Hello WorldReferences Download and install the Eclipse IDE. 1. Hello World Eclipse -> double click -> Launch 单击蓝色方框 (右上角) 最大化 IDE File -> New -> C Project -> Finish Project name&#xff1a;工程名…

Matlab|基于支持向量机的电力短期负荷预测【最小二乘、标准粒子群、改进粒子群】

目录 主要内容 部分代码 结果一览 下载链接 主要内容 该程序主要是对电力短期负荷进行预测&#xff0c;采用三种方法&#xff0c;分别是最小二乘支持向量机&#xff08;LSSVM&#xff09;、标准粒子群算法支持向量机和改进粒子群算法支持向量机三种方法对负荷进行…