SPSSAU【文本分析】|文本聚类

SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。按词聚类是指将需要分析的关键词进行聚类分析,并且进行可视化展示,即针对关键词进行聚类,此处关键词可以自由选择。按行聚类分析是指针对以‘行’为单位进行聚类分析,将原始文本中多行数据聚为几个类别,并且可将具体聚类类别信息进行下载等。


按词聚类分析

按词聚类分析操作如下图:

默认情况下,系统会将词频靠前的20个关键词提取,并且得到其词向量值,并且其于词向量值进行聚类分析(具体为kmeans聚类),接着进行MDS分析,最终渲染出各个关键词的坐标定位信息,可视化展示词之间的聚类信息。

特别提示:

关键词的词向量提取时,有可能无法获取得到,因而在表格中会展示为‘未识别词暂不聚类’即该词不进入聚类分析。

以及默认Demo数据时出来结果如下图:

图中不同的颜色代表不同的类别,其意味着各个关键词之间的类别区分。默认情况下聚类为3类,如果分析关键词较多时,可尝试修改聚类类别个数后,重新分析即可。除此之外,关键词之间的关系情况,还可通过‘共词矩阵’(即两个词同时出现在‘同一行’的数量情况)查看关键词之间的关系情况,当两个词同时出现的次数越高时,很可能二者关系越为紧密。

在按词聚类分析时,SPSSAU默认提供‘共词矩阵’表格,并且可进行下载。‘共词矩阵’在社会网络关系图分析中还有进一步使用,具体也可查看社会网络关系图。

默认情况下,SPSSAU将词频最高的前20个关键词进行聚类分析,如果希望改变选中的关键词,可点击‘选择分析词’进行自由选择,如下图所示:

可修改高频词的个数,也或自由的点击选择分析词,也可以通过搜索词进行搜索,然后进行选中或者不选中操作等。

按行聚类分析

不同于按词聚类分析,按行聚类分析是指以‘行’为单位,针对每行数据进行聚类分析(具体为kmeans聚类),并且计算出各‘行’数据的聚类类别,也可直接进行下载聚类类别信息。一般来说,聚类类别选择为3个即可,当然如果数据行数较多,可考虑修改成更多的聚类类别个数,如下图所示:

输出结果时,包括各‘行’数据的聚类类别,具体使用时可对其进行下载,用于进一步使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/691387.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv8推理程序

YOLOv8单独推理,有时候我们自定义的模块算子无法正常转换为其他框架,而且需要做成应用,因此需要一个单独推理的程序,返回的是识别后的照片还有各个类别及其对应数量。文章最后给出Flask封装为Server以及调用的实例还有Client请求代码,支持几十路多线程并发,只需加载一次模…

闲鱼搜索API接口

闲鱼搜索API接口接口api代码对接如下: 1.公共参数 名称 类型 必须 描述 key String √ get请求方式拼接在url中,点击获取 api_name String √ api接口名称 cache String 默认否 result_type String 否 json lang String 默认cn 简…

linux部署jenkins,支持jdk1.8

无废话,纯干活安装指令 本文前提条件需安装jdk8,安装参考:Linux配置jdk环境 下载资源 # 创建安装目录 mkdir -p /data/jenkins && cd /data/jenkins# 下载jenkins的war包,v2.346.x支持jdk1.8,高于这个版本的…

【数据结构】图的最小生成树

最小生成树 一个图中有N个顶点,边的数量一定是>N-1,我们从中选取N-1条边,用来连接N个点,所形成的边权之和最小,就是最小生成树。 构成最小生成树的准则 只能使用图中的边来构造最小生成树只能使用恰好n-1条边来连…

Stable Diffusion 绘画入门教程(webui)-提示词

通过上一篇文章大家应该已经掌握了sd的使用流程,本篇文章重点讲一下提示词应该如何写 AI绘画本身就是通过我们写一些提示词,然后生成对应的画面,所以提示词的重要性不言而喻。 要想生成更加符合自己脑海里画面的图片,就尽量按照…

术业有专攻!三防加固平板助力工业起飞

在日常使用中的商业电脑比较追求时效性,以市场定位做标准,内部元件只需满足一般要求就行,使用寿命比较短。而三防平板电脑是主要运用在复杂、恶劣的环境下所以在需求方面较高,需要保证产品在恶劣条件下正常使用,满足行业领域的需求…

【CCEdit】通过扩散模型进行创意且可控的视频编辑

文章目录 CCEdit1. 核心特性1.1 三叉戟网络结构1.2 精细的外观控制1.3 高度的自适应性 2. 三叉戟结构2.1 结构分支(ControlNet架构)2.2 外观分支2.3 主分支 3. 数据集——BalanceCC benchmark dataset4. 训练5. 长视频编辑6. 使用场景7. 评估指标 CCEdit…

单片机01天---stm32基本信息了解

下载数据手册 以STM32F407ZG为例 网站:www.st.com,搜索芯片型号,下载“数据手册”使用 数据手册使用 查看芯片型号信息 芯片资源信息 时钟框图 芯片资源表格下方 GPIO口表格 一般位于下图后面的位置 ①工作电压:1.8V – 3.6V…

Codeforces Round 928 (Div. 4) (A-E)

比赛地址 : https://codeforces.com/contest/1926 A 遍历每一个字符串&#xff0c;比较1和0的数量即可&#xff0c;那个大输出那个; #include<bits/stdc.h> #define IOS ios::sync_with_stdio(0);cin.tie(0);cout.tie(0); #define endl \n #define lowbit(x) (x&am…

C++BST(二叉搜索树)应用场景

CBST可以应用于各种场景&#xff1a; 数据的快速查找&#xff1a;由于BST的特性&#xff0c;可以很方便地进行查找操作。在BST中&#xff0c;查找一个特定元素的时间复杂度为O(log n)&#xff0c;其中n是BST中节点的数量。数据的排序&#xff1a;BST可以通过中序遍历得到有序的…

Idea启动Gradle报错: Please, re-import the Gradle project and try again

Idea启动Gradle报错&#xff1a;Warning:Unable to make the module: reading, related gradle configuration was not found. Please, re-import the Gradle project and try again. 解决办法&#xff1a; 开启步骤&#xff1a;View -> Tool Windows -> Gradle 点击refe…

HN 千赞热贴|创业 4 年,那些狠狠打我脸的技术选型

Hacker News 帖子 过年这段时间&#xff0c;Hacker News 上也涌现了不少好帖子&#xff0c;除了霸榜的 Sora 外&#xff0c;技术贴最靠前的就是这篇 (Almost) Every infrastructure decision I endorse or regret after 4 years running infrastructure at a startup。作者根据…

C#面:列出 .NET 中的几种循环方法,并指出它们的不同

fo r循环&#xff1a; for 循环是一种最常见的循环方法&#xff0c;它通过指定循环的起始值、终止条件和每次迭代的步长来控制循环。 for 循环适用于已知循环次数的情况。 while循环&#xff1a; while循环是一种在循环开始之前先判断条件是否满足的循环方法。只有当条件为…

【Django开发】0到1开发美多shop项目:图形和短信验证码。全md文档笔记(附代码,已分享)

本系列文章md笔记&#xff08;已分享&#xff09;主要讨论django商城项目相关知识。项目利用Django框架开发一套前后端不分离的商城项目&#xff08;4.0版本&#xff09;含代码和文档。功能包括前后端不分离&#xff0c;方便SEO。采用Django Jinja2模板引擎 Vue.js实现前后端…

【Java多线程】线程安全问题与解决方案

目录 1、线程安全问题 1.2、线程安全原因 2、线程加锁 2.1、synchronized 关键字 2.2、完善代码 2.3、对同一个线程的加锁操作 3、内容补充 3.1、内存可见性问题 3.2、指令重排序问题 3.3、解决方法 3.4、总结 volatile 关键字 1、线程安全问题 某个代码&#xff…

初识结构体(C语言)

目录 1、结构体声明 2、结构体访问 3、结构体传参 1、结构体声明 结构是一些值的集合&#xff0c;这些值称为成员变量。结构的每一个成员可以是不同类型的变量。有点像数组&#xff0c;但是一个数组只能存放同一种类型的变量。如果要描述复杂对象的时候&#xff0c;对象由多…

基于Java SSM框架实现留学生交流互动论坛网站项目【项目源码+论文说明】

摘要 21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的管理&#xff0c;使信息存…

【leetcode】常用数学题解法介绍

当涉及到ACM算法题中常见的数学常识和知识点时&#xff0c;以下是更加详细和全面的分析&#xff1a; 二进制&#xff1a; 二进制在计算机中是最基础的进制&#xff0c;它只包含两个数字0和1。在ACM算法题中&#xff0c;常用的二进制操作有&#xff1a; 位运算&#xff1a;包括…

关于三色标记算法

关于三色标记算法 三色标记算法是一种用于垃圾收集得算法&#xff0c;主要用于解决在并发垃圾收集中可能出现得对象引用更新问题。在JVM中&#xff0c;这种算法主要应用于CMS&#xff08;ConcurrentMarkSweep&#xff09;收集器和G1&#xff08;Garbage-first&#xff09;收集…

基于ant的图片上传组件封装(复制即可使用)

/*** 上传图片组件* param imgSize 图片大小限制* param data 上传数据* param disabled 是否禁用*/import React, { useState,useEffect } from react; import { Upload, Icon, message} from antd; const UploadImage ({imgSize 50,data { Directory: Image },disabled f…