SPSSAU【文本分析】|我的词库

我的词库

文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,词库也不认识它。但研究者自己认识它,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可,如下图:

接下来针对三个词库的设置进行具体说明。


新词词库

如果是新词,那么其操作方式为输入或者粘贴即可,通常可在‘新词发现’时找出一些潜在的新词,然后整理在EXCEL中,最后一次性复制和粘贴到框框中就好。比如下图:

批量加入新词后,左侧框中即呈现出全部新词。当然也可对新词进行移除处理,也可以搜索是否某个新词已经加入新词库,也或者下载出所有设置好的新词等。如下图所示:

特别提示:

在‘新词发现’功能处,有加入或者移出新词的功能。但通常情况下建议一次性将新词批量处理,在处理完成后,重新进行分析,重新进行分析的方式为:点‘我的项目’-》点击‘重新分析ICON’。

停用词

停用词是指已经不再需要计算频率的词,研究者可自行批量设置,类似如下图操作即可:

批量加入停用词后,左侧框中会展示所有的停用词,研究者也可删除停用词,搜索是否某个词为停用词,并且下载所有的停用词等。如下图所示:

特别提示:

在词云分析和词定位分析处,均有加入或者移出停用词的功能。但通常情况下建议一次性将停用词批量处理,在处理完成后,重新进行分析,重新进行分析的方式为:点‘我的项目’-》点击‘重新分析ICON’。

情感词

如果系统未识别到某个关键词的情感得分,也或者希望自己设置情感词,此时可进行设置。其输入格式为:“情感词,情感分值”,比如“很好,0.8”,此处情感分值建议规则为:-1到1分之间,大于1/3为情感正向,小于-1/3为情感负向[SPSSAU的情感计分规则是这样],情感得分绝对值越大意味着情感程度越高。

当有多个情感词时,换行输入(或者粘贴即可),操作类似如下图:

在加入情感词之后,左侧框中会展示所有自定义的情感词,研究者也可删除它,搜索是否某个词为自定义情感词,并且下载所有自定义情感词等。如下图所示:

特别提示:

在情感词自定义设置之后,如果需要查看按词情感分析,那么需要重新分析,重新进行分析的方式为:点‘文本情感分析’-》“按词”-》点击‘重新分析’。如下图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688267.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【监控】spring actuator源码速读

目录 1.前言 2.先搂一眼EndPoint 3.EndPoint如何被注入 4.EndPoint如何被暴露 4.1.如何通过http暴露 4.2.如何通过jmx暴露 5.EndPoint是怎么实现监控能力的 6.知道这些的意义是什么 1.前言 版本:spring-boot-starter-actuator 2.6.3 阅读源码一定要带着疑…

小迪安全26WEB 攻防-通用漏洞SQL 注入 SqlmapOracleMongodbDB2 等

#知识点: 1、数据库注入-Oracle&Mongodb 2、数据库注入-DB2&SQLite&Sybase 3、SQL 注入神器-SQLMAP 安装使用拓展 数据库注入: 数据库注入-联合猜解-Oracle&Mongodb 1.Oracle数据库一般会在java上执行 参考:https://www.cnblog…

图数据库 之 Neo4j - 应用场景1(6)

Neo4j是一种图数据库,它专注于处理关系数据密集型的问题。由于其图结构的特性,Neo4j能够高效地存储、查询和分析连接数据。 以下是一些常见的Neo4j应用场景: 社交网络分析:通过建模和分析人际关系,可以揭示社交网络中…

【详解】图的概念和存储结构(邻接矩阵,邻接表)

目录 图的基本概念: 图的存储结构 邻接矩阵(GraphByMatrix): 基本参数: 初始化: 获取顶点元素在其数组中的下标 : 添加边和权重: 获取顶点的度: 打印图&#xf…

Unity所有关于旋转的方法详解

前言:欧拉角和四元数的简单描述 我们在Inspector面板上看到的rotation其实是欧拉角, 我们将Inspector面板设置成Debug模式,此时看到的local Rotation才是四元数。 Unity中的欧拉旋转是按照Z-X-Y顺规执行的旋转,一组欧拉旋转过程中…

[力扣 Hot100]Day29 删除链表的倒数第 N 个结点

题目描述 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 出处 思路 两个指针间隔n,一趟遍历解决。 代码 class Solution { public:ListNode* removeNthFromEnd(ListNode* head, int n) {ListNode* phead;ListNode* …

【数据库】Mysql索引

1、什么是索引?为什么要用索引? 1.1、索引的含义 数据库索引,是数据库管理系统中一个排序的数据结构,以协助快速查询,更新数据库中表的数据。索引的实现通常使用B树和变种的B树(MySQL常用的索引就是B树&am…

跟着pink老师前端入门教程(JavaScript)-day03

四、常量 概念:使用 const 声明的变量称为“常量”。 使用场景:当某个变量永远不会改变的时候,就可以使用 const 来声明,而不是let。 命名规范:和变量一致 常量使用: 注意:常量不允许重新…

数据库索引面试的相关问题

查看索引的执行计划 索引失效的情况 1、索引列上做了计算,函数,类型转换等操作。索引失效是因为查询过程需要扫描整个索引并回表。代价高于直接全表扫描。 Like匹配使用了前缀匹配符“%abc” 字符串不加引号导致类型转换。 原因: 常见索…

阿里云香港轻量应用服务器网络线路cn2?

阿里云香港轻量应用服务器是什么线路?不是cn2。 阿里云香港轻量服务器是cn2吗?香港轻量服务器不是cn2。阿腾云atengyun.com正好有一台阿里云轻量应用服务器,通过mtr traceroute测试了一下,最后一跳是202.97开头的ip,1…

酒店内部服务App开发常用的代码分享!

随着移动互联网的迅猛发展,智能手机已经成为人们生活中不可或缺的一部分,酒店作为服务行业的重要代表,为了提升客户体验、提高服务效率,纷纷开始开发内部服务App。 这些App不仅可以帮助酒店实现内部管理的便捷化,还能…

二叉树(4)——链式二叉树

1 二叉树的概念 二叉树是: 空树非空:根节点,根节点的左子树、根节点的右子树组成的。 二叉树定义是递归式的,因此后序基本操作中基本都是按照该概念实现的。 2 二叉树的遍历 2.1 前序、中序以及后序遍历 学习二叉树结构&#xf…

【C++笔记】第一阶段:C++基础入门

C基础入门 1 C初识1.1 创建一个C程序1.1.1 创建项目1.1.2 创建文件1.1.3 编写代码1.1.4 运行程序 1.2 注释1.3 变量1.4 常量1.5 关键字1.6 标识符命名规则 2 数据类型2.1 整型2.2 sizeof关键字2.3 实型(浮点型)2.4 字符型2.5 转义字符2.6 字符串型2.7 布…

Github 2024-02-17 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-02-17统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目4TypeScript项目3Rust项目2Jupyter Notebook项目1PowerShell项目1JavaScript项目1 Black&#xff…

单片机学习笔记---AD模数转换DA数模转换

目录 AD模数转换 XPT2046.c XPT2046.h main.c DA数模转换 main.c 上一篇博客讲了AD/DA转换的工作原理,也介绍了运算放大器的工作原理,这节开始代码演示! AD模数转换 新创建一个工程:AD模数转换 第一个工程将用到LCD1602和…

相机图像质量研究(34)常见问题总结:图像处理对成像的影响--拖影

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

力扣 第 124 场双周赛 解题报告 | 珂学家 | 非常规区间合并

前言 整体评价 T4的dp解法没想到,走了一条"不归路", 这个区间合并解很特殊,它是带状态的,而且最终的正解也是基于WA的case,慢慢理清的。 真心不容易,太难了。 T1. 相同分数的最大操作数目 I 思路: 模拟 c…

吴恩达机器学习全课程笔记第二篇

目录 前言 P31-P33 logistics (逻辑)回归 决策边界 P34-P36 逻辑回归的代价函数 梯度下降的实现 P37-P41 过拟合问题 正则化代价函数 正则化线性回归 正则化logistics回归 前言 这是吴恩达机器学习笔记的第二篇,第一篇笔记请见&…

day32打卡

day32打卡 122. 买卖股票的最佳时机 II 解法,贪心:局部,收集每天的正利润-》整体,获取最大利润 从第0天到第3天,利润为:price[3] - price[0],也可以是(price[3] - price[2]) (price[2] - pr…

160基于matlab的负熵和峭度信号的盲分离

基于matlab的负熵和峭度信号的盲分离。基于峭度的FastICA算法的收敛速度要快,迭代次数比基于负熵的FastICA算法少四倍以上。SMSE随信噪比增大两种判据下的FastICA算法都逐渐变小,但是基于峭度的算法的SMSE更小,因此基于峭度的FastICA算法性能…