主题模型LDA教程:一致性得分coherence score方法对比(umass、c_v、uci)

文章目录

        • 主题建模
        • 潜在迪利克雷分配(LDA)
        • 一致性得分 coherence score
          • 1. CV 一致性得分
          • 2. UMass 一致性得分
          • 3. UCI 一致性得分
          • 4. Word2vec 一致性得分
          • 5. 选择最佳一致性得分

主题建模

主题建模是一种机器学习和自然语言处理技术,用于确定文档中存在的主题。它能够确定单词或短语属于某个主题的概率,并根据它们的相似度或接近度对文档进行聚类。它通过分析文档中单词和短语的频率来实现这一目的。 主题建模的一些应用还包括文本摘要、推荐系统、垃圾邮件过滤器等。

具体来说,目前用于提取主题模型的方法包括潜狄利克特分配法(LDA)、潜语义分析法(LSA)、概率潜语义分析法(PLSA)和非负矩阵因式分解法(NMF)。我们将重点讨论潜狄利克特分配(LDA)的一致性得分。

潜在迪利克雷分配(LDA)

Latent Dirichlet Allocation 是一种无监督的机器学习聚类技术,我们通常将其用于文本分析。它是一种主题建模,其中单词被表示为主题,而文档则被表示为这些单词主题的集合。

总之,这种方法通过几个步骤来识别文档中的主题:

  1. 抽取主题–在主题空间中初始化文档的 Dirichlet 分布,并从文档主题的多叉分布中选择 N 个主题。
  2. 抽取单词并创建文档 - 在单词空间中初始化主题的 Dirichlet 分布,并从主题上单词的多项式分布中为每个先前抽取的主题选择 N 个单词。
  3. 最大化创建相同文档的概率。
    上述算法的数学定义为

在这里插入图片描述

其中 α \alpha α β \beta β 定义了 Dirichlet 分布, θ \theta θ ϕ \phi ϕ 定义了多叉分布, Z Z Z 是包含所有文档中所有单词的主题向量, W W W 是包含所有文档中所有单词的向量, M M M 个文档数, K K K 个主题数和 N N N 个单词数。

我们可以使用吉布斯采样(Gibbs sampling)来完成整个训练或概率最大化的过程,其总体思路是让每个文档和每个单词尽可能地单色。基本上,这意味着我们希望每篇文档的文章数越少越好,每个词属于的主题数越少越好。

一致性得分 coherence score

在主题建模中,我们可以使用一致性得分来衡量主题对人类的可解释性。在这种情况下,主题表示为属于该特定主题概率最高的前 N 个词。简而言之,一致性得分衡量的是这些词之间的相似程度。

1. CV 一致性得分

最流行的一致性度量之一被称为 CV。它利用词的共现创建词的内容向量,然后利用归一化点式互信息(NPMI)和余弦相似度计算得分。这个指标很受欢迎,因为它是 Gensim 主题一致性pipeline模块的默认指标,但它也存在一些问题。即使是该指标的作者也不推荐使用它。

不推荐使用 CV 一致性度量。

2. UMass 一致性得分

我们建议使用 UMass 一致性评分来代替 CV 评分。它计算两个词 w i w_{i} wi w j w_{j} wj 在语料库中同时出现的频率,其定义为
在这里插入图片描述

其中, D ( w i , w j ) D(w_{i}, w_{j}) D(wi,wj) 表示单词 w i w_{i} wi w j w_{j} wj 在文档中同时出现的次数, D ( w i ) D(w_{i}) D(wi) 表示单词 w i w_{i} wi 单独出现的次数。数字越大,一致性得分越高。此外,这一指标并不对称,也就是说 C U M a s s ( w i , w j ) C_{UMass}(w_{i}, w_{j}) CUMass(wi,wj)不等于 C U M a s s ( w j , w i ) C_{UMass}(w_{j}, w_{i}) CUMass(wj,wi)。我们用描述主题的前 N 个词的平均成对一致性得分来计算主题的全局一致性。

3. UCI 一致性得分

该一致性得分基于滑动窗口和所有词对的点互信息,使用出现率最高的 N 个词。我们不计算两个词在文档中出现的频率,而是使用滑动窗口计算词的共现。也就是说,如果我们的滑动窗口大小为 10,那么对于一个特定的词 w i w_{i} wi,我们只能观察到词 w i w_{i} wi 前后的 10 个词。

因此,如果单词 w i w_{i} wi w j w_{j} wj 同时出现在文档中,但它们没有同时出现在一个滑动窗口中,我们就不认为它们是同时出现的。同样,对于 UMass 分数,我们将单词 w i w_{i} wi w j w_{j} wj 之间的 UCI 一致性定义为

在这里插入图片描述

其中, P ( w ) P(w) P(w) 是在滑动窗口中看到单词 w 的概率, P ( w i , w j ) P(w_{i}, w_{j}) P(wi,wj)是单词 w i w_{i} wi w j w_{j} wj 在滑动窗口中同时出现的概率。在原论文中,这些概率是使用 10 个单词的滑动窗口,从 200 多万篇英文维基百科文章的整个语料库中估算出来的。我们计算话题全局一致性的方法与计算 UMass 一致性的方法相同。

4. Word2vec 一致性得分

一个聪明的想法是利用 word2vec 模型来计算一致性得分。这将在我们的得分中引入单词的语义。基本上,我们希望根据两个标准来衡量一致性:

主题内相似性–同一主题中词语的相似性。
主题间相似性–不同主题中词语的相似性。
这个想法非常简单。我们希望主题内相似度最大化,主题间相似度最小化。此外,我们所说的相似性是指 word2vec 嵌入所代表的词与词之间的余弦相似性。

然后,我们计算每个主题的主题内相似度,即该主题中每对可能的前 N 个词之间的平均相似度。随后,我们计算两个主题之间的主题间相似度,即这两个主题中前 N 个词之间的平均相似度。

最后,两个主题 t i t_{i} ti t j t_{j} tj 之间的 word2vec 一致性得分计算公式为
在这里插入图片描述

5. 选择最佳一致性得分

**没有一种方法可以确定一致性得分的好坏。**得分及其价值取决于计算数据。例如,在一种情况下,0.5 的分数可能足够好,但在另一种情况下则不可接受。唯一的规则是,我们要最大限度地提高这个分数。

通常,一致性得分会随着主题数量的增加而增加。随着主题数量的增加,这种增加会变得越来越小。可以使用所谓的肘部技术来权衡主题数量和一致性得分。这种方法意味着将一致性得分绘制成主题数量的函数。我们利用曲线的肘部来选择主题数量。

这种方法背后的理念是,我们要选择一个点,在这个点之后,一致性得分的递减增长不再值得额外增加主题数。n_topics = 3 时的肘截点示例如下:
在这里插入图片描述

elbow rule
此外,一致性得分取决于 LDA 超参数,如 α \alpha α β \beta β K K K。毕竟,手动验证结果是很重要的,因为一般来说,无监督机器学习系统的验证工作都是由人工完成的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/138226.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

合同审查---财务条款、合同形式与生效审查

1.合同主体 1人 廖 2.财务条款、合同形式与生效 1人 黄 3.履行、验收、知识产权、不可抗力 1人 詹 4.违约责任、争议解决、保密、法律引用 1人 王 代码规范: 1.代码函数的层级 各审查点在json中分为3级层级,但用python写规则的时候,1级层级为…

『Nacos』 入门教程

前言 本文为 Nacos 平台快速入门教程,本文将会使用通俗易懂的语言手把手带您了解、使用 Nacos 平台,适合未接触过 Nacos 的初学者 官方手册:Nacos | Nacos 官方仓库:alibaba/nacos 版本:2.X 本文示例代码仓库&#xf…

Python基础教程:类--继承和方法的重写

嗨喽,大家好呀~这里是爱看美女的茜茜呐 什么是继承 继承就是让类与类之间产生父子关系,子类可以拥有父类的静态属性和方法 继承就是可以获取到另一个类中的静态属性和普通方法(并非所有成员) 在python中,新建的类可…

2023年成为优秀自动化测试工程师的 7 个步骤!

“测试自动化测试工程师可以将你从充满代码的世界中拯救出来。”企业完全同意这一说法,这就是您在自动化测试行业中看到大量就业机会的原因。我在 Quora 上收到了很多与自动化测试中的职业选择相关的答案请求,以及人们如何在有或没有手动测试经验的情况下…

RISC-V处理器设计(五)—— 在 RISC-V 处理器上运行 C 程序

目录 一、前言 二、从 C 程序到机器指令 三、实验 3.1 实验环境 3.11 Windows 平台下环境搭建 3.12 Ubuntu 平台下环境搭建 3.13 实验涉及到的代码或目录 3.2 各文件作用介绍 3.2.1 link.lds 3.2.2 start.S 3.2.3 lib 和 include 目录 3.2.4 common.mk 3.2.5 demo …

技术分享 | 测试平台开发-前端开发之数据展示与分析

测试平台的数据展示与分析,我们主要使用开源工具ECharts来进行数据的展示与分析。 ECharts简介与安装 ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表&#xff…

《红蓝攻防对抗实战》九.内网穿透之利用GRE协议进行隧道穿透

​ 前文推荐: 《红蓝攻防对抗实战》一. 隧道穿透技术详解 《红蓝攻防对抗实战》二.内网探测协议出网之TCP/UDP协议探测出网 《红蓝攻防对抗实战》三.内网探测协议出网之HTTP/HTTPS协议探测出网 《红蓝攻防对抗实战》四.内网探测协议出网之ICMP协议探测出网 《红蓝…

mysql索引下推

文章目录 什么是索引下推索引下推优化的原理索引下推的具体实践没有使用ICP使用ICP 总结索引下推使用条件相关系统参数 什么是索引下推 索引下推(Index Condition Pushdown,简称ICP),是MySQL5.6版本的新特性,它能减少回表查询次数&#xff0…

界面组件DevExpress ASP.NET Core v23.1 - 进一步升级UI组件

DevExpress ASP.NET Core Controls使用强大的混合方法,结合现代企业Web开发工具所期望的所有功能。该套件通过ASP.NET Razor标记和服务器端ASP.NET Core Web API的生产力和简便性,提供客户端JavaScript的性能和灵活性。ThemeBuilder工具和集成的Material…

遍历List集合和Map进行修改和删除报java.util.ConcurrentModificationException错误详解

一、异常产生 当我们使用foreach迭代一个ArrayList或者HashMap时,如果尝试对集合做一些修改操作(例如删除元素或新增),可能会抛出java.util.ConcurrentModificationException的异常。 javapublic static void main(String[] args)…

山西电力市场日前价格预测【2023-11-12】

日前价格预测 预测说明: 如上图所示,预测明日(2023-11-12)山西电力市场全天平均日前电价为224.59元/MWh。其中,最高日前电价为434.30元/MWh,预计出现在18:00。最低日前电价为0.00元/MWh,预计出…

深度学习 python opencv 火焰检测识别 计算机竞赛

文章目录 0 前言1 基于YOLO的火焰检测与识别2 课题背景3 卷积神经网络3.1 卷积层3.2 池化层3.3 激活函数:3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV54.1 网络架构图4.2 输入端4.3 基准网络4.4 Neck网络4.5 Head输出层 5 数据集准备5.1 数…

python OrderedDict类(有序字典)

嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 创建有序字典 import collectionsdic collections.OrderedDict() dic[k1] v1 dic[k2] v2 dic[k3] v3 print(dic)#输出:OrderedDict([(k1, v1), (…

C#中.NET 7.0不再支持ADO.NET,.NET Framwork依旧支持

目录 一、.NET 7.0框架下任何应用不再支持ADO.NET 二、.NET Framwork框架下Windows窗体应用支持ADO.NET 三、.NET 7.0不支持ADO.NET的真正原因 经过一阵折腾,终于可以确证C#中.NET框架不再支持用户通过ADO.NET的实体框架模型访问数据库,无论是.NET 7…

C# .NET Core API Controller以及辅助专案

准备工作 Windows 10Visual Studio 2019(2017就有可以集中发布到publish目录的功能了吧)C#将方法封装(据说可以提高效率,就像是我们用的dll那种感觉新增专案作为我们API的辅助专案(作用类似dll,此处,你也可以在你自己的API专案里建文件夹,但…

MySQL---存储过程

存储过程的相关概念 是一组为了完成特定功能的sql语句的集合,类似于函数 写好了一个存储过程之后,我们可以像函数一样随时调用sql的集合。 复杂的,需要很多sql语句联合执行完成的任务 存储过程再执行上比sql语句的执行速度更快&#xff0c…

js 求数组中的对象某个属性和

可以直接看下效果 代码&#xff1a; <script>let list [{num: 1,price: 10,},{num: 2,price: 10,},{num: 3,price: 10,},{num: 4,price: 10,},]// for循环 求总数和 num的和let num 0for (let i 0; i < list.length; i) {num list[i].num}console.log(第一种&am…

AirTag追踪汽车

美国华盛顿特区&#xff0c;11月4日&#xff0c;在一项全新的抗击车辆盗窃的措施中&#xff0c;市长穆里尔•鲍泽签署了一项新计划&#xff0c;将向该市车辆盗窃频率较高的社区居民免费提供苹果AirTag追踪器。 AirTag是苹果公司推出的一款蓝牙跟踪设备&#xff0c;它依靠Findm…

从单体到微服务:使用Spring Boot构建事件驱动的Java应用程序

Spring Boot是Pivotal团队设计的一种微服务框架&#xff0c; 基于Spring开发&#xff0c;用于简化新Spring应用的初始搭建及开发过程&#xff0c;提升Spring 开发者的体验。它秉持“约定大于配置”的思想&#xff0c;集成了大量开箱即用的第三方库&#xff0c;支持绝大多数开源…

asp.net学院网上报销系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net学院网上报销系统是一套完善的web设计管理系统&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为vs2010&#xff0c;数据库为sqlserver2008&#xff0c;使用c#语言 开发 asp.net学院网上报销系统 应用技术…