NLP 笔记:LDA(训练篇)

1 前言:吉布斯采样

吉布斯采样的基本思想是,通过迭代的方式,逐个维度地更新所有变量的状态

1.1 举例 收拾东西

  • 假设我们现在有一个很乱的屋子,我们不知道东西应该放在哪里(绝对位置),但知道哪个和哪个应该比较近(相对位置)

我们每次选取一个物品,假设其他的位置都是正确的,那么这个应该放在哪个位置

比如:选取一个衣架,把他放到另一个衣架边上

衣服放到裤子边上

一步一步来,直到东西已经正确放置

2 LDA 的两个原则

一个文章中单词的主题越集中越好

同一个单词的主题越集中越好

那the这种词怎么办?这种不重要的词舍弃掉

3 LDA 目标

有了LDA的两个基本原则后,LDA的目标可以变为(颜色代表topic):

4 LDA 更新过程

首先随机给每个单词染色

对于第一个单词ball,假设其他单词颜色是正确的

首先看同一个文件里面,其他单词的颜色

然后看看同一个单词,在所有文件里面出现的颜色

他们的乘积就是对应的概率权重

但是,我们不希望出现绝对的零,我们对所有的权重加一个很小的值:

然后以乘积结果作为权重,采样,采到哪个,就染成什么颜色

以此类推,一个一个重新染色所有的单词

那怎么知道应该染成什么颜色呢?这个是人为做的

参考内容:

Training Latent Dirichlet Allocation: Gibbs Sampling (Part 2 of 2) (youtube.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/766311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iOS模拟器 Unable to boot the Simulator —— Ficow笔记

本文首发于 Ficow Shen’s Blog,原文地址: iOS模拟器 Unable to boot the Simulator —— Ficow笔记。 内容概览 前言终结模拟器进程命令行改权限清除模拟器缓存总结 前言 iOS模拟器和Xcode一样不靠谱,问题也不少。😂 那就有病治…

鸿蒙Harmony应用开发—ArkTS-ForEach:循环渲染

ForEach基于数组类型数据执行循环渲染。 说明: 从API version 9开始,该接口支持在ArkTS卡片中使用。 接口描述 ForEach(arr: Array,itemGenerator: (item: Array, index?: number) > void,keyGenerator?: (item: Array, index?: number): string …

【wails】(10):研究go-llama.cpp项目,但是发现不支持最新的qwen大模型,可以运行llama-2-7b-chat

1,视频演示地址 2,项目地址go-llama.cpp 下载并进行编译: git clone --recurse-submodules https://github.com/go-skynet/go-llama.cpp cd go-llama.cpp make libbinding.a项目中还打了个补丁: 给 编译成功,虽然有…

深度学习 线性神经网络(线性回归 从零开始实现)

介绍: 在线性神经网络中,线性回归是一种常见的任务,用于预测一个连续的数值输出。其目标是根据输入特征来拟合一个线性函数,使得预测值与真实值之间的误差最小化。 线性回归的数学表达式为: y w1x1 w2x2 ... wnxn …

【隐私计算实训营——004上手隐语SecretFlow和SecretNote安装部署】

1. SecretFlow安装 1.1 环境要求 Python>3.8操作系统 Ubuntu18 资源:>8核16GB安装包 secretflow-lite 安装方式 docker(推荐) 2. SecretFlow部署模式 SecretFlow使用Ray作为分布式计算调度框架。 Ray集群由一个主节点和零或若干个…

Fabric Measurement

Fabric Measurement 布料测量

分布式组件 Nacos

1.在之前的文章写过的就不用重复写。 写一些没有写过的新东西 2.细节 2.1命名空间 : 配置隔离 默认: public (默认命名空间):默认新增所有的配置都在public空间下 2.1.1 开发 、测试 、生产:有不同的配置文件 比如…

docker 数据卷 (二)

1,为什么使用数据卷 卷是在一个或多个容器内被选定的目录,为docker提供持久化数据或共享数据,是docker存储容器生成和使用的数据的首选机制。对卷的修改会直接生效,当提交或创建镜像时,卷不被包括在镜像中。 总结为两…

Orbit 使用指南 10|在机器人上安装传感器 | Isaac Sim | Omniverse

如是我闻: 资产类(asset classes)允许我们创建和模拟机器人,而传感器 (sensors) 则帮助我们获取关于环境的信息,获取不同的本体感知和外界感知信息。例如,摄像头传感器可用于获取环境的视觉信息&#xff0c…

ADB环境配置和基础使用

目录 一、ADB简介工作原理 二、安装ADB驱动程序配置环境变量验证ADB安装 三、启用USB调试模式四、连接设备到计算机五、使用ADB命令安装/卸载包Android 设备与电脑传输文件exit 退出目录日志操作指令系统操作指令adb ps命令 一、ADB简介 ADB全称是Android Debug Bridge&#x…

CentOS系统部署YesPlayMusic播放器并实现公网访问本地音乐资源

文章目录 1. 安装Docker2. 本地安装部署YesPlayMusic3. 安装cpolar内网穿透4. 固定YesPlayMusic公网地址 本篇文章讲解如何使用Docker搭建YesPlayMusic网易云音乐播放器,并且结合cpolar内网穿透实现公网访问音乐播放器。 YesPlayMusic是一款优秀的个人音乐播放器&am…

校园大数据平台的顶层设计与微观应用PDF下载

校园大数据平台的顶层设计与微观应用文档,是一份全面深入的解决方案,旨在构建一个集数据收集、存储、处理、分析及可视化于一体的综合平台。该设计以提升教育教学质量、优化资源配置、增强学生服务体验和提高管理效率为核心目标,通过大数据分…

c++的学习之路:3、入门(2)

一、引用 1、引用的概念 引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器不会为引用变量开辟内存空 间,它和它引用的变量共用同一块内存空间。 怎么说呢,简单点理解就是你的小名,家里人叫你小名&#…

基于springboot和vue的旅游资源网站的设计与实现

环境以及简介 基于vue, springboot旅游资源网站的设计与实现,Java项目,SpringBoot项目,含开发文档,源码,数据库以及ppt 环境配置: 框架:springboot JDK版本:JDK1.8 服务器&#xf…

谷歌seo营销服务有哪些服务?

以我们举例,如果你在做B2B外贸建站,这里有全套保姆式托管服务,让你既省心又省力,七天就能搞定网站建设,快速上线,再来就是谷歌白帽SEO,我们这边强调的是纯白帽操作,专注于高质量的原…

今天聊聊新零售

一、什么是新零售? 2016年,在杭州举行的“云栖大会”上,马云发表了讲话,首次提出了“新零售”这一概念。 1.1 新零售概念 新零售,英文是New Retailing,新零售是对人货场的重构。人是消费者、销售人员、…

CISP 4.2备考之《物理与网络通信安全》知识点总结

文章目录 第 1 节 物理与环境安全第 2 节 网络安全基础第 3 节 网络安全技术与设备第 1 部分 防火墙第 2 部分 入侵检测系统第 3 部分 其他安全产品 第 4 节 网络安全设计规划 第 1 节 物理与环境安全 1.场地选择 1.1 场地选择:自然条件、社会条件、其他条件。1.2 抗震和承重&…

【操作系统】进程基础知识

目录 1、进程的介绍 2、进程的五个基本特性 3、进程的组成 4、进程的并行和并发执行 5、进程的状态 6、进程的通信 7、线程 1、进程的介绍 进程(Process)是程序在某个数据集合上的一次运行活动,也是操作系统进行资源分配和保护的基本单…

java设计模式(1)---总则

设计模式总则 一、概述 1、什么是设计模式 设计模式是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。 解释下: 分类编目:就是说可以找到一些特征去划分这些设计模式,从而进行分类。 代码设计经验:这句很重…

使用Intellij idea编写Spark应用程序(Scala+SBT)

使用Intellij idea编写Spark应用程序(ScalaSBT) 对Scala代码进行打包编译时,可以采用Maven,也可以采用SBT,相对而言,业界更多使用SBT。 运行环境 Ubuntu 16.04 Spark 2.1.0 Intellij Idea (Version 2017.1) 安装Scala插件 安…