机器学习---学习与推断,近似推断、话题模型

1. 学习与推断

基于概率图模型定义的分布,能对目标变量的边际分布(marginal distribution)或某些可观测变量

为条件的条件分布进行推断。对概率图模型,还需确定具体分布的参数,称为参数估计或学习问

题,通常使用极大似然估计或后验概率估计求解。单若将参数视为待推测的变量,则参数估计过程

和推断十分相似,可以“吸收”到推断问题中。

假设图模型所对应的变量集x={x1,x2,···,xn}能分为XE和XF两个不相交的变量集,推断问

题的目标就是计算边际概率p(XF)或者条件概率p(XF|XE)。同时,由条件概率定义容易有

其中,联合概率p(xF,xE)可基于图模型获得,所以推断问题的关键就在于如何高效计算边际分

布,即

概率图模型的推断方法可以分两类:①精确推断方法:计算出目标变量的边际分布或条件分布的精

确值,一般情况下,该类方法的计算复杂度随极大团规模增长呈指数增长,适用范围有限。

②近似推断方法:在较低的时间复杂度下获得原问题的近似解,在实际问题中更常用。

1.1 精确推断:变量消去

精确推断实质是一种动态规划算法,利用图模型所描述的条件独立性来削减计算目标概率值所需的

计算量。变量消去是最直观的精确推断方法,也是构建其它精确推断算法的基础。

例:计算边缘概率p(x5)

mij(xj)是求加过程中的中间结果,下标 i 表示此项是对 xi 求加的结果,下标 j 表示此项中还剩余

的其它变量;显然,mij(xj)是关于 xj 的函数。

事实上,上述方法对无向图模型同样适用.不妨忽略图14.7(a)中的箭头,将其看作一个无向图

模型,有

其中Z为规范化因子。边际分布P(x5)可这样计算:

变量消去法实际上是利用了乘法对加法的分配律,将对多个变量的积的求和问题转化为对部分变量

交替进行求积和求和的问题。这种转化使得每次的求和和求积运算被限制在局部,仅和部分变量有

关,从而简化了计算。 

变量消去法有一个明显的缺点:若需计算多个边际分布,重复使用变量消去法将会造成大量的冗余

计算.例如在上图的贝叶斯网上,假定在计算P(x5)之外还希望计算P(x4),若采用{x1,

x2,x5,x3}的顺序,则m12(x2)和m23(x3)的计算是重复的。

1.2 信念传播

计算多个边际分布,重复使用变量消去法会造成大量的冗余计算。利用信念传播(Belief

Propagation)方法避免冗余计算 。

信念传播(Belief Propagation)算法将变量消去法中的求和操作看作一个消息传递过程,较好地

解决了求解多个边际分布时的重复计算问题.具体来说,变量消去法通过求和操作。

消去变量xi,其中n(i)表示结点xi的邻接结点.在信念传播算法中,这个操作被看作从 xi 向 xj 传

递了一个消息mij(xj)。这样,描述的变量消去过程就能描述为上图所示的消息传递过程。不难发

现,每次消息传递操作仅与变量 xi 及其邻接结点直接相关,换言之,消息传递相关的计算被限制

在图的局部进行。

信念传播算法中,一个结点仅在接收到来自其它所有结点的消息后才能向另一个结点发送消息,且

结点的边际分布正比于它所接收的消息的乘积:

例:下图中,结点x3要向x5发送消息,必须事先收到来自结点x2和x4的消息,且传递到x5的消息

m35(x5)恰为概率P(x5):

若图中没有环,则信念传播算法经过两个步骤即可完成所有消息传递,进而能计算所有变量上的边

际分布:指定一个根节点,从所有叶结点开始向根节点传递消息,直到根节点收到所有邻接结点的

消息;从根结点开始向叶结点传递消息,直到所有叶结点均收到消息 。

令x1为根结点,则x4和x5为叶结点。以上两步消息传递的过程如上图所示。此时图的每条边上都

有方向不同的两条消息,基于这些消息和即可获得所有变量的边际概率。

2. 近似推断

精确推断方法需要很大的计算开销,因此在现实应用中近似推断方法更为常用。近似推断方法大致

可以分为两类:采样法(sampling):通过使用随机化方法完成近似,如MCMC采样;变分推断

(variational inference):使用确定性近似完成推断。

2.1 MCMC采样

很多任务中,我们关心的并非概率分布本身,而是基于概率分布的期望,并且还能基于期望进一步作出决策。若直接计算或逼近这个期望比推断概率分布更容易,则直接操作无疑将使推断问题更为高效。采样法基于这个思路,假定目标是计算函数f(x)在概率密度函数p(x)下的期望:

则可根据p(x)抽取一组样本,然后计算f(x)在这些样本上的均值

用于近似期望E[f],如果样本独立,基于大数定律,这种通过大量取样的方法就

得到较高的近似精度,问题的关键就变成了如何取样,即如何高效地从图模型所描述的概率分布中

获取样本。 

马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC) 是图模型中最常用的采样技术。

给定连续变量x∈X的概率密度函数p(x),x在区间A中的概率为:

若有函数f:X→R,可计算f(x)的期望:

若x为高维多原变量且服从一个复杂分布,积分操作会很困难。MCMC先构造出服从p分布的独立

同分布随机变量,再得到无偏估计:

如何在概率分布复杂的情况下产生独立同分布的样本?

MCMC算法的关键在于通过“构造平稳分布为p的马尔可夫链”来产生样本:当马尔可夫链运行足够

长的时间(收敛到平稳状态),则产出的样本x近似服从p分布;并且通过多次重复运行、遍历马尔

可夫链就可以取得多个服从该分布的独立同分布样本。

判定马尔可夫链的平稳态:

假定马尔可夫链T的状态转移概率为T(x'|x),t时刻状态的分布为p(xt),则若在某个时刻马

尔可夫链满足平稳条件:

则p(x)是该马尔可夫链的平稳分布,且马尔可夫链在满足该条件时已经收敛到平稳状态。

MCMC方法先设法构造一条马尔可夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通

过该马尔可夫链产生样本,用这些样本进行估计。

MCMC中如何构造马尔可夫链的转移概率至关重要,不同构造方法产生不同的MCMC算法。

Metropolis-Hastings (MH)算法是MCMC(Markov Chain Monte Carlo)算法的代表之一。基于

“拒绝采样”逼近平稳分布。算法每次根据上一轮采样结果xt—1来采样获得候选状态样本x*,但这

个样本会以一定概率被拒绝。若从状态xt-1到状态x*的转移概率为,x*最

终收敛到平稳状态,则:

为达到平稳状态,只需将接受率设置为:

Metropolis-Hastings (MH) 算法:

2.2 吉布斯采样 

吉布斯采样(Gibbs sampling)被视为MH算法的特例,也使用马尔可夫链获取样本,平稳分布也

是p(x)。具体来说,假定文本为,目标分布为p(x),在初始化x的取值后,通过

循环下列步骤来完成采样:随机或以某个次序选取某变量xi,根据x中除xi外的变量的现有取值,计

算条件概率p(xi|xj),其中根据p(xi|xj)对变量xi采样,

用采样值代替原值。

2.3 变分推断

变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到

一种局部最优、但具有确定解的近似后验分布。

图模型盘式记法(plate notation):相互独立的、由相同机制生成的多个变量被放在一个方框

(盘)内,并在方框中标出类似变量重复出现的个数N;方框可以嵌套;通常用阴影标注出已知

的、能观察到的变量。

图模型中,已知变量本,Θ是x与z服从的分布参数。所有能观察到的变量x的联合分

布概率密度函数是:

对应的对数似然:

推断和学习任务主要是由观察变量x来估计隐变量z和分布参数θ,即求解p(z|x,Θ)和Θ

可使用EM算法最大化对数似然:

E步:根据t时刻的参数 θt 对进行推断,并计算联合似然函数

M步:基于E步结果进行最大化寻优,对关于变量θ的函数进行最大化从而求取:

 是隐变量z的近似分布,将这个近似分布用q(z)表示:

现实任务中,E部的推断可能很复杂。借助变分推断,简化q的形式(增加假设) 

假设z的分布:

假设复杂的多变量z可以拆解为一系列相互独立的多变量zi,同时令qi分布相对简单或有很好的结构

(如为指数族分布):

要得到qj,可固定qi≠j再对L(q)最大化,可发现上式等于,当

时L(q)最大,可得最优近似:

变量子集zj所服从的最优分布qj*应满足:

因此,通过恰当分割变量子集zj并选择qi服从的分布,往往有闭式解,使得上式

能对隐变量高效推断。

由于在对zj所服从的分布qj*估计时融合了zj之外的其它zi≠j的信息,这是通过联合似然函数Inp(x,

z)在zj之外的隐变量分布上求期望得到的,因此亦称为“平均场”(mean field)方法。

在实际应用中,最重要的是考虑如何对隐变量进行拆解,以及假设各变量子集服从何种分布,在此

基础之上结合EM算法对概率图模型进行推断和参数估计。

3. 话题模型

话题模型(topic model)是一类生成式有向图模型,主要用来处理离散型的数据集合(如文本集

合)。作为一种非监督产生式模型,话题模型能够有效利用海量数据发现文档集合中隐含的语义。

隐狄里克雷分配模型(Latent Dirichlet Allocation,LDA)是话题模型的典型代表。

LDA的基本单元:词(word):待处理数据中的基本离散单元;文档(document):待处理的数

据对象,由词组成,词在文档中不计顺序。数据对象只要能用“词袋”(bag—of—words)表示就可

以使用话题模型;话题(topic):表示一个概念,具体表示为一系列相关的词,以及它们在该概念

下出现的概率。

话题模型的构成:一个话题就像一个箱子,里面装着这个概念下出现概率较高的词。假定数据集中

一共包含K个话题和T篇文档,文档中的词来自一个包含N个词的字典。用T个N维向量W=

表示文档集合。用K个N维向量βk表示话题。的第n个分量Wt,n

表示文档t中词n的词频,的第n个分量βk,n表示话题k中词n的词频。

文档的生成过程:现实任务中通过统计文档中出现的词来获得词频向量wi;LDA从生成式模型的角

度看待文档和话题,认为每篇文档包含多个话题。用表示文档t中所包含的每个话题的比

例,表示文档t中包含话题k的比例。

LDA的图模型表示:生成文档t,从以α为参数的狄利克雷分布中随机采样一个话题分布Θt;按如下

步骤产生文档中的N个词,根据θt进行话题指派,得到文档t中词n的话题Zt,n;根据指派的话题所对

应的的词分布βk随机采样生成词。生成的文档以不同比例包含多个话题,文档中的每个词来自于一

个话题,这个话题是根据话题比例产生的

词频wt,n是唯一已观测变量,依赖于话题指派zt,n及话题对应词频βk,话题指派zt,n依赖于话题分

布Θt,Θt依赖于α,话题词频依赖于参数η。

LDA的基本问题:

①模型参数估计:给定训练数据,参数通过极大似然法估计,寻找α和η以最大

化对数似然(通常采用变分法求取近似解)

②模型推断:模型已知,参数α和η已确定,根据词频来推断文档话题结构,可通过求解(分母常

采用吉布斯采样或变分法进行推断)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/676774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AcWing 1224 交换瓶子(简单图论)

[题目概述] 有 N 个瓶子,编号 1∼N,放在架子上。 比如有 5 个瓶子: 2 1 3 5 4 要求每次拿起 2 个瓶子,交换它们的位置。 经过若干次后,使得瓶子的序号为: 1 2 3 4 5 对于这么简单的情况,显然&a…

第5章 数据库操作

学习目标 了解数据库,能够说出数据库的概念、特点和分类 熟悉Flask-SQLAlchemy的安装,能够在Flask程序中独立安装扩展包Flask-SQLAlchemy 掌握数据库的连接方式,能够通过设置配置项SQLALCHEMY_DATABASE_URI的方式连接数据库 掌握模型的定义…

Kafka集群安装与部署

集群规划 准备工作 安装 安装包下载:链接:https://pan.baidu.com/s/1BtSiaf1ptLKdJiA36CyxJg?pwd6666 Kafka安装与配置 1、上传并解压安装包 tar -zxvf kafka_2.12-3.3.1.tgz -C /opt/moudle/2、修改解压后的文件名称 mv kafka_2.12-3.3.1/ kafka…

【C++】引用与内联

个人主页 : zxctsclrjjjcph 文章封面来自:艺术家–贤海林 如有转载请先通知 文章目录 1. 前言2. 引用2.1 引用概念2.2 引用使用场景2.3 引用特性2.4 引用和指针的区别2.5 传值、传引用效率比较2.5.1 值和引用的作为返回值类型的性能比较 3. 内联函数3.1 …

Ansible copy模块 复制文件使用 主服务器 给副服务器 复制文件使用 指定文件权限 覆盖备份等

目录 参数复制文件然后进行同时复制操作 给定内容生成文件,并制定权限验证 关于覆盖先查看当前内容覆盖并备份查看文件权限 还有有没有备份查看文件内容 参数 这个模块用于将文件复制到远程主机,同时支持给定内容生成文件和修改权限等。   其相关选项…

【iOS分类、关联对象】如何使用关联对象给分类实现一个weak的属性

如何使用关联对象给分类实现一个weak的属性 通过关联对象objc_setAssociatedObject中的策略policy可知,并不支持使用weak修饰对象属性: typedef OBJC_ENUM(uintptr_t, objc_AssociationPolicy) {OBJC_ASSOCIATION_ASSIGN 0, //assignOBJC_ASSOCIATION…

Android:Volley框架使用

3.15 Volley框架使用 Volley框架主要作为网络请求,图片加载工具。当应用数据量小、网络请求频繁,可以使用Volley框架。 框架Github地址:https://github.com/google/volley Volley框架的简单使用,创建项目Pro_VolleyDemo。将Github上下载Volley框架源代码,volley-master.zi…

Linux中ps/kill/execl的使用

ps命令: ps -aus或者ps -ajx或者 ps -ef可以查看有哪些进程。加上 | grep "xxx" 可以查看名为”xxx"的进程。 ps -aus | grep "xxx" kill命令: kill -9 pid 杀死某个进程 kill -l 查看系统有哪些信号 execl函数&#…

JavaScript滚动事件

🧑‍🎓 个人主页:《爱蹦跶的大A阿》 🔥当前正在更新专栏:《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 滚动是网页交互不可或缺的一部分。监听页面和元素的滚动事件,可以帮助…

跟着cherno手搓游戏引擎【22】CameraController、Resize

前置: YOTO.h: #pragma once//用于YOTO APP#include "YOTO/Application.h" #include"YOTO/Layer.h" #include "YOTO/Log.h"#include"YOTO/Core/Timestep.h"#include"YOTO/Input.h" #include"YOTO/KeyCod…

力扣刷题之旅:进阶篇(五)—— 动态规划(DP)的妙用

力扣(LeetCode)是一个在线编程平台,主要用于帮助程序员提升算法和数据结构方面的能力。以下是一些力扣上的入门题目,以及它们的解题代码。 --点击进入刷题地址 引言: 在算法的世界中,动态规划&#xff…

[HTTP协议]应用层的HTTP 协议介绍

目录 1.前言 2.使用fiddler抓包来观察HTTP协议格式 3.HTTP协议的基本格式 2.1请求 2,1.1首行 2.1.2请求头 2.1.3空行 2.2响应 2.2.1首行 2.2.2响应头 键值对 ​编辑2.2.3空行 2.2.4载荷(响应正文) 3.认识URL 3.1关于URL encode 1.前言 我们在前面的博客中,简单的…

力扣231. 2 的幂(数学,二分查找,位运算)

Problem: 231. 2 的幂 文章目录 题目描述思路即解法复杂度Code 题目描述 思路即解法 思路1:位运算 1.易验证2的幂为正数; 2.易得2的幂用二进制表示只能有一个位为数字1 3.即将其转换为二进制统计其二进制1的个数 思路2:数学 当给定数n大于1时…

DNS 域名系统——应用层

目录 1 域名系统 DNS 1.1 域名系统 1.2 互联网的域名结构 1.2.1 顶级域名 TLD(Top Level Domain) (1) 国家顶级域名 nTLD (2) 通用顶级域名 gTLD (3) 基础结构域名 (infrastructure domain) 1.3 域名服务器 1.3.1 域名服务器的四种类型 (1…

Springboot拦截器中跨域失效的问题、同一个接口传入参数不同,一个成功,一个有跨域问题、拦截器和@CrossOrigin和@Controller

Springboot拦截器中跨域失效的问题 一、概述 1、具体场景 起因: 同一个接口,传入不同参数进行值的修改时,一个成功,另一个竟然失败,而且是跨域问题拦截器内的request参数调用getHeader方法时,获取不到前端…

JAVA设计模式之代理模式详解

代理模式 1 代理模式介绍 在软件开发中,由于一些原因,客户端不想或不能直接访问一个对象,此时可以通过一个称为"代理"的第三者来实现间接访问.该方案对应的设计模式被称为代理模式. 代理模式(Proxy Design Pattern ) 原始定义是:让你能够提供对象的替代…

代码随想录算法训练营29期|day41 任务以及具体任务

第九章 动态规划part03 343. 整数拆分 class Solution {public int integerBreak(int n) {//dp[i] 为正整数 i 拆分后的结果的最大乘积int[] dp new int[n1];dp[2] 1;for(int i 3; i < n; i) {for(int j 1; j < i-j; j) {// 这里的 j 其实最大值为 i-j,再大只不过是重…

单片机学习笔记---DS1302时钟

上一节我们讲了DS1302的工作原理&#xff0c;这一节我们开始代码演示。 新创建一个工程写上框架 我们需要LCD1602进行显示&#xff0c;所以我们要将LCD1602调试工具那一节的LCD1602的模块化代码给添加进来 然后我们开始创建一个DS1302.c和DS1302.h 根据原理图&#xff0c;为了…

Java项目:19 基于SpringBoot的医院管理系统

作者主页&#xff1a;舒克日记 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 医院管理系统 分为三个角色 管理员、医生、病人 管理员的主要功能&#xff1a;系统管理、医生管理、患者管理、预约管理、病史管理、住院信息管理、管…

ARM PAC/BTI/MTE三剑客精讲与实战

一、PAC指针认证精讲与实战 思考 1、什么是栈溢出攻击&#xff1f;什么是代码重用攻击&#xff1f;区别与联系&#xff1f; 2、栈溢出攻击的软&硬件缓解技术有哪些&#xff1f;在TF-A&OPTEE上的应用&#xff1f; 3、什么是ROP攻击&#xff1f;对ROP攻击的缓解技术&…