机器学习 | 概率图模型

        见微知著,睹始知终。

        见到细微的苗头就能预知事物的发展方向,能透过微小的现象看到事物的本质,推断结论或者结果。

        概率模型为机器学习打开了一扇新的大门,将学习的任务转变为计算变量的概率分布。

        实际情况中,各个变量间存在显式或隐式的相互依赖,如朴素贝叶斯方法直接基于训练数据去求解变量的联合概率分布在时间复杂度还是空间复杂度均是不可行、不划算的。

        直接基于训练数据求解变量联合概率分布困难。

        Probabilistic Graphical Model,简称PGM,就是用图来表示变量概率间的依赖关系。

        

        概率图模型可以简单的理解为 概率 + 图(结构)

        它不仅可以刻画各个变量间的概率关系,还可以进行高效的推理。

        结点表示随机变量,边表示变量间概率关系(一般是条件概率分布)

        根据边是否有指向,分为有向图和无向图。

        有向图可以显示的刻画变量间的因果(生成)关系。

        无向图表示的只是一种关联关系或者说是相关关系。

        


 1、核心思想及原理

        概率图模型主要步骤

                1、表示 Reprcntation ,将实际问题建模成某种图结构

                2、推断 lnference,计算感兴趣的图节点的后验概率分布

                3、学习 Learning,估计模型参数

        通过第一步计算可以得到全体节点随机变量的联合概率分布,

        我们的目的

        是分析部分目标节点变量或者说根据一些观测到的数据求另外一些的变量,

        用数学的语言来说就是 计算节点变量的条件概率分布和边际概率分布。

        

        整体上求解他们的过程就是推断。

        边际概率分布其实就是把其中一些不需要的变量通过求和或积分消去。

        学习的过程就是参数估计的过程,通常使用最优化方法MLE或MAP求解。

        

        但如果把参数也当成要去推测的变量,也算作一些节点,男参数估计就可以认为是推断的一部分,

        所以一些书籍中也把推断和学习的过程统一为推断。

1.1、表示 —— 有向图 (也叫贝叶斯网络)

        在结构上是一个网络,在概率分布上符合贝叶斯公式。可以表示任何的概率分布。

        节点对应连续或离散随机变量。

        有向边连接父子节点。从 xi指向xj,xi 就是父节点,xj 就是子节点。

        有向边表示条件概率分布。

        比如下图中,从x2指向x4的边就可以表示为 p (x4 | x2),先有爹才能有儿子。

       图中不存在任何回路,又称为有向无环图模型。Directed Acyclic Graph,DAG。

        

        一个概率图模型中的联合概率分布可以由概率中的乘法公式展开:

        理论上只有父母有用。

        

        比如:

        

        

        之前学过的各种模型,比如线性模型、神经网络都可以看成有向图模型,

        他就像贝叶斯方法一样,在某种程度上把前面的所有模型在方法论层面高度统一到了一个框架下。


1.2、表示 —— 无向图(又叫马尔可夫网络 / 马尔可夫随机场)

        节点对应连续或离散随机变量。

        边表示依赖关系。

        任意两节点间都有边连接,则该节点子集为团clique,比如下图中的x2 x5 x6。

        联合概率分布能基于团分解.

        

        下例中,也就是说在给定xb的情况下,xa和xc就条件独立了。可以大大简化计算。

        

         用数学语言来表示 所有节点的联合概率分布:

        

        Q 表示某一个团,C是所有团的总称,

        后面是团Q对应的势函数(一个概率分布,团伙的势力/影响力)

        Z 归一化因子,确保整体求完还是一个概率,实际很难算,多数情况下只需要最优化求模型参数就可以,Z就类似于一个常数,所以不太需要

        之所以这么分解的原因是要更好地利用条件独立,也就是马尔可夫性质。

有向图转无向图(也叫道德化)

        

无向图转有向图

         也分为两个步骤:

                1、含有环状的结构三角化

                2、弦图加箭头,箭头方向可以对节点的随机变量排序,较早的指向叫晚的

        下图中间一张也叫弦图。

        


1.3、推断

        精确推断法,比较理想,实际中很难实现。

        重点掌握近似推断。

        

        MCMC主要思想:

                在很多时候我们关心的并不是概率分布本身而是他们的期望,根据这些期望做出决策。

                去估计概率分布本身比较困难,就直接计算或逼近期望值。

        变分推断主要思想:

                通过使用已知的简单分布逼近需要推断的复杂分布。


 1.4、概率图模型家族

        


1.5、隐马尔科夫模型 Hidden Markov Model

        假设有一系列的状态变量 yi,生成了一堆观测xi,

        n可以是不同时间或先后顺序,’比如语音识别中就是时间先后,nlp分析中就是词的先后顺序,

        我们听到的声音或者看到的文字就是观测。背后其实是有真实状态的。

        数学上就是条件概率分布(也叫likelihood,贝叶斯公式中的似然函数),

        因为状态未知,所以认为是隐藏的,又因为有先后顺序,就用一条有方向的链表示,

        节点与节点之间符合马尔可夫性质,节点之间的关系就可以简化,就是隐马尔可夫链。

        


 2、近似推断 EM算法参数估计

        期望最大化算法,Expectation Maximization

        概率图模型都可以简化为有两个节点的有向图:

                 z 是隐变量,x 是观测变量,箭头表示生成关系。

                这两个节点本身也可以是向量,可以是一个集合,包含其他很多变量(节点)。

        z 虽然未知,但是可以假定它含有一系列参数 θ,

        观测 x 也满足一个带有参数 θ 的分布。

        给定观测数据 x ,假定有 n 个样本,现在想要估计参数 θ 就可以:

                最大化 似然函数 p( x | θ )。

        假定 n 个样本是条件独立的,因为我们不太喜欢连乘,所以加上 log 运算,就变成了求和。

        继续展开,引入隐变量 z ,就可以得到 每个样本每种可能的类别 z ,求联合概率分布之和。

                z 如果是个已知的数,很容易用极大似然法求出 θ,

                但现在 z 是隐变量,就用要 EM算法 近似推断。

                注:那可以使用梯度下降法吗?

                        可以,但是当z过多时,求梯度时运算就会指数级的上升,EM效率更高。

        z 是一个因变量,那该怎么求 x 和 z 的联合概率分布函数呢?

        

EM算法思想

        目的:使得似然函数最大化

        先猜一个 z 的分布,就是蓝色的分布,然后用它来逼近。

        

        

        利用Jensen不等式:期望的函数 ≥ 函数的期望,

        函数就是log函数,后面的一坨是期望,把q看成一个分布 分式看成z的函数。

        现在就可以通过不断改变 z,q来搜索L(θ),从而找到他的最大值。

EM算法步骤

        1、E步骤,先固定q分布不变(θ值不变),使用MLE来最大化z。

                沿着固定的θ值,向上搜索,碰到红线之后就停止。

                

        2、M步骤,固定z不变,让q最大化寻优。

                

                重复这个步骤,反复迭代,直到找到最优的θ*。

                

                 注意虽然EM的迭代一定会收敛,但是不一定收敛到最优的参数值,可能陷入局部最优,所以结果很受初始值的影响。

                


3、隐马尔可夫模型代码实现

         对序列数据进行建模的有效办法。

        隐马尔可夫模型对问题进行了简化,有两大基本假设:

                1、任意时刻的观测只依赖于该时刻的马尔科夫链的状态,与其他的观测以及状态没有关系。

                2、t 时刻的状态只与 t-1 时刻的状态有关,与其他时刻的状态和观测都无关。

                

马尔可夫链 / 隐马尔可夫模型链

        隐式链通常是一个状态的链。

        

简单的隐马模型

        Example:

        假设观测有9个等级,分别对应

        状态有三种,假定保持状态不变的概率是0.4,三种状态之间互相转换的概率是0.3。

        

建模 —— 隐马模型三要素

        发射概率矩阵,描述了在每种隐藏状态下发生观测值的概率。(就是可能性 / 似然函数)

        

         现在我们就可以根据考试成绩序列 o 来推断出状态序列 s 的最大可能性了。

         现在假设五次考试成绩如下:

        

        1、首先根据发射概率矩阵列出每个时刻每种状态的概率。

        2、用连线绘制出状态转移的情况。

        3、因为 t0 时刻不涉及状态转移,所以要乘初始概率。

         

        从前往后分析,

                先来看 t1 时刻,有两个状态,s1对应的概率为 0.4 x 1/9,s2对应的概率为0.3 x 1/6

                再看 t2 时刻,只有一个状态 s1,但第一条路线概率为 0.4x1/9+0.4x1/9 大于第二条路线 0.3x1/6+0.3x1/9,所以选择第一条路线。

                同理,得到最终结果:

                

        上述计算隐藏状态序列的方法就是维特比算法,是隐马模型最常用的解码方法。


代码实现:
        hmmlearn —— CategoricalHMM
能力:

        预测隐藏状态序列

        预测观测序列概率

        生成条件约束数据

数据准备

import numpy as np
state = np.array(['认真复习', '简单复习', '没有复习'])
grade = np.array(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-'])
n_state = len(state)
m_grade = len(grade)
pi = np.ones(n_state)/n_state
t = np.array([[0.4, 0.3, 0.3],[0.3, 0.4, 0.3],[0.3, 0.3, 0.4]
])
e = np.zeros([3,9])
e[0, :9]=1/9
e[1, 3:9]=1/6
e[2, 5:9]=1/4
print("初始概率矩阵:\n",pi)
print("转移矩阵:\n",t)
print("发射矩阵:\n",e)
初始概率矩阵:[0.33333333 0.33333333 0.33333333]
转移矩阵:[[0.4 0.3 0.3][0.3 0.4 0.3][0.3 0.3 0.4]]
发射矩阵:[[0.11111111 0.11111111 0.11111111 0.11111111 0.11111111 0.111111110.11111111 0.11111111 0.11111111][0.         0.         0.         0.16666667 0.16666667 0.166666670.16666667 0.16666667 0.16666667][0.         0.         0.         0.         0.         0.250.25       0.25       0.25      ]]


hmmlearn

pip install hmmlearn
Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Requirement already satisfied: hmmlearn in /home/ubuntu/.local/lib/python3.8/site-packages (0.2.8)
Requirement already satisfied: scikit-learn>=0.16 in /home/ubuntu/.local/lib/python3.8/site-packages (from hmmlearn) (1.1.2)
Requirement already satisfied: scipy>=0.19 in /usr/local/lib/python3.8/dist-packages (from hmmlearn) (1.8.0)
Requirement already satisfied: numpy>=1.10 in /usr/local/lib/python3.8/dist-packages (from hmmlearn) (1.22.2)
Requirement already satisfied: threadpoolctl>=2.0.0 in /home/ubuntu/.local/lib/python3.8/site-packages (from scikit-learn>=0.16->hmmlearn) (3.1.0)
Requirement already satisfied: joblib>=1.0.0 in /home/ubuntu/.local/lib/python3.8/site-packages (from scikit-learn>=0.16->hmmlearn) (1.1.0)
Note: you may need to restart the kernel to use updated packages.
from hmmlearn.hmm import CategoricalHMM
hmm = CategoricalHMM(n_state)

 此处我们选择适于离散值的categoricalHMM。

hmm.startprob_ = pi
hmm.transmat_ = t
hmm.emissionprob_ = e
hmm.n_feature = 9  #观测值个数

 因为HMM接受的参数是二维的,所以进行升维操作。

datas = np.array([0, 4, 2, 6, 1])
datas = np.expand_dims(datas, axis=1)
states = hmm.predict(datas)
states
array([0, 0, 0, 2, 0])

预测一下出现观测值的概率 :

prob = hmm.score(datas)
prob
-14.003674820375014

这是取 In 之后的结果。

print(np.exp(prob))
8.284786081615825e-07

 因为每种观测值可能性是无限的,随着观测序列的加长,概率越来越低。

 生成满足三要素约束的数据:

datas , states = hmm.sample(10000)

 验证是否满足约束:

t_2 = np.zeros([3,3])
for i in range(3):current = np.where(states == i)[0]next_index = current+1next_index = next_index[:-1]tmp = states[next_index]for j in range(3):t_2[i][j] = np.where(tmp==j)[0].shape[0]/np.shape(tmp)[0]
print(t_2)
[[0.41121495 0.29333735 0.29544769][0.28884285 0.40988458 0.30127257][0.29627386 0.30930021 0.39442593]]
e_2 = np.zeros([3,9])
for i in range(3):current = np.where(states == i)[0]next_index = current+1next_index = next_index[:-1]tmp = datas[current]for j in range(9):e_2[i][j] = np.where(tmp==j)[0].shape[0]/np.shape(tmp)[0]
print(e_2)
[[0.10518385 0.10066305 0.11030741 0.11603376 0.11000603 0.11060880.12115732 0.12085594 0.10518385][0.         0.         0.         0.1760355  0.15591716 0.162426040.17071006 0.16952663 0.16538462][0.         0.         0.         0.         0.         0.248637190.25741975 0.24500303 0.24894004]]


 4、模型优缺点及发展方向

        

HMM算法优缺点

        建立在一阶马尔可夫假设和观测独立假设之上。

        很多场景下可以大大简化条件概率计算。

        应用范围比较窄,主要用于时序数据建模。

概率图模型优缺点

        不管问题复杂与否,处理思路都是:建模表示 + 推断学习,用图结构来表示,计算概率分布,然后进行推断和学习。对于复杂实际问题,特别是大型的人工智能系统来说是很有价值的,因为图模型中每个变量都有明确的解释,变量之间可以依赖专家或人工定义。所以可解释性强,相当于一个白盒字模型。

        如何确定节点间拓扑关系,如何高效的进行推断和学习未知。

        推断和学习复杂,高维数据处理困难。

       

概率图模型发展方向

        动态化结构学习是概率图模型发展的一个方向。

        非参数话建模是概率图模型可能的重要方向。

        深度学习擅长感知类的任务,但不擅长推理和推断任务,深度学习和概率图结合也是未来发展的重要方向。


参考

机器学习必修课:经典算法与编程实战 梗直哥瞿炜_哔哩哔哩_bilibili

Chapter-14/14-4 隐马尔可夫模型代码实现.ipynb · 梗直哥/Machine-Learning - Gitee.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/240903.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单词接龙[中等]

一、题目 字典wordList中从单词beginWord和endWord的 转换序列 是一个按下述规格形成的序列beginWord -> s1 -> s2 -> ... -> sk&#xff1a; 1、每一对相邻的单词只差一个字母。 2、对于1 < i < k时&#xff0c;每个si都在wordList中。注意&#xff0c;beg…

Midjourney V6版本的5大新特性,掌握了,想法和实现信手拈来

Midjourney v6已推出&#xff1a;更简单的提示、增强的文本集成和更高水平的照片真实感&#xff01;以下是每个创意人员都需要了解的 5 个重要见解。 一、产品文字整合 使用简单风格提示向您的产品添加文本提示&#xff1a;带有文字“SALMA”的白色健身瓶 Midjourney v5.2&am…

Git安装和使用教程,并以gitee为例实现远程连接远程仓库

文章目录 1、Git简介及安装2、使用方法2.1、Git的启动与配置2.2、基本操作2.2.1、搭建自己的workspace2.2.2、git add2.2.3、git commit2.2.4、忽略某些文件不予提交2.2.5、以gitee为例实现git连接gitee远程仓库来托管代码 1、Git简介及安装 版本控制&#xff08;Revision cont…

只用10分钟,ChatGPT就帮我写了一篇2000字文章

有了ChatGPT之后&#xff0c;于我来说&#xff0c;有两个十分明显的变化&#xff1a; 1. 人变的更懒 因为生活、工作中遇到大大小小的事情&#xff0c;都可以直接找ChatGPT来寻求答案。 2. 工作产出量更大 之前花一天&#xff0c;甚至更久才能写一篇原创内容&#xff0c;现…

qt简单连接摄像头

要使用摄像头&#xff0c;就需要链接多媒体模块以及多媒体工具模块 需要在.pro文件中添加QT multimedia multimediawidgets 是用的库文件 QCamera 类用于打开系统的摄像头设备&#xff0c; QCameraViewfinder 用于显示捕获的视频&#xff0c; QCameraImageCapt…

Java并发工具类---ForkJoin、countDownlatch、CyclicBarrier、Semaphore

一、Fork Join fork join是JDK7引入的一种并发框架&#xff0c;采用分而治之的思想来处理并发任务 ForkJoin框架底层实现了工作窃取&#xff0c;当一个线程完成任务处于空闲状态时&#xff0c;会窃取其他工作线程的任务来做&#xff0c;这样可以充分利用线程来进行并行计算&a…

系列十四、SpringBoot + JVM参数配置实战调优

一、SpringBoot JVM参数配置实战调优 1.1、概述 前面的系列文章大篇幅的讲述了JVM的内存结构以及各种参数&#xff0c;今天就使用SpringBoot项目实战演示一下&#xff0c;如何进行JVM参数调优&#xff0c;如果没有阅读过前面系列文章的朋友&#xff0c;建议先阅读后再看本篇文…

Java整合APNS推送消息-IOS-APP(基于.p12推送证书)

推送整体流程 1.在开发者中心申请对应的证书&#xff08;我用的是.p12文件&#xff09; 2.苹果手机用户注册到APNS&#xff0c;APNS将注册的token返回给APP&#xff08;服务端接收使用&#xff09;。 3.后台服务连接APNS&#xff0c;获取连接对象 4.后台服务构建消息载体 5.后台…

Searching for MobileNetV3(2019)

文章目录 Abstract主要内容实验结果 IntroductionRelated WorkEfficient Mobile Building BlocksNetwork SearchPlatform-Aware NAS for Block-wise SearchNetAdapt for Layer-wise Search Network ImprovementsRedesigning Expensive LayersNonlinearitiesLarge squeeze-and-e…

PHP-Xlswriter高性能导出Excel

使用背景 使用传统的PHPExcel导出效率太慢&#xff0c;并且资源占用高&#xff0c;数据量大的情况&#xff0c;会导致服务占用大量的资源&#xff0c;从而导致生产意味&#xff0c;再三思索后&#xff0c;决定使用其他高效率的导出方式 PHP-Xlswriter PHPExcel 因为内存消耗过…

信号与线性系统翻转课堂笔记9——傅里叶变换

信号与线性系统翻转课堂笔记9——傅里叶变换 The Flipped Classroom9 of Signals and Linear Systems 对应教材&#xff1a;《信号与线性系统分析&#xff08;第五版&#xff09;》高等教育出版社&#xff0c;吴大正著 一、要点 &#xff08;1&#xff0c;重点&#xff09;…

MyBatis中延迟加载,全局和局部的开启使用与关闭

文章目录 MyBatis中延迟加载&#xff0c;全局和局部的开启使用与关闭1、问题提出2、延迟加载和立即加载延迟加载立即加载 3、三种对应的表关系中的加载4、打开全局延迟加载&#xff08;实现一对一的延迟加载&#xff09;5、实现一对多的延迟加载&#xff08;将上面设置的全局延…

零成本搭建一款博客网站(基于Vercel+Hexo完美实现)【保姆级教程】

文章目录 &#x1f438;基于VercelHexo零成本搭建博客网站&#x1f43b;实现思路 &#x1f42e;Hexo的配置与安装&#x1f412;Hexo的美化与使用&#x1f42b;Github的推送与部署&#x1f43c;Vercel部署与网站上线&#x1f41b;总结 &#x1f438;基于VercelHexo零成本搭建博客…

【数据结构】递归与分治

一.递归 1.递归的概念&#xff1a; 子程序&#xff08;或函数&#xff09;. 接调用自己或通过一系列调用语句间接调用自己&#xff0c;成为递归。 递归是一种描述问题和解决问题的基本方法。 重复地把问题转化为与原问题相似的新问题&#xff0c;直到问题解决为止。 2.递归…

ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jaccard 算法代码实现

背景 XOP亿级别题库的试题召回以及搜题的举一反三业务场景都涉及使用文本相似搜索技术&#xff0c;学习此方面技术以便更好的服务于业务场景。 目前基于集合的Jaccard算法以及基于编辑距离的Levenshtein在计算文本相似度场景中有着各自的特点&#xff0c;为了优化具体的计算时…

【Linux驱动】字符设备驱动程序框架 | LED驱动

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《RTOS学习》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 目录 &#x1f3c0;Hello驱动程序⚽驱动程序框架⚽编程 &#x1f3c0;LED驱动⚽配置GPIO⚽编程驱动…

YB75XXH系列是采用CMOS工艺制造,低功耗的高压稳压器

YB75xxH 高耐压线性稳压器 ■产品简介&#xff1a; YB75XXH系列是采用CMOS工艺制造&#xff0c;低功耗的高压稳压器&#xff0c;最高输入电压可达25V,输出电压范围为1.5V一12.0V。它具有高精度的输出电压、极低的供电电流、极低的跌落电压等特点。 ■产品特点&#xff1a; …

SpringBoot 3 集成Hive 3

前提条件: 运行环境&#xff1a;Hadoop 3.* Hive 3.* MySQL 8 &#xff0c;如果还未安装相关环境&#xff0c;请参考&#xff1a;Hive 一文读懂 Centos7 安装Hadoop3 单机版本&#xff08;伪分布式版本&#xff09; SpringBoot 2 集成Hive 3 pom.xml <?xml ver…

MyBatis 通过 SqlSession 实现动态Entity批量插入

需要几个关键点: 1、entity对应的service需要继承BaseService 2、entity对应的serviceImpl需要实现baseMapper方法&#xff0c;需要把当前的mapper返回去 3、entity对应的Mapper需要BaseMapper

又是阿里,通义灵码免费平替GitHub Copilot

毫无疑问&#xff0c;人工智能已经在影响着我们日常生活的方方面面&#xff0c;同样的在软件开发领域&#xff0c;AI正在改变我们的开发方式。在软件开发领域&#xff0c;尽管有许多强大的AI编码工具&#xff0c;但国产&#xff0c;免费&#xff0c;使用门槛低&#xff0c;用起…