《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐:“学姐学姐,EM算法是什么呢?”

 

学姐回答:“EM算法啊,就是解决包含隐变量的参数估计问题。”

 

小夕:

 

然后小夕去问一位做工程的学长:“学长学长,EM算法是什么呢?”

 

学长回答:“EM算法就那样啊,就是先用有标签的样本训练个分类器,再给未知标签的样本贴标签,然后再拿全部样本再训练分类器,就这样来回倒腾~”

 

小夕:

 

 于是小夕自己一个人看了一整天的EM算法QAQ

前言

首先说,其实学长和学姐说的都很对。但是对于一个路人来说,很难将学长与学姐的说法联系到同一个东西上。而最终小夕总结出来的就是,做工程的学长的回答其实是做理论的学姐的回答下的一个简化的特例

 

首先,我们来看一下理论上的期望最大化算法,也就是EM算法(不要想了,对于这个算法,小夕打死也绕不开数学公式了,所以有公式恐惧症的同学请自行用手指盖住它们...

 

另外,严正声明一下,对于没有微积分与概率统计基础的同学,请直接等下一篇中得出的结论!非要看这一篇的话,请时刻保持理智,请时刻保持理智,请时刻保持理智。

理论家眼中的EM

 

开门见山,EM算法的目标是使包含隐变量的数据集的后验概率或似然函数最大化,进而得到最优的参数估计

 

我们知道,通过贝叶斯公式,可以发现后验概率中包含了似然函数和先验概率(忽略分母的那个evidence项),因此求最大后验概率的过程中包含了求极大似然估计的过程。因此虽然EM算法的目标是最大化后验概率或似然函数,而本质上就可以认为是最大化似然函数。因此下面我们直接讨论最大化似然函数。

 

似然函数设为l(θ),描述样本可以用多维随机变量(对应于机器学习的多维特征),每一维的随机变量都可以认为服从某种概率分布。因此要描述每一维的样本情况,我们只需要估计出这一维度的概率分布模型的参数就可以啦。而将所有维度的分布模型的参数放在一起,就是似然函数的参数,即θ。因此根据定义,

 

即似然函数代表着该包含m个样本的样本集存在的合理性(似然函数值越大,该样本集的存在就越合理,即意味着参数取的越正确),描述每个样本的多维随机变量的分布模型的参数即上面的θ,p(x; θ)代表着固定θ的值,求p(x)的概率。

 

第二行的z则代表隐变量,确切的说是隐含的随机变量。哈?看不懂第二步怎么来的?请回去复习微积分...算了,小夕太过善良,还是讲讲吧。

 

显然,这里似然函数讨论的是离散情况(毕竟都是∑符号而不是∫符号呀),因此,在p(x; θ)中加上z这个随机变量后,只能将这个随机变量积分掉才能保证加上z以后的式子依然等于p(x;θ),当然,z是离散的,所以积分掉的意思是“求和”掉。

(回顾一下,对于任何一个连续随机变量x,∫p(x)dx=1;对于任何一个离散随机变量x,∑p(x)=1)

 

好,懂了第二步,在继续往下推之前,想一想我们可不可以直接计算第二步呢?当然不行啦,不仅有θ,还有隐变量啊。因此继续往下推。

  

诶?又出来个Qi。这个Qi是什么呢?这个Qi是隐变量z的概率分布函数啦。为什么要加上它呢?再好好观察一下最后这一步中的这一部分!

 

有没有发现什么!?对!这就是数学期望呀~别说数学期望都忘了啊,小夕还是再啰嗦一下吧...对于某离散随机变量X来说,其数学期望

看吧~加上Qi这个概率分布函数后,是不是就出来了一个数学期望啦!但好像还是不能计算,懂数值计算的读者应该知道log(∑…)的计算量是十分恐怖的,而且我们还被我们加上了一个不知道怎么计算的Qi!!!因此要继续变!!!怎么变呢?Jensen不等式来啦!

 

直接抠了个定义(看不懂没关系):

 

通过这个Jensen不等式,我们发现可以进一步往下推了。

 

诶?虽然是往下推了一步,但是我们必须要让等号恒成立才行啊,否则这个推理是不成立的呀。。。那么怎么让等号恒成立呢?

 

根据Jensen不等式的等号成立条件,E[f(X)]≥f(E[X])中的随机变量X必须恒等于常数!!也就是说:

 

≡c(c为常数)

 

于是重点来了,将分母的Qi移到右边,将右边的c移到左边!我们发现:

好,再利用(概率分布函数的基本性质),发现我们可以继续这样推!

 

推到最后竟然是这个?????

这个不就是每个样本的隐变量z的后验概率吗!!!

也就是说我们只要求出来了每个样本的隐变量的每个取值的后验概率,就能得到这个样本的Qi!!!

就能让Jensen不等式的等号成立!!!

就能让log(∑…)的不可计算成功变成可计算!!!

就能计算我们的目标——似然函数啦!!!

 

所以,咳咳,总之,我们首先固定一个θ(也就是随便给θ取个初始值),然后我们计算出隐变量z的取值的后验概率,就能让这个包含隐变量的似然函数变成传统意义上的似然函数~也就是只考虑参数θ的似然函数~(这个过程称为E步)

 

而最大化传统意义上的似然函数就不用啰嗦啦~那就用传统的方法最大化呀~最大化了以后就得到了当前的最优θ。(这个过程称为M步)

 

而得到了当前的最优θ以后,我们又可以重新计算出隐变量z的取值的后验概率,就能……~~~总之就又可以E步,然后又M步,然后又E,又M……

 

就这样一直重复,一直重复,直到似然函数的值不再变化,此时每个样本的Qi就是每个样本的标签~而此时的θ就是最终那个最优的θ啦~

 

至此,理论上的EM算法完成了,最终得到的就是我们要估计的最优参数θ,顺便得到了每个样本的隐变量的取值。

那么工程上看似是跟分类器打交道,小夕则说其实是理论的特例又是怎么回事呢?敬请期待《机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)》,待小夕华丽丽的填上理论与工程的鸿沟。(下一篇没有这一篇这么恐怖,2333)

虽然您可能没有看懂,但是看在生敲公式后发现微信编辑器不识别然后又一个个截图的份上_(:з」∠)_

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022年诺贝尔物理学奖的科学内涵辨识

|作者:葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖,被一些人误解为证明了量子纠缠现象。实际上,包括爱因斯坦本人都承认量子纠缠,关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》中,小夕用优(恐)雅(怖)的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司…

机器学习助力更好理解水的行为

来源:科技日报作者:刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 (记者刘霞)美国一个研究团队在最新一期《物理评论快报》上刊发论文称,他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明:本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)》。前言小夕曾经问一位做机器学习理论的学姐&#xff…

预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝从命运和毒性的角度来看,人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数,人们对其环境归宿或毒性知之甚少。通过实验填补这些数据空白是不可能的&#xff0c…

如何优雅的追到女神夕小瑶

如果,你不小心迷恋上了小夕… 路人某:“没有如果” 捕获小夕的游戏 如果现实世界中,迷恋上小夕以后,你想捕获小夕。那么发现从上帝视角来看的话,你有下面好多条路几条路达成目标( ̄∇ ̄) 然而你并…

文本相似度-相似度度量

NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram模型词向量主题模型LSAPLSALDA应用Word2Vec神经网络语言模…

《科学》封面文章AlphaCode的重大意义及其思考

来源:陈德旺科学网博客链接地址:https://blog.sciencenet.cn/blog-57940-1368420.html程序员,虽然戏称程序猿,其实是一个高薪高智商工作,需要对问题的理解力、解决问题的创造性,还需要熟悉掌握编程语言。这…

深度学习可以与大数据分手吗?

小夕:hi,路人~你知道机器学习中数据的维度太高会带来什么问题吗?路人己:此时,如果样本量不足,会容易过拟合啊~小夕:为什么呢?路人己:这还有为什么?小夕&#…

集群化:中国基础研究发展模式的转型方向

来源:《学术前沿》作者:李侠2020年,科技部等五部门联合制定《加强“从0到1”基础研究工作方案》,旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》,其中明确指出,切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...(想说“没有如果”的路人请自觉狗带( ̄∇ ̄))小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情:化妆-吃饭-聊天-自习-上课-要…

「返老还童」梦想成真?「NMN教父」争议研究将登陆科学顶刊

来源:机器之心逆转衰老,我们终于有了新方法?一项为时13年的研究最近又有了新的突破,事关人类最在意的问题:衰老理论。12月19日,哈佛大学遗传学教授David Sinclair在社交网络上宣布有关人类衰老研究的最新突…

对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析

GAN作为生成模型的一种新型训练方法,通过discriminative model来指导generative model的训练,并在真实数据中取得了很好的效果。尽管如此,当目标是一个待生成的非连续性序列时,该方法就会表现出其局限性。非连续性序列生成&#x…

如果你跟夕小瑶恋爱了...(下)

AB派在上一篇文章中,你成功的将“挽回夕小瑶”的任务卡进了隐马尔可夫模型(HMM)中。那么我们来规范化的整理一下已经有的信息和需要计算得到的信息。还记得这两个图嘛?这就是我们建立好的模型。(隐状态的转移图&#x…

史上最简单的隐马尔可夫模型讲解

如果... 如果...有一天...你追到了女神夕小瑶...并且与她恋爱了... (想说“没有如果”的路人请选择狗带( ̄∇ ̄)) 小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情: 化妆-吃饭-聊天-自习-上…

睡着了也在学习!Nature最新研究揭示运动记忆从何而来

来源:生物通Steph Curry罚球时,他的大脑会利用运动记忆。现在,加州大学旧金山分校(UCSF)的研究人员已经展示了这种类型的记忆是如何在睡眠期间得到巩固的,当大脑处理白天的学习,使做某事的物理行为成为潜意识时。Karun…

数据结构:堆(Heap)

数据结构&#xff1a;堆&#xff08;Heap&#xff09; <!-- 文章内容 --><div data-note-content"" class"show-content"><div class"show-content-free"><p>堆就是用数组实现的二叉树&#xff0c;所有它没有使用父指针…

BAT机器学习面试1000题系列

1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列&#xff1b; 2、文章中带斜体的文字代表是本人自己增加的内容&#xff0c;如有错误还请批评指正&#xff1b; 3、原文中有部分链接已经失效&#xff0c;故而本人重新加上了新的链接&#xff0c;如有不当&…