机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言

 

在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》中,小夕用优(恐)雅(怖)的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢?

 

EM算法在工程上有很多应用场景,例如:

1、    半监督学习:即利用包含缺失类别标签的数据的混合数据集训练分类器。

2、    数据预处理:给缺失某一维特征的值的数据补上缺失值。

3、    聚类:对,聚类。

4、    隐马尔科夫模型:训练隐马尔科夫模型中的参数。

5、    …

 

场景辣么多,理论却只有一个。因此讨厌数学的攻城狮可能会记住很多场景下的EM算法,而喜欢数学(最起码不要跟数学打起来)的攻城狮则以不变应万变,早已看透一切,2333。

 

小夕搬出大栗子:

比如,我们要做文档分类。我们手头有10000篇文章,其中只有600篇标好了类别,其余9400篇均没有类别标签。那么如何训练出一个尽可能高精度的分类器呢?

 

诶?有人可能想,既然9400篇文档都没有标签,难道这些没有标签的数据都会有助于提高分类器的精度?怎么可能呢?
        其实很好理解呀。虽然有些文档没有类别标签,但是这些文档的内容就包含分类信息啊。这里的信息指的是“词共现”,或者广义上说“特征共现”。比如我们利用有标签的文档发现“么么哒”是非常有助于文档分类的强特征,然而我们又在没有标签的文档中发现“么么哒”经常与“抱抱”一起出现!也就是共现!那么就可以从很大程度上说明“抱抱”也是有助于文档分类的强特征。
        举个生动的事实,在UseNet语料库中做新闻类别分类,若要达到70%的精度,则需要2000篇有类别标记的文档。但是,如果我们有600篇有类别标记的文档,还有10000篇无类别标记的文档,那么同样可以达到70%的精度。

 

攻城狮眼中的EM算法

在攻城狮眼中,上面那个栗子显然是一个半监督学习问题(即数据集中既有有类别标记的样本,也有无类别标记的样本),因此显然可以搬出来EM算法呀。

在攻城狮眼中,EM算法非常简单:

1、    仅利用有标签的数据,训练一个朴素贝叶斯分类器。

2、    利用训练好的分类器给无类别标签的数据打上标签,顺便记下分类器对该标签的把握。然后将所有标签的把握求和,得到值sum。

3、    利用全部数据重新训练朴素贝叶斯分类器。

4、    重复2、3步,直到sum不再变化(或者说近似于不再变化)。

 

诶?明明思路很简单啊,怎么会跟上一篇中那么多恐怖的公式扯上关系呐!

然而,机智的你有没有想过,算法为什么要这样写呢?这就是关键啦。

好桥梁,小夕造

首先,我们在理论EM中的目标是最大化似然函数!而你还记不记得小夕前面讲过,其实最大化后验概率的本质工作就是最大化似然函数呢?

 

诶?发现了没有~在工程上,我们在第2步中收集分类器对每个标签的把握并求和,那不就是收集的整个数据集的后验概率嘛!不就是在近似计算似然函数嘛!

 

因此,显然,在工程上的第4步,也就是不停的重复2、3步,肯定会让分类器的精度越来越大呀,因此分类器会对每个标签的把握越来越大!因此这不就是相当于理论上的最大化似然函数嘛!

 

再想,在工程上,第3步的训练朴素贝叶斯分类器的本质是什么?不就是训练朴素贝叶斯分类器的参数嘛!而朴素贝叶斯分类器的参数是什么?不就是先验概率跟每个类别下的每个特征的每个值的后验概率嘛!而先验概率不用管了,那每个类别下的每个特征的每个值的后验概率合在一起是什么?不就是理论EM算法中的每个随机变量的概率分布模型的参数嘛!恍然大悟啊有没有?!

 

路人某:╮(╯_╰)╭并没有。

 

小夕:(╯°Д°)╯︵ /(.□ . \)

 

好吧,给你几分钟时间接受一下训练分类器的理论意义竟然是计算随机变量所服从的概率分布模型的参数这个事实。

 

工程EM的第2、3、4步竟然完完全全的卡到了理论EM算法的相应位置。那么理论EM算法还有哪一步没有对应上呢?当然是参数θ的初始化啦~相信机智的你已经想到了,那就是工程EM中的第1步所做的事情啦。

 

细心的你又有没有留意到什么不同之处呢?

藏的再深也要挖出来!

如果能留意到,那就非常厉害了。还记得理论EM中,我们计算似然函数的过程中,是要计算无标签样本的每种标签取值的概率之和的!对,就是下面这货:

 

(我叫图片,不叫公式)

然而,我们在工程上计算似然函数则是先用分类器预测一个类别,然后叠加该类别的后验概率!

 

这意味着什么呢?显然意味着忽略了样本为其他类别的概率呀!这样做,肯定导致导致计算出的后验概率没有那么准,但是,却极大的提高了计算效率!

 

因此,本质上讲,工程上,半监督学习中的EM算法不过是简化了计算、优化了初始化的理论EM模型罢了╮(╯▽╰)╭

 

建造桥梁好辛苦,坐等小红包买瓶水\(//∇//)\

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481272.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司…

机器学习助力更好理解水的行为

来源:科技日报作者:刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 (记者刘霞)美国一个研究团队在最新一期《物理评论快报》上刊发论文称,他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明:本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)》。前言小夕曾经问一位做机器学习理论的学姐&#xff…

预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝从命运和毒性的角度来看,人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数,人们对其环境归宿或毒性知之甚少。通过实验填补这些数据空白是不可能的&#xff0c…

如何优雅的追到女神夕小瑶

如果,你不小心迷恋上了小夕… 路人某:“没有如果” 捕获小夕的游戏 如果现实世界中,迷恋上小夕以后,你想捕获小夕。那么发现从上帝视角来看的话,你有下面好多条路几条路达成目标( ̄∇ ̄) 然而你并…

文本相似度-相似度度量

NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram模型词向量主题模型LSAPLSALDA应用Word2Vec神经网络语言模…

《科学》封面文章AlphaCode的重大意义及其思考

来源:陈德旺科学网博客链接地址:https://blog.sciencenet.cn/blog-57940-1368420.html程序员,虽然戏称程序猿,其实是一个高薪高智商工作,需要对问题的理解力、解决问题的创造性,还需要熟悉掌握编程语言。这…

深度学习可以与大数据分手吗?

小夕:hi,路人~你知道机器学习中数据的维度太高会带来什么问题吗?路人己:此时,如果样本量不足,会容易过拟合啊~小夕:为什么呢?路人己:这还有为什么?小夕&#…

集群化:中国基础研究发展模式的转型方向

来源:《学术前沿》作者:李侠2020年,科技部等五部门联合制定《加强“从0到1”基础研究工作方案》,旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》,其中明确指出,切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...(想说“没有如果”的路人请自觉狗带( ̄∇ ̄))小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情:化妆-吃饭-聊天-自习-上课-要…

「返老还童」梦想成真?「NMN教父」争议研究将登陆科学顶刊

来源:机器之心逆转衰老,我们终于有了新方法?一项为时13年的研究最近又有了新的突破,事关人类最在意的问题:衰老理论。12月19日,哈佛大学遗传学教授David Sinclair在社交网络上宣布有关人类衰老研究的最新突…

对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析

GAN作为生成模型的一种新型训练方法,通过discriminative model来指导generative model的训练,并在真实数据中取得了很好的效果。尽管如此,当目标是一个待生成的非连续性序列时,该方法就会表现出其局限性。非连续性序列生成&#x…

如果你跟夕小瑶恋爱了...(下)

AB派在上一篇文章中,你成功的将“挽回夕小瑶”的任务卡进了隐马尔可夫模型(HMM)中。那么我们来规范化的整理一下已经有的信息和需要计算得到的信息。还记得这两个图嘛?这就是我们建立好的模型。(隐状态的转移图&#x…

史上最简单的隐马尔可夫模型讲解

如果... 如果...有一天...你追到了女神夕小瑶...并且与她恋爱了... (想说“没有如果”的路人请选择狗带( ̄∇ ̄)) 小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情: 化妆-吃饭-聊天-自习-上…

睡着了也在学习!Nature最新研究揭示运动记忆从何而来

来源:生物通Steph Curry罚球时,他的大脑会利用运动记忆。现在,加州大学旧金山分校(UCSF)的研究人员已经展示了这种类型的记忆是如何在睡眠期间得到巩固的,当大脑处理白天的学习,使做某事的物理行为成为潜意识时。Karun…

数据结构:堆(Heap)

数据结构&#xff1a;堆&#xff08;Heap&#xff09; <!-- 文章内容 --><div data-note-content"" class"show-content"><div class"show-content-free"><p>堆就是用数组实现的二叉树&#xff0c;所有它没有使用父指针…

BAT机器学习面试1000题系列

1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列&#xff1b; 2、文章中带斜体的文字代表是本人自己增加的内容&#xff0c;如有错误还请批评指正&#xff1b; 3、原文中有部分链接已经失效&#xff0c;故而本人重新加上了新的链接&#xff0c;如有不当&…

拉马努金:“与神对话”的数学天才

来源&#xff1a;微信公众号“图灵教育”撰文&#xff1a;[英] 马库斯杜索托伊翻译&#xff1a;柏华元当哈代和利特尔伍德步履维艰地穿越陌生的黎曼图景时&#xff0c;在5000英里外的印度马德拉斯港务局内&#xff0c;一个名叫斯里尼瓦瑟拉马努金的年轻办事员被素数的神秘莫测吸…

浅入深出被人看扁的逻辑回归!

好像在各种机器学习入门教程中&#xff0c;逻辑回归模型&#xff08;Logistic/Logit Regression&#xff09;经常被拿来作为入门的机器学习模型&#xff0c;比如我家的Andrew Ng就是这样做的。看起来&#xff0c;逻辑回归模型实在太简单&#xff0c;甚至容易被认为是一个拍脑袋…