郑州做营销型网站公司/新闻源软文发布平台

郑州做营销型网站公司,新闻源软文发布平台,哪里有做枪网站的,中国建设招标网是个假网站来源:数学中国【导读】当贝叶斯、奥卡姆和香农一起给机器学习下定义,将统计学、信息理论和自然哲学的一些核心概念结合起来,我们便会会发现,可以对监督机器学习的基本限制和目标进行深刻而简洁的描述。令人有点惊讶的是&#xff0…


来源:数学中国

【导读】当贝叶斯、奥卡姆和香农一起给机器学习下定义,将统计学、信息理论和自然哲学的一些核心概念结合起来,我们便会会发现,可以对监督机器学习的基本限制和目标进行深刻而简洁的描述。

令人有点惊讶的是,在所有机器学习的流行词汇中,我们很少听到一个将统计学、信息理论和自然哲学的一些核心概念融合起来的短语。

而且,它不是一个只有机器学习博士和专家懂得的晦涩术语,对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,对于ML和数据科学的从业者来说,它具有实用的价值。

这个术语就是最小描述长度(Minimum Description Length)。

让我们剥茧抽丝,看看这个术语多么有用……

 贝叶斯和他的理论 

我们从托马斯·贝叶斯(Thomas Bayes)说起,顺便一提,他从未发表过关于如何做统计推理的想法,但后来却因“贝叶斯定理”而不朽。

Thomas Bayes

那是在18世纪下半叶,当时还没有一个数学科学的分支叫做“概率论”。人们知道概率论,是因为亚伯拉罕 · 棣莫弗(Abraham de Moievre)写的《机遇论》(Doctrine of Chances)一书。

1763年,贝叶斯的著作《机会问题的解法》(An Essay toward solving a Problem in the Doctrine of opportunities)被寄给英国皇家学会,但经过了他的朋友理查德·普莱斯(Richard Price)的编辑和修改,发表在伦敦皇家学会哲学汇刊。在那篇文章中,贝叶斯以一种相当繁复的方法描述了关于联合概率的简单定理,该定理引起了逆概率的计算,即贝叶斯定理。

自那以后,统计科学的两个派别——贝叶斯学派和频率学派(Frequentists)之间发生了许多争论。但为了回归本文的目的,让我们暂时忽略历史,集中于对贝叶斯推理的机制的简单解释。请看下面这个公式:

这个公式实际上告诉你,在看到数据/证据(可能性)之后更新你的信念(先验概率),并将更新后的信念程度赋予后验概率。你可以从一个信念开始,但每个数据点要么加强要么削弱这个信念,你会一直更新你的假设

听起来十分简单而且直观是吧?很好。

不过,我在这段话的最后一句话里耍了个小花招。你注意了吗?我提到了一个词“假设”。

在统计推理的世界里,假设就是信念。这是一种关于过程本质(我们永远无法观察到)的信念,在一个随机变量的产生背后(我们可以观察或测量到随机变量,尽管可能有噪声)。在统计学中,它通常被称为概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(或逻辑/过程),我们认为这些规则可以产生示例或训练数据,我们可以学习这个神秘过程的隐藏本质。

因此,让我们尝试用不同的符号重新定义贝叶斯定理——用与数据科学相关的符号。我们用D表示数据,用h表示假设,这意味着我们使用贝叶斯定理的公式来尝试确定数据来自什么假设,给定数据。我们把定理重新写成:

现在,一般来说,我们有一个很大的(通常是无限的)假设空间,也就是说,有许多假设可供选择。贝叶斯推理的本质是,我们想要检验数据以最大化一个假设的概率,这个假设最有可能产生观察数据(observed data)。我们一般想要确定P(h|D)的argmax,也就是想知道哪个h的情况下,观察到的D是最有可能的。为了达到这个目的,我们可以把这个项放到分母P(D)中,因为它不依赖于假设。这个方案就是最大后验概率估计(maximum a posteriori,MAP)。

现在,我们应用以下数学技巧:

  • 最大化对于对数与原始函数的作用类似,即采用对数不会改变最大化问题

  • 乘积的对数是各个对数的总和

  • 一个量的最大化等于负数量的最小化

那些负对数为2的术语看起来很熟悉是不是......来自信息论(Information Theory)!

让我们进入克劳德·香农(Claude Shannon)的世界吧!

 香农和信息熵 

如果要描述克劳德·香农的天才和奇特的一生,长篇大论也说不完。香农几乎是单枪匹马地奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。

香农在MIT电子工程系完成的硕士论文被誉为20世纪最重要的硕士论文:在这篇论文中,22岁的香农展示了如何使用继电器和开关的电子电路实现19世纪数学家乔治布尔(George Boole)的逻辑代数。数字计算机设计的最基本的特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

但这还不是他最伟大的成就。

1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还研究信息和通信背后的原始理论。1948年,贝尔实验室研究期刊发表了他的研究,也就是划时代的题为“通信的一个数学理论”论文。

香农将信息源产生的信息量(例如,信息中的信息量)通过一个类似于物理学中热力学熵的公式得到。用最基本的术语来说,香农的信息熵就是编码信息所需的二进制数字的数量。对于概率为p的信息或事件,它的最特殊(即最紧凑)编码将需要-log2(p)比特。

而这正是在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!

因此,我们可以说,在贝叶斯推理的世界中,最可能的假设取决于两个术语,它们引起长度感(sense of length),而不是最小长度。

那么长度的概念是什么呢?

 Length (h): 奥卡姆剃刀 

奥卡姆的威廉(William of Ockham,约1287-1347)是一位英国圣方济会修士和神学家,也是一位有影响力的中世纪哲学家。他作为一个伟大的逻辑学家而享有盛名,名声来自他的被称为奥卡姆剃刀的格言。剃刀一词指的是通过“剔除”不必要的假设或分割两个相似的结论来区分两个假设。

奥卡姆剃刀的原文是“如无必要勿增实体”。用统计学的话说,我们必须努力用最简单的假设来解释所有数据。

其他杰出人物响应了类似的原则。

牛顿说:“解释自然界的一切,应该追求使用最少的原理。”

罗素说:“只要有可能,用已知实体的结构去替代未知实体的推论。”

人们总是喜欢更短的假设。

那么我们需要一个关于假设的长度的例子吗?


下面哪个决策树的长度更小?A还是B?

即使没有一个对假设的“长度”的精确定义,我相信你肯定会认为左边的树(A)看起来更小或更短。当然,你是对的。因此,更短的假设就是,它要么自由参数更少,要么决策边界更不复杂,或者这些属性的某种组合可以表示它的简洁性。

那么Length(D | h)是什么?

给定假设是数据的长度。这是什么意思?

直观地说,它与假设的正确性或表示能力有关。给定一个假设,它支配着数据的“推断”能力。如果假设很好地生成了数据,并且我们可以无错误地测量数据,那么我们就根本不需要数据。

想想牛顿的运动定律。

牛顿运动定律第一次出现在《自然哲学的数学原理》上时,它们并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察而做出的假设。但是它们对数据的描述非常好。因此它们就变成了物理定律。

这就是为什么你不需要记住所有可能的加速度数字,你只需要相信一个简洁的假设,即F=ma,并相信所有你需要的数字都可以在必要时从这个假设中计算出来。它使得Length(D | h) 非常小。

但是如果数据与假设有很大的偏差,那么你需要对这些偏差是什么,它们可能的解释是什么等进行详细描述。

因此,Length(D | h)简洁地表达了“数据与给定假设的匹配程度”这个概念。

实质上,它是错误分类(misclassication)或错误率( error rate)的概念。对于一个完美的假设,它是很短的,在极限情况下它为零。对于一个不能完美匹配数据的假设,它往往很长。

而且,存在着权衡。

如果你用奥卡姆剃刀刮掉你的假设,你很可能会得到一个简单的模型,一个无法获得所有数据的模型。因此,你必须提供更多的数据以获得更好的一致性。另一方面,如果你创建了一个复杂的(长的)假设,你可能可以很好地处理你的训练数据,但这实际上可能不是正确的假设,因为它违背了MAP 原则,即假设熵是小的。

 将所有这些结合起来 

因此,贝叶斯推理告诉我们,最好的假设就是最小化两个项之和:假设的长度和错误率。

这句话几乎涵盖了所有(有监督)机器学习

想想它的结果:

  • 线性模型的模型复杂度——选择多项式的程度,如何减少平方和残差。

  • 神经网络架构的选择——如何不公开训练数据,达到良好的验证精度,并且减少分类错误。

  • 支持向量机正则化和kernel选择——软边界与硬边界之间的平衡,即用决策边界非线性来平衡精度

我们真正得出的结论是什么?

我们从最小描述长度(MDL)原理的分析中得出什么结论?

这是否一劳永逸地证明了短的假设就是最好的?

没有。

MDL表明,如果选择假设的表示(representation)使得h的大小为-log2 P(h),并且如果异常(错误)的表示被选择,那么给定h的D的编码长度等于-log2 P(D | h),然后MDL原则产生MAP假设。

然而,为了表明我们有这样一个表示,我们必须知道所有先验概率P(h),以及P(D | h)。没有理由相信MDL假设相对于假设和错误/错误分类的任意编码应该是首选。

对于实际的机器学习,人类设计者有时可能更容易指定一种表示来获取关于假设的相对概率的知识,而不是完全指定每个假设的概率。

这就是知识表示和领域专业知识变得无比重要的地方。它使(通常)无限大的假设空间变小,并引导我们走向一组高度可能的假设,我们可以对其进行最优编码,并努力找到其中的一组MAP假设。

 总结和思考 

一个奇妙的事实是,如此简单的一套数学操作就能在概率论的基本特征之上产生对监督机器学习的基本限制和目标的如此深刻而简洁的描述。对这些问题的简明阐述,读者可以参考来自CMU的一篇博士论文《机器学习为何有效》(Why Machine Learning Works)。

原文链接:

https://towardsdatascience.com/when-bayes-ockham-and-shannon-come-together-to-define-machine-learning-96422729a1ad

Why Machine Learning Works:

http://www.cs.cmu.edu/~gmontane/montanez_dissertation.pdf

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

eclipse中下载spring-tool-suite插件遇到的问题

eclipse中下载spring-tool-suite插件遇到的问题 我的eclipse的版本4.7.0,接下来以下载我的eclipse的对应STS版本3.8.4为例,讲一下遇到的问题。不同版本的eclipse对应不同的spring-tool-suite,具体的版本对应可以去其他的博客中寻找&#xff…

python - 内置函数

enumerate 将一个可迭代/可迭代对象变成enumerate类型 利用for循环可以对enumerate类型获得索引和值 1 lis (星期一, 星期二, 星期三, 星期四, 星期五, 星期六, 星期七) 2 ret enumerate(lis, 1) # enumerate 可以接受第二个参数, 用于指定索引起始值 3 4 fo…

2021年,AI有潜力改善农业的十种路径

来源:Forbes作者:Louis Columbus编译:科技行者普华永道指出,基于物联网的农业(IoTAg)监控已经成为联网智能农业领域发展最快的技术领域,市场总额到2025年预计将增长至45亿美元。根据BI Intellig…

计算机组成原理——总线系统总结

计算机组成原理——总线系统总结 一、总线的概念: 总线是构成计算机系统放入互联机构,是多个系统功能部件之间进行数据传送的公共通路。借助于总线连接,计算机在各个系统功能部件之间实现地址、数据和控制信息的交换,并在争用资…

科学家打造全套人工神经系统 帮助瘫痪病人重新控制身体

Photo: Nathaniel Welch来源: IEEE电气电子工程师Motion Restored: Luke Tynan, who was paralyzed in 2017 by a spinal cord injury, demonstrates the wearable system that enables him to control his arm and hand. Sensors on the arm register his intentio…

存储器容量扩展——位扩展、字扩展

存储器(二)——存储容量扩展 前言:(基本概念) 存储空间:CPU决定存储器:用户需求决定(4G,8G)(8G的存储器1各芯片能否完成用户需求?如…

海明码构造及纠错

计算机组成原理——海明码的构造及纠错 海明码(又称为汉明码)是具有一位纠错能力的编码。 信息位:发送用户端想要发送的信息序列,彼此独立,互不相关,最终交给接收端。 检测位:为了使信息码元产…

机器学习对抗攻击是一颗“定时炸弹”

来源 | AI前线作者 | Ben Dickson译者 | Sambodhi策划 | 刘燕随着机器学习的迅速普及,科技界必须制定一份保证人工智能系统免遭对抗攻击的路线图。否则,对抗机器学习将会是一场灾难。如果你一直在关注有关人工智能的新闻,你可能已经听说过或看…

操作系统基本特性——并发、共享、虚拟、异步

操作系统的基本特性——并发、共享、虚拟、异步 前言:操作系统(Operating System,OS)是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩充。主要作用是管理好这些设备,提高它们的利用率和吞吐量&…

ASP.NET MVC 扩展HtmlHelper类为 js ,css 资源文件添加版本号

写在前面 在项目部署当中会需要更新 css 文件或 js 等资源文件,为了避免由于浏览器缓存的原因无法加载新的 css 或 js ,一般的做法是在资源文件的后面加上一个版本号来解决,这样浏览器就会去服务器下载新的资源文件。 如果某个 css 文件被多个…

生物学哲学:科学哲学的新视野

来源:自然辩证法研究 2003年第4期作者:周建漳在未经言明的情况下,“科学”一词通常总是指向“自然科学”,而在传统“科学哲学”的视野中,“科学”则又似乎“不言自明”地指向“数理科学”(注:所…

计算机组成原理——指令与数据的寻址方式

计算机组成原理——指令与数据的寻址方式 前言: 指令的定义:计算机执行某种操作的命令。从计算机组成的层次结构来看,计算机的指令有微指令,机器指令,宏指令之分。 微指令:微程序级的命令,它属…

IBM被曝拟出售昔日明星业务Watson Health,10年医疗梦就此破碎?

来源:AI前线 整理:刘燕传 IBM 拟出售 Watson Health 业务据《华尔街日报》报道,IBM 或将出售 IBM Watson Health 业务。华尔街日报援引知情人士称,随着公司新任 CEO 开始精简公司规模,并在混合云计算领域发力&#xf…

全球光刻机龙头是怎样炼成的

来源:公众号「驭势资本」半导体芯片制作分为IC设计、IC制造、IC封测三大环节,光刻作为IC制造的核心环节,其主要作用是将掩模版上的芯片电路图转移到硅片上。由于光刻的工艺水平直接决定芯片的制程水平和性能水平,光刻成为IC制造中…

页面置换算法——最佳置换算法、最近最少使用算法、先进先出算法、时钟置换算法

计算机操作系统——页面置换算法 根据中国大学MOOC计算机操作系统(电子科技大学)而写. 如果自己要设计页面置换,要根据什么原则来设计?我们首先想到的是存储器的局部性原理(时间局部性、空间局部性) Page removed should be the …

MIT提出Liquid机器学习系统,可像液体一样适应动态变化

作者:Daniel Ackerman机器之心编译编辑:Panda麻省理工学院(MIT)的研究者开发出了一种新型的神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。他们将这种灵活的算法命名为「Liquid」网络&#xff…

如何理解在数据类型中元素不能修改?

如何理解在数据类型中元素不能修改? 我所理解的元素修改是: 不能对已经赋值或者初始化的数据类型进行元素的修改,这里的修改不是指片面意思上的输错了数值,将光标移到对应位置,按下删除键,再进行数据的修改…

打破 Google 破坏性的搜索垄断

作者:Ryan Cooper译者:Sambodhi策划:刘燕近来,Google 在搜索算法方面的垄断地位,频繁引起美国和欧洲的反垄断关注。Google 在网络搜索方面有绝对的优势。近来,Google 在搜索算法方面的垄断地位,…

计算机网络——时延、时延带宽积、往返时间、利用率

计算机网络——时延、时延带宽积、往返时间、利用率 推荐课程:https://www.bilibili.com/video/BV19E411D78Q/?p4 1.时延 时延(delay或latency)是指数据(报文、分组、比特)从网络(或链路)的…

一文读懂虚拟现实产业最新发展趋势

来源: 中国电子报作者:赛迪智库虚拟现实产业形势分析课题组2020年以来,5G商用化进程的加速和新冠肺炎疫情背景下“非接触式”经济的新需求为虚拟现实产业发展带来了新的机遇。虚拟现实、增强现实技术在支撑服务疫情防控、加快企业复工复产、强…