绕开数学,讲讲信息论

看到文章的标题,肯定有人想说“诶?小夕你不是做人工智能吗?怎么又捣鼓起通信里面的信息论了?”小夕肯定会很开心的揪住你,然后说“哈哈哈~发现一只外行!”

学过机器学习的喵喵肯定知道很多决策树的核心就是计算信息论中的XX熵,自然语言处理(NLP)中的信息论更是无处不在。

但是很多喵喵抱怨“各种XX熵,各种XX信息,全都是数学公式,只会生搬硬套,却完全不知道有什么意义,也完全不知道怎么用嘛~”好咯,小夕下面就带你逐个击破!

熵/自信息

熵又称为自信息(self-information),在通信系统中表示信源每发一个符号(不论发什么符号)时所提供的平均信息量。同时,熵也可以被视为描述一个事件/随机变量的不确定性的大小,一个事件/随机变量的熵越大,那么它的不确定性就越大,因此正确估计该事件/随机变量的值的可能性就越小。

随机变量可以简单理解为取值按照某种规律,随时间随机变化的变量。

 

上面这段话看似很乱,其实要核心意思就是用“熵”可以描述一个事件/随机变量的信息量!而越稀有的东西,发生的可能性越小的事件,所包含的信息量越大。

其实很好理解呀。你想想,对于一个发生的可能性很大的事件,比如一个人告诉你明天太阳从西边出来。那么你肯定会用关爱傻子的眼神看他。但是如果一个人告诉你明天这里要发生大地震!那你要是不跳起来的话说明你的心理素质真是蛮好的。所以说呀,一个小概率事件会携带特别多的信息量,而太大的信息量会让人受不了的(比如让小夕的爸妈接受小夕是女孩子的事实,难呀╮(╯▽╰)╭)

哦对了,熵的单位是比特(bit),所以熵越大的事件/随机变量就要花越多的比特来表示咯。

 

在NLP领域有个好玩的计算就是对各种语言的熵进行计算。结果1989年的时候对英语字母的熵进行计算的结果是4.03(比特),而汉字的熵高达9.71(比特)!这说明了什么呢?

从直观的结果来看,表示一个汉字所需要的内存空间要比表示一个英文字母所需的空间大的多(想象一下ASCII码足以容纳全部英语字母,而常用汉字都远远的容不下)。从更深层的角度看,也说明我们对字母序列(比如单词)进行预测的难度要比对汉字序列(比如词语、成语)进行预测的难度大很多!因为汉字的不确定性,也就是熵,太大了!

高能公式:

联合熵

联合熵就是描述一对事件/一对随机变量平均需要的信息量。注意这里说的是一对!也就是两个!你可能想说“描述两个事件的信息量,直接对两个事件的信息量相加再除以2不就行了嘛~搞这么多稀奇古怪的定义干嘛呢”

 

这位童鞋,请再深入的想一下!假如这里有两个事件,一个事件是“明天你家后面的那个火山会爆发!”,这个事件包含1000bits的信息量。另一个事件是“明天你的豪宅就会被火山熔浆给融化了!”,这个事件包含1200bits的信息量。

 

那么如果告诉了你第一个事件,你很惊讶,你被砸了1000bits的信息量。这时再告诉你第二个事件,那么你还会再次惊讶吗?当然不会啦,你只会惊讶一次。因此第二次被砸的信息量远小于1200bits。但是如果把这两个事件分别告诉两个人,那么他们肯定都会特别惊讶,因此一共惊讶两次。为什么会这样呢?就是因为这两个事件的联合起来的信息量,即联合熵,并不是简单的相加的关系。专业的说法是这两个事件并不是相互独立的。

高能公式:

条件熵

理解了联合熵,条件熵就好理解啦~条件熵就是已知一个事件发生的情况下,另一个事件的信息量。回想刚才的火山的例子,已知“火山喷发”的情况下,“豪宅要被熔浆融化”的信息量就不大了。但单独的一个“豪宅要被熔浆融化”的信息量可是爆表的呀。

高能公式:

互信息

互信息也是说两个事件/随机变量之间的事儿。X与Y的互信息就是X的自信息(熵)减去【已知X的情况下,Y的条件熵】。直白的讲就是知道了X的值以后,Y的值的不确定性会降低多少。也就是说X的值会透露多少关于Y的信息量。

 

比如我们可以用互信息来分词。根据互信息的定义,当两个汉字的互信息越大时,表示这两个字的结合越紧密,因此这两个汉字越可能组合成词。因此我们只要计算出一个句子中前后两个字之间的互信息,不就可以轻松分词了嘛~(小夕偷偷告诉你,效果并不好

高能公式:

相对熵

相对熵(也称KL距离)用来描述两个事件的相近程度,或者说衡量两个随机分布的差距。当两个随机分布完全相同时,相对熵为0。两个随机分布差别越大,相对熵也越大。

 

想象一下,虽然前文的“火山爆发”与“熔浆融化豪宅”这两个事件互推的条件熵很小,但是这两个事件的含义却差别很大,因此它们的相对熵计算出来也会比较大。但是“明天火山爆发”与“明天下午两点火山喷发”的相对熵就会很小,因为它们几乎是同一个事件。

高能公式:

交叉熵

交叉熵的理解要抽象一些,它衡量的是一个估计的分布(模型)与真实概率分布之间的差异。

 

举个小例子解释,我们要设计语言模型来接近最真实的语言。语言模型越接近真实语言,那么通过该模型我们就很容易产生人类容易理解的句子、对话等,此时我们就可以说该语言模型的交叉熵很小。

 

但是如果你设计了一个语言模型,这个模型产生了“大极少上考虑”这种奇怪的句子,不符合真实的语言,因此就说你的语言模型交叉熵很大。

 

当然啦,实际上在描述语言模型时,一般不说交叉熵,而是说“困惑度”。虽然两者的数学形式略有不同,但本质上是一样的东西。

高能公式:

经过小夕的牵手,有没有与XX熵和XX信息们成为好朋友呢\(^o^)/~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据时代的机器学习有什么不同?

小夕昨晚没有发文章&#xff0c;却收到了一个大红包和好多晚安&#xff0c;好受之有愧..>_<...谢谢你们喵。路人戊&#xff1a;小夕&#xff0c;我们身处大数据时代了&#xff0c;好厉害呢。小夕&#xff1a;嗯嗯&#xff0c;哪里厉害了呢&#xff1f;路人戊&#xff1a;…

Science Bulletin | 阿尔茨海默病的现状与未来

目前全球人口老龄化进展严重&#xff0c;中国已成为世界上老龄化最快的国家之一。随着人口老龄化&#xff0c;痴呆患者的数目急剧增加&#xff0c;阿尔茨海默病&#xff08;Alzheimers disease, AD&#xff09;作为痴呆的主要原因&#xff0c;已成为当今社会最为热点的话题之一…

Science年度十大科学突破出炉:韦伯望远镜高居榜首,AIGC、NASA主动撞击小行星紧随其后...

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 文&#xff1a;量子位 前脚韦伯望远镜运维科学家刚获得Nature年度十大人物&#xff1b;紧接着&#xff0c;Science也将韦伯望远镜评为年度最大科学突破&#xff01;今天&#xff0c;Science重磅发布2022年度科…

词袋、独热与词向量

亲爱的读者喵喵&#xff0c;由于一些事情&#xff0c;小夕最近情绪欠佳&#xff0c;导致昨天又失约没有更新文章...而且文章中萌气散失...小夕会尽快调整好哦&#xff0c;小夕依然萌萌嗒我们知道&#xff0c;传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解&#xf…

人工智能会“偷走”潜艇的隐身能力吗?

更好的探测技术 不仅能使海洋变得透明&#xff0c;也许还会削弱核威慑力。潜艇的价值主要在于其隐蔽性。有一种名为“相互确保摧毁”的威慑战略&#xff0c;其关键在于尽量确保潜艇在核战争的第一次导弹打击中幸存下来&#xff0c;从而在第二次打击时发射导弹回击。因此&#x…

人工智能大地图之分布式人工智能篇

前言人工智能大地图系列文章更新啦&#xff01;大地图系列的文章是为了帮助即将入门和初步入门人工智能相关领域的喵喵从上帝视角看清整个人工智能学科的全貌&#xff08;好长的句子&#xff09;&#xff0c;小夕可不希望小夕的粉丝在研究了一年的人工智能某方向后&#xff0c;…

符合人类创作过程的AIGC:自动生成长故事的模型出现了

来源&#xff1a;机器之心报道编辑&#xff1a;小舟、蛋酱AI写文章还是得模仿人类的创作方法。在今天的人工智能领域&#xff0c;AI 写作神器层出不穷&#xff0c;技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候&#xff0c;那么前段时间的 Cha…

Science:挑战传统理论,重塑联想学习概念

来源&#xff1a;brainnews编译作者&#xff1a;Young&#xff08;brainnews创作团队&#xff09;校审&#xff1a;Simon&#xff08;brainnews编辑部&#xff09;学会根据环境线索预测奖赏对生存至关重要。人们认为&#xff0c;动物通过在结果偏离预期时更新预测来学习预测奖赏…

【完结】史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(四)

小夕再次感谢大家的关心&#xff0c;你们的小夕已经满血复活啦&#xff01;小夕会坚持为大家带来独一无二的干货和故事哦。前言有读者反映&#xff0c;ta若能完成这个系列的阶段三&#xff0c;就在他们实验室被奉为神了。因为他们实验室每个人人手一本《模式分类》&#xff0c;…

文本相似度

《统计学习方法》-李航 损失函数总结 概要 <div id"post_detail">NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背…

「可解释知识图谱推理」最新方法综述

来源&#xff1a;图灵人工智能近年来&#xff0c;以深度学习模型为基础的人工智能研究不断取得突破性进展&#xff0c;但其大多具有黑盒性&#xff0c;不 利于人类认知推理过程&#xff0c;导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网…

小夕的算法入门之路

小夕都快要成XX入门指导专业户了QAQ&#xff0c;小夕是要写人工智能和计算机干货的啊喂~好吧&#xff0c;问小夕如何入门算法的小伙伴太多了&#xff0c;还是写一篇文章吧。小夕还收到了“如何准备托福”和“如何准备考研英语”的求助&#xff0c;然而小夕没有考过&#xff0c;…

AIGC发展路径思考:大模型工具化普及迎来新机遇

来源&#xff1a;腾讯科技摘要&#xff1a;当前&#xff0c;AIGC引发社会关注&#xff0c;尤其是大模型和开源模式的推动&#xff0c;让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围&#xff1b;另一方面AI与创新的界限进一步模糊&a…

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先&#xff0c;暂且不管贝叶斯是什么意思&#xff0c;朴素这个名字放在分类器中好像有所深意。 一查&#xff0c;发现这个分类器的英文是“Nave Bayes”。Nave&#xff08;读作“哪义务”&#xff09;即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源&#xff1a;混沌巡洋舰时间来到 2095 年。地球表面满目疮痍&#xff0c;核战争和气候变化引发一场灾难。你只能过着困苦的生活&#xff0c;躲避匪帮&#xff0c;避开地雷。你的主要愿望就是活下去。或者&#xff0c;你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库&#xff0c;一般选择web of science 核心文集 第二步&#xff1a;在更多设置中选择web of science 第三步&#xff1a;点击被引频次后面的数字 第四部&#xff1a;点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项&#xff1a;web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想&#xff0c;被陶哲轩和他的博士后破解了&#xff01;此前陶哲轩在博客上发了个小预告&#xff0c;就已经有不少人赶来围观&#xff1a;看起来是个大新闻。现在&#xff0c;不少人期待的正式版论文&#xff0c;终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库&#xff08;Chinese Science Citation Database&#xff0c;简称CSCD&#xff09; 2 3 4 5 6点击详细信息进入下面的页面&#xff0c;可判断文档是否属于核心期刊&#xff01;

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐&#xff1a;“学姐学姐&#xff0c;EM算法是什么呢&#xff1f;”学姐回答&#xff1a;“EM算法啊&#xff0c;就是解决包含隐变量的参数估计问题。”小夕&#xff1a;然后小夕去问一位做工程的学长&#xff1a;“学长学长&#xff0c;EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者&#xff1a;葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖&#xff0c;被一些人误解为证明了量子纠缠现象。实际上&#xff0c;包括爱因斯坦本人都承认量子纠缠&#xff0c;关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…