深入深出Sigmoid与Softmax的血缘关系

缘起逻辑回归


逻辑回归模型是用于二类分类的机器学习模型(不要说逻辑回归可以做多类分类啊喂,那是二类分类器的组合策略问题,而与逻辑回归分类器本身的构造没有半毛钱关系啊)。

我们知道,在逻辑回归中,用于预测样本类别的假设函数为


(小夕要讲大事,忽略偏置项参数和向量转置这种细节啦),其中sigmoid函数的图像看起来是这样的:


因此,我们将的样本预测为正类别(记为类别1),将的样本预测为负类别(记为类别0)。因此对于sigmoid(z)函数来说,z=0的点就是用来分类的临界点。所以在逻辑回归中,的点就是分类的临界点。

可是你有想过为什么吗?(是的,这并不是拍脑袋决定的)

如果觉得小夕的这种问法很奇怪,那小夕换一种问法,你知道是代表什么意思吗?它难道仅仅代表了“特征向量与模型参数做内积”这么肤浅的含义吗?

听小夕慢慢讲,手指慢慢划,跟上思路哦。

首先,模型参数是个向量,维数与样本的维数一致(忽略偏置项这种细节问题啦),为了好看,下文用w来代替

我们来好好看看这个所谓的模型参数w。这个w在本质上是,记为。诶?怎么能这样呢?如何理解被拆出来的这两个w呢?

其实只要把这个向量看作是对类别1的直接描述,将向量看作是对类别0的直接描述,新世界的大门就打开了。还记得前面小夕讲的,在逻辑回归模型中,本质上用来预测类别的临界点就是,也就是,这代表什么意思呢?

我们知道,对于向量a和向量b,假设它们的长度都为1,那么当向量a与向量b夹角最小时,它们的内积,也就是会最大。当然了,推广到更一般的说法,不限制a与b的长度,则当a与b夹角最小时,我们称a与b的余弦相似度最大


而两向量的夹角越小意味着什么呢?意味着这两个向量越相似呀,意味着越亲密呀。所以就意味着类别1与特征向量x的亲密度减去类别0与x的亲密度。因此当逻辑回归的假设函数时,也就是时,就代表着特征向量x,也就是样本,与类别1更亲密,因此类别预测为1。同样的道理,当x与类别0更亲密时,类别预测为0。


继续,我们将上述神奇的逻辑放到逻辑回归模型的假设函数的展开式中,将替换为我们上面的得:


等等,有没有惊恐的发现什么?还记得小夕在上一篇文章《逻辑回归》中得到的这个结论吗?:


天呐,逻辑回归的假设函数竟然与P(Y=1|X)一模一样!都是!!这个sigmoid函数到底是什么?一切真的都是因为巧合吗?不行,小夕非要一探究竟!来,手术刀拿来,解剖!

Sigmoid

为了美观,我们直接用w1代替,用w0代替


如果我们令分子分母同除以。。。得:


!!!有没有被震惊到!
小夕在前面讲了,w1与x的内积代表着w1与x的亲密度,这个不就代表着类别1与x的亲密度x与所有类别亲密度之和的比例”吗?
既然是比例,那肯定是0到1之间的数呀~而这个比例又可以解读为什么呢?不就是类别1在x心中的分量吗?当类别1在x心中的分量超过类别0在x心中的分量时,我们的逻辑回归模型当然要把类别1嫁给x呀~也就是将类别1作为预测的类别!
同时,这个分量越大,我们将类别1嫁给x后,会让x满意的概率就越大!所以这个比例又是类别1的后验概率P(y=1|x)呀!

看,一切都不是巧合吧。Sigmoid函数的意义,竟然如此深邃。
等等,虽然sigmoid(w1·x)代表"类别1与x的亲密度占x与所有类别亲密度之和的比例",但是显然这里只有两个类别,即1和0,也就是说Sigmoid是一个只能用于类分类的函数。
那么如果我们要分类的类别超过2,我们能不能同样用一个函数来表示出“某类别与x的亲密度占x与所有类别亲密度之和的比例”呢?


Softmax

这一次,我们倒着来!假如我们的分类任务有k个类别,与前面用w1、w0来表示类别1、类别2一样,我们用w1、w2、w3...wk来表示各个类别。

根据前面的经验,这个“类别j与特征向量x的亲密度”貌似可以表示为,那么我们效仿一下sigmoid,类别j与x的亲密度占x与所有类别亲密度之和的比例即:


将分母用整理一下,发现了没有!这就是深度学习中广泛应用的大名鼎鼎的Softmax函数:


哎,原来看似深不可测的Softmax函数,只是Sigmoid的一种推广形式,其深邃意义与Sigmoid并无二致。哎,失望,Softmax也就这样啦╮(╯▽╰)╭怪小夕咯?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481246.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科学家使用机器学习获得前所未有的小分子视图

编辑 | 绿萝数以千计的不同小分子(称为代谢物)在整个人体中传输能量和传递细胞信息。由于它们非常小,因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。尽管在过去十…

【Brain】脑洞从何而来?加州大学最新研究:有创造力的人神经连接会「抄近道」...

来源:量子位为什么有的人更富创造力?总能想到别人不会想到的东西,做别人想不到做的事?最近,这个问题的答案被找到了:有创造力的人,大脑里的神经活动会“抄近道”。加州大学洛杉矶分校的研究人员…

一位老师,一位领导,一个让全体学生考上目标学校的故事

今天,小夕给大家讲一个故事... 从前,有座山...​ 山里,有座学校... 学校里,有一位老师,一位领导,还有五只可爱的小仙(学)女(生)。 这5个学生的名字是:小兔,小青,小路&…

小冰李笛:ChatGPT在向“让你认为它有知识”的方向发展 | MEET 2023

来源:量子位衡宇 整理自 MEET2023ChatGPT技惊四座,甚至不少人认为它已经能“取代搜索引擎”。然而就在MEET2023智能未来大会上,却出现了这样一种迥然相异的观点:未来5年里,大家想要获取知识,最好的方法还是…

从前,有只小仙女叫...

从前,有只小仙女叫小音✧٩(ˊωˋ*)و✧这一篇真的不是小夕萌的技术文啦( ̄∇ ̄)今天小夕给大家推送一点好玩的东西~毕竟高中老师说过,不能只学不玩嘛( ̄∇ ̄)虽然小夕以萌著称\(//∇//)\,但是在da…

DeepMind新研究:AI也懂合纵连横

摘要人类文明的成功,植根于我们通过沟通和制定共同计划进行合作的能力。人工智能主体面临着与人类类似的问题。最近,人工智能公司 DeepMind 展示了AI如何利用沟通在桌游“强权外交”中更好地合作。研究发现,沟通主体容易受到背叛协议者的负面…

从逻辑回归到神经网络

回顾小夕在文章《逻辑回归》中详细讲解了逻辑回归模型,又在《Sigmoid与Softmax》中详细讲解了Sigmoid的实际意义(代表二类分类问题中,其中一个类别的后验概率)。至此,我们已经比较透彻的理解了逻辑回归模型假设函数(也…

华为2019年校招(20届实习)机考题python版解答与思路(2019-3-13软件题)

试题为今天考试时记下,记于此仅做学习分享。侵删。 答案思路仅供参考,肯定有更优的办法!第三题没解出来,欢迎大家评论提点! 第一题: 这道题对输入做切分(调用split()方法)后&#xf…

语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

来源:药学前沿进展Meta:设计蛋白质这件事,语言模型就能干。用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。如在 2021 年 《Science》的十…

神经网络中的偏置项b到底是什么?

前言很多人不明白为什么要在神经网络、逻辑回归中要在样本X的最前面加一个1,使得 X[x1,x2,…,xn] 变成 X[1,x1,x2,…,xn] 。因此可能会犯各种错误,比如漏了这个1,或者错误的将这个1加到WX的结果上,导致模型出各种bug甚至无法收敛。…

【重版】朴素贝叶斯与拣鱼的故事

重版公告由于小夕之后要讲的好几篇文章要基于这一篇的知识,但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入,又不值得再额外写一篇朴素贝叶斯啦,因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比,新版对基础知识的讲解进行…

2022,这些国之重器让人眼前一亮!

来源:新华社2022即将收官这一年我们有许多难忘的回忆回顾,是为了更好出发我们将这一年各领域走过的壮阔征程制作成了精美的系列海报第一期让我们来看看那些让人眼前一亮的国之重器它们——上天入海!乘风破浪!贯通聚能!…

逻辑回归与朴素贝叶斯的战争

0一起走过的首先,小夕带领大家回顾一下文章《逻辑回归》、《Sigmoid与Softmax》、《朴素贝叶斯》中的几点内容,这几点内容也是本文的前置知识:1. 逻辑回归模型的表达式(假设函数):,其中。2. 逻辑回归模型本质上是二类分…

OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

来源:大数据文摘授权转载自HyperAI超神经作者:三羊OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 PointE。text-to-3D:…

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…