从逻辑回归到神经网络

回顾

小夕在文章《逻辑回归》中详细讲解了逻辑回归模型,又在《Sigmoid与Softmax》中详细讲解了Sigmoid的实际意义(代表二类分类问题中,其中一个类别的后验概率)。

至此,我们已经比较透彻的理解了逻辑回归模型假设函数(也就是用于预测类别的函数)。纯从计算顺序上来说,逻辑回归预测类别的顺序即:

1. 输入样本X与模型参数作内积,结果记为z

2. 将中间结果z输入到Sigmoid函数,输出为0到1之间的一个数,a(在前两文中已经证明了这个a即其中一个类的后验概率)

 

然后,小夕要将上面的过程画出来。

这里假设输入的样本X是4维的,即,因此模型参数也是4维,即。为了方便,本文中忽略偏置项b的问题啦,自行脑补上。然后,blingling~释放小仙女的仙气~~

 

如上图,黑色圈圈代表原始的输入,即4维的特征向量。连接边代表模型参数,当然,这里用w表示啦,代表weight,即特征向量每一维度的权重

权重的末端即X与的内积结果,即z,也是Sigmoid函数的输入。粉色圈圈即Sigmoid函数。输入z经过粉色圈圈后生成a,即某一类别的后验概率。

一个奇怪的idea

 

诶?你们有没有想过,同样对于二类分类任务,我们如果将多个逻辑回归分类器的输出,作为另一个逻辑回归分类器的输入,并让这个逻辑回归分类器负责输出分类任务的类别。比如我们用3个逻辑回归分类器的输出作为另1个逻辑回归分类器的输入,blingling,施展魔法:

蓝色的逻辑回归分类器和粉色的逻辑回归分类器的输出就是绿色的逻辑回归分类器的输入。(好像句子有点长诶)绿色的逻辑回归分类器的输出就是二类分类任务中一个类别的后验概率。

 

诶?等等,想法看起来是没错,虽然绿色的逻辑回归分类器的分类任务很明确,就是我们最终的分类任务。但是蓝色和粉色的分类任务是什么呢?或者说,它们输出的后验概率到底是什么类别的后延概率呢?

 

答:不知道。

 

是真的不知道啊。。。这一次不是小夕调皮了,是真的不知道。不是小夕不知道,而是全世界都不知道。更严谨的说,除了通过实验观测的方式可以看懂极少部分模型的这里的类别的含义外,绝大部分情况下,这就是个黑匣子,只有计算机心里自己清楚。

 

哎,不管啦,我们暂且不管蓝色和粉色的分类器的分类任务是什么,就由它自己作吧~我们继续。

那么问题来了,既然同样都是做二类分类,我们为什么大费周章,用这么多逻辑回归分类器,最终还是输出某个类的后验概率呢?

 

还记不记得,逻辑回归是一个线性分类器!

逻辑回归模型本质上就是用y=WX+b这个函数画决策面,而这个函数当然就是2维/3维/更高维空间的直线/平面/超平面,因此当然是线性分类器啦。

 

因此,对于下面这个分类任务(黑色是类别0的样本,红色是类别1的样本)单个逻辑回归分类器的决策面最多只能画成这样子了。

 

 

然而,这个分类任务很明显决策面不是这样子的呀,于是,我们上面DIY(自行设计)的这个“多逻辑回归组合的模型”要起作用了!

蓝色的逻辑回归分类器或许可以学习到如下的决策面

 

 

粉色的逻辑回归分类器或许可以学习到如下决策面

 

 

绿色的逻辑回归分类器将蓝色和粉色的决策结果结合起来,画出最终的如下决策面:

 

 

看~本来线性的逻辑回归分类器,经过组合之后,就成了一个复杂的非线性分类器了!非常完美的画出了复杂的决策边界!

 

那么这个这么好用的模型叫什么名字呢?

当然就是:

神经网络

神经网络blingling登场了~

 

将上面我们DIY的模型对着下面标准的神经网络模型对号入座吧:

 

我们DIY模型中的特征向量X在这里依然是X,被称为输入层,也是神经网络的第1层。

我们DIY模型中的蓝色和粉色逻辑回归分类器的Sigmoid输入、Sigmoid函数、Sigmoid输出在这里都放在了隐单元和输出单元中。但是我们DIY的模型中的Sigmoid函数在神经网络中被称为激活函数(以后会讲含义,而且SIgmoid并不是唯一合适的激活函数)。

当然啦,我们前面说了,蓝色逻辑回归分类器和粉色逻辑回归分类器的分类任务就是个黑匣子,根本不知道它输出的后验概率是什么类别的后验概率。所以说,在神经网络中,隐单元的数量一般也只能凭借经验或者交叉验证等非科学手段来确定。

各个隐单元组成的这一层被称为隐含层。

 

最后的输出单元,实际上也是跟前面一样,只不过在神经网络中更习惯于画成下面的样子,让每个输出单元代表一个类别:

当然,本质上是一样的东西啦。

我们DIY模型中的各个逻辑回归分类器的模型参数在这里被称为各层之间各个神经元之间连接边的权重。这里的连接边Wkji就代表第k层到第k+1层之间,第k层的第i个神经元到第k+1层的第j个神经元之间的连接权重,这个权重跟逻辑回归中的含义一样,这里代表两个神经元之间的连接强弱。

将其中一个隐单元点开看大图:

看吧~跟我们DIY的逻辑回归模型一模一样,就是输入X与权重W(即逻辑回归中的参数)做内积得到z,再丢入Sigmoid函数出来a。

over,看吧,神经网络并不是小白教程中找几个圈圈连一连,然后跑个BP算法就完事的孤立模型。没有想到它竟然跟逻辑回归有这么一腿吧( ̄∇ ̄)

更多疑问

诶?那这个复杂的模型如何训练呢?

激活函数为什么叫激活函数呢?这个模型又为什么叫神经网络呢?

在神经网络中,我们可不可以不局限在逻辑回归模型里呢?比如我们不用Sigmoid作为激活函数了,采用其他形式的函数作为激活函数可以吗?其他激活函数又各会带来什么新特性呢?

在神经网络中,我们可不可以增加更多隐含层呢?(相当于级联更多层的分类器)诶?有深度学习的味道了?

 

另外,如果我们要用神经网络做多类分类的话,又该怎么办呢?会跟Softmax有关吗?

 

众多疑惑和猜想,待小夕为你一一解开。敬请期待本系列的后续文章吧~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481236.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为2019年校招(20届实习)机考题python版解答与思路(2019-3-13软件题)

试题为今天考试时记下,记于此仅做学习分享。侵删。 答案思路仅供参考,肯定有更优的办法!第三题没解出来,欢迎大家评论提点! 第一题: 这道题对输入做切分(调用split()方法)后&#xf…

语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

来源:药学前沿进展Meta:设计蛋白质这件事,语言模型就能干。用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。如在 2021 年 《Science》的十…

神经网络中的偏置项b到底是什么?

前言很多人不明白为什么要在神经网络、逻辑回归中要在样本X的最前面加一个1,使得 X[x1,x2,…,xn] 变成 X[1,x1,x2,…,xn] 。因此可能会犯各种错误,比如漏了这个1,或者错误的将这个1加到WX的结果上,导致模型出各种bug甚至无法收敛。…

【重版】朴素贝叶斯与拣鱼的故事

重版公告由于小夕之后要讲的好几篇文章要基于这一篇的知识,但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入,又不值得再额外写一篇朴素贝叶斯啦,因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比,新版对基础知识的讲解进行…

2022,这些国之重器让人眼前一亮!

来源:新华社2022即将收官这一年我们有许多难忘的回忆回顾,是为了更好出发我们将这一年各领域走过的壮阔征程制作成了精美的系列海报第一期让我们来看看那些让人眼前一亮的国之重器它们——上天入海!乘风破浪!贯通聚能!…

逻辑回归与朴素贝叶斯的战争

0一起走过的首先,小夕带领大家回顾一下文章《逻辑回归》、《Sigmoid与Softmax》、《朴素贝叶斯》中的几点内容,这几点内容也是本文的前置知识:1. 逻辑回归模型的表达式(假设函数):,其中。2. 逻辑回归模型本质上是二类分…

OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

来源:大数据文摘授权转载自HyperAI超神经作者:三羊OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 PointE。text-to-3D:…

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客&#xff1b;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是&#xff1a;先从一组无标签数据中学习特征&#xff0c;然后用学习到的特征提取函数去提取有标签数据特征&#xff0c;然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源&#xff1a;生物通如果B细胞是免疫系统的兵工厂&#xff0c;制造抗体来中和有害的病原体&#xff0c;那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色)&#xff0c;点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中&#xff0c;小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python&#xff0c;辅C&#xff0c;备用matlab和java”疑问较大&#xff0c;小夕在此详细解释一下&#xff0c;也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池&#xff0c;我们今天所获取到的数据都是来源于这里。无论是C店还是B店&#xff0c;统统都有机会进来。这个平台最有价值的数据&#xff0c;就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力&#xff0c;正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而&#xff0c;mRNA 分子的全球分布受到其热稳定性的限制&#xff0c;这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢&#xff1f;因为有人已经做了机器学习一段时间了&#xff0c;竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时&#xff0c;靠大学里教的那一套线性代数&…