线性-LR-softmax傻傻分不清楚

softmax

对于分类网络,最后一层往往是全连接层,如果是N分类,那么最终的全连接层有N个结点。很显然,每个节点对应一个类,该节点的权重越大,说明网络越倾向于认为输入样本属于该类。这其实就是Softmax的思想:古典概率模型。Softmax的不同之处在于将基本事件用e的幂表示,这样的好处是便于反向传播中的求导。我们来看softmax的概率计算:

S_i=\frac{e^i}{\sum_je^j}

有了概率就可以求交叉熵:Loss=-\sum_iy_ilnS_i,这里的y_i是独热编码,所以Loss中的求和符合可以去掉,得到Loss=-lnS_i

\frac{\partial{Loss}}{\partial{i}}=-\frac{\partial{lin S_i}}{\partial{i}}=-\frac{1}{S_i}\frac{\partial(1-\frac{\sum_j\not\equiv i e^j}{\sum_je^j})}{\partial i}=S_i-1

惊喜地发现,只要得到前向传播的结果,结果减1就得到反向传播的梯度。缘,妙不可言。

更严格的证明,其实要区分i与j是否相等,因为在全连接中是交叉连接的,反向传播也会交叉传播。那么,如果输出是[0.1,0.3,0.6],对第二类求偏导,得到[0.1,0.7,0.6]。可以看到,当节点与标签不同时,输出直接作为loss的导数,当节点与标签相同时,会将1-输出作为梯度。通过这样的反向传播,就会造成输出越来越集中在正确的节点上,且越来越逼近1.https://www.cnblogs.com/alexanderkun/p/8098781.html

Sigmoid

Softmax其实是一个激活函数,而提到激活函数,就不得不提Sigmoid,他们两个有什么关系呢?直接说结论:二分类时,二者可以看作是等价的。

softmax(x_1)=\frac{e^{x_1}}{e^{x_1}+e^{x_2}}=\frac{1}{1+e^{x_2-x_1}}

sigmoid(x_1)=\frac{1}{1+e^{-x_1}}

可以看到,二者的输出形式都是一样的,求导的特点也是一样的。sigmoid其实可以看作是softmax在类别N等于2时的一个特例,因为模拟神经元的受刺激与受抑制,这时二分类问题,所以sigmoid不仅用于分类网络的最后一层,也常用于隐藏层中的神经元连接处。如果说有什么不同点的话那就是网络结构在实现上有所不同:同样是二分类,sigmoid只要对一个featuremap进行计算则可直接得到它属于正样本的概率;而softmax需要两个节点,在两个channel上分别求e的幂再套用softmax的概率公式,分别得到正负样本的概率。

具体使用时要看情况:如果是多分类任务,且类别间是互斥的,使用softmax。softmax的好处就是可以任意调整分类类别。如果一个样本可能同时属于多个类别,则使用sigmoid,此时sigmoid对各个类别输出的概率之和不为1。https://www.cnblogs.com/jiashun/p/doubles.html

说一下sigmoid。它的作用首先是将之前的线性输出转换为“分类”,最简单的分类是设定阈值的分类,对应的激活函数表现为分段函数,这样不利于求导。所以sigmoid首先可以看作是对阶梯函数的近似,同时获得了连续可微,可得到概率的特性。更进一步地,sigmoid还使得分类器获得了非线性的特性。那么sigmoid这个函数的表达式到底是怎样确立的呢?这就要引入“对数几率”的概念。对于线性模型y=\theta^T\cdot X_b,不再用线性模型直接表示类别输出,而是表示类别概率的比值的对数(只能尽量去理解,比值是为了体现概率,对数是为了引入非线性),那么可以得到ln\frac{y}{1-y}=\theta^T\cdot X_b,从而解得y=\frac{e^{\theta^T \cdot X_b}}{1+e^{\theta^T \cdot X_b}}=\frac{1}{1+e^{-\theta^T \cdot X_b}}

LR(Logistic Regression)

前面提到Sigmoid对一个单通道输出就可以得到属于正样本的概率,这个概率实际上就是样本1的后验概率p(y=1|x)=sigmoid(w^Tx+b)。而使用sigmoid做分类其实就是逻辑回归。这里就从后验概率的角度讨论一下逻辑回归的代价函数和反向传播。会发现和交叉熵的角度反向传播softmax也是等价的。https://blog.csdn.net/zjuPeco/article/details/77165974

假设数据服从伯努利分布,那么p(y=0|x)=1-sigmoid(w^Tx+b)。写成一部形式:p(y|x;w)=\Phi(z)^y(1-\Phi(z))^{(1-y)}w是所求参数,现在我们认为它是一个确定的但未知的(区别于贝叶斯学派认为它是一个分布)。现在我们有n个训练样本,认为他们服从独立同分布,那么就可以使用最大似然估计:对于正确的w,联合分布概率取最大值(因为独立同分布,所以是后验概率的乘积)

由此得到代价函数,再进行求导即可以进行梯度更新https://zhuanlan.zhihu.com/p/103459570

指数分布族

https://www.zhihu.com/question/29435973

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493539.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一图看懂国外智能网联汽车传感器产业发展!

来源:赛迪智库编辑:煜 佳未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测&#…

深度学习中的信息论——交叉熵

信息量 可以说就信息量是在将信息量化。首先信息的相对多少是有切实体会的,有的人一句话能包含很多信息,有的人说了等于没说。我们还可以直观地感觉到信息的多少和概率是有关的,概率大的信息也相对低一些。为了量化信息,一个做法…

传统手工特征--opencv

一,颜色特征: 简单点来说就是将一幅图上的各个像素点颜色统计出来,适用颜色空间:RGB,HSV等颜色空间, 具体操作:量化颜色空间,每个单元(bin)由单元中心代表&…

特写李飞飞:她激励了人工智能的发展,更要给人工智能赋予人的价值

文 | MrBear 编辑 | 杨晓凡来源:雷锋网摘要:李飞飞无疑是人工智能界最响亮的名字之一。她既对机器学习领域的发展做出了杰出的贡献,也是普通大众眼中温和的人工智能技术宣扬者,还是谷歌这一科技巨头的人工智能技术领导人之一。WI…

Chap-4 Section 4.2.4 指令修正方式

对于X86平台下的ELF文件的重定位入口所修正的指令寻址方式只有两种:绝对近址32寻址和相对近址32寻址。 这两种指令修正方式每个被修正的位置的长度都为32位,即4个字节,而且都是近址寻址,不用考虑Intel的段间远址寻址。r_info成员的…

没见过女人的小和尚——SVDD

是的,即便是出生在山上的小和尚,从来没有下过山,没有见过女人,但是一旦有女施主上山,小和尚依然可以轻松地区分出眼前的人是如此不同。 传统的SVM是寻找一个超平面,而SVDD寻找的超平面更进一步&#xff0c…

解读GAN及其 2016 年度进展

作者:程程 链接:https://zhuanlan.zhihu.com/p/25000523 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 GAN,全称为Generative Adversarial Nets,直译为生成式对抗网络…

全国首套中小学生人工智能教材在沪亮相

来源:网络大数据中小学 AI 教材正式亮相11 月 18 日,优必选与华东师范大学出版社共同发布了《AI 上未来智造者——中小学人工智能精品课程系列丛书》(以下简称“AI 上未来智造者”丛书)。据了解,该丛书根据教育部“义务…

numpy基础知识点

1. np.squeeze 一,np.squeeze """ np.squeeze 删除单维度的条 对多维度无效 """ import numpy as np anp.array([[1,2],[3,4],[4,5]]) print(a) print(a.shape) bnp.squeeze(a) print(b) ca.reshape(1,6,1) print(c) print(np.squeeze(c)) pri…

从智能交通到智能能源:智慧城市在7个方面的应用实践

来源:资本实验室目前,智慧城市已经成为全球众多城市未来规划和设计的方向,并致力于通过各种新技术的应用来改善城市居民的工作与生活。但什么样的技术应用能够推动智慧城市的建设?如何让新技术在智慧城市中的应用效率最大化&#…

别以为if slse很简单——决策树

怎么分——熵与Gini指数 熵,表示信息量的期望,含义是混乱程度,也是对随机变量编码所需的最小比特数。请参考之前的文章。 信息增益建立在熵之上,是选择某特征之后熵减少的多少(熵减少即信息增加)&#xf…

tensorflow实现回归

直线拟合:yw*xb """ 回归:直线拟合 """ import tensorflow as tf import numpy as np import matplotlib.pyplot as plt x_datanp.random.rand(100) y_datax_data*51Wtf.Variable(0.) btf.Variable(0.) y_predW*x_databxtf.placehol…

微软亚研院20周年独家撰文:数据智能的现在与未来

文:微软亚洲研究院软件分析组来源:雷锋网摘要:今年是微软亚洲研究院(MSRA)20周年,站在这个大节点上,MSRA副院长张冬梅以及她的团队写了这篇有关数据智能的文章,对该领域的发展和未来…

二维与三维之间的桥梁——点云

在做图像配准时就听闻过一些点云的方法,却没对其有太多的认识,只是知道点云point cloud顾名思义就是一些离散点的集合。现在在无人驾驶中一些激光雷达的作用其实就是生成点云数据,接下来介绍一下点云数据的含义和基础的使用方法。 虽然特斯拉…

python刷题+leetcode(第一部分)

1. 设计前中后队列 思路:python代码直接利用list的insert特性 class FrontMiddleBackQueue:def __init__(self):self.queque []def pushFront(self, val: int) -> None:self.queque.insert(0, val)def pushMiddle(self, val: int) -> None:self.queque.insert(len(self…

LINQ基础概述

介绍LINQ基础之前,首说一下LINQ 的历史和LINQ是什么,然后说一下学习 LINQ要了解的东西和 LINQ基础语法LINQ 的历史从语言方面的进化 –委托 –匿名方法 –Lambda表达式 –Linq查询表达式 上边这四个我会在下边一一解说 从时间方面的演进 –2004年 –2005…

机器人“快递小哥”上岗了!京东配送机器人编队长沙亮相

11 月 22 日上午,京东物流配送机器人智能配送站启用仪式在长沙举行,随着载有用户订单的配送机器人编队从站内依次发出,全球首个由机器人完成配送任务的智能配送站正式投入使用。首个京东配送机器人智能配送站位于长沙市科技新城,占…

3D打印技术如何影响未来

来源:学习时报我们应该对3D打印技术保持谨慎态度,但过度反应和监管也可能会扼杀创新。历史经验表明,在技术的不利一面被应用之前进行规范构建对话是最有效的。因此,各国际主体,包括国家、商业领袖、政府官员和其他政策…

HDR简单介绍

问题定义 HDR字面意思是高动态范围High Dynamic Range,而动态范围是高图像质量的五个要素之一(其余是1. 分辨率,2.位深度,3.帧速率,4.色域),而画质直接关系到人眼的主观感受。 如果将动态范围理解为量化的…

争议中挺进全新里程——中国“超级对撞机”《概念设计报告》发布侧记

来源:科技导报2018 年11 月12 日下午6 点半,北京市玉泉路,中国科学院高能物理研究所,所有建筑和行人沐浴在初冬夜晚的清冷与安静之中。不同的是,主楼西侧一座新楼的大厅里,却充满了热望和兴奋。这里正进行着…