神经网络激活函数=生物转换器?

 

 

啊~昨晚躺了一个小时竟然没有睡着,美容觉泡汤了...于是竟然大半夜起来写了这篇文章

在《逻辑回归到神经网络》中,小夕让神经网络冒了个泡。在《一般化机器学习与神经网络》中,将神经网络这一火热的模型强制按回机器学习一般框架里。在《BP算法的本质》里,详细的阐述了BP算法的本质与目标。

好啦~这一篇回到简单、纯粹的状态,我们来一起戳一戳可爱的神经细胞。

学生物的人眼里的神经细胞:

学数学与机器学习的人眼里的神经细胞:

看,其实神经元就是一个小小的生命,它会用树突接收外面世界的多维信息,然后在它小小的脑袋里计算一下,来对当前外面的世界作出一个反应,这个反应通过轴突传递出去。

 

看,是不是也很像一个小小的机器学习模型呢?一个将多维的输入X转换成输出信号y的小模型。

那么,假如我们发现了好几堆(层)可爱的神经元,并且惊讶的发现它们可以交互信息,一起完成任务,但是我们并不知道它们之间怎么连接的。那怎么办呢?

我们当然可以给它们两两之间分配一条线呀。这个线就代表两个神经元之间的连接强度,如果两个神经元之间没有连接,这根线的值就是0,连接的越紧密,值就越大。

 

 

看。

 

这么多可爱的神经元一起工作的时候,在数学家眼里,其实并不复杂:

前一层的神经元的轴突(输出信号)与下一层的神经元的树突(输入)的信号传递过程,其实就是一个线性映射的过程。

补充:

想一想,《线性代数一》中,小夕是不是已经讲啦,对待矩阵,一个非常重要的视角就是“映射”。矩阵,可以表示一个映射函数,准确的说是一个线性映射函数。

看,就像上图中虽然每个人都知道,b=a*W(矩阵乘法),但是有没有人想过“线性映射”这一层含义呢?其实呀,下一层的树突b收到的信号,就是上一层的轴突a经过W(这个大众眼里的矩阵)线性映射而成的。

前一层神经元们的信号经过线性映射,传递到下一层的神经元树突那里后,当然下一步就是经过神经元的细胞体啦。

 

 

而生物学上的神经元细胞体是干什么的呢?当然就是将树突的信号转换成轴突的信号啦。所以,它是一个生物信号的转换器!

 

而我们知道,多个线性映射叠加之后依然是线性映射。所以哪怕你叠加再多的线性映射,整体的函数依然是个线性函数,这也太鸡肋啦。所以细胞体决不能同流合污,它要完成复杂而神秘的信号转换,也就是数学上的非线性映射

 

而非线性映射的灵活度就一下子无限大了,有无数的非线性函数可以完成这个非线性映射的过程:

 

比如,Sigmoid函数:


 tanh函数:


Hard tanh函数:


Soft sign函数:


ReLU函数:


Leaky ReLU函数:

其中0<k<1。

 

没错,这些单调上升的非线性函数都可以当做神经网络的激活函数,在不同的任务中,总有一个在该任务中表现最好的激活函数。

所以,将视角拉的更远一些:

那么有没有一个通用的最优激活函数呢?

 

只能等生物学家把神经元的细胞体研究透彻着再说啦。

 

所以,激活函数的选择,准确的说是构造,目前就是一个黑匣子。所以很难解释清楚为什么ReLU函数在图像相关的任务中往往表现的比广为人知的Sigmoid、tanh更好,恐怕只有你体内的神经元自己知道啦~快想办法让它告诉你呀~ 

同样的道理,为什么非要选择单调上升的函数呢?就不能用y=sin(x)这种非单调的吗?就不能用单调下降的吗?

 

答:首先是激活函数的生物学依据,激活函数模仿的也是神经细胞的实验特性——当树突的输入足够强时,就会让细胞体兴奋,从而在轴突输出一个兴奋信号。而当细胞体对树突的输入不感兴趣或者它认为不够强时,就处于抑制态,在轴突输出的信号很弱,或者说相当于输出电路中的低电平。除此之外,就是依靠大量面向任务的选择经验+少量感性推理+少量理性推理。也就是说,这个问题并没有被严谨的否决,所以不要轻易说不可以哦。

而具体的什么函数在什么领域,什么任务中表现的好,大家就自己去积累经验吧。也有很多博客和论文有讲这些经验性的trick。比如在斯坦福大学的CS224D课程(自然语言处理与深度学习)中,就有较为详细的讲解。

下面这个是CS224D的中文笔记(不是我记的),这篇文章里的激活函数的公式和仿真图也是从这里直接抠出来的。作者笔记里还有这些激活函数的导函数等,建议没时间刷视频的可以看这个笔记:

http://blog.csdn.net/han_xiaoyang/article/details/51711134

还有一篇文章也比较有营养:

http://www.cnblogs.com/pinard/p/6437495.html

 

还有一篇论文,数学差的就要慎重些了:

Mhaskar H N, Micchelli C A. How to choose an activationfunction[J]. Advances in Neural Information Processing Systems, 1994: 319-319.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481191.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从Encoder到Decoder实现Seq2Seq模型

首发于机器不学习关注专栏写文章从Encoder到Decoder实现Seq2Seq模型天雨粟模型师傅 / 果粉​关注他300 人赞同了该文章更新&#xff1a;感谢Gang He指出的代码错误。get_batches函数中第15行与第19行&#xff0c;代码已经重新修改&#xff0c;GitHub已更新。前言好久没有更新专…

市场增速超20%,国产操作系统“浴火重生” | 解读操作系统的 2022

作者 | 凌敏 本文是“2022 InfoQ 年度技术盘点与展望”系列文章之一&#xff0c;由 InfoQ 编辑部制作呈现&#xff0c;重点聚焦操作系统领域在 2022 年的重要进展、动态&#xff0c;希望能帮助你准确把握 2022 年操作系统领域的核心发展脉络&#xff0c;在行业内始终保持足够的…

线性代数应该这样讲(二)

在《...&#xff08;一&#xff09;》中&#xff0c;小夕从映射的角度讲解了矩阵及矩阵运算&#xff0c;这也是机器学习中看待矩阵的非常重要的视角。另一方面说&#xff0c;矩阵当然也是用于存储数据的数据结构&#xff0c;这也是最好理解的形式。另外还可以看做是一个线性方程…

2023将至,Bengio等大佬年度展望!懂理性的AI模型要来了?

来源&#xff1a;新智元【导读】2022年对AI来说注定是不平凡的一年&#xff0c;这不吴恩达、Bengio等一众圈内大佬在接受DeepLearning.ai的采访中都展望了2023年AI的发展趋势&#xff0c;还分享了自己的科研小故事。还有1天&#xff0c;2022年就要过去了。此前我们报道了吴恩达…

【NLP】Attention Model(注意力模型)学习总结

【NLP】Attention Model&#xff08;注意力模型&#xff09;学习总结郭耀华发表于郭耀华‘s Blog订阅294在这篇文章中&#xff1a;1. 什么是Attention机制&#xff1f;2. 先了解编码-解码框架&#xff1a;Encoder-Decoder框架3. Attention Model4. Attention机制的本质思想5. S…

杂谈机器学习的几个应用场景

在上一篇文章末尾&#xff0c;小夕提到了“机器学习是实现自然语言处理的正确道路”。其实确实如此&#xff0c;纵观整个自然语言处理的发展史&#xff0c;也是纵观整个人工智能的发展史&#xff0c;从诞生到现在&#xff0c;机器学习不仅是在理论和工程上实现自然语言处理的目…

2022年度十大AI技术盘点:AIGC风暴来袭,自动驾驶后会无期?

来源&#xff1a;AI科技大本营翻译 & 整理&#xff1a;杨阳“科学不能告诉我们应该做什么&#xff0c;只能告诉我们能做什么。”——让-保罗萨特《存在与虚无》这一年&#xff0c;AI又有哪些前沿技术突破呢&#xff1f;通过汇总梳理2022年10大AI技术&#xff0c;AI科技大本…

从逻辑回归到受限玻尔兹曼机

在那很久很久以前&#xff0c;可爱的小夕写了一篇将逻辑回归小题大做的文章&#xff0c;然后在另一篇文章中阐述了逻辑回归的本质&#xff0c;并且推广出了softmax函数。从那之后&#xff0c;小夕又在一篇文章中阐述了逻辑回归与朴素贝叶斯的恩仇录&#xff0c;这两大祖先级人物…

Peacock:大规模主题模型及其在腾讯业务中的应用-2015

Peacock&#xff1a;大规模主题模型及其在腾讯业务中的应用 作者&#xff1a;赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益 摘要 如果用户最近搜索了“红酒木瓜汤”&#xff0c;那么应该展示什么样的广告呢&#xff1f;从字面上理解&#xff0c;可能应该返回酒水或者水果类广…

史上最简单的玻尔兹曼机模型讲解

在上一篇文章中&#xff0c;小夕讲述了逻辑回归为了抗衡贝叶斯网&#xff0c;也开始了自己的进化。然而令我们没有想到的是&#xff0c;逻辑回归最终竟然进化成了一个生成式模型——受限玻尔兹曼机&#xff08;RBM&#xff09;&#xff0c;也就是变成了敌方&#xff08;生成式模…

从头到尾彻底理解KMP(2014年8月22日版)

从头到尾彻底理解KMP 作者&#xff1a;July 时间&#xff1a;最初写于2011年12月&#xff0c;2014年7月21日晚10点 全部删除重写成此文&#xff0c;随后的半个多月不断反复改进。后收录于新书《编程之法&#xff1a;面试和算法心得》第4.4节中。 1. 引言 本KMP原文最初写于2年多…

解开玻尔兹曼机的封印会发生什么?

在上一篇文章中&#xff0c;小夕讲述了逻辑回归为了抗衡贝叶斯网&#xff0c;也开始了自己的进化。然而令我们没有想到的是&#xff0c;逻辑回归最终竟然进化成了一个生成式模型——受限玻尔兹曼机&#xff08;RBM&#xff09;&#xff0c;也就是变成了敌方&#xff08;生成式模…

KMP算法的核心,是一个被称为部分匹配表(Partial Match Table)的数组以及next数组求解

KMP算法的核心&#xff0c;是一个被称为部分匹配表(Partial Match Table)的数组。我觉得理解KMP的最大障碍就是很多人在看了很多关于KMP的文章之后&#xff0c;仍然搞不懂PMT中的值代表了什么意思。这里我们抛开所有的枝枝蔓蔓&#xff0c;先来解释一下这个数据到底是什么。 对…

Softmax(假神经网络)与词向量的训练

今天终于要完成好久之前的一个约定了~在很久很久以前的《如果风停了&#xff0c;你会怎样》中&#xff0c;小夕提到了“深刻理解了sigmoid的同学一定可以轻松的理解用(假)深度学习训练词向量的原理”&#xff0c;今天就来测测各位同学对于sigmoid的理解程度啦~习惯性的交待一下…

二叉树的先序遍历、中序遍历、后序遍历、层次遍历-图文详解

概述 二叉树的遍历是一个很常见的问题。二叉树的遍历方式主要有&#xff1a;先序遍历、中序遍历、后序遍历、层次遍历。先序、中序、后序其实指的是父节点被访问的次序。若在遍历过程中&#xff0c;父节点先于它的子节点被访问&#xff0c;就是先序遍历&#xff1b;父节点被访问…

写给我的女神,一个用灵魂歌唱的小精灵

我对娱乐圈不感兴趣&#xff0c;也很少关注娱乐圈。对于专业的歌唱艺术更是不在行。但我认为&#xff0c;一首歌&#xff0c;不应因为技法的平庸而被认为是烂歌&#xff0c;不应因为曲风的通俗而被认为是俗歌&#xff0c;不应因为声音和唱法的非主流而被认为是“非主流”歌曲。…

完美世界2020编程题-救雅典娜 英雄AB PK

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请注明出处。 https://blog.csdn.net/u012319493/article/details/82154113 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f…

训练神经网络时如何确定batch size?

前言 当我们要训练一个已经写好的神经网络时&#xff0c;我们就要直面诸多的超参数了。这些超参数一旦选不好&#xff0c;那么很有可能让神经网络跑的还不如感知机。因此在面对神经网络这种容量很大的model前&#xff0c;是很有必要深刻的理解一下各个超参数的意义及其对model的…

腾讯2013实习生笔试题+答案1-5aadaa 6-10adbcc 11-15 acacc16-20 bbddc

一、 单项选择题1) 给定3个int类型的正整数x&#xff0c;y&#xff0c;z&#xff0c;对如下4组表达式判断正确的选项(A) Int a1xy-z; int b1x*y/z;Int a2x-zy; int b2x/z*y;int c1x<<y>>z; int d1x&y|z;int c2x>>z<<y; int d2x|z&y;A) a1一定等…

训练神经网络时如何确定batch的大小?

当我们要训练一个已经写好的神经网络时&#xff0c;我们就要直面诸多的超参数啦。这些超参数一旦选不好&#xff0c;那么很有可能让神经网络跑的还不如感知机。因此在面对神经网络这种容量很大的model前&#xff0c;是很有必要深刻的理解一下各个超参数的意义及其对model的影响…