一般化机器学习与神经网络

0

前言

机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话,可能很难发现一般化的框架。

如果你觉得神经网络是非常不同的机器学习模型,如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地,那么可能你已经陷入到这些细节里啦。所以小夕希望通过本文将这些同学拔出来,重新审视一下学过的东西。

1

一般化机器学习

至此,小夕已经或多或少的讲解了逻辑回归模型、朴素贝叶斯模型、神经网络,虽然小夕通过一系列的文章将这三个模型之间互相关联,但是小夕一直没有将其纳入更上层的框架之下。

 

下面小夕将依次献上:

  1. 机器学习模型的组成

  2. 机器学习模型的训练

  3. 机器学习模型的测试/使用

 

组成

对于一个典型的机器学习模型M,其一般重点由以下三部分组成:

  1. 模型的输入的格式,即特征向量x。

  2. 已知模型参数的情况下,将特征向量x映射成其标签(类别)y的函数,即用来直接输出类别或者间接输出类别的假设函数(有时也叫打分函数(scoring)、模型函数、预测函数等)。这也是机器学习模型M的核心,有时甚至可以直接用假设函数代指一个模型。

  3. 衡量当前参数下的模型与大自然真实模型之间误差的函数,即损失函数(loss function, 也叫代价函数(cost function))损失函数的计算以假设函数的计算为基础。一个模型的损失函数往往是固定的,但是也完全有可能一个模型对应着好几个损失函数,甚至模型太过灵活,直接兼容各种损失函数(此时损失函数的选择与数据集的结构和模型输入x的格式有关)。

训练

对于一个典型的机器学习模型M的训练过程,其一般由以下4步完成:

  1. 拿到原始数据,将原始数据集通过预处理来生成m个样本,n个维度的特征向量集X(端到端的模型中,特征向量恰好是“原始数据”)。

  2. 初始化模型M的参数(parameters)与超参数(hyperparameters),并确定一个用于寻找最优模型参数的最优化算法O。

  3. 基于全部X或部分X,利用优化算法O来最小化损失函数。这个过程要经历N次迭代,每次迭代都会更新模型参数并且计算此时损失函数的值。记录下每次迭代后的损失函数的值以及对应的模型参数

  4. 从N次迭代中选出使得测试集准确率最高的那次迭代后的参数,作为模型M最终的参数,完成训练。

对于步骤1:

需要明确x的形式,比如x包含几部分,每一部分有多少维度;

对于步骤2:

模型的参数的初始化很可能会大大影响模型最终的精度。如果你刚开始将模型的参数扔到了坑坑洼洼的地方,那很可能迭代几次就陷入到一个很差劲的局部最优点,极大的降低一个优秀模型的最终准确率。但是如果你刚开始将模型的参数扔到了距离马里亚纳海沟不远的地方,那很可能收敛到全局最优点,极大的提高模型的最终准确率。

超参数包含但不限于batch的大小(batch的大小即每次求解损失函数时使用的样本数量)、优化算法的参数(如步长)等一系列需要在第3步进行前就要固定死的参数(即如果不事前给超参数赋值,那么无法进行第3步);

对于步骤3:

运行优化算法时,优化算法的内部会计算损失函数在当前输入(当前模型参数)处的梯度/导数,这个计算往往要用到全部的样本x,然而当样本集过大时,也可以只使用一部分x来近似计算梯度/导数,当然这是优化算法内部的工作啦。

另外,需要迭代的次数N取决于系统设计者,比如可以达到一个最大迭代步数后停止(因此最大迭代步数当然是个超参数),比如可以每次迭代后立刻用这次得到的参数在测试集上计算准确率,当测试集上的准确率不再提高时结束迭代;

对于步骤4:

其实测试集准确率最高的那次迭代,往往就是训练时损失函数值下降最快的那次迭代(训练曲线最弯的地方,如下图红色曲线的最高点,对应着绿色曲线最弯的地方)。

因此既可以直接计算出红色曲线来得到真正的测试集准确度最高的迭代,在测试代价太高时也可以用绿色曲线最弯的那次迭代来近似

 

测试/使用 

对于一个已经训练完成的典型的机器学习模型M的测试/使用步骤:

  1. 将需要测试/处理的数据处理成模型M的输入的格式,即特征向量x。

  2. 将特征向量x输入到(当然是已知参数的)假设函数中,直接或间接的得到该样本的标签/类别。

2

神经网络

好啦~大框架结束了。下面将神经网络往里面丢~

小夕温馨提示,紫色与绿色是成对出现的哦

1、整个神经网络描述的是什么呢?

比如下面这个最传统的前馈神经网络是什么呢?

 

 

不过就是假设函数的可视化图片而已啦╮(╯▽╰)╭,其中K(*)就是传说中的激活函数,如sigmoid函数、tanh函数、ReLu函数等,不就是隐含层每个隐单元的输出嘛~所以当然是以输入层x为输入啦。

只不过这个假设函数用数学表示起来比较麻烦,所以大家往往看到上面那个三层网络会立刻想到前馈神经网络,而看到这个假设函数就没有前馈神经网络的条件反射了。而大家将这个图片直接跟前馈神经网络挂钩,也就说明假设函数基本就可以代表一个机器学习模型的直观印象了。

 

2、而神经网络中所谓的前向算法是什么呢?

前向算法做了什么呢?不就是将一个特征向量丢进模型,然后一层层往前推,一直推到输出层出结果嘛~站在上层看这个过程的话是什么?不就是将x映射成了y嘛~是的,不过是计算了一下假设函数而已啦╮(╯▽╰)╭

 

3、而神经网络中所谓的反向传播算法(BP算法)是什么呢?

首先,还记不记得BP算法的最开头要在输出层计算一下误差,这一步在干嘛呢?当然就是在计算损失函数啦~这个误差就是损失函数的输出啦~

 

然后,还记不记得各种入门视频中千叮咛万嘱咐的:一定要先实现和调试前向算法,再完成BP算法呐~诶为什么?这就是前面小夕讲的“损失函数是基于假设函数的结果来计算的”啦~损失函数的值是BP算法的开始,那当然要在BP算法开始之前先保证可以计算前向算法(假设函数)啦。

 

再然后,那么BP算法将这个误差往前传播,边传播边根据某种规则更新各个边的权重,传到了输入层,就更新完了所有的边的权重。这是在干嘛呢?边的权重不就是神经网络这个模型M的参数嘛~我们前面说基于全部或部分x,利用“什么”可以更新模型参数来??这里的“什么”就是优化算法啦~所以说,BP算法只是一种优化算法而已~(提前告诉你,本质上是一种巧妙计算梯度的梯度下降法)

 

怎么样?看似自成一派的神经网络也是死死卡在一般化机器学习框架里的。像逻辑回归、SVM等就更不用说了,只不过神经网络这个机器学习模型同时还卡上了生物模型(生物中的神经网络),因此其有各种有趣的名字和演变,但是也不要忘记这依然是一种机器学习方法。

 

那么,其他的各种神经网络,比如CNN、RNN甚至LSTM呢?深度神经网络呢?难道100层的深度XXX网络也逃不出这个框架?你试试不就知道啦( ̄∇ ̄)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481221.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源:机器之心作者:Ting Chen 等 编辑:赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型,一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务,该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是:先从一组无标签数据中学习特征,然后用学习到的特征提取函数去提取有标签数据特征,然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源:生物通如果B细胞是免疫系统的兵工厂,制造抗体来中和有害的病原体,那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色),点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中,小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python,辅C,备用matlab和java”疑问较大,小夕在此详细解释一下,也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池,我们今天所获取到的数据都是来源于这里。无论是C店还是B店,统统都有机会进来。这个平台最有价值的数据,就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力,正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而,mRNA 分子的全球分布受到其热稳定性的限制,这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢?因为有人已经做了机器学习一段时间了,竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时,靠大学里教的那一套线性代数&…

震惊!丧心病狂的夕小瑶推出新一轮写作计划!

时至今日,距离小夕发布的第一篇正式文章已经过去整三个月啦。今天又回头看了一下自己写的第一篇文章,不禁有点感慨“文风”变了这么多,甚至有点受不了第一篇文章中的萌气了\(//∇//)\然后文章还写的不怎么样。。。虽然第一篇文章写的好差&…

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...

来源:机器之心编辑:nhyilin人类似乎对不同的学习模式有着相似的认知,机器也应该如此!>>>>自监督学习能在各种任务中学习到分层特征,并以现实生活中可使用的海量数据作为资源,因此是走向更通用人…

史上最清楚的BP算法详解

前馈神经网络 在文章《逻辑回归到神经网络》(以下简写《LR到NN》)中,小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中,小夕阐述了神经网络的一般性。这一篇会完全进入神经网络的状态&…

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究阅读 451收藏 232018-06-26原文链接:yq.aliyun.comOPPO技术开放日第三期,未来的探索 AI&AR的实践应用juejin.im项目地址: https://github.com/crownpku/Chinese-Annotator 自…

具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

编辑 | 绿萝对人工智能不断增长的需求推动了对基于物理设备的非常规计算的研究。虽然此类计算设备模仿了大脑启发的模拟信息处理,但学习过程仍然依赖于为数字处理优化的方法,例如反向传播,这不适合物理实现。在这里,来自日本 NTT …

BP算法是从天上掉下来的吗?

第二个标题:一般而特殊的前馈神经网络前馈神经网络在文章《逻辑回归到神经网络》(以下简写《LR到NN》)中,小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中,小夕阐述了神经网络…

深度学习如何应用在广告、推荐及搜索业务?阿里妈妈实践案例解读

</span></ul><div class"markdown-body"><div id"meta_content" class"rich_media_meta_list"> </div>阿里妹导读&#xff1a;靖世&#xff0c;阿里妈妈精准展示技术研究员。2011 年&#xff0c;刚进阿里的他提出…

AI for Science的上半场:人工智能如何重新定义科学研究新范式?

AI发展七十余年&#xff0c;每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合&#xff0c;则会裂变出无数或无穷种可能性。来源 :36氪万众瞩目下&#xff0c;今年10月&#xff0c;有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓&#xff0c;授予了对…

从前,小夕种了一棵树

从前&#xff0c;小夕种了一棵树&#xff0c;种在了小夕的小屋后面~为什么要种这棵树呢&#xff1f;因为呀&#xff0c;它可以帮小夕总结历史经验&#xff0c;然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~这棵树是这样的。一开始&#xff0c;小夕买了一颗…

用于化学动力学模拟的原子神经网络表示

编辑 | 白菜叶机器学习技术已广泛应用于化学、物理、生物学和材料科学的许多领域。最富有成果的应用之一是从离散量子化学数据中学习势能或相关电子特性的复杂多维函数。特别是&#xff0c;大量努力致力于开发各种原子神经网络 (AtNN) 表示&#xff0c;这些表示是指将目标物理量…

自然语言生成任务,如文本摘要和图像标题的生成。seq2seq的模型原理

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/Irving_zhang/article/details/78889364 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit…

史上最简单的决策树模型讲解

从前 从前&#xff0c;小夕种了一棵树&#xff0c;种在了小夕的小屋后面~ 为什么要种这棵树呢&#xff1f;因为呀&#xff0c;它可以帮小夕总结历史经验&#xff0c;然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~ 这棵树是这样的。 一开始&#xff0c;小夕…

听觉器官是高阶元分类“革命性证据”

来源&#xff1a;中国科学报反刍类的内耳几何形态学分析及系统发育示图。Laura Dziomber/绘化石研究的第一步是通过形态特征鉴定身份&#xff0c;厘清物种的亲缘关系&#xff0c;但这种方法并不完美。那些长相相似的也许“八竿子打不着”&#xff0c;而毫无共同特征的却是“亲属…