深度学习未来的三种方式

来源:海豚数据科学实验室

深度学习的未来在于这三种学习模式,而且它们彼此之间密切相关:

  • 混合学习——现代深度学习方法如何跨越监督学习和非监督学习之间的边界,以适应大量未使用的无标签数据?

  • 复合学习——如何以创造性的方法将不同的模型或组件连接起来,以生成一个大于各部分之和的复合模型?

  • 简化学习——出于性能和部署目的,如何减少模型的规模和信息流,同时保持相同或更强的预测能力?

混合学习

这种方式试图跨越监督学习和非监督学习之间的界限。由于有标签数据缺乏且成本高,所以常常在业务上下文中使用。从本质上说,混合学习是对下面这个问题的回答:

如何使用监督方法解决非监督问题?

首先,半监督学习在机器学习领域取得了良好的进展,因为它只需要很少的有标签数据就能够在监督问题上有非常好的表现。例如,一个设计良好的半监督式 GAN(生成式对抗网络)只需要 25 个训练样本,就能在 MNIST 数据集上获得了超过 90% 的准确率。

半监督学习是针对有大量无监督数据和少量有监督数据的数据集而设计的。传统上,监督学习模型只在一部分数据上进行训练,无监督模型则在另一部分数据上进行训练,而半监督模型则可以将有标签数据与从无标签数据中提取的见解结合起来。

半监督 GAN(简称 SGAN)是对 标准生成式对抗网络模型 的改写。判别器输出 0/1 表示图像是否生成,它也输出项的类别(多输出学习)。

这是基于这样一种想法,即通过判别器学习区分真实的和生成的图像,它能够学习它们的结构而不需要具体的标签。通过少量标签数据的额外增强,半监督模型就可以在少量监督数据的情况下实现最高的性能。

要了解关于 SGAN 和半监督学习的更多内容,请查看这里:

https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781

GAN 还参与了混合学习的另一个领域——自监督 学习,在这种学习中,非监督问题被明确地定义为监督问题。GAN 通过引入生成器人为地创建监督数据;创建标签来识别真实 / 生成的图像。在无监督的前提下,创建了一个有监督的任务。

或者,考虑使用 编码器 - 解码器压缩模型。在最简单的形式中,它们是中间有少量节点(表示某种瓶颈压缩形式)的神经网络。两端分别是编码器和解码器。

网络被训练成产生与输入向量相同的输出(从无监督数据人为地创建监督任务)。由于故意在中间设置了瓶颈,所以网络不会被动地传递信息;相反,它必须找到最好的方法将输入内容保存到一个小的单元中,这样,解码器就可以再次合理地对它解码。

训练完成后,将编码器和解码器分开,用于压缩或编码数据的接收端,以极小的形式传输信息,而又几乎不丢失数据。它们还可以用来降低数据的维数。

另一个例子,考虑一个大型的文本集(可能是来自数字平台的评论)。通过一些聚类或流形学习(manifold learning)方法,我们可以为文本集生成聚类标签,然后用它们作为标签(如果聚类做得好的话)。

在对每个类进行解释之后(例如,类 A 表示对产品的抱怨,类 B 表示积极的反馈,等等),可以使用像 BERT 这样的深层 NLP 架构将新文本分类到这些类中,所有这些都是使用了完全未标记的数据,并将人的参与降至最低。

这又是一个将非监督任务转换为监督任务的有趣应用。在一个绝大多数数据都是非监督数据的时代,通过混合学习,在监督学习和非监督学习之间创造性地架起一座桥梁,具有巨大的价值和潜力。

迁移学习

复合学习为的是利用几种模式的知识,而不是一种。该方法认为,通过独特的组合或信息注入——包括静态和动态——与单一模式相比,深度学习能够在理解和性能方面不断地深入。

迁移学习是复合学习的一个明显的例子,它的前提是模型的权重可以从一个在类似的任务上预先训练过的模型中借用,然后在特定任务上进行微调。像 Inception 或 VGG-6 这样的预训练模型,其结构和权重被设计成可以区分几种不同类别的图像。

如果我要训练一个神经网络来识别动物(猫、狗等),我不会从头开始训练卷积神经网络,因为要达到不错的效果需要太长时间。相反,我会使用一个预先训练过的模型(比如 Inception,它已经存储了图像识别的基础知识),在数据集上额外进行几个 epoch 的训练。

类似地,在 NLP 神经网络中,词嵌入会根据单词之间的关系在一个嵌入空间中将单词映射到实际距离较近的其他单词(例如,“apple”和“orange”的距离比“apple”和“truck”的距离更小)。像 GloVe 这样预先训练好的嵌入可以放到神经网络中,从单词到有意义的数字化实体的有效映射开始。

较为隐秘的一点是,竞争也能促进知识增长。首先,生成式对抗网络借鉴了复合学习范式,从根本上使两个神经网络相互竞争。生成器的目标是欺骗判别器,而判别器的目标是不被骗。

下文会将模型之间的竞争称为“对抗性学习”,不要与另一种 设计恶意输入并利用模型弱决策边界 的对抗性学习相混淆。

对抗性学习可以增强模型,通常是不同类型的模型,在对抗性学习中,一个模型的性能可以用其他模型的性能来表示。在对抗性学习领域还有很多研究需要做,生成式对抗网络是这个子领域唯一突出的创新。

另一方面,竞争性学习与对抗性学习类似,但是逐节点执行的:节点竞争对输入数据的一个子集作出响应的权利。竞争性学习是在一个“竞争层”中实现的,在这个“竞争层”中,除了某些权重随机分布外,神经元都是相同的。

将每个神经元的权值向量与输入向量进行比较,然后激活(output = 1)相似度最高的“赢者全拿”神经元,其余神经元“不激活”(output = 0),这种无监督技术是 自组织映射 和 特征发现 的核心组成部分。

复合学习的另一个有趣的例子是 神经结构搜索。简而言之,在强化学习环境中,神经网络(通常是 RNN)通过学习为数据集生成最好的神经网络——算法为你找出最好的架构!

你可以点击这里了解更多理论知识:

https://towardsdatascience.com/if-youre-hyped-about-gpt-3-writing-code-you-haven-t-heard-of-nas-19c8c30fcc8a

点击这里查看其 Python 实现:

https://towardsdatascience.com/automl-creating-top-performing-neural-networks-without-defining-architectures-c7d3b08cddc

集成(Ensemble)方法也是一种重要的复合学习方法。深度集成方法已经被证明非常 有效,而且,端到端模型叠加,像编码器和解码器,已经变得越来越流行。

复合学习的主要目的是找出在不同模型之间建立联系的独特方法。它的前提是:

单个模型,即使是一个非常大的模型,其性能也不如几个小模型 / 组件,其中每一个都被委派专门处理一部分任务。

例如,考虑为一家餐馆构建一个聊天机器人的任务。

我们可以将其划分为三个独立的部分:寒暄 / 闲聊、信息检索和动作,并针对每个部分单独设计一个模型。或者,我们可以委托一个模型来执行所有这三个任务。

复合模型性能更好,同时占用的空间更少,这应该没什么可奇怪的。此外,这些非线性拓扑可以用 Keras 函数式 API 这样的工具轻松构建。

为了处理越来越多样化的数据类型,如视频和三维数据,研究人员必须建立创造性的复合模型。

点击这里关于复合学习及其未来展望的内容:

https://medium.com/analytics-vidhya/compositional-learning-is-the-future-of-machine-learning-22b56ad09edc

简化学习

模型的规模,尤其是在 NLP 领域(深度学习研究的中心),正在大幅增长。最新的 GPT-3 模型有 1750 亿个参数。把它和 BERT 比较就像把木星和蚊子比较一样(并不夸张)。未来,深度学习的模型会更大吗?

很可能不会。诚然,GPT-3 非常强大,但历史一再表明,“成功的科学”是那些对人类影响最大的科学。当学术偏离现实太远时,通常会淡出人们的视线。这就是神经网络在 20 世纪末期被短暂遗忘的原因,因为可用的数据太少了,以至于这个想法,无论多么巧妙,都是没用的。

GPT-3 是另一种语言模型,它可以写出令人信服的文本。它的应用在哪里?是的,它可以生成查询的答案。不过,还有更高效的方法来实现这一点(例如,遍历一个知识图,并使用一个更小的模型如 BERT 来输出答案)。

考虑到 计算能力的枯竭,GPT-3 的庞大规模(更不用说更大的模型)似乎是不可行的,或者是不必要的。

“摩尔定律有点过时了。”——微软首席执行官 Satya Nadella

相反,我们正在走向一个嵌入式人工智能的世界,智能冰箱可以自动订购食品杂货,无人机可以自行导航飞遍整个城市。强大的机器学习方法应该能够下载到个人电脑、手机和小型芯片上。

这就需要轻量级人工智能:在保持性能的同时使神经网络更小。

事实证明,在深度学习研究中,几乎所有的东西都与直接或间接地减少必要参数的数量有关,而这又与提高泛化能力和性能紧密相关。例如,卷积层的引入大大减少了神经网络处理图像所需的参数数量。递归层在使用相同权值的同时融入了时间的概念,使得神经网络能够以更少的参数更好地处理序列。

嵌入层显式地将实体映射到具有物理意义的数值,这样负担就不会落在其他参数上。有一种解释说,Dropout 层在对输入的某些部分进行操作时会显式地屏蔽参数。L1/L2 正则化 确保网络利用了所有的参数,而且每个参数都不会太大,并最大化了每个参数的信息价值。

随着专用层的建立,网络对更复杂、更大数据的要求越来越少。其他最新方法明确地寻求简化网络。

神经网络剪枝 试图去除对网络输出没有价值的突触和神经元。通过剪枝,网络可以在去除大部分网络节点的情况下保持其性能。

其他方法,如 Patient Knowledge Distillation,可以将大型语言模型压缩成可下载到用户手机上的形式。对于支撑谷歌翻译的 谷歌神经机器翻译(GNMT)系统 来说,这种考虑是有必要的,该系统需要创建一个能够离线访问的高性能翻译服务。

本质上讲,简化学习以部署为中心进行设计。这就是为什么大多数关于简化学习的研究都来自于公司的研究部门。以部署为中心的设计不能盲目地遵循数据集上的性能指标,而要关注模型部署时的潜在问题。

例如,前面提到的 对抗性输入 是设计用来欺骗网络的恶意输入。可以用喷漆或贴纸来欺骗自动驾驶汽车,使其远远超过限速。负责任的简化学习不仅是使模型足够轻量化,而且要确保它能够适应数据集中没有表示出的极端情况。

在深度学习研究中,简化学习得到的关注最少,因为“我们成功地在可行的架构规模下实现了良好的性能”远不如“我们利用一个拥有无数参数的架构实现了最先进的性能”那么吸引人。

不可避免地,当对更高百分比的追求消失时,正如创新的历史所显示的那样,简化学习——实际上就是实用的学习——将得到更多它应该得到的关注。

总结

  • 混合学习试图跨越监督学习和非监督学习的边界。像半监督和自监督学习这样的方法能够从无标签数据中提取有价值的见解,当无监督数据的数量呈指数增长时,这些见解就变得非常有价值。

  • 随着任务变得越来越复杂,复合学习将一个任务分解为几个更简单的组件。当这些组件一起工作或者相互对抗,就可以得到一个更强大的模型。

  • 深度学习已经进入炒作阶段,而简化学习还没有得到太多关注,但很快就会出现足够实用并且是以部署为中心的设计。

感谢阅读!

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c 语言sort函数,C/c++语言sort函数如何使用

头文件是#include比如说数组a[5]{1,5,4,2,3};当你用sort(a,a5)时&#xff0c;就把数组a从小到大排序了for(i0;i<5;i){printf("%d \n",a[i]);}输出为1 2 3 4 5C语言中没有预置的sort函数。如果在C语言中&#xff0c;遇到有调用sort函数&#xff0c;就是自定义的一个…

android ocr识别源码_身份证识别OCR解决手动输入繁琐问题

随着互联网金融的的发展&#xff0c;越来越多的互联网金融公司都推出了自己的金融APP&#xff0c;这些APP都涉及到个人身份证信息的输入认证&#xff0c;如果手动去输入身份证号码和姓名&#xff0c;速度非常慢&#xff0c;且用户体验非常差。为了提高在手机移动终端上输入身份…

mybatis异常invalid comparison: java.util.Date and java.lang.String

原文链接&#xff1a;http://blog.csdn.net/wanghailong_qd/article/details/50673144 mybatis异常invalid comparison: java.util.Date and java.lang.String 开发中改动mapper文件后需要重新编译发布, 由于工程比较大非常耗时, 所以为方便快速测试干脆写了一个小java工程. 工…

计算机c语言等级考试PDF,国家计算机等级考试c语言精华.pdf

心之所向&#xff0c;所向披靡C 语言总复习顺序结构程序设计1.单字符输入输出&#xff1a;getchar(字符变量) &#xff1b;putchar(字符变量) &#xff1b;2.字符串输入输出&#xff1a;gets(字符数组名),puts(字符数组名)。3.格式化输入输出&#xff1a;(1)格式化输入&#xf…

什么是内卷?华为内部这篇文章读懂

来源&#xff1a;互联网坊间八卦&#xff08;ID:kekesil&#xff09;内卷的意思是明明已经靠近边界有个天花板&#xff0c;但却又不断自我激发&#xff0c;繁复化、精致化。概念的含糊其辞是无效讨论和跌入焦虑自我再生产困境的原因之一。判断内卷还是良性竞争的前置问题是回答…

锁屏界面显示某些设置已隐藏_iOS 14 隐藏功能,只要轻点手机背面就能截屏

关于 iOS 14 系统的一些功能我也为大家介绍了一些&#xff0c;iOS 14 已发布&#xff0c;界面大更新&#xff01;其实除了之外&#xff0c;iOS 14 系统还有许多隐藏的功能。那么今天我就为大家介绍 iOS 14 系统的隐藏功能之一&#xff1a;轻点背面。话不多说&#xff0c;我们先…

jacascript AJAX 学习

前言&#xff1a;这是笔者学习之后自己的理解与整理。如果有错误或者疑问的地方&#xff0c;请大家指正&#xff0c;我会持续更新&#xff01; AJAX 是 asynchronous javascript and XML 的简写&#xff0c;就是异步的 javascript 和 XML。这一技术能够向服务器请求额外的数据而…

android 自定义控件 焦点,android中设置控件获得焦点

android中&#xff0c;要使控件获得焦点&#xff0c;需要先setFocus,再requestFocus。以Button为例&#xff1a;btn.setFocusable(true);btn.setFocusableInTouchMode(true);btn.requestFocus();btn.requestFocusFromTouch();//获得失去焦点的监听器btn.setOnFocusChangeListen…

分享丨强化学习是针对优化数据的监督学习?

来源&#xff1a;AI科技大本营作者 | Ben Eysenbach、Aviral Kumar、Abhishek Gupta 编译 | 凯隐出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;强化学习&#xff08;RL&#xff09;可以从两个不同的视角来看待&#xff1a;优化和动态规划。其中&#xff0c;诸如REI…

stm32l0的停止模式怎么唤醒_手把手教你怎么利用旧电脑搭建NAS组建自己的黑群晖...

手把手教你怎么利用旧电脑搭建NAS组建自己的黑群晖Synology群晖科技&#xff08;Synology &#xff09;创立于 2000 年&#xff0c;自始便专注于打造高效能、可靠、功能丰富且绿色环保的 NAS 服务器&#xff0c;是全球少数几家以单纯的提供网络存储解决方案获得世界认同的华人企…

pat 甲级 1034. Head of a Gang (30)

1034. Head of a Gang (30) 时间限制100 ms内存限制65536 kB代码长度限制16000 B判题程序Standard作者CHEN, YueOne way that the police finds the head of a gang is to check peoples phone calls. If there is a phone call between A and B, we say that A and B is relat…

有人说 GPT3 是“暴力美学”的结晶,它的工作原理你知道吗?| 动图详解

来源&#xff1a;CSDN如今&#xff0c;在科技领域掀起了一股GPT3的热潮。大规模语言模型&#xff08;比如GPT3&#xff09;的潜力惊艳了我们。虽然这些模型还没有成熟到大多数企业将之直接面对消费者&#xff0c;但却展示出一些智慧的火花&#xff0c;并让人坚信其将会加速自动…

android的listview多选功能,Android ListView实现单选及多选等功能示例

本文实例讲述了Android ListView实现单选及多选等功能的方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;在项目中也遇到过给ListView的item添加选择功能。比如一个网购APP&#xff0c;有个历史浏览页面&#xff0c;这个页面现点击item单选/多选及全选删除功能。当…

git 生成ssh key_ubuntu git生成ssh key (公钥私钥)配置github或者码云

Git是分布式的代码管理工具&#xff0c;远程的代码管理是基于SSH的&#xff0c;所以要使用远程的Git则需要SSH的配置。github的SSH配置如下&#xff1a;设置Git的user name和email&#xff1a;git config --global user.name "xx"git config --global user.email &qu…

ThinkPHP5模型操作中的自动时间戳总结

ThinkPHP5中提供了非常优秀的自动时间戳功能。使用起来非常方便。 但是官网手册中的说明还是不是很详尽&#xff0c;因此整理再次&#xff0c;以方便后续使用时查阅。 一、一般情况下的自动填充create_time,update_time两个字段 对于固定的时间戳和时间日期型的字段&#xff0c…

android圆形头像 demo,Android图像处理之绘制圆形头像

在Android中&#xff0c;绘制圆形和绘制图片都是很容易的事情&#xff0c;但是绘制圆形图片就有点难倒人了。以前为了偷懒就直接去github上找一个开源项目&#xff0c;后来才发现绘制圆形图片其实也是很简单的事。绘制圆形图片也需要两个步骤&#xff1a;绘制圆形和绘制图片&am…

芯片项目烂尾怎么办?国家发改委回应了!

来源&#xff1a;北京日报客户端芯片项目烂尾的报道近日引发关注。对此&#xff0c;国家发改委新闻发言人孟玮在今日&#xff08;20日&#xff09;上午举行的例行发布会上回应&#xff0c;将会同有关部门强化顶层设计&#xff0c;狠抓产业规划布局&#xff0c;努力维护产业发展…

idea中二级包为什么创建不了_IDEA通过Maven打包JavaFX工程(OpenJFX11)

1 概述 最近研究JFX&#xff0c;写出来了但是打包不了&#xff0c;这。。。尴尬。。。 IDEA的文档说只支持Java8打成jar包&#xff1a; 尝试过直接使用Maven插件的package&#xff0c;不行&#xff0c;也尝试过Build Artifacts&#xff0c;也不行&#xff0c;各种奇奇怪怪的问题…

鸿蒙系统发布会16号几点,华为鸿蒙手机系统正式定档发布,12月16日于我们见面...

#华为鸿蒙系统#大家都知道&#xff0c;华为手机已经无法预装谷歌GMS服务了&#xff0c;对于大部分海外用户来说&#xff0c;GMS服务还是相当重要的&#xff0c;谷歌全家桶内置了地图、搜索、视频娱乐等功能&#xff0c;但凡是搭载了安卓系统的智能手机&#xff0c;那么就无法离…

二叉树和红黑二叉树

二叉树是树形结构的一个类型&#xff0c;由一个根节点和左子树、右子树组成。排序二叉树特性&#xff1a;左子树上的值均小于根节点的值&#xff1b;右子树的值均大于根节点的值。&#xff08;相当于链表&#xff09;平衡二叉树任何节点的两个子树的最大高度差为1&#xff0c;被…