新技术“红”不过十年,半监督学习为什么是个例外?

640?wx_fmt=jpeg来源 | 转载自知乎

这一波深度学习的发展,以2006年Hinton发表Deep Belief Networks的论文为起点,到今年已经超过了10年。从过往学术界和产业界对新技术的追捧周期,超过10年的是极少数。从深度学习所属的机器学习领域来看,到底什么样的方向能够支撑这个领域继续蓬勃发展下去,让学术界和产业界都能持续投入和产出,就目前来看,半监督学习是一个很有潜力的方向。

机器学习范式的发展

传统机器学习的解决路径可以表示为:

ML Solution = ML expertise + Computation + Data

其中ML expertise是机器学习专家,负责特征工程、机器学习模型设计和最终的训练,是整个机器学习解决方案效果的关键因素。Computation是计算能力,代表具体选择什么的硬件去承载专家设计的优化方案。这个部分一般来说穷有穷的打法,富有富的策略:以CTR预估为例,小厂设备不多,资源不足,那么可能GBDT就是一个不错的选择;大厂的话,资源相对富裕,那么各种DNN就上来了。Data无论做什么业务,或多或少也都有一些,C端产品的话,上线后总会有用户反馈可以做为label;B端产品的话,以我曾经搞过的图片识别为例,定向爬虫和人工标注也能弄到有标签样本。Data总会有,无外乎多少的区别。

这里就存在一个问题,Computation和Data即便有了,也不一定有很匹配的人来把整个事情串联运用起来,发挥最终的价值。21世纪,最贵的是人才;为什么贵?因为稀缺。于是大家就在想,能不能把机器学习问题的解决路径改为:

New ML Solution = 100x Computation + 100x Data

简而言之,就是用更多地Computation和Data代替人的作用。100x Computation替代人工模型设计,这两年也得到了长足的发展,这就是AutoML。狭义的来看AutoML,NAS和Meta Learning在学术界工业界都有不错的进展。尤其是NAS,2017年Zoph和Le发表的Neural Architecture Search with Reinforcement Learning作为引爆点,快速形成了一个火爆的研究领域,主要思路是通过RNN controller来sample神经网络结构,训练这个网络结构,以这个网络结构的指标作为RL的reward优化这个controller,让这个controller能够sample出更有效的网络结构。

640?wx_fmt=jpeg

Controller训练过程

这个领域后续还有一些列出色的工作,但由于不是今天讨论的重点,暂且按下不表,有时间再写一篇关于NAS的从认知到实践。

100x Data听上去就是一个很有诱惑力的事情,因为更多的数据,往往意味着更好的效果。以最近异常火爆的BERT和GPT2,都被认为是大力出奇迹的暴力美学典范。大量的数据带来效果提高了人们对当前AI的认知边界,GPT2生成的文本就是一个很好的例子。但是数据规模的扩大,往往意味着某方面成本的提升。广告CTR预估,100x的样本要么是DAU增长了100倍,要么是出了100x的广告(估计会被用户打死的),都不太真实;图片的人工标注增长100x即便金钱成本能接受,时间成本也太长,猜想ImageNet如果1亿标注样本,估计CV的发展还会有更多的爆发点。

在谈半监督学习的进展前,我们先看看另一个机器学习方向在解决数据不足和数据稀疏上的努力。

Multi-Task Learning

Multi-Task Learning是指不同的任务之间通过共享全部或者部分模型参数,相互辅助,相互迁移,共同提高的机器学习方法。实际使用过程中,Multi-Task Learning由于多个任务共享参数,还能带来Serving Cost的下降,在学术界和工业界都有不少相关工作,并且在一些数据上取得了不错的进展。

Multi-Task Learning由于不同任务之间可以相互辅助学习,往往数据稀疏的任务能够从数据丰富的任务收益,得到提高,同时数据丰富任务还不怎么受影响或者微弱提升。这在一定程度上缓解了数据量的需求。

最近几年比较好的Multi-Task Learning工作,首先让我比较有印象的是Cross-stitch。Cross-stitch通过在Multi-Task的表达学习中,通过权重转换矩阵 \alpha_{AB} 或者 \alpha_{BA} 直接获得另一个任务的中间表示信息,这种方案在效果上比传统的Shared Bottom灵活,也减少了模型参数被某一个任务完全主导的风险。

640?wx_fmt=jpeg

Cross-stitch子结构

后来的ESSM跟Cross-stitch有异曲同工之妙,只是将任务的学习方向改为单向:pCVR单向从pCTR中学习,以满足业务上的逻辑因果关系。

640?wx_fmt=jpeg

ESSM学习框架

Multi-Task Learning最近比较有意思的工作,SNR应该算一个,思路主要收到Mixture-of-Expert的启发(Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer:这篇文章背后的思想其实是Google解决大规模机器学习的新思路,完全值得开篇另述!),不同的任务走不同的网络路由,即不同的任务会由不同的Experts组合预估,而Experts总量固定,在不同任务间是部分共享的。对比Cross-stitch,每个任务都必须使用另外任务的信息,这种网络架构设计,使得不同任务的Expert既有独立又有共享。具体的独立和共享方式,每个任务通过模型训练学习得到,比较好的平衡了任务的独立性和共通性。SNR还使用了稀疏路由的思想,使得每个任务在保证效果的前提下经过最少的Experts,降低计算量。

640?wx_fmt=jpeg

Multi-Task Learning在学术界和工业界都获得了不俗的成绩,但是也有一个要命的短板,需要另外一个数据丰富且能够学习比较好的任务帮忙。这个要求限制了Multi-Task Learning发挥的空间,因为很多情况下,不仅没有其他任务,仅有的任务label也很匮乏,于是半监督学习就有了用武之地。

半监督学习

半监督学习通常情况下,只有少量的有label数据,但是可以获得大量的无label数据,在这种情况下希望能够获得跟监督学习获得相似甚至相同的效果。半监督学习的历史其实已经也比较久远了,2009年Chapalle编著的Semi-Supervised Learning,就对其定义和原理做了详细介绍。在计算力随着深度学习的热潮快速发展的同时,大量的label贫困任务出现,于是半监督学习也越来越重要。

半监督学习近两年最有亮点的工作当属发表在EMNLP'2018的Phrase-Based & Neural Unsupervised Machine Translation,大幅提升了半监督机器机器翻译的SOTA。

640?wx_fmt=jpeg翻译训练过程示意

在整个训练过程中,B)先对其两种语言的work级别翻译,然后C)针对两种语言分别学一个Language Model,获得语言分布,最后D)再根据语言分布反复使用Back-Translation在已知的少量句对上翻译获得最终模型。这种方案大幅提高了在对齐句对不多的语种之间的翻译质量,同时由于其novelty,获得了EMNLP'2018的Best Paper Award,初读此文时有一种眼前一亮的感觉。(尽管标题叫Unsupervised Machine Translation,但是实际上利用到了部分label数据,我更愿意将其归类为Semi-Supervised Machine Translation。)

最近Google的研究人员又提出来一种新的半监督训练方法MixMatch,这种方法号称是Holistic的,综合运用了:A)distribution average; B)temperature sharpening; C)MixUp with labeled and unlabeled data. 其训练过程如下:

640?wx_fmt=jpeg

这个方法在CIFAR-10上只有250个label时能将错误率从38%降到11%,令人印象深刻。『江山代有才人出』,另一波Google的研究人员提出了UDA,在我看来这种方法更为彻底,也更加End-to-End。UDA主要利用数据分布的连续性和一致性,在输入有扰动的情况下,输出应该保持稳定,于是对于unlabeled data增加了一个损失函数:

640?wx_fmt=jpeg

即有扰动和无扰动的unlabeled data的预估分布的KL距离应该非常小,同时数据扰动用尽可能贴近任务本身的方法去做,比如图像用AutoArgument,文本用上面提到的Back-Translation和Word Replacement。

640?wx_fmt=jpeg

UDA训练示意

UDA的效果在文本和图像上都得到了很好地验证,大幅降低标注数据不足情况下得错误率;更值得关注的一点是,即便在ImageNet这种标注数据已经非常多的情况下,再使用UDA依然能带来效果的提升,说明UDA在数据分布拟合上具有很好地通用性。

结语

总体来看,半监督机器学习无论是采用聚类、图传播、数据增强还是泛化学习,主要依据的理论基础都是labeled和unlabeled data在分布上的连续性和一致性,因此机器学习方法可以利用这点进行有效的结构化学习,增强模型的表征能力,进而很好地提高预测效果。虽然半监督机器学习已经取得了一些很好的结果,从近两年ICML、ICLR和NeurIPS等会议看,相关工作也越来越多,但是还远没有到CV中的ResNet和NLP中的BERT的水平,要实现100x Data真正发挥作用,还需要学术界和工业界共同努力。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

word空格显示小点

那是因为不小心点了显示隐藏标记,取消即可

《细胞》重磅连发:记忆可“遗传”!

来源:偷鸡捕虾摸螺蛳有人说,记忆到最后也许是最宝贵的财富。人们总是希望能够把最珍视、最有价值的记忆保留下来。科学家们也正为此孜孜不倦的努力着。在2016年的SXSW大会上,南加州大学教授Theodore Berger宣布了一个轰动整个科技界的消息&am…

单词搭配用法查询网站

http://www.just-the-word.com/ 例如查询improve单词的搭配

胡小明:城市大脑与人脑不同的数据意识

一、数据应用要区别对待1.2 数据应用比数据收集重要大数据热正在席卷全国,许多地方政府都成立大数据局,统管政府的数据资源并将数据收集摆在第一位,数据应用研究却迟迟跟不上,投资不断增长应用效益却无相应增长,大数据…

输入关键词查询论文例句网站

http://www.scijuyi.com/es/index.php 国人开发的网站,专门针对英语科技论文写作。输入关键词后,以英文例句的形式返回检索结果。它的使用办法和谷歌学术很相似,但是对语料进行了挑选(以英语为母语的语料为主)&#x…

Redis概述以及安装

二、Redis概述以及安装 Redis是一个开源的key-value存储系统;和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset&#…

宜宾地震,这个系统跑赢了“地震波”!

来源:新华社、现场云、成都高新减灾研究所编辑:关开亮、李永锡、丁鹏程据中国地震台网正式测定:6月17日22时55分,四川省宜宾市长宁县(北纬28.34度,东经104.90度)发生6.0级地震,震源深…

环境变量的作用(以java指令为例)

在很多地方都会涉及到环境变量的概念,这边稍微记录一下笔记。 一、环境变量的分类 Windows中有两种环境变量:用户变量 和 系统变量,它们的区别和作用如下所示: 环境变量不区分大小写;系统变量对所有用户有效&#x…

一文看懂机器视觉芯片

来源:半导体行业观察来源:半导体行业观察【导读】机器视觉之于人工智能等同于视觉之于人类,本文系统介绍决定机器视觉的两大要素——视觉算法和芯片,重点介绍国内外视觉芯片市场及发展前景,包括重量级玩家及其产品。机…

单词短语搭配用法网站

https://linggle.com/? 通配符:*(星号,英文半角)通配一个单词;_(下划线,英文半角)通配多个单词。 例如,搜索in this paper we _(注意星号前需要有空格&…

任正非与美国思想家的咖啡对话全文

来源:华为心声、蓝血研究美国的所作所为促成了华为的觉醒,现在是华为的“人造卫星”时代!——尼古拉斯尼葛洛庞帝美国学者与任正非的咖啡对话2019年6月17日田薇:“一杯咖啡吸收宇宙能量”,我是田薇。有人说&#xff0c…

人工智能推理应用于场景的四大典型方式

来源:英伟达NVIDIA中国从Alexa和谷歌地图导航等语音助手,到Bing的对话搜索,人工智能已经成为许多人日常生活的一部分。这些任务需要执行深度学习推理,也可以被认为是将人工智能应用于场景。为人工智能提供动力的深度学习神经网络是…

LaTeX引用多篇bibtex格式文献

首先找到要引用的文献的bibtex格式(谷歌学术的引用上有),如下图所示 其中"girshick2015fast"是该文献的标签(待会引用这篇文献时会用到),可以自己重命名 将要引用的全部文献的bibtex格式放到一个txt文件上(…

Libra白皮书面世 正确解读Facebook野心需注意这些点

来源:全链财经北京时间6月18日下午消息,Facebook的加密货币“Libra”相关网站正式上线,Facebook还发布了这款加密货币的白皮书。据coindesk报道称,Libra将在由100个分布式计算机服务器或节点启动的区块链网络上运行。目前有28个节…

洪小文清华论道:AI 的前生今世及未来应用图景

来源:微软丹棱街5号丹棱君有话说:这是一场解析了 AI 前世今生及未来应用图景的演讲,一场经济学家与科学家的问答,将会对撞出怎样的思想火花?6月13日,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研…

中国学者变革300多年来的活塞!MIT、哈佛联手,动力3倍以上,可节能40%

来源:机器人大讲堂导读麻省理工学院(MIT)和哈佛大学的研究团队合作设计出了一种使用柔性材料的新型活塞,动力是传统活塞的3倍以上,且最多可节能40%。这种柔性活塞有望从根本上改变汽车发动机、机械臂、起重机、减震器和…

Android中Parcelable接口用法

Android中Parcelable接口用法 1. Parcelable接口 Interface for classes whose instances can be written to and restored from a Parcel。 Classes implementing the Parcelable interface must also have a static field called CREATOR, which is an object imp…

顶级专家谈中国脑科学研究最新成果

来源:环球时报大脑是人体最复杂的器官,人类对它的构造与运作机制充满好奇,但至今仍有大量难题需要破解。6月18日, 由中国科学院自动化研究所主办、自动化所脑网络组研究中心——中科搏锐团队承办的“中国科学院自动化研究所脑科学…

量化人类社会交互行为

利用虚拟现实技术对人类社会交互行为进行定量化测量的过程 图片来源:蒯曙光团队来源: 中国科学报清早,小明走进教室,发现同学们正在聊天,老师敲黑板试图引起学生们的注意,李雷和韩梅梅明白了老师的意图&a…

VMware14.1 Ubuntu16.04安装教程

1. 安装WMware14.1,安装成功后打开点击“主页”中的“创建新的虚拟机”。 2. 选择“自定义”,点击“下一步” 3. 选择默认选项,点击“下一步”。 4. 选择“稍后安装操作系统”,点击“下一步”。 5. 根据自己的实际情况进行选择&am…