概述自动机器学习(AutoML)

640?wx_fmt=jpeg

来源:混沌巡洋舰


华为年薪百万招聘的机器学习博士,其中一个的研究方向就是AutoML,今天借着最新的综述,来对AutoML进行简要的概述。


640?wx_fmt=jpeg


机器学习是让算法自动的从数据中找出一组规则,从而提取数据中对分类/聚类/决策有帮助的特征,随着机器学习的发展,其中人工需要干预的部分越来越多,而AutoML则是对机器学习模型从构建到应用的全过程自动化,最终得出端对端的模型(end to end)。有了AutoML,机器学习就会从下图的曲折变为上图的一马平川。


640?wx_fmt=jpeg


从流程先后顺序来分,最初是数据准备,包括数据收集和清洗,之后是特征工程,其中包括特征选择(决定哪些特征需要保留),特征提取(对特征进行降维,常用的方法例如PCA),特征组合(将多个特征合并/构建为一个新的特征);在之后的模型构建中,最关键的是模型选择,之后超参数优化,可以采取很多方式,最简单的做法是网格搜索,常用的方法包括用强化学习,进化算法,贝叶斯优化,以及梯度下降,来缩小搜索空间;最后,AutoML通过引入提前停止,降低模型的精度,参数共享来自动化模型评价的过程。


640?wx_fmt=jpeg


数据收集这项任务,不在是搜索与收集真实数据,还包括产生模拟数据,用来扩展训练数据集,可以使用的新技术包括对抗神经网络(点击查看对应文章),还可以使用强化学习的框架,来优化用于控制生成数据的参数,从而使得生成的数据能更有效的助力模型的训练。而数据清洗则是自动完成包括缺失值补全,离群点处理,特征归一化,类别型特征的不同编码等之前手动完成的工作。


模型的自动化选择,传统的方法是从传统的模型,例如KNN,SVM,决策树中选出一个,或多个组合起来效果最好的模型,而当前AutoML的研究热点是Neural Architecture Search, 也就是不经过人工干预,模型自动生成一个对当前任务最有效的网络结构,如下图所示,图中的每一个圆圈,代表一个操作,例如卷积,池化,批量正则化等,模型自动在自我生产的不同结构下搜索最好的操作组合序列。


640?wx_fmt=jpeg


搜索的结果如下图所示:


640?wx_fmt=jpeg


其中应用到强化学习的部分如下图所示:


640?wx_fmt=jpeg


这里的行为是以一定的概率选择某个网络结构,行为是在该结构下,训练子网络,使其在训练集上达到预设的准确率,奖励是该子网络在测试数据集上的准确率与该网络被选择的概率的乘积,通过将子模型的泛化能力作为反馈,用于控制不同模型被选择概率的RNN得以优化其梯度,以选出泛化能力最强的模型,同时通过始终保持一定概率选择其他模型,处理explore VS exploit的权衡。


NAS算法作为当前AutoML最热的研究领域,有很多变种,下图展示了在CIFAR1000上,不同NAS方法的效果及训练用时。相比于强化学习和进化算法,传统方法的用时更少。


640?wx_fmt=jpeg


为了找到合适的网络架构,除了传统的串行网络,还有基于cell来做层级化网络架构搜索的。下图展示的是先从几个最基本的操作,搜索得出一个一级的网络组件,之后在自动化的搜索如何用一级组件搭建网络。


640?wx_fmt=jpeg


模型选定后的调参过程,最常用的是网格搜索,也就是按照固定的间距,在搜索空间上打点,但下图指出,网格搜索不一定好过随机搜索,原因是对于重要参数,网格搜索采样的点会不足,从而导致无法取到对模型效果相对较好的点,autoML会使用随机抽样,首先评价各个超参数的重要性,之后再对重要的参数进行微调。


640?wx_fmt=jpeg


另一种超参数搜索的策略是进化算法,从初始随机产生的参数,经过杂交(将俩组参数的前后部分组合),并对其加上随机噪音,形成子代的超参数,在依据模型在改组超参数上的训练结果作为反馈,选出其中效果较好的超参数,


640?wx_fmt=jpeg


最后举一个AutoML的例子,用一个函数搞定整个机器学习流程,使用的是H2O这个常用的AutoML包,任务是对fashionMinst这个数据集进行分类


640?wx_fmt=jpeg


运行完成后,函数会返回所尝试各模型的准确度,以及每个模型的最佳参数,由于模型尝试的深度学习是全连接网络,因此效果不好,如果使用CNN,可以将模型的准确度提升到0.92


640?wx_fmt=jpeg



640?wx_fmt=jpeg

张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹联合推荐


这是一部力图破解21世纪前沿科技大爆发背后的规律与秘密,深度解读数十亿群体智能与数百亿机器智能如何经过50年形成互联网大脑模型,详细阐述互联网大脑为代表的超级智能如何深刻影响人类社会、产业与科技未来的最新著作。


《崛起的超级智能;互联网大脑如何影响科技未来》2019年7月中信出版社出版。刘锋著。了解详情请点击:【新书】崛起的超级智能:互联网大脑如何影响科技未来


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490781.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python assert 与 slice

assert: assert 断言的作用:assert是断言的意思,python assert 断言语句格式及用法很简单。assert断言是声明其布尔值必须为真的判定,如果发生异常就说明表达式为假,用来测试表达式,如果表达式的返回值为假…

h5 bootstrap 小程序模板_软件测试人员必知H5/小程序测试点

最近接触了较多关于H5页面的测试,H5页面的测试除了业务逻辑功能测试外,其他部分的测试方法基本是可以通用的,在此对H5页面和小程序的一些通用测试方法进行总结分享给大家01H5相关测试H5优势:1.H5可以跨平台,开发成本相对较低&…

【深度学习】这才是深度学习的本源

内容来源:2019年7月26日,在长城会主办的“GMIC之院士AI论坛”上,索尔克生物研究所计算神经生物学实验室主任特伦斯进行了以“人工智能,将成科技的最大风口”为主题的精彩分享。笔记侠作为合作方,未经主办方和讲者审核。…

KALI Linux中GURB安装失败如何处理

KALI Linux中GURB安装失败如何处理 # GRUB安装失败 # 无法将grub-pc软件包安装到/target/中,如果没有GRUB启动引导器,所安装的系统将无法启动。 解决办法: 点击返回 点击配置软件包管理 将之前设置的网络镜像“是”改为“否”&#xff0c…

d3.js 旋转图形_苏教版三年级数学上册6.1平移和旋转微课视频 | 练习

本公众号学习资源丰富!欢迎分享到班群、朋友圈、帮助更多孩子。微课视频第一课时微课视频第二课时同步练习1.连一连。升旗时国旗的运动 钟摆的运动风扇叶片的运动 平移 电梯的运动光盘在电脑里的运动 旋转 火车的…

任正非签发最新电邮:过去我们是为了赚点小钱,现在是要战胜美国

来源:蓝血研究(lanxueyanjiu)2019年7月31日,华为举行“千疮百孔的烂伊尔2飞机”战旗交接仪式,任正非在仪式上做了题为《钢铁是怎么炼成的》的讲话。他表示:人工智能才是未来的大产业,要让“人才…

wget for windows 下载与安装

wget for windows 下载与安装 wget for windows 下载链接:https://eternallybored.org/misc/wget/ 下载之后将压缩包内的wget.exe文件解压到下面的路径(注意所下载文件与个人电脑匹配(32bit或64bit)) C:\Windows\Sys…

case when 多条件_3年前的设计如今被iPhone强推 PITAKA磁吸生态设计的前瞻性到底有多可怕?...

随着iPhone12/Pro的陆续出货,很多人已经上手并在实际的生活和工作场景下体验过iPhone12。其中iPhone12系列的全新卖点MagSafe技术备受关注,其极为出色的磁性机制可实现全新的配件生态系统,为配件制造商开启了一个全新的细分市场。新技术的诞生必然带来新一波的设计趋势,配件制造…

BAT文件命名中含有英文括号运行出错

BAT文件命名中含有英文括号运行出错 近期在写一些批处理程序,但在命名时发现了一些问题,BAT文件名中含有英文圆括号时,批处理程序就会执行错误,去除英文圆括号后,程序就能正常执行。 测试一下: 1、先生成…

美国新登月计划有何不一样

来源:新华社新华社华盛顿8月10日电(记者周舟)在人类登月50年后,美国航天局开始紧锣密鼓地研制新一代重型火箭和“猎户座”飞船,计划2024年前再次将宇航员送上月球。为何不直接采用当年“阿波罗11号”的设计再赴月球&am…

_不懂操作?手把手教你如何在linux下搭建FTP

vsftpd(very secure FTP daemon)是Linux下的一款小巧轻快、安全易用的FTP服务器软件。本教程介绍如何在Linux实例上安装并配置vsftpd。FTP(File Transfer Protocol)是一种文件传输协议,基于客户端/服务器架构&#xff…

can't request region for resource [mem 0xfed40080-0xfed40fff]问题的解决办法

can’t request region for resource [mem 0xfed40080-0xfed40fff]问题的解决办法 在去年的时候,我就给自己的电脑安装了双系统,Win10和Ubuntu16.04,Secure Boot也一直设置为disabled,但是一直困在了一个问题上,如下图…

人工智能技术在美国国家安全领域的应用

来源:蓝海星智库人工智能是美国重点发展的核心技术之一,在情报/监视/侦查、后勤保障、网络战、信息战、指挥控制、半自主/自主平台以及致命自主武器系统等国家安全相关领域有重要的应用潜力和价值,近年来美国在这些方面取得了较大的进展。一、…

r3 4300u r5 u_R5刀粒

R5刀粒,惠州力拓五金制品有限公司,(依法须经批准的项目,经相关部门批准后方可开展经营活动)〓。R5刀粒, 有单角和双角铣刀两种。其圆周上有较多的刀齿。此外还有键槽铣刀、燕尾槽铣刀、T形槽铣刀和各种成形铣刀等。铣刀的结构 分为…

沙龙预告 | 新书分享《崛起的超级智能:互联网大脑如何影响科技未来》

1科幻作家刘慈欣说:机器智能与人类智慧通过互联网正在形成自然界前所未有的超级智能形态。刘锋新作《崛起的超级智能:互联网大脑如何影响科技未来》一书开创性地揭示了21世纪一个重要而独特的科技模型原理,即互联网大脑如何深刻影响人类的未来…

between and 效率_科学家改进植物光合作用,使植物光合效率提高40%

Credit: James Baltz/College of Agricultural, Consumer and Environmental Sciences众所周知,植物都是通过光合作用来获取能量的,但是地球上大部分的植物在光合作用时都出了偏差,使得他们不得不在漫长的进化中额外进化出了一个名为“光呼吸…

有道翻译接口问题(续)

原博文地址:https://blog.csdn.net/qq_40962368/article/details/80620817 自从写了上面的博文之后,很多人询问我关于有道翻译接口的问题,为什么不是F12中的 http://fanyi.youdao.com/translate_o?smartresultdict&smartresultrule 当…

最前沿:堪比E=mc2,Al-GA才是实现AGI的指标性方法论?

转载自知乎导读:在读完Uber AI Lab发表的一篇关于AGI的论文之后,本文作者恍然觉得有一种道破天机的感觉。他评价道,虽然这篇论文是泛泛之谈,却揭示了一些真正实现AGI的方法论——AI-GA(AI-generating algorithms&#…

读芯片信息出错3_十分钟看懂串口打印信息(1)

一、软件串口打印信息加载流程不管何种机芯方案,在上电开机后,软件 总会初始化复位和加载相关内容和应用,这部 分的信息通常我们采用串口工具来进行读写的 操作。针对我们工作的需求和作为问题处理的可 靠工具,读取串口打印信息并…

利用URL拼接爬取获取有道翻译内容

利用URL拼接爬取获取有道翻译内容 代码: import requests import chardet import jsonif __name__ __main__:i input(请输入要翻译的内容:)url http://fanyi.youdao.com/translate?i%s&smartresultdict&smartresultrule % idata {from: A…