致开发者:2018年AI技术趋势展望

来源|公众号“AI 前线”,(ID:ai-front)

译者|核子可乐

编辑|Emily


概要:在 2018 年,开发者如何将一系列 AI 技术成果应用于当前的工作当中呢?


近日,一篇预测 2018 年 AI 技术趋势的文章,文中讨论了如何将 2017 年业界已经酝酿出一些成熟产物在在 2018 年实现大规模应用。在 2018 年,开发者如何将一系列 AI 技术成果应用于当前的工作当中呢?

今天的文章包括一份目前已经在实践中应用的 AI 算法与技术成果清单,如时序分析(深度学习正迅速取代信号处理领域中的一些传统技术)等。一方面,这些成果可以说相当酷炫,但本文暂时不会对强化学习的实际应用进行展望,因为在我看来,实际上其还很难在某些工业应用环境中产生实际效果。当然,不能否认的是,强化学习确实是个前景广阔,且正处于快速发展中的研究领域。这里我就不再继续讨论图像识别与简单的计算机视觉议题了,毕竟这几年此类文章已经多如牛毛:)


 GAN 与伪造


尽管生成性对抗网络已经拥有数年发展历史,但我对其仍抱有怀疑态度。几年过去,虽然如今的技术不再只能生成可怜的 64 x 64 图像,但这仍不足以打消我的顾虑。在阅读相关数学文章后,我对 GAN 并不能真正理解其分布状况的怀疑进一步加深。不过这一切在今年有所改变——首先是 CycleGAN 等有趣的体系以及 Wasserstein GAN 等数学改进让我得以在实践当中加以尝试。虽然其实际效果仍无法令人完全满意,但现在我已经确定,其生成能力绝对不容质疑。


首先,我强烈推荐英伟达公司发表的关于生成逼真全高清图像的研究论文(共结果要远好于一年之前恐怕的 64 x 64 面部图像):《AI 可以生成伪造的名人脸部图像,效果好得让人意外......》


https://www.theverge.com/2017/10/30/16569402/ai-generate-fake-faces-celebs-nvidia-gan


不过更让我激动的(甚至唤起了我的‘少年梦想’),则是利用 AI 生成伪造的色情影片:


《AI 生成的色情片》


https://motherboard.vice.com/en_us/article/gydydm/gal-gadot-fake-ai-porn


另外,游戏行业也在大规模采用这些新型技术,例如利用 GAN 生成景观、英雄甚至整个世界。在我看来,我们必须提高自己的分辨能力——从伪造的色情影片到欺诈性网络人物。


全部神经网络皆遵循同一独特格式


现代开发领域(不仅仅是在人工智能行业)的一大难题在于,我们往往面对数十种作用基本相同的框架方案。目前,每家投身于机器学习领域的大型企业都拥有自己的框架:谷歌、Facebook、Amazon、微软、英特尔、甚至包括索尼与优步都是如此,这还不算其它众多开源解决方案。在单一人工智能应用程序当中,我们往往需要使用多种不同框架——例如利用 Caffe2 实现计算机视觉,PyTorch 实现自然语言处理,TensorFlow/Keras 则专攻推荐系统。将这一切加以合并需要耗费大量时间,意味着数据科学家与软件开发人员需要费心费力,而无法专注于处理真正重要的任务。理想的解决方案应当是一种独特的神经网络格式,且可轻松与各类框架进行对接,包括允许开发人员轻松部署、确保科学家能够轻松使用。在这方面,ONNX 应运而生:


《ONNX:开源神经网络改变了格式》


http://onnx.ai/getting-started


可互换 AI 模型的新开源生态


事实上,ONNX 只是非循环计算图的一种简单格式,但却在实践层面为我们带来真正部署复杂 AI 解决方案的机会。我个人非常看好该项目——人们能够在 PyTorch 等框架当中开发神经网络并部署工具,而不再需要从头到尾始终被局限在 TensorFlow 生态系统之内。


 Zoo 快速普及


三年之前,人工智能领域最令人兴奋的成果当数 Caffe Zoo。当时我负责处理大量计算机视觉工作,因此需要尝试所有模型,并观察其工作原理以及实际效果。在此之后,我会利用这些模型进行迁移学习或者作为特征提取器。最近我开始使用两种不同的开源模型,并将引入规模更大的计算机视觉处理管道。究其本质,这意味着我们已经不再需要自行训练网络。举例来说,ImageNet 能够很好地实现对象或者地点识别,因此我们可以直接将这些基础性成果下载并接入到自己的系统当中。除了 Caffe Zoo 之外,其它框架也提供类似的 Zoo 方案。但真正让我惊奇的是,现在大家甚至能够将各类模型添加至计算机视觉、自然语言处理甚至是 iPhone 内的加速度计信号处理机制当中。


最全的核心机器学习模型列表(iOS 11 以上)


https://github.com/likedan/Awesome-CoreML-Models


在我看来,这类 Zoo 方案只会越来越多 ; 再加上 ONNX 这类生态系统的出现,这些方案将变得更加集中(并凭借机器学习区块链类应用实现本体分散)。


 AutoML 替换管道


设计一套神经网络架构无疑是一项痛苦的任务——有时候,大家可以通过叠加卷积层获得相当出色的结果,但在大多数情况下,我们需要利用直觉与超参数搜索等方法认真设计宽度、深度与超参数——例如随机搜索或贝叶斯优化。而且对于除计算机视觉以外的其它工作,我们不光需要对 ImageNet 上训练完成的 DenseNet 进行微调,同时也要面对 3D 数据分类或者多变量时序应用等其它难题。


目前已经存在多种能够利用其它神经网络从零开始生成新的神经网络架构的尝试,但其中我最为看好的,当数谷歌研究团队拿出的最新成果:


AutoML 用于大规模图像分类与对象检测


https://research.googleblog.com/2017/11/automl-for-large-scale-image.html


他们利用其生成计算机视觉模型,且不仅速度较人类科学家更快,效果也更好!我相信很快就会出现大量与之相关的论文与开源成果。在我看来,未来将有更多博文或初创企业不再强调“我们开发出一套 AI 方案……”,而是转向“我们的 AI 方案能够学习其它 AI 方案,并借此创造出新的 AI 方案”。至少我肯定会在自己的项目中加以尝试,请告诉不只我一个人有这样的冲动。


 智能堆栈规范化


关于这个概念,我的认知主要来自俄罗斯系统分析师、教练兼 AI 爱好者 Anatoly Levenchuk 的博客。通过以下图片,大家可以看到所谓“AI 堆栈”的示例:



其中不仅包含机器学习算法与您最喜爱的框架,同时也存在着诸多更为深入的层级,且各个层级都拥有自己的发展与研究趋向。


我认为人工智能开发行业已经非常成熟,其中存在着大量多元化的专家。事实上,团队中仅有一名数据科学家是远远不够的——大家需要不同的人才来进行硬件优化、神经网络研究、AI 编译器开发、解决方案优化以及生产实现。而在他们之上,还应设置不同的团队领导者、软件架构师(分别为各个问题进行堆栈设计)以及管理员。之所以在这里提及这个概念,是希望各位 AI 技术专家能够在职业规划当中予以关注——例如对于希望成为人工智能软件架构师或者技术领导者的朋友,您将能够借此确定自己需要学习哪些知识。


 语音类应用


人工智能能够以高于 95% 的精确度解决的问题其实非常有限:我们可以将图像归类为 100 种类别、可以判断文本内容属于正面还是负面,此外还有少数更为复杂的可行任务。展望新的一年,我认为最具突破的应用方向在于语音识别与生成。事实上,一年之前 DeepMind 发布的 WaveNet 已经拥有相当出色的表现,但现在感谢百度 DeepVoice 3 以及谷歌 Tacotron2 的助力,上述结论已经基本成为板上钉钉的事实:Tacotron 2: 立足文本生成逼真的人类语音


数十年以来,技术人员们一直在努力研究如何立足文本生成自然的人类语音(即文本到语音,简称 TTS 技术)……


https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html


这项技术将很快拥有自己的开源版本(或者被其他一些技术天才所重现),意味着未来每个人都能够以极高的精度实现语音识别与生成。那么接下来的前景如何?毫无疑问,除了更出色的个人虚拟助手、自动阅读器以及对话转录工具之外,音频伪造也将成为现实。


 机器人智能水平略有提高


我们目前所拥有的机器人存在着一大共通性问题——其中 99% 根本不属于人工智能,而只是硬编码型方案。考虑到这样的情况,我们意识到已经不能简单利用数百万次对话训练编码器 - 解码器 LSTM,并指望能够借此建立起智能系统。正因为如此,Facebook Messenger 与 Telegram 中的大多数聊天机器人只能遵循硬编码命令,或者最多只能算是具备 LSTM 与 word2vec 语句分类能力的神经网络。现代先进自然语言处理技术的实际水平应该略高于此,Salesforce 公司做出的一些有趣实验已经证明了这一点:


AI 研究 - Salesforce.com


他们正在着手构建自然语言处理与数据库的接口,希望借此克服现代编码器 - 解码器自回归模型——即不仅能够对文字或句子进行嵌入,同时还可实现字符嵌入。此外,ROUGE 等自然语言评分优化机制等研究成果同样值得关注。


我相信通过上述开发工作,未来我们的聊天机器人至少能够获得更强大的智能信息检索与命名实体识别能力,并可能会在一部分封闭领域当中出现完全由深度学习技术驱动的机器人方案。


时序分析的当前发展水平


除了 Salesforce 之外,另一股遭受严重低估的机器学习研究力量当数优步 AI 实验室。前一段时间,他们曾发表一篇博文,其中展示了其时序预测方法。老实讲,这实在令我感到受宠若惊——因为其成果与我在应用当中使用的方法基本相同!下面来看这一将统计特征与深度学习表达加以结合的惊人示例:


优步公司利用递归神经网络预测极端性工程事件在优步公司,事件预测能力允许我们根据预期中的用户需求设计面向未来的服务方案。


https://eng.uber.com/neural-networks/


此外还出现了其它更激动人心的实例,包括利用 34 层 1 维 ResNet 诊断心律失常。最酷的是其拥有非常出色的成效——不仅远超多种传统统计模型,甚至在诊断率方面胜过了专业心脏病专家!算法诊断心律失常疾病,准确度超越心脏病专家|斯坦福新闻由斯坦福大学计算机科学家们发明的一种新算法能够对心律数据进行筛选……


https://news.stanford.edu/2017/07/06/algorithm-diagnoses-heart-arrhythmiascardiologist-level-accuracy/


我最近一直投身于深度学习的时序分析工作当中,并可以向大家保证神经网络在这方面确实表现良好。与传统的“黄金标准”相比,其成效可达到原有水平的 5 到 10 倍。


 优化应当获得更多关注


我们该如何对自己的神经网络进行训练?实事求是地讲,大多数从业者只是在使用“Adam()”以及标准学习率。也有一些聪明的从业者会选择最适合的优化器,同时调整并安排其学习速度。然而,大多数朋友对于优化这个主题仍然重视不足,因为我们习惯于直接按下“训练”按钮,并静待自己的神经网络收敛完成。但从计算能力、内存资源以及开源代码解决方案等层面来看,我们实际上基本处于公平的竞争环境当中——最终的赢家属于那些能够立足同一 Amazon 实例在最短时间内获得最佳 TensorFlow 模型成效的技术人员。从这个角度来看,决定一切的实际上正是优化。


2017 年深度学习优化大事记


目录:深度学习的终极目标在于找出最低程度的概括方法……


http://ruder.io/deep-learning-optimization-2017/index.html


在这里,我建议大家参阅 Sebastian 的 Ruder 博文,其中谈到了 2017 年内新近出现的、能够对标准优化器加以改进的简单方法,外加其它一些轻松易行的强化手段。


炒作态势有所降温



谈到这里,我们能够从以上图片当中得到怎样的启示?很明显,开发出有价值的新方案并借此获利绝非易事,特别是考虑到目前正有大量开源工具与算法被持续发布出来。我认为 2018 年对于 Prisma 这样的初创企业可能不会太友好——毕竟这个世界永远不缺少竞争对手与“技术天才”。他们完全可以将如今的开源网络部署在移动应用当中,并借此建立自己的商业企业。


在新的一年中,我们必须专注于更为基础的技术研发——而非一味追求快钱。即使大家只是打算利用谷歌 Ratacon 语音识别技术生成语音读物,也绝对不能仅仅将其视为简单的 Web 服务——相反,良好的合作伙伴与商业模式将成为您获得投资的必要前提。


总结


总结起来,我们目前已经拥有多种可以应用于实际产品的技术成果,具体包括时序分析、GAN、语音识别以及自然语言处理技术方面的改进等。我们不必再针对分类或者回归等目标自己设计基础架构,因为 AutoML 已经能够帮助我们完成这些任务,希望在经过进一步优化之后,AutoML 能够在速度方面更上一层楼。而在 ONNX 与模型 Zoo 的帮助下,我们将能够轻松将基础模型引入自己的应用程序当中。在我看来,至少就目前的最新发展水平而言,这将显著简化基于 AI 类应用程序的开发难度。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CES2018:英特尔披露量子计算和神经拟态计算研究最新进展

来源:科学网概要:今年上半年,英特尔计划与顶级院校和研究机构共享Loihi测试芯片,同时将其应用于解决更加复杂的数据集和问题。1月8日,在拉斯维加斯举办的2018年国际消费电子产品展(CES)上&#…

EDA风格与Reactor模式

来源:https://www.cnblogs.com/ivaneye/p/10129896.html 本文将探讨如下几个问题: Event-Driven架构风格的约束EDA风格对架构属性的影响Reactor架构模式Reactor所解决的问题redis中的EventDriven 从观察者模式到EDA风格 GOF的23种设计模式中&#xff…

神经尘埃、脑波打字…… 2018年的脑科学要研究什么?

来源:科技日报概要:21世纪是脑科学时代。为了进一步了解大脑,监测大脑活动的研究进行得如火如荼,已在学术界和商业界掀起一股淘金热。人脑可谓人体最复杂、最神秘的器官,无数科学家殚精竭虑,也不过才揭开其…

webapp入门到实战_web前端入门到实战:前端高手在CSS 开发效率的必备片段

这篇文章会记录我们平时常用到的 CSS 片段,使用这些 CSS 可以帮助我们解决许多实际项目问题中遇到的,墙裂建议点赞收藏再看,方便日后查找清除浮动浮动给我们的代码带来的麻烦,想必不需要多说,我们会用很多方式来避免这…

FutureTask 示例

1、简单示例 2、泡茶 1、简单示例 // 创建 FutureTask FutureTask<Integer> futureTask new FutureTask<>(()-> 12); // 创建并启动线程 Thread t1 new Thread(futureTask); t1.start();// 获取计算结果(阻塞主线程&#xff0c;等待结果...) Integer result…

机器学习必知的8大神经网络架构和原理

来源&#xff1a;全球人工智能概要&#xff1a;有些任务直接编码较为复杂&#xff0c;我们不能处理所有的细微之处和简单编码&#xff0c;因此&#xff0c;机器学习很有必要。为什么需要机器学习&#xff1f;有些任务直接编码较为复杂&#xff0c;我们不能处理所有的细微之处和…

《科学》盘点2018可能被聚焦的研究领域

来源&#xff1a;科学网 概要&#xff1a;随着这些大趋势展现出来&#xff0c;《科学》杂志预测了今年可能被聚焦的关于研究和政策的特定领域。动荡的政治变革将在新的一年塑造科学的进程。美国总统唐纳德特朗普领导的政府预计将继续致力于废除基于科学的环境法规。英国离开欧盟…

谷歌大脑2017总结下篇:从医疗、机器人等6个领域开始的改变世界之旅

作者&#xff1a;camel概要&#xff1a;Jeff Dean发表了这篇博文的下篇&#xff0c;内容包括谷歌大脑在 AI 应用方面&#xff08;诸如医疗、机器人、创新、公平和包容等&#xff09;的工作。昨天谷歌大脑&#xff08;Google Brain&#xff09;负责人 Jeff Dean 在 Google Resea…

Gartner:人工智能将改变个人设备领域的游戏规则

来源&#xff1a;人工智能和大数据概要&#xff1a;目前&#xff0c;AI正在产生多种颠覆性力量&#xff0c;重塑我们与个人技术互动的方式。近日&#xff0c;Gartner公司预测&#xff0c;随着情感人工智能&#xff08;AI&#xff09;日臻成熟&#xff0c;个人设备到2022年将比您…

张小龙演讲干货:微信的未来在哪?这里有7个答案

来源&#xff1a;钱塘大数据概要&#xff1a;1月15日&#xff0c;以“to be正当时”为主题的2018微信公开课Pro版在广州举行&#xff0c;腾讯集团高级执行副总裁、微信事业群总裁张小龙出席并发表演讲。1月15日&#xff0c;以“to be正当时”为主题的2018微信公开课Pro版在广州…

敏捷软件开发—原则、模式与实践总结

思维导图&#xff1a;https://www.processon.com/view/link/60d46dfb5653bb049a469068

AWS VS 阿里云 VS 腾讯云 国内三大云服务商云主机评测报告

来源&#xff1a;CloudBest概要&#xff1a;近几年&#xff0c;随着国内公有云市场规模的不断增长&#xff0c;以阿里云、腾讯云为代表的本土云服务商&#xff0c;以及以AWS、微软Azure为代表的海外云服务商&#xff0c;成为公有云市场最大的赢家&#xff0c;市场寡头化趋势已经…

单一职责原则(SRP)

单一职责原则&#xff08;The Single Responsibility Principle&#xff0c;SRP&#xff09; 就一个类而言&#xff0c;应该仅有一个引起它变化的原因。 为何要把两个职责分离到单独的类中&#xff1f; 因为每一个职责都是变化的一个轴线&#xff08;an axis of change&…

多国相继出台政策法规:为「自动驾驶」的「创新发展」保驾护航

来源&#xff1a;腾讯研究院曹建峰 腾讯研究院法律研究中心高级研究员祝林华 腾讯研究院法律研究中心助理研究员人工智能等新技术&#xff0c;正从科幻概念逐步落地到各行各业&#xff0c;将从重塑驾驶、医疗、制造等领域开始&#xff0c;全面重构人类社会和生活。自动驾驶汽…

华为《5G业务商业价值评估》白皮书!

来源&#xff1a;5G蹇飒&#xff1a;华为公司商业与网络咨询部咨询专家。概要&#xff1a;在过去不长的时间里&#xff0c;5G技术不断取得重大进展&#xff0c;5G发展之路更为清晰。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学…

java正则匹配的坑_java正则表达式入坑指南

在日常开发工作中&#xff0c;无论你使用的语言是java、python、shell、golang还是C#&#xff0c; 正则表达式是编程语言中几乎绕不开的话题。有了它&#xff0c;可以帮你快速定位到符合条件的文本内容。今天小编带大家一起来学习下正则表达式&#xff0c;相信通过这篇文章的介…

这有5种来自大自然「馈赠」的AI技术及其应用,你知道多少?

原文来源&#xff1a;Towards Data Science作者&#xff1a;Luke James「雷克世界」编译&#xff1a;KABUDA对于技术领域中存在的AI相关技术&#xff0c;我们应心存感恩。人类不仅花费了数十年的时间来研究完善数学算法&#xff0c;以使这些奇妙复杂的算法发挥效用&#xff0c;…

物联网定位技术超全解析!定位正在从室外走向室内~

来源&#xff1a;物联网智库概要&#xff1a;GPS和基站定位技术基本满足了用户在室外场景中对位置服务的需求。GPS和基站定位技术基本满足了用户在室外场景中对位置服务的需求。然而&#xff0c;人的一生当中有80%的时间是在室内度过的&#xff0c;个人用户、服务机器人、新型物…

有效的单元测试--总结

思维导图&#xff1a;https://www.processon.com/view/link/60d3072d0791297edd63290a

java原生的ajax怎么写_原生Ajax代码实现

AjaxAsynchronous JavaScript And XML异步&#xff1a;指一段程序执行时不会阻塞其他程序执行&#xff0c;其表现形式为程序的执行顺序不依赖程序本身的书写顺序 &#xff0c;相反的则为同步&#xff0c;自己理解的就是类似百度的搜索框输入内容时的提示相关的内容功能&#xf…