是什么让深度学习再次崛起并超越人类?


作者潘争,格灵深瞳计算机视觉工程师,清华大学自动化系博士,师从智能技术与系统国家重点实验室副主任张长水。

深度学习(Deep Learning)这个词最近借着AlphaGO与李世石的人机大战又火了一把。深度学习其实是机器学习(Machine Learning)的一个分支学科,而机器学习是一门研究数据之间关联关系的学科,比如它可以用来挖掘收入和年龄,性别,职业,学历等因素的数学关系。但是传统的机器学习方法一般只能挖掘简单的线性关系。我们知道大千世界不是线性关系所能描述的,比如收入与年龄,性别,职业,学历的关系,这么一个简单的问题就不是一个线性关系所能表达清楚的。深度学习的出现改变了这种现状,深度学习使用复杂的多非线性模型表示数据之间的关系,然后使用大量的数据最终确定数据之间的关系究竟是什么。

深度学习的灵感来源于大脑神经网络,可以说我们的大脑就是一个极致复杂的深度学习模型。大脑里的神经网络是由数以千亿计的神经元连接而成,深度学习也使用同样的结构,每个人工神经元对输入进行简单的线性或非线性运算后将结果传递给后续的神经元,在经过这样十几层乃至上百层的传递后得到最终的预测结果。


深度学习这套方法并不是近几年提出的,早在80年代末Geoffrey Hinton和Yann LeCun等学者就使用深度学习的方法解决了手写体数字的识别问题。遗憾的是,进入90年代后深度学习的性能没有本质上的提升,甚至劣于很多简单的线性模型,深度学习的研究沉寂下来。直到2006年,Hinton教授在Science上发表了深度学习的里程碑一样的论文,重新审视深度学习方法,将深度学习的性能提升到了一个新的台阶。在此之后,深度学习在语音识别,计算机视觉,机器人,自然语言处理等领域均超过了传统的机器学习方法,甚至在人脸验证比赛LFW和自然图像分类比赛ImageNet上超过了人类的识别能力。这次,AlphaGO击败李世石又是一个深度学习超越人类的实例。

那么是什么让深度学习再次崛起并超越人类呢?

智搜(Giiso)信息成立于2013年,是国内首家专注于资讯智能处理技术研发及写作机器人核心软件开发和运营的高科技企业。公司成立之初,就获得了天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

当然首先要归功于Hinton等学者几十年如一日的不懈研究。另外,有两个客观因素异常重要:

第一是大数据。

互联网将几十亿人连接在一起,同时也让海量数据连接在了一起。深度学习必须要有海量数据才能得到表现好的模型,深度学习和大数据的关系就像火箭和燃料一样,火箭虽然厉害,但是没有大数据这个燃料也只是一堆废铁。因为大数据的必不可少,我们也看到深度学习做的最好的地方是我们熟知的那些拥有大量数据的IT巨头,Google、Facebook、Microsoft、百度等。可以说,在深度学习时代,拥有数据就占领了人工智能的制高点。

第二是高性能计算。

摩尔定律揭示了计算能力增长速度的规律,过去这些年GPU,超级计算机和云计算等计算平台迅猛发展,让深度学习的实现成为可能,举个例子,2011年GoogleBrain用了1000台机器、16000个CPU处理的深度学习模型大概有10亿个神经元,而现在我们已经可以在几个GPU上完成同样的计算了。事实上,深度学习已经进入我们的口袋了,我们的智能手机上的GPU已经可以运行一些复杂度一般的深度学习方法了。我想过不了多久,我们每一个人都可以在手机上和AlphaGO对弈了,再过些年,我们的手机就就可以运行像人脑一样复杂的神经网络了。

在深度学习领域有很多非常优秀的华人科学家和中国企业。科学家方面,我们熟知的有百度首席科学家吴恩达,IDL的发起人余凯,Caffe的作者贾扬青,第一个把人脸验证LFW刷到99%以上的汤晓鸥、王晓刚教授,去年夺得ImageNet多项桂冠的孙剑和何凯明等等。企业方面,我们所熟知的BAT、360、搜狗、滴滴等均在深度学习方面有布局,同时国内也涌现出一批依赖深度学习的新企业,比如格灵深瞳(安防、自动驾驶)、旷世科技(人脸识别)、商汤科技(人脸识别)、地平线机器人(ADAS)等。


深度学习不只是和人下下棋这么简单。既然它是对人脑的一种模拟,它可以完成很多人脑的功能。

首先是视觉的功能。我们的相机可以像眼睛一样看到这个世界,却不能像大脑一样看懂这个世界,深度学习恰恰补上了这个短板。有了深度学习,Google Photo、百度识图、淘宝拍立淘才可以准确地识别照片中的物体类别,并对你的照片进行自动归类或搜索。有了深度学习,我们才可以很酷炫地在支付宝里刷脸付款。有了深度学习,格灵深瞳的行为特征分析系统可以检测场景内所有人员、车辆的行踪,对可疑和危险事件及时报警。有了深度学习,自动驾驶汽车识别周围路况时才足够准确。有了深度学习,FaceU这样的app才知道脸在哪里,五官又在哪里。

除了视觉功能,深度学习在语音识别方面应用也非常广泛。百度的Deep Speech 2在一些测试中也已经超过人类的听力。此外,Google、Apple、Microsoft以及国内的科大讯飞等也都推出了自己的语音识别产品。在深度学习的帮助下,计算机拥有了越来越强大的语音识别能力,这将逐渐改变目前目前以键盘为主的人机交互模式。

深度学习也深刻改变着机器人领域。刚才说的基于深度学习的视觉和语音识别的能力可以帮助机器人更好地感知世界。除此之外,深度学习还和增强学习(Reinforcement Learning)相结合。

智搜(Giiso)信息成立于2013年是国内领先的“人工智能+资讯”领域技术服务商,在大数据挖掘、智能语义、知识图谱等领域都拥有国内顶尖技术。同时Giiso旗下研发产品包括编辑机器人、写作机器人等人工智能产品!凭借雄厚的技术实力,公司成立之初,就获得了天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。 


所谓增强学习指机器人通过与环境交互中得到的奖赏和惩罚自主学习(Self Learning)更优策略。举个简单的例子,AlphaGO就是一个增强学习的产物,它通过跟其他棋手下棋或者和自己对弈的输赢情况自主学习更好的下棋策略。而深度学习的引入,使得增强学习方法可以找到更加复杂的策略。从AlphaGO完胜李世石可以看出,深度学习+增强学习已经有能力让机器人在相当复杂的环境下自主学习到高度优化的决策策略。

以上的这些应用只是我们平时看得见的,还有很多深度学习的应用则在我们的视线之外影响世界。互联网搜索、广告推荐、金融量化交易、机器翻译、医疗大数据分析、智能法律咨询……可以说凡是需要从大量数据中预测未知信息的领域都是深度学习可以一展拳脚的地方。未来,以深度学习为代表的人工智能技术也许会像蒸汽机、电动机、计算机、互联网一样推动新一轮科技革命,让生产力再上一个台阶。

当然,作为一个从业者,我同时害怕深度学习遭到捧杀,尤其是AlphaGO让大众熟知了这样一项技术后。深度学习才刚刚起步,就像婴儿刚刚学会走路,我们固然可以畅想他以后成为伟人,但毕竟很多技术还不成熟,相当一部分应用还难以让人满意,甚至在未来很长时间内都难以做到。人工智能的发展需要的不是大家一股脑的热情,而是持久的投入和努力。


转载于:https://juejin.im/post/5b3db798f265da0f4c6f9bb2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/254159.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见的流量问题

常见的流量问题 冗余内容同类请求被间隔执行,请求的内容包含一些相对静态的信息,正确的处理是第一次请求包括静态信息就好,后面的同类请求只包含必要的即时变化信息即可。错误的处理方式是每次请求服务器都返回一次静态信息。 冗余请求有的时…

halcon使用点拟合圆形时候,点集顺序紊乱,不影响圆形拟合效果

read_image (Image, 截图20201226094342972.bmp) * Matching 01: BEGIN of generated code for model initialization set_system (border_shape_models, false) * Matching 01: Obtain the model image * Matching 01: The image is assumed to be made available in the * Ma…

Socket理解。

其他大部分系统,例如CRM/CMS/权限框架/MIS之类的,无论怎么复杂,基本上都能够本地代码本地调试,性能也不太重要。(也许这个就是.net的企业级开发的战略吧) 可是来到通讯系统,一切变得困难复杂。原…

多元化时代敏捷软件开发的崛起与传统软件工程的延续

多元化时代敏捷软件开发的崛起与传统软件工程的延续 1.传统软件开发模式 1.1瀑布模型 1.1.1概念 瀑布模型,顾名思义,软件开发的过程如同瀑布飞流一般,自上而下,逐级下落。瀑布模型的核心思想是将问题按照工序进行简化,…

Linux中的cron计划任务配置详解

cron来源于希腊单词chronos&#xff08;意为“时间”&#xff09;&#xff0c;指Linux系统下一个自动执行指定任务的程序&#xff08;计划任务&#xff09; ####1. crontab命令选项代码如下: #crontab -u <-l, -r, -e> -u指定一个用户 -l列出某个用户的任务计划 -r删除某…

new和delete

和 sizeof 类似&#xff0c;sizeof不是函数&#xff0c;它是一个操作符&#xff0c;它在编译期就完成了计算&#xff0c;在函数运行期间它已经是一个常数值了。 int a;sizeof(int) 4;sizeof(a) 4;sizeof a ——也是4 不需要括号&#xff01;此时要注意&#xff1a;sizeof in…

char a[]和char *a的比较,数组名,数组首地址,a,a,a[0]

char a[]和char *a的比较 指针和数组存在着一些本质的区别。当然&#xff0c;在某种情况下&#xff0c;比如数组作为函数的参数进行传递时&#xff0c;由于该数组自动退化为同类型的指针&#xff0c;所以在函数内部&#xff0c;作为函数参数传递进来的指针与数组确实具有一定的…

Java中继承thread类与实现Runnable接口的区别

Java中线程的创建有两种方式&#xff1a; 1&#xff0e; 通过继承Thread类&#xff0c;重写Thread的run()方法&#xff0c;将线程运行的逻辑放在其中 2&#xff0e; 通过实现Runnable接口&#xff0c;实例化Thread类 在实际应用中&#xff0c;我们经常用到多线程&#xff0c;…

【VMware vSAN 6.6】6.2.启用性能服务:vSAN硬件服务器解决方案

目录 1. 简介 1.1.适用于HCI的企业级存储2. 体系结构 2.1.带有本地存储的服务器2.2.存储控制器虚拟系统套装的缺点2.3.vSAN在vSphere Hypervisor中自带2.4.集群类型2.5.硬件部署选项3. 启用vSAN 3.1.启用vSAN3.2.轻松安装3.3.主动测试4. 可用性 4.1.对象和组件安置4.2.重新构建…

Android eclipse导入项目后出现Unable to resolve target #39;android-17#39;解决方法

eclipse导入项目后出现Unable to resolve target android-17解决方法。在最后附带还有一种编译逻辑不成功情况解决方法。 一、问题情况 二、解决的方法 1、改动项目的目标版本号与当前Android sdk相相应的版本号 2、自己主动修复一下项目 三、这个问题不是上面的。是另外情况&a…

多个圆点,鼠标选取两个,求两个点的距离,用于计算像素尺寸(halcon实现)

read_image (Image, C:/Users/22967/Desktop/晶圆找位置/0.bmp) dev_close_window () dev_open_window_fit_image (Image, 0, 0, -1, -1, WindowHandle) dev_display (Image)binary_threshold (Image, Region1, max_separability, dark, UsedThreshold) connection (Region1, C…

修改UBOOT和LINUX调试串口(TI达芬奇芯片--DM6467)

Posted on 2011-10-31 10:53 jamiedu 阅读(889) 评论(0) 编辑 收藏 1.1 概述 TI针对DM6467提供的UBOOT和内核默认都是串口0作为调试串口输出的&#xff0c;但现在我需要使用DM6467的UART0的modem功能&#xff0c;所以修改代码&#xff0c;改变调试串口为串口2。 需要修改的主要…

Java List与数组之间的转换

http://blog.csdn.net/kingzone_2008/article/details/8444678转载于:https://www.cnblogs.com/longshiyVip/p/5985981.html

受欢迎的五个开源可视化工具——你的选择是?

摘要&#xff1a;大数据时代&#xff0c;数据为王&#xff0c;还在对一堆数据而发愁吗&#xff1f;试试可视化工具吧&#xff0c;相信本文提到的五款工具有一款能够帮助到你。人工智能时代&#xff0c;数据和算法以及硬件资源是非常重要的&#xff0c;相关行业的大公司也越来越…

halcon车刀崩边检测

list_files (新建文件夹, files, Files) read_image (Image, Files[0]) dev_close_window () get_image_size (Image, Width, Height) dev_open_window (0, 0, Width/1.5, Height/1.5, black, WindowHandle) dev_set_draw (margin) dev_set_colored (12) for Index:0 to |Files…

FFMPEG解码264文件步骤

本文以H264视频流为例&#xff0c;讲解解码流数据的步骤。 为突出重点&#xff0c;本文只专注于讨论解码视频流数据&#xff0c;不涉及其它&#xff08;如开发环境的配置等&#xff09;。如果您需要这方面的信息&#xff0c;请和我联系。 准备变量 定义AVCodecContext。如果…

Storm概念学习系列之storm的特性

不多说&#xff0c;直接上干货&#xff01; storm的特性 Storm 是一个开源的分布式实时计算系统&#xff0c;可以简单、可靠地处理大量的数据流。 Storm支持水平扩展&#xff0c;具有高容错性&#xff0c;保证每个消息都会得到处理&#xff0c;而且处理速度很快&#xff08;在一…

Confluence 6 配置服务器基础地址示例

2019独角兽企业重金招聘Python工程师标准>>> 如果 Confluence 的安装是没有安装在非根目录路径&#xff08;这个是上下文路径&#xff09;&#xff0c;然后服务器基础 URL 地址应该包括上下文地址。例如&#xff0c;你的 Confluence 正在运行在下面的地址&#xff1…

BootstrapValidator验证

bootstrap&#xff1a;能够增加兼容性的强大框架. 因为项目需要数据验证&#xff0c;看bootstrapValidator 还不错&#xff0c;就上手一直&#xff0c;完美兼容&#xff0c;话不多说。 需要引用css&#xff1a; bootstrap.min.css bootstrapValidator.min.css js: jquery-1.10.…

基于ARM9的视频采集传输系统

http://www.ic37.com/htm_tech/2007-11/77189_618093.htm