这一轮所谓人工智能的高潮,和以往的几次都有所不同,那是因为其受到了产业界的极大关注和参与。而以前并不是这样。
当今世界是一个高度信息化的世界,甚至我们有一只脚已经踏入了智能化时代。而在我们日常交流和信息互动中,迅速发展的多媒体技术起到了至关重要的作用。
在日前结束的“2017中国多媒体大会”上,提出了“智能媒体,创新未来”的主题。会后,我们采访了大会主席、北京航空航天大学教授李波,就当前人工智能技术在多媒体中的应用以及二者相互促进展开对话。
多媒体(Multimedia)是数据的最主要的现形式。在计算机系统中,多媒体指文本、图形、图像、视频、声音 、动画和影片等,在实际应用中,也可以多种媒体综合使用。多媒体的应用领域已涉足诸如安防、影视、娱乐、广告、艺术、教育、工程、商业及科研等诸多行业。
AI热起来,首先爆发在多媒体领域
多媒体技术是把信息技术与应用结合起来的核心技术。很多信息在现实生产和生活中的使用,都会涉及到声图文视频等,还有在我们常说的人机交互中,多媒体技术也都发挥着重要的作用。
当前这一轮的人工智能热起来,与多媒体关系很大,首先是深度学习用于语音识别,很大程度上提升了识别效果。其次是图像分析,对图像分类、人脸识别、以及图像检索等也有大幅度提升。这些都是AI与多媒体应用结合的表现。
另一方面,关于多媒体技术本身的发展。多媒体的数据量很大,其内容丰富多彩,理解难度大,它本身的内容分析就需要智能处理,目前多媒体处理正在朝着智能化方向发展。所以本次大会的主题里有一个叫做“智能媒体”,体现的就是这件事情。
关于主题中的“创新未来”,因为多媒体技术是一种与应用结合十分紧密的技术,所以说它必将在各行各业、方方面面发挥越来越重要的作用。大家目前听到的、看到的很多东西都是这样,比如无人驾驶系统,它首先要感知周围的场景,要有视觉技术支撑。又比如大家看到的机器人问询系统,它的核心在于语音识别、自然语言理解,也是以模拟人的听觉和语音处理来实现的。
所以说,多媒体技术的智能化对经济社会、生产生活的方方面面产生了重大影响,这也是另一个主题“创新未来”的由来。
图像识别和语音识别之外,有更多的AI应用在我们身边
首先呢,我们要区分人工智能和深度学习。人工智能是一种跨学科的、多学科交叉的技术,它在不同的应用行业对其的要求也有所区别。
现在所说的深度学习影响很大,它最早是在语音和图像识别取得突破。但是,深度学习只是其中一种技术,人工智能还有很多其他的技术,远远不只深度学习这种技术,例如数据分析、模式识别、智能控制等,也都是属于人工智能技术的范畴。
例如数据内容分析方面的技术,在金融行业的风控、在股票市场的监管、在电信行业的反欺诈、在智慧物流的调度等方面,也都在发挥重要的智能作用。此外,在工业生产过程中,例如各种复杂调度、零件装配、故障检测等,也都用到很多人工智能技术做支撑。
AI技术本身并没有落与不落,退潮之后也没有裸泳者
常说人工智能有“三起两落”,现在正处于第三次“起”的阶段,那将来还会有第三次的“落”吗?如果有,哪些技术和应用会成为退潮之后的裸泳者?
人工智能为什么会有所谓的“三起两落”?因为人来一直在不断地拓展自己的智力,在追求更高更大的目标,并用于方方面面。
人类发明了车辆,让我们可以跑的更快;发明制造了飞机,让我们可以飞上天空。
所以说,人工智能的起落过程并没有什么值得担忧的,它只是人来在追求更高目标过程中正常的阶段性体现。另外,落与不落,只是发展状况的一种相对说法。
但是,这一轮所谓的人工智能高潮,和以往几次都有所不同。为什么呢?因为本轮的人工智能之所以这么热,那是因为其所处的环境有了本质的变化,并受到产业界的极大关注和参与,而前两轮并不是这样。
虽然从第二轮开始,产业界对智能系统开始逐步重视,但相比这一轮来说,重视程度远远不及,并没有现在的普及和全面,对普通老百姓的工作和生活的影响也远不如现在这么大。
原因是什么?首先是现在的环境不一样了,现在是互联网时代的快速发展,另外是在大数据的背景下,再加上计算系统的高性能化(现在普通手机的计算性能抵得上以前的一台大型计算机),使得这一轮人工智能在某些应用方面可以做的很实,真正体现较高的智能特征。
当然,由于各个行业之间千差万别,其对人工智能技术的需求不尽相同,所以也使得人工智能对具体行业的影响各有不同。比如说对我们的听、说、写等相关度比较高的,以及与大数据联系紧密的行业,影响就非常大;而对于其他的行业(需要做综合的决策,而数据量又不够多),影响可能就会相对较小。
但即使是人工智能不那么热的时候,也不能说AI技术就没用了。事实上,人工智能已经悄然进入我们生活的方方面面,在潜移默化中发挥作用并影响世界。
只要人类追求智能、追求更高目标的决心不变,人工智能的高潮就会一直存在且持续下去。
数据驱动和知识驱动相结合的思维方式,是未来AI的目标
人类思维是一种综合的思维,来自两个方面:一方面是来自数据驱动的学习,通过数据在人脑中的不断抽象,就会形成高一层的语义。也就说,基于深度学习的智能,更多的就表现在这个方面。
另一方面,是知识驱动展现的智能。人类的思考是有目的的,在同样条件下,出于不同的目的,思考的结论可能不同;所以在同一个场景里,今天和昨天可关注的事不同。
原因是什么?因为我们的目的不一样。也就是说,人类思考同样存在至上而下的目标驱动;在展现智能方面,也存在利用高层知识去影响分析理解,这就是所谓的知识驱动。
在复杂的应用中,数据驱动和知识驱动都会存在,这样才能展现高水平的智能,所以说这两方面都是需要的。在我们常说的小样本分析,更需要知识驱动发挥作用。
在数据不足时,人类依靠经验也能实现正确的判断和思维;这说明机器也需要借鉴其他领域学习的知识,提高小数据或小样本下的学习效果,目前在这方面还存在着很多不足和缺陷,需要深入系统的研究。
现在的摄像设备更多是在被动采图,未来将要实现主动视觉
在视觉这件事情上,人类的视觉范畴比我们目前见到的图像和视频的范畴更加广泛。人类的视觉能感受到客观世界的方方面面,而我们在客观世界里能见到的物理现象是很多的,有声光电热、位置、方向、速度等等。
但目前的摄像头只能做到被动感知。直白的说,就是你让摄像头照什么,它就会照什么。而人类不是这样,当人类在思考需要什么之后,自己就会去主动获取什么。
举个例子,在同一个场景里,人类看到了一辆汽车。如果他要想把车牌看清楚,他就会调整视觉到车牌的位置;如果他想把驾驶员看清楚,他就会调整视觉到驾驶员的位置。
而我们的摄像头在这方面就做的比较差劲了,它并不会主动根据目标而调整自己的拍摄视觉。在主动去感知周围的场景和全方位、立体的感知周边环境等方面,做得很不够。
此外,现在大多用的是以光学摄像头为主的设备,但上面也说到了客观世界除了视觉还有很多方面,而这些仅凭光学摄像头是根本无法完全收集到的。所以我们将来会需要像激光、红外、雷达、GPS等结合起来的摄像设备。
将来计算机的感知系统应该是用综合型的视觉来完成,而不是现在被动式的采图。将来的摄像头也应该是一双很聪明的慧眼,类似甚至要超过人眼的功能。
未来的Tof深度相机需要把更多信息整合到一起
在说到深度相机和传统相机区别的时候,首先要说一下我们的客观世界。
众所周知,我们的客观世界是三维的,我们在认识世界的时候,深度信息、位置信息等是非常重要的。传统相机的成像也好、视频也好,都是二维的信息,缺乏深度信息。
而深度相机是在传统相机的基础上,加上了深度信息,使得机器在分析周围场景的时候,多了一维信息,从而提高了分析的准确性。
同时,由于客观世界远远不止深度,还有很多像温度、湿度、速度、方向等等,所以未来的深度相机应该要把更多的信息也整合到一起。
不过,在深度信息的获取方面,如在特定场景、遮挡、距离等的情况下,准确感知深度就存在着较大的困难。
所以目前的应用也相对有限,像只在室内、仓库、游戏交互等短距离的场景下,才能有理想的效果,而在其他场景则会大打折扣。