让机器听懂世界,触及人类梦想还有多远?

来源:陈孝良科学网博客

概要:语言对于人类文明的重要性不言而喻,但是语言的起源却是个高度争议的话题,我们对此几乎一无所知。


语言对于人类文明的重要性不言而喻,但是语言的起源却是个高度争议的话题,我们对此几乎一无所知。我们不了解人类,也不了解动物,更是不懂宇宙,甚至我们都不能完全搞清楚一些看似简单的问题,比如人类的耳朵为何要有这么奇怪的耳廓?


一、让机器听懂世界承载了人类千年梦想


语言承载了人类文化,人类需要通过语言学习知识和传递信息,这是人类区别于动物界最重要的特性之一。而且,人类语言超过了五千多种,人类将大部分时间花费在学习各种语言上似乎也不是一个更有效的途径。因此,未来的机器智能时代,机器也必然需要通过语言实现与人类之间的交互,似乎最近的科幻片都已经暗示了这个问题。现在的科幻就是未来的现实,因此,让机器听懂世界,这是未来机器智能时代的关键问题,也是人类一个更大的梦想,但是,我们距离人类的这个梦想还有多远呢?


首先明确一个概念,让机器听懂世界,这里面其实蕴含了多个历程,包括听懂人类语言,进而听懂动物叫声,甚至听懂自然声音,亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。所有这些都是极其复杂的过程,因为我们人类实际上也没有达到这种能力,但是我们期望机器能够延伸人类的能力,从而实现人类的梦想。这是一个简单的道理,有时候我们做不到的事情,总期望别人能够做到,所以语音智能事实上承载的是几千年来人类的伟大梦想。


再看第一个历程,既让机器听懂人类语言,这已经是最近技术和市场上非常火热的事情,也是全世界科学家为止奋斗了六十多年的事业。这其中最为典型的,就是以亚马逊Echo所引领的智能音箱,迄今为止,占据全球市值排名榜的全球巨头,包括国内的阿里、京东、腾讯、百度、小米、科大讯飞等,国外的苹果、微软、亚马逊、谷歌、脸书、三星等,创历史的同时发力争夺未来智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年甚至二十年产生极其重要的影响。


那么,如何才能让机器听懂人类语言呢?这需要解决三个核心关键问题:听见、听准和听懂,从技术角度来看,就是拾音、识别和理解三个关键技术环节。拾音是最为基础的环节,必须保证让机器听得见声音,这部分主要是声学问题;识别是将符合要求的声音转化成文字,这部分主要是语音识别的问题;理解则是根据识别出来的文字,准确理解人类的指令甚或情感。鉴于语音智能设备已经大量出现在我们生活场景之中,当前技术的核心关键就是声学问题和语义理解。


二、近场语音是机器听懂人类的率先尝试


近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术,这项技术利用距离巧妙回避了真实场景下复杂的声学问题,可以理解为一种实验室理想环境下的语音交互技术。近场语音识别从上世纪五十年代就开始研究,但是长期没有实质性进展,直到苹果在2010年推出Siri的应用,这才引起了全球的关注。到现在为止,近场语音交互技术已经比较成熟,平均识别率可以达到95%以上,主流的手机和平板等设备都已经普遍支持近场语音应用。这里提醒一下,很多人工智能大会或者电视演播厅所展示的实时语音识别或者翻译技术,其实都是近场语音交互技术,这些声音都是从近场麦克风采集的高质量数据,与会场的嘈杂环境并没有实际关联。


但是近场语音交互受到了真实场景的巨大制约,并没有展现出来语音交互可以解放双手的先进性,因此在很多场景中,事实上近场语音交互都是鸡肋一般的存在,并没有发挥出真正的威力,也就说,这个技术其实被严重低估了。直到远场语音交互技术的出现,成功解决了真实场景下的复杂声学问题以后,至少技术达到了用户认可的门槛,语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。


三、远场语音将语音智能落地到真实场景


远场语音交互主要解决30厘米到5米范围内的语音交互问题,这个范围事实上就是人类之间沟通交流的最佳距离,距离太近容易触发自我保护意识,而距离太远则会增大交流难度。注意语音交互并非只是语音问题,人类的交互其实是一个综合的过程,包括了表情、眼神、肢体动作等等一系列影响因素,太远距离的语音交互事实上意义不大,比如隔墙的语音交互事实上只要做好语音控制就可以了,真实场景下并不需要复杂的交互设计,因为人类也很难隔墙与人聊太多事情。


远场语音交互的历史是比较短暂的,这项技术以前长期没有实质性突破,2014年是个重要的转折点,亚马逊的Echo最早开始探索这个市场,但是直到2016年末,全球才真正开始重视这项技术,并且短短一年时间,引领全球市场都进入了激烈博弈的阶段。声智科技是远场语音交互的代表企业之一,其成长历史就是这一年多技术和市场变迁的见证。


远场语音交互的代表产品自然就是智能音箱,盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远,谷歌的Home剑走偏锋以技术做博弈,微软的Invoke则仍然坚持工程师定义产品的文化,苹果的HomePod更是刚刚跳票低估了高端智能音箱的难度,而脸书和三星仍然在紧锣密鼓的研发;反观国内甚为热闹,小米的小爱同学以299元的低价撬开市场,阿里的天猫精灵则以99元的低价率先补贴,就在腾讯、华为还在犹豫的时候,百度刚刚发布了渡鸦智能音箱和DuerOS开发板SoundPi。虽然国内的智能音箱起步很晚,但是国内市场经常演绎奋起直追甚至超越的故事。


这里还有两个重要的数据最具说服力,一个就是亚马逊Echo的销量已经超过千万,另外一个就是阿里的天猫精灵双十一超过了百万台。也就说,智能音箱作为语音智能的突破口已经成立,这是远场语音交互的一大进步,只有落地真实场景并且经过验证的技术才具有生命力。注意,这里还是特别强调智能音箱只是远场语音交互的突破口,并非什么语音的唯一入口,因为未来的机器智能时代,语音入口不仅仅只有智能音箱,比如电视、冰箱、汽车和机器人都有可能成为重要入口。但是智能音箱又是非常重要的,因为不管产品形态怎样变化,其本质的核心其实还是智能音箱的技术架构。


四、听懂世界还有哪些必须解决的问题?


若让机器听懂世界,远场语音交互技术也仅是个尝试而已,事实上远场语音技术本身也只是刚刚起步,即便5米以内,其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。但是技术一直在迭代发展,特别是当技术落地场景以后,源源不断的真实数据和客户需求将带动技术更加快速的发展。


从技术层面来看,让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识,很难一一枚举出来,但是若从应用场景来看,则相对比较简单,让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。


1、听懂人类语言


前面提到了近场和远场语音交互的技术,这可以解决5米以内的语音交互问题,基本囊括了人机交互的主要问题,但是还有更多复杂场景的问题需要解决,比如:


远场语音交互:主要解决5米以内的唤醒、识别和理解问题,虽然这项技术已经落地实际的场景和产品,但是对于诸如鸡尾酒会效应等难题仍然还没有实质性进展,而且从人类相互交流的过程来看,当前的远场语音交互技术还远远没有达到非常准确、非常顺畅的程度。


超远场交互:主要是指5米、10米、20米甚至500米以外的超远距离拾音和交互,这种技术的难度就是解决在远距离声音传播过程中能量衰减的约束下获取高质量声音数据的问题,因为没有高质量的声音数据,再厉害的机器学习也没有任何价值。这种技术主要应用在智能安防场景,比如交通监控,搭配远距离声发射技术可以实现远程指挥的自动交通处理。


局部场交互:主要是指针对某个局部范围内的语音识别和理解,主要适应于智能医疗、智慧法庭、智能教育、智能会议等特殊场景,比如实时记录和识别法官、医生或者教师说过的话。这种场景的需求比较单一,仅仅针对特定目标进行拾音和识别即可,但是对于识别的速度和精度要求非常高,一般也要达到98%以上。


分布场交互:主要是指狭小空间内多人识别和响应的问题,最常见的就是汽车场景,现在的汽车智能交互仅仅照顾了驾驶员的需求,但实际应用中可能需要照顾汽车其他乘客的交互需求,这就涉及了多人识别和交互的问题。事实上,随着智能音箱等一系列智能设备的普及,未来我们的家庭就是典型的分布场交互场景。


多语种交互:主要适应跨语言时候的自由交互场景,当前Google、百度和科大讯飞推出的翻译机部分解决了一些问题,但是这些翻译机主要还是近场语音,过渡到远场语音交互的难度很大,因为翻译的场景确实太复杂多变了,在数据积累还没形成规模之前,这类技术还很难有实质性突破。


大词汇交互:思考一个问题,能不能将语音识别应用到话剧的场景?似乎这是一个更加头疼的问题,因为从声学、识别到理解都是巨大的挑战。话剧演员一般不会佩戴麦克风,这就要求远场多人识别,而且话剧演员常会自白一大段,如何进行端点识别和语音识别?这样发散来想,当前的智能语音技术真的是才刚刚开始。


2、听懂人类情感


至于听懂人类情感,则是一个更加复杂的过程,人类至今也没搞清楚情感的来源,所以即便热恋中的情侣,也无法搞清楚对方的真实需求。但是至少有几个技术点是和人类情感有关系的,这里简单阐述一下。


声纹识别,声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。声纹的特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。第二个决定声纹特征的因素是发声器官被操纵的方式,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。


情感识别,主要是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系。情感识别当前也主要采用深度学习的方法,这就需要建立对情感空间的描述以及形成足够多的情感语料库。情感识别是人机交互中体现智能的应用,但是到目前为止,技术水平还没有达到产品应用的程度。


哼唱识别,主要是通过用户哼唱歌曲的曲调,然后通过其中的旋律同音乐库中的数据进行详细分析和比对,最后将符合这个旋律的歌曲信息提供给用户。目前这项技术在音乐搜索中已经使用,识别率可以达到80%左右。


声光融合,声学和光学总是相伴相生,人类的情感也是通过听觉和视觉同时接受分析的,因此机器也必然将语音和图像结合在一起分析,才能更好的理解人类的情感,但是语音和图像在各自领域并没有发展成熟,因此声光融合的研究一直处于被轻视的尴尬地位。


3、听懂动物声音


让机器听懂动物的声音,或许是一个苛刻的要求,因为人类至今也没有听懂动物的声音,甚至婴儿的哭声,我们只能大概的去猜测。但是这不影响机器的进步,因为在很多领域,机器迟早是超越人类的。事实上,这类研究一直在进行,比如海豚、蝙蝠、鲸鱼、猩猩、老虎、狮子、猫狗、蚊子、蜂鸟等等动物的声音特征,当数据积累足够多的时候,根据声音推断这些动物的行为不是不可能,而人类的进步很大程度也得益于这种仿生。


4、听懂自然声音


当然,机器也必须听懂大自然的声音,比如雷声、雨声、地震、海浪、风声等声音,通过这些声音则可以辨别机器所处的环境,并且根据环境做出判断。其实,这些技术也正在落地,比如声智科技正在研究的小样本学习技术,就是根据噪声来判断场景的变化,显然厨房的噪声和客厅、卧室不会相同,同样地,咖啡厅、火车站、机场、办公室、汽车等场景的噪声也有很大区别,通过区分这些噪音则可以快速匹配出场景,这将非常有利于后端智能的处理,比如自然语言理解增加了场景信息以后就会更加准确。


五、听懂世界还需要更多硬科技的尝试


让机器听懂世界,不能仅仅依赖算法和数据,更重要的还是底层硬科技的突破,下面列举了声智科技正在参与研发的一些基础技术,期望能有更多的学子参与到这些令人兴奋的研发过程之中。


智能麦克风,可以简单理解为将当前的MEMS麦克风与低功耗芯片融合在一起,主要是解决低功耗语音唤醒和识别的问题。


矢量麦克风,当前的麦克风都是标量麦克风,只能获取单一的物理信息,也就是能量值,根据时间信息和阵列配置才能获取频域和相位信息。若将标量麦克风升级成为矢量麦克风,则增加了一个维度的特征信息,这对于机器学习的提升将会非常明显。


薄膜麦克风,这是一种柔性的技术,可以想象把整个电视屏幕当作麦克风的场景,通过特殊的纳米材料技术,甚至可以把任何界面都当作声音的接收装置,通常来说这种换能器装置也可以把声音转变成电能。


柔性扬声器,这实际上和薄膜麦克风的原理类似,只是将换能的方向换了一下,柔性扬声器目前多种方案,目前来看其难点主要还是发声的带宽和失真问题。


激光拾声这是主动拾声的一种方式,可以通过激光的反射等方法拾取远处的振动信息,从而还原成为声音,这种方法以前主要应用在窃听领域,但是目前来看这种方法应用到语音识别还比较困难。


微波拾声,微波是指波长介于红外线和无线电波之间的电磁波,频率范围大约在 300MHz至300GHz之间,同激光拾声的原理类似,只是微波对于玻璃、塑料和瓷器几乎是穿越而不被吸收。


高速摄像头拾声,这是利用高速摄像机来拾取振动从而还原声音,这种方式需要可视范围和高速摄像机,只在一些特定场景里面应用。


小结


小结一下,让机器听懂世界的技术正在全球快速的演化,相信不久的将来,我们肯定能看到更加智能的机器,因此,既不要抨击当前的人工智能技术,也不要盛赞现在的基础科技技术,保持一颗平静的心,正确给予科技界和产业界的支持才是对于未来最大的投资。不管外界怎样评论,一个技术公司的价值最终还是体现在这个公司为社会创造了多大的价值。


但是,我们也应该看到,国内产业界长期不重视基础技术的投入,甚至资本界也常常不看好技术类型公司,国内更看重的还是模式创新,这和美国形成了很大的反差。这其中的深层次原因,应该还是取决于当前国内主流的追求依然是个人名望和经济回报,这严重束缚了我们对于未来的梦想和渴望,当然,这也是经济发展的必经阶段,只有解决了经济问题,我们才能真正对于知识产生自由的渴望,才能看的更远,追求的梦想更大。


当梦想越近的时候难度其实越大,谁都会有梦想,关键在于你愿不愿意为此付出,并且能够咬牙坚持下来。未来,让机器听懂世界,更加期待年轻人的参与,当然,从我个人来说,我更期待有理想的学子们能来声智科技,因为这不是一家谈情怀的公司,而是一家谈理想的公司!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[实战]前端wireshark抓包协议解密

前端wireshark抓包协议解密废话不多说,先看看结果该JSON文件是通过解密后的 HTTP 返回response结果再解密打开的新页面 有兴趣的小伙伴了解下之前的文章 Sha384解密[2] 打开Wireshark 将TCP 转码为RTP ,因为该目标地址有视频文件,方便转换 登…

前端React结构工程-改写render

前端React结构工程-改写render 工程准备事项 npm installcnpm初始化工程实例 以上是实例化,安装过npm后的列表 接下来使用 npm run start 来启动项目 当你启动项目后会看到react给我们准备好的 默认界面 React中的 diff原理 和 调度原理是 这次探索的目标 只有搞…

未来智能实验室成立,建设世界第一个智能系统智商评测和趋势研究机构

来源:未来智能实验室 互联网云脑逐渐清晰,AI与互联网结合引发AI威胁论 从科学史可以看到这样一个规律:每一次人类社会的重大技术变革都会导致新领域的科学革命。互联网革命对于人类的影响已经远远超过了大工业革命。与工业革命增强人类的力量…

自己动手制作一门语言(1)波罗语

自己动手制作一门语言(1)波罗语 波罗语:基于波斯(阿拉伯语)的繁衍,主要目的是二向加密语言。防止被保护的数据泄露和解密。使用在计算机与书本中使用语言的发音 主要以 ah 、v 、hv 颤音、哈音、卷舌 创造一门语言很容易,要实现起来确很难&a…

高盛:人工智能报告中文版(45页)

来源:数据局 概要:人工智能是信息时代的尖端科技。计算的飞跃建立在人类告知计算机如何表现的基础上,计算建立在计算机学习如何表现能够对每个行业有意义的基础上。 人工智能是信息时代的尖端科技。计算的飞跃建立在人类告知计算机如何表现的…

人工智能硅脑竞赛:传统芯片巨头VS AI芯片创企

来源:亿欧 概要:但现在,一些芯片企业家得到了不同程度的欢迎。投资者没有对此嗤之以鼻,而是“慷慨地”拿出其支票簿。 英国半导体创业公司Graphcore的联合创始人兼首席执行官Nigel Toon表示:“几年前,许多…

React+Nginx 二级域名指向配置

使React线上项目二级域名指向端口欢迎使用Markdown编辑器开始前检查你的Nginx 检查是否正常编写nginx.conf在同级目录的conf.d目录里清理一下缓存欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑…

佳能g2810打印机扫描怎么用_办公用这款佳能彩色激光打印机无线MF643CDW就够了!...

佳能MF643CDW彩色三合一激光打印https://www.zhihu.com/video/1195286618850979840近两年来,激光打印机正以惊人的速度在办公室、商业用户中普及开来。新一代的彩色激光打印机正以其前所未有的低价位开始大规模进入主流办公室,越来越多的用户将在办公室中…

史上最完整的人工智能书单大全,学习AI的请收藏好

来源: 产业智能官 概要:想自学人工智能,到底看什么书?现在关于AI的图书成千上万,那些才是最好的? 想自学人工智能,到底看什么书?现在关于AI的图书成千上万,那些才是最好…

Cocos creator构建web-moblie 封装到android启动

Cocos creator构建web-moblie 封装到android studio中启动 构建的版本采用 使用21 api版本 5.0 可能的问题&#xff1a;影响到其它事件功能的无非实现 *如果 请升级语法 本次构造和启动为 远程url的形式加载启动 activity_main.xml <?xml version"1.0" encodin…

pcb布线拐角处打地孔_PCB线路板布线的10个重要规则——公众号【深圳LED网】

PCB布线&#xff0c;即铺设通电信号的道路以连接各个器件&#xff0c;这好比通过修路来连接各个城市通车。在PCB设计中&#xff0c;布线是完成产品设计的重要步骤&#xff0c;同时也是技巧最细、限定最高的步骤&#xff0c;甚至有经验的工程师也对布线颇为头疼。以下是PCB布线的…

低调的苹果罕见发表论文,揭开自动驾驶汽车技术的冰山一角

来源&#xff1a;华尔街见闻 概要&#xff1a;在自动驾驶领域低调又低调的苹果终于发声了。近日&#xff0c;苹果研究人员颇为罕见地公布了一份关于自动驾驶技术的论文。 在自动驾驶领域低调又低调的苹果终于发声了。近日&#xff0c;苹果研究人员颇为罕见地公布了一份关于自动…

恐惧、野心和迷茫,机器人公民背后的未来世界

作者&#xff1a; 刘锋 计算机博士 互联网进化论作者 当时间的车轮到达2017年10月&#xff0c;人工智能领域陆续爆发很多重要事件。 其中最吸引人们眼球的&#xff0c;当然仍属学会了自我学习的AlphaGo zero和沙特阿拉伯的机器公民索菲亚&#xff08;Sophia&#xff09;&am…

java设计一个bank类实现银行_AOS公链推出“隐私Bank”,彻底打破资产发行门槛!...

区块链技术从诞生到现在经历了无数的坎坷&#xff0c;一路走来虽然饱受争议&#xff0c;但是这个行业并没有停止发展的脚步&#xff0c;越来越多的落地项目正在改变我们的生活&#xff0c;尤其在公链领域&#xff0c;整个行业的生态建设更是程喷涌之势迅猛发展&#xff0c;今天…

2017年中国人工智能产业最全研究报告发布 | AI世界2018年八大趋势

来源&#xff1a; 数据观 概要&#xff1a;从目前来看&#xff0c;计算机视觉技术是人工智能的核心技术之一&#xff0c;广泛的商业化渠道和技术基础使其最为热门。 目前&#xff0c;中国的人工智能研究处于爆发期&#xff0c;行业巨头公司正逐渐完善自身在人工智能的产业链布局…

机器人暮色枪骑皮肤_吃鸡幸运新转盘:新载具皮肤和纸盒武器皮肤!

就在《和平精英》更新“罗小黑”系列皮肤的时候&#xff0c;国际服《Pubg Mobile》同样也没有闲着。与《和平精英》直售罗小黑皮肤不同的是&#xff0c;《Pubg Mobile》又上线了新的幸运转盘——Toy Power SPIN。机器人风格的幸运转盘来了&#xff0c;新载具皮肤、纸盒武器皮肤…

水泵怎么做_暖通空调|水泵出入口阀门及相关基础知识

设计过程中&#xff0c;经常看到或遇到一些设计人员对水泵前后的布置啥阀门或怎么布置阀门提出异议&#xff0c;现就对水泵前后的阀门及相关知识进行浅析&#xff0c;由于水平有限&#xff0c;有不对的地方欢迎指出。《通风与空调工程施工规范》(GB 50738-2011)第10.8.5条规定&…

未来智能实验室成立,建设世界第一个AI智商评测和趋势研究机构

来源&#xff1a;未来智能实验室 互联网云脑逐渐清晰&#xff0c;AI与互联网结合引发AI威胁论 从科学史可以看到这样一个规律&#xff1a;每一次人类社会的重大技术变革都会导致新领域的科学革命。互联网革命对于人类的影响已经远远超过了大工业革命。与工业革命增强人类的力量…

echart 三维可视化地图_揭秘720°三维全景3D实景地图制作技术

近两年来三维全景3D实景地图在三维虚拟现实领域中占有相当大的地位。目前的三维720线上三维实景展示基本都是通过商迪3D三维全景建模与3d全景地图技术制作。例如&#xff1a;VR游戏、智慧城市规划项目、智慧房地产规划、智能地图、等项目都已3D实景地图技术为基础去开发制作。三…

IEEE发布人工智能伦理标准,确保人类不受影响

来源:专知 概要:机器人和自动系统将为社会带来重大创新。最近,公众越来越关注可能发生的社会问题,以及可能产生的巨大潜在利益。