让机器听懂世界，触及人类梦想还有多远？

来源：陈孝良科学网博客

概要：语言对于人类文明的重要性不言而喻，但是语言的起源却是个高度争议的话题，我们对此几乎一无所知。

语言对于人类文明的重要性不言而喻，但是语言的起源却是个高度争议的话题，我们对此几乎一无所知。我们不了解人类，也不了解动物，更是不懂宇宙，甚至我们都不能完全搞清楚一些看似简单的问题，比如人类的耳朵为何要有这么奇怪的耳廓？

一、让机器听懂世界承载了人类千年梦想

语言承载了人类文化，人类需要通过语言学习知识和传递信息，这是人类区别于动物界最重要的特性之一。而且，人类语言超过了五千多种，人类将大部分时间花费在学习各种语言上似乎也不是一个更有效的途径。因此，未来的机器智能时代，机器也必然需要通过语言实现与人类之间的交互，似乎最近的科幻片都已经暗示了这个问题。现在的科幻就是未来的现实，因此，让机器听懂世界，这是未来机器智能时代的关键问题，也是人类一个更大的梦想，但是，我们距离人类的这个梦想还有多远呢？

首先明确一个概念，让机器听懂世界，这里面其实蕴含了多个历程，包括听懂人类语言，进而听懂动物叫声，甚至听懂自然声音，亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。所有这些都是极其复杂的过程，因为我们人类实际上也没有达到这种能力，但是我们期望机器能够延伸人类的能力，从而实现人类的梦想。这是一个简单的道理，有时候我们做不到的事情，总期望别人能够做到，所以语音智能事实上承载的是几千年来人类的伟大梦想。

再看第一个历程，既让机器听懂人类语言，这已经是最近技术和市场上非常火热的事情，也是全世界科学家为止奋斗了六十多年的事业。这其中最为典型的，就是以亚马逊Echo所引领的智能音箱，迄今为止，占据全球市值排名榜的全球巨头，包括国内的阿里、京东、腾讯、百度、小米、科大讯飞等，国外的苹果、微软、亚马逊、谷歌、脸书、三星等，创历史的同时发力争夺未来智能时代的语音入口，甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争，将对未来十年甚至二十年产生极其重要的影响。

那么，如何才能让机器听懂人类语言呢？这需要解决三个核心关键问题：听见、听准和听懂，从技术角度来看，就是拾音、识别和理解三个关键技术环节。拾音是最为基础的环节，必须保证让机器听得见声音，这部分主要是声学问题；识别是将符合要求的声音转化成文字，这部分主要是语音识别的问题；理解则是根据识别出来的文字，准确理解人类的指令甚或情感。鉴于语音智能设备已经大量出现在我们生活场景之中，当前技术的核心关键就是声学问题和语义理解。

二、近场语音是机器听懂人类的率先尝试

近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术，这项技术利用距离巧妙回避了真实场景下复杂的声学问题，可以理解为一种实验室理想环境下的语音交互技术。近场语音识别从上世纪五十年代就开始研究，但是长期没有实质性进展，直到苹果在2010年推出Siri的应用，这才引起了全球的关注。到现在为止，近场语音交互技术已经比较成熟，平均识别率可以达到95%以上，主流的手机和平板等设备都已经普遍支持近场语音应用。这里提醒一下，很多人工智能大会或者电视演播厅所展示的实时语音识别或者翻译技术，其实都是近场语音交互技术，这些声音都是从近场麦克风采集的高质量数据，与会场的嘈杂环境并没有实际关联。

但是近场语音交互受到了真实场景的巨大制约，并没有展现出来语音交互可以解放双手的先进性，因此在很多场景中，事实上近场语音交互都是鸡肋一般的存在，并没有发挥出真正的威力，也就说，这个技术其实被严重低估了。直到远场语音交互技术的出现，成功解决了真实场景下的复杂声学问题以后，至少技术达到了用户认可的门槛，语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。

三、远场语音将语音智能落地到真实场景

远场语音交互主要解决30厘米到5米范围内的语音交互问题，这个范围事实上就是人类之间沟通交流的最佳距离，距离太近容易触发自我保护意识，而距离太远则会增大交流难度。注意语音交互并非只是语音问题，人类的交互其实是一个综合的过程，包括了表情、眼神、肢体动作等等一系列影响因素，太远距离的语音交互事实上意义不大，比如隔墙的语音交互事实上只要做好语音控制就可以了，真实场景下并不需要复杂的交互设计，因为人类也很难隔墙与人聊太多事情。

远场语音交互的历史是比较短暂的，这项技术以前长期没有实质性突破，2014年是个重要的转折点，亚马逊的Echo最早开始探索这个市场，但是直到2016年末，全球才真正开始重视这项技术，并且短短一年时间，引领全球市场都进入了激烈博弈的阶段。声智科技是远场语音交互的代表企业之一，其成长历史就是这一年多技术和市场变迁的见证。

远场语音交互的代表产品自然就是智能音箱，盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远，谷歌的Home剑走偏锋以技术做博弈，微软的Invoke则仍然坚持工程师定义产品的文化，苹果的HomePod更是刚刚跳票低估了高端智能音箱的难度，而脸书和三星仍然在紧锣密鼓的研发；反观国内甚为热闹，小米的小爱同学以299元的低价撬开市场，阿里的天猫精灵则以99元的低价率先补贴，就在腾讯、华为还在犹豫的时候，百度刚刚发布了渡鸦智能音箱和DuerOS开发板SoundPi。虽然国内的智能音箱起步很晚，但是国内市场经常演绎奋起直追甚至超越的故事。

这里还有两个重要的数据最具说服力，一个就是亚马逊Echo的销量已经超过千万，另外一个就是阿里的天猫精灵双十一超过了百万台。也就说，智能音箱作为语音智能的突破口已经成立，这是远场语音交互的一大进步，只有落地真实场景并且经过验证的技术才具有生命力。注意，这里还是特别强调智能音箱只是远场语音交互的突破口，并非什么语音的唯一入口，因为未来的机器智能时代，语音入口不仅仅只有智能音箱，比如电视、冰箱、汽车和机器人都有可能成为重要入口。但是智能音箱又是非常重要的，因为不管产品形态怎样变化，其本质的核心其实还是智能音箱的技术架构。

四、听懂世界还有哪些必须解决的问题？

若让机器听懂世界，远场语音交互技术也仅是个尝试而已，事实上远场语音技术本身也只是刚刚起步，即便5米以内，其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。但是技术一直在迭代发展，特别是当技术落地场景以后，源源不断的真实数据和客户需求将带动技术更加快速的发展。

从技术层面来看，让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识，很难一一枚举出来，但是若从应用场景来看，则相对比较简单，让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。

1、听懂人类语言

前面提到了近场和远场语音交互的技术，这可以解决5米以内的语音交互问题，基本囊括了人机交互的主要问题，但是还有更多复杂场景的问题需要解决，比如：

远场语音交互：主要解决5米以内的唤醒、识别和理解问题，虽然这项技术已经落地实际的场景和产品，但是对于诸如鸡尾酒会效应等难题仍然还没有实质性进展，而且从人类相互交流的过程来看，当前的远场语音交互技术还远远没有达到非常准确、非常顺畅的程度。

超远场交互：主要是指5米、10米、20米甚至500米以外的超远距离拾音和交互，这种技术的难度就是解决在远距离声音传播过程中能量衰减的约束下获取高质量声音数据的问题，因为没有高质量的声音数据，再厉害的机器学习也没有任何价值。这种技术主要应用在智能安防场景，比如交通监控，搭配远距离声发射技术可以实现远程指挥的自动交通处理。

局部场交互：主要是指针对某个局部范围内的语音识别和理解，主要适应于智能医疗、智慧法庭、智能教育、智能会议等特殊场景，比如实时记录和识别法官、医生或者教师说过的话。这种场景的需求比较单一，仅仅针对特定目标进行拾音和识别即可，但是对于识别的速度和精度要求非常高，一般也要达到98%以上。

分布场交互：主要是指狭小空间内多人识别和响应的问题，最常见的就是汽车场景，现在的汽车智能交互仅仅照顾了驾驶员的需求，但实际应用中可能需要照顾汽车其他乘客的交互需求，这就涉及了多人识别和交互的问题。事实上，随着智能音箱等一系列智能设备的普及，未来我们的家庭就是典型的分布场交互场景。

多语种交互：主要适应跨语言时候的自由交互场景，当前Google、百度和科大讯飞推出的翻译机部分解决了一些问题，但是这些翻译机主要还是近场语音，过渡到远场语音交互的难度很大，因为翻译的场景确实太复杂多变了，在数据积累还没形成规模之前，这类技术还很难有实质性突破。

大词汇交互：思考一个问题，能不能将语音识别应用到话剧的场景？似乎这是一个更加头疼的问题，因为从声学、识别到理解都是巨大的挑战。话剧演员一般不会佩戴麦克风，这就要求远场多人识别，而且话剧演员常会自白一大段，如何进行端点识别和语音识别？这样发散来想，当前的智能语音技术真的是才刚刚开始。

2、听懂人类情感

至于听懂人类情感，则是一个更加复杂的过程，人类至今也没搞清楚情感的来源，所以即便热恋中的情侣，也无法搞清楚对方的真实需求。但是至少有几个技术点是和人类情感有关系的，这里简单阐述一下。

声纹识别，声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。声纹的特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。第二个决定声纹特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。

情感识别，主要是从采集到的语音信号中提取表达情感的声学特征，并找出这些声学特征与人类情感的映射关系。情感识别当前也主要采用深度学习的方法，这就需要建立对情感空间的描述以及形成足够多的情感语料库。情感识别是人机交互中体现智能的应用，但是到目前为止，技术水平还没有达到产品应用的程度。

哼唱识别，主要是通过用户哼唱歌曲的曲调，然后通过其中的旋律同音乐库中的数据进行详细分析和比对，最后将符合这个旋律的歌曲信息提供给用户。目前这项技术在音乐搜索中已经使用，识别率可以达到80%左右。

声光融合，声学和光学总是相伴相生，人类的情感也是通过听觉和视觉同时接受分析的，因此机器也必然将语音和图像结合在一起分析，才能更好的理解人类的情感，但是语音和图像在各自领域并没有发展成熟，因此声光融合的研究一直处于被轻视的尴尬地位。

3、听懂动物声音

让机器听懂动物的声音，或许是一个苛刻的要求，因为人类至今也没有听懂动物的声音，甚至婴儿的哭声，我们只能大概的去猜测。但是这不影响机器的进步，因为在很多领域，机器迟早是超越人类的。事实上，这类研究一直在进行，比如海豚、蝙蝠、鲸鱼、猩猩、老虎、狮子、猫狗、蚊子、蜂鸟等等动物的声音特征，当数据积累足够多的时候，根据声音推断这些动物的行为不是不可能，而人类的进步很大程度也得益于这种仿生。

4、听懂自然声音

当然，机器也必须听懂大自然的声音，比如雷声、雨声、地震、海浪、风声等声音，通过这些声音则可以辨别机器所处的环境，并且根据环境做出判断。其实，这些技术也正在落地，比如声智科技正在研究的小样本学习技术，就是根据噪声来判断场景的变化，显然厨房的噪声和客厅、卧室不会相同，同样地，咖啡厅、火车站、机场、办公室、汽车等场景的噪声也有很大区别，通过区分这些噪音则可以快速匹配出场景，这将非常有利于后端智能的处理，比如自然语言理解增加了场景信息以后就会更加准确。

五、听懂世界还需要更多硬科技的尝试

让机器听懂世界，不能仅仅依赖算法和数据，更重要的还是底层硬科技的突破，下面列举了声智科技正在参与研发的一些基础技术，期望能有更多的学子参与到这些令人兴奋的研发过程之中。

智能麦克风，可以简单理解为将当前的MEMS麦克风与低功耗芯片融合在一起，主要是解决低功耗语音唤醒和识别的问题。

矢量麦克风，当前的麦克风都是标量麦克风，只能获取单一的物理信息，也就是能量值，根据时间信息和阵列配置才能获取频域和相位信息。若将标量麦克风升级成为矢量麦克风，则增加了一个维度的特征信息，这对于机器学习的提升将会非常明显。

薄膜麦克风，这是一种柔性的技术，可以想象把整个电视屏幕当作麦克风的场景，通过特殊的纳米材料技术，甚至可以把任何界面都当作声音的接收装置，通常来说这种换能器装置也可以把声音转变成电能。

柔性扬声器，这实际上和薄膜麦克风的原理类似，只是将换能的方向换了一下，柔性扬声器目前多种方案，目前来看其难点主要还是发声的带宽和失真问题。

激光拾声，这是主动拾声的一种方式，可以通过激光的反射等方法拾取远处的振动信息，从而还原成为声音，这种方法以前主要应用在窃听领域，但是目前来看这种方法应用到语音识别还比较困难。

微波拾声，微波是指波长介于红外线和无线电波之间的电磁波，频率范围大约在 300MHz至300GHz之间，同激光拾声的原理类似，只是微波对于玻璃、塑料和瓷器几乎是穿越而不被吸收。

高速摄像头拾声，这是利用高速摄像机来拾取振动从而还原声音，这种方式需要可视范围和高速摄像机，只在一些特定场景里面应用。

小结

小结一下，让机器听懂世界的技术正在全球快速的演化，相信不久的将来，我们肯定能看到更加智能的机器，因此，既不要抨击当前的人工智能技术，也不要盛赞现在的基础科技技术，保持一颗平静的心，正确给予科技界和产业界的支持才是对于未来最大的投资。不管外界怎样评论，一个技术公司的价值最终还是体现在这个公司为社会创造了多大的价值。

但是，我们也应该看到，国内产业界长期不重视基础技术的投入，甚至资本界也常常不看好技术类型公司，国内更看重的还是模式创新，这和美国形成了很大的反差。这其中的深层次原因，应该还是取决于当前国内主流的追求依然是个人名望和经济回报，这严重束缚了我们对于未来的梦想和渴望，当然，这也是经济发展的必经阶段，只有解决了经济问题，我们才能真正对于知识产生自由的渴望，才能看的更远，追求的梦想更大。

当梦想越近的时候难度其实越大，谁都会有梦想，关键在于你愿不愿意为此付出，并且能够咬牙坚持下来。未来，让机器听懂世界，更加期待年轻人的参与，当然，从我个人来说，我更期待有理想的学子们能来声智科技，因为这不是一家谈情怀的公司，而是一家谈理想的公司！