MSRA副院长周明博士：四大研究领域揭示自然语言技术的奥秘

来源：AI科技评论

概要：自然语言理解处在认知智能最核心的地位。

比尔·盖茨曾说过，「语言理解是人工智能皇冠上的明珠」，沈向洋博士也说过「懂语言者得天下」。自然语言理解处在认知智能最核心的地位。它的进步会引导知识图谱的进步，会引导对用户理解能力的增强，也会进一步推动整个推理能力。自然语言处理的技术会推动人工智能整体的进展，从而使得人工智能技术可以落地实用化。

微软亚洲研究院副院长周明博士围绕这一观点有过不少系统的阐述。不论是在微软大厦举行的自然语言处理前沿技术分享会活动上，或是近日举办的 EmTech China 峰会上，周明博士围绕自然语言四个方面的进展，结合 MSRA 在自然语言上的一系列研究成果做过介绍。AI 科技评论对内容进行整理，并做了不改动原意的编辑：

人工智能是用电脑来模拟和实现人类的智能，而人类的智能大概分如下几个层次：

第一是运算智能，记忆、计算的能力，这一点机器早已经超过人类。

第二是感知智能，包括听觉、视觉、触觉；最近两年，随着深度学习的引入，大幅度提高语音识别和图像识别的识别率，所以计算机在感知智能层面已经做得相当不错了，在一些典型的测试题下，达到或者超过了人类的平均水平。

第三认知智能，包括理解、运用语言的能力，掌握知识、运用知识的能力，以及在语言和知识基础上的推理能力。过去认知智能主要集中在语言智能这块，即自然语言处理，它简单理解了句子、篇章，实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。

最高一层是创造智能，人们利用已有的条件，利用一些想象力甚至有一些是臆断、梦想，想象一些不存在的事情包括理论、方法、技术，通过实验加以验证，然后提出新的理论，指导更多实践，最后产生很好的作品或产品。

作为认知智能的重要一环，人工智能最重要的分支就是自然语言的理解与处理，即语言智能，通过对词、句子、篇章进行分析，对内容里面的人物、时间、地点等进行理解，然后在此基础上，去支持一系列核心技术，比如跨语言的翻译、问答系统、阅读理解、知识图谱等技术，基于这些技术，又可以把它应用到其它应用领域，比如说搜索引擎、客服、金融、新闻等等领域。总之，就是通过对语言的理解，实现人跟电脑的直接交流，从而实现人跟人更加有效地交流。自然语言技术不是一个独立的技术，其受云计算、大数据、机器学习、知识图谱等等各个方面的支撑。

语言智能是人工智能皇冠上的明珠，如果语言智能能实现突破，跟它同属认知智能的知识和推理就会得到长足的发展，就能推动整个人工智能体系，有更多的场景可以落地。而自然语言的进展主要包括四个层面：神经机器翻译、聊天机器人、阅读理解及机器创作。

神经机器翻译

神经机器翻译就是模拟人脑的翻译过程，人在翻译的时候，首先是理解这句话，然后在脑海里形成对这句话的语义表示，最后再把这个语义表示转化到另一种语言。

神经机器翻译有两个模块，一个是编码模块，把输入的源语言变成一个中间的语义表示，用一系列的机器的内部状态来代表，另一个模块是解码模块，根据语义分析的结果，逐词生成目标语言。

神经机器翻译在这几年发展非常迅速，2017 年的研究热度更是一发不可收拾，现在神经机器翻译已经取代了统计机器翻译，成为机器翻译的主流技术。目前有统计数据表明，在一些传统的统计机器翻译难以完成的任务上，神经机器翻译的性能远远超过了统计机器翻译，而且跟人的标准答案非常接近，甚至说是相仿的水平。围绕着神经机器翻译，研究者们已做了很多的工作，比如如何提升训练的效率，如何提升编码和解码的能力。还有一个重要的研究问题就是数据问题，神经机器翻译依赖于双语对照的大规模的数据集来训练，端到端地训练神经网络参数，这涉及很多语音段和很多的垂直领域，但我们实际上并没有那么多的数据，我们只有小量的双语数据和大量的单语数据。

所以，我们就提出了半监督的联合垂直模型，已知一个双语推导语料，分别对之训练，从而达到中英翻译系统与英中翻译系统的相互促进，比如拿中英翻译系统去翻中文的语料，形成很多伪的中英对照语料，然后把这个语料去加到英中翻译里面去。同样，用英中翻译系统去翻译大量的英文语料，然后把这个语料加到中英翻译里面，这样经过多次迭代之后，翻译水平大幅度提升。

微软现在已经全面采用神经机器翻译，最近还跟华为的 Mate10 手机合作，得到了神经机器翻译类似于在云上的效果。

聊天机器人

「对话即平台」，英文叫做「Conversation as a Platform （CaaP）」。2016 年，微软首席执行官萨提亚在大会上提出了 CaaP 这个概念，他认为继有图形界面的下一代就是对话，它会对整个人工智能、计算机设备带来一场新的革命。

为什么要提到这个概念呢？我个人认为有两个原因。

第一个原因，源于大家都已经习惯用社交手段，如微信、Facebook 与他人聊天的过程。我们希望将这种通过自然的语言交流的过程呈现在当今的人机交互中，而语音交流的背后就是对话平台。

第二个原因则在于，现在大家面对的设备有的屏幕很小，有的甚至没有屏幕，所以通过语音的交互，更为自然直观的。因此，我们是需要对话式的自然语言交流的，通过语音助手来帮忙完成。

而语音助手又可以调用很多 Bot，来完成一些具体的功能，比如说定杯咖啡，买一个车票等等。芸芸众生，有很多很多需求，每个需求都有可能是一个小 Bot，必须有人去做这个 Bot。对于微软而言，我们作为一个平台公司，希望把自己的能力释放出来，让全世界的开发者，甚至普通的学生就能开发出自己喜欢的 Bot，形成一个生态的平台，生态的环境。

如何从人出发，通过智能助理，再通过 Bot 体现这一生态呢？微软在做CaaP的时候，实际上有两个主要的产品策略。

第一个是小娜，通过手机和智能设备介入，让人与电脑进行交流：人发布命令，小娜理解并执行任务。同时，小娜作为你的贴身处理，也理解你的性格特点、喜好、习惯，然后主动给你一些贴心提示。第二个就是小冰，主要负责闲聊。

无论是小冰这种闲聊，还是小娜这种注重任务执行的技术，其实背后单元处理引擎无外乎就三层技术。

第一层：通用聊天，需要掌握沟通技巧、通用聊天数据、主题聊天数据，还要知道用户画像，投其所好。

第二层：信息服务和问答，需要搜索的能力，问答的能力，还需要对常见问题表进行收集、整理和搜索，从知识图表、文档和图表中找出相应信息，并且回答问题，我们统称为 Info Bot。

第三层：面向特定任务的对话能力，例如定咖啡、定花、买火车票，这个任务是固定的，状态也是固定的，状态转移也是清晰的，那么就可以用 Bot 一个一个实现。你有一个调度系统，你知道用户的意图就调用相应的 Bot 执行相应的任务。它用到的技术就是对用户意图的理解，对话的管理，领域知识，对话图谱等等。

在聊天的时候机器要理解人的意图，产生比较符合人的想法，以及符合当前上下文的回复，再根据人与机器各自的回复将话题进行下去。基于当前的输入信息，再加上对话的情感，以及用户的画像，经过一个类似于神经机器翻译的解码模型生成回复，可以达到上下文相关、领域相关、话题有关，而且是针对用户特点的个性化的回复。

阅读理解

下一个话题是阅读理解，阅读理解就是让电脑看一遍文章，针对这些文章问一些问题，看电脑能不能回答出来。斯坦福大学曾做过一个比较有名的实验，就是使用维基百科的文章提出 5 个问题，由人把答案做出来，然后把数据分成训练集和测试集，训练集是公开的，用来训练阅读理解系统，而测试集不公开，个人把训练结果上传给斯坦福，斯坦福在其云端运行，再把结果报在网站上，这也避免了一些人对测试集做手脚。阅读理解技术，自 2016 年 9 月前后发布，就引起了很多研究单位的关注，大概有二三十家单位都在做这样的研究，一开始的水平都不是很高，以 100 分为例，人的水平是 82.3 左右，机器的水平只有 74 分，相差甚远，后来通过类似于开源社区模式的不断改进，它的性能就得以逐步地提高了。

最近在阅读理解领域出现的一个备受关注的问题，就是如何才能做到超越人的标注水平。现在微软、阿里巴巴、科大讯飞和哈工大的系统，都超越了人工的标注水平，这标志着阅读理解技术进入了一个新的阶段。这几个系统都来自中国，也体现中国在自然语言处理的进步。

一个阅读理解的框架首先要得到每个词的语义表示，再得到每个句子的语义表示，这可以用循环神经网络 RNN 来实现，然后用特定路径来找出潜在答案，基于这个答案再筛选出最优的答案，最后确定这个答案的边界。在做阅读理解的时候，是用到了外部的知识，可以用大规模的语料来训练外部的知识，通过外部知识训练的 RNN 模型，加入到原来端到端的训练结果中，以此来大幅度地提高阅读理解的能力。

机器创作

最后介绍机器创作，机器可以做很多理性的东西，那么它可以做一些创造性的东西吗？10 年以前，我们就开始做微软对联，在此基础上，创作绝句、律诗、唐诗宋词等等，现在进行写歌谱曲。在微软对联里，用户输入上联，系统就可以对出下联，也可以给出横批；在字谜游戏里，用户给出谜面，让系统猜出字；或系统给出谜面让用户猜出字。

我们的编码解码技术已经成功用于神经网络机器翻译、小冰机器人和词曲创作中。中央电视台《机智过人》节目就曾播过我们的小冰与人类选手进行词曲创作比拼的环节，结果是小冰险胜人类。这件事说明如果有大数据，那么机器学习或者深度学习就可以模拟人类的创造智能，创造出一些作品来，也可以与专家合作，帮助专家产生更好的想法，然后两者配合，产生出美妙的音乐。

这个在以前是难以想象的，做自然语言的人从来没有想到自然语言还可以延伸到音乐上去，其实音乐也是一种语言，自然语言的所有技术就可以应用到音乐上去，这需要大家的想象力。

今天我快速介绍了自然语言处理在神经机器翻译、阅读理解、聊天机器人以及机器创作领域的进展。随着未来大数据、云计算和深度学习的发展，模型还会进一步地提升，再加上合适的场景，技术就可以落地，就可以服务于成千上万的用户。可以预料，随着自然语言处理技术的提高与普及，它将会与其他的人工智能技术一起提升人类的生活水平。