向机器理解人类行为迈出一小步

640?wx_fmt=jpeg

一名被试人员正在键盘上打字

来源：《中国科学报》

摘要：近日，《中国科学报》采访了CCF优秀博士学位论文奖获奖者、清华大学博士易鑫及其导师史元春教授，深入报道了他们对人机自然交互研究的最新进展。

随着信息技术的发展，在传统物理键盘之外，触屏、虚拟现实等新型交互接口不断出现，在提高了交互自然性的同时，却显著降低了交互的性能。如何兼顾交互的自然性和高效性，成为人机交互研究中的难题。

在信息技术领域，“胖手指”这一术语专指由于手指本身的柔软，以及点击时对于屏幕显示内容的遮挡，在触屏上点击时往往难以精确控制落点位置的问题。随着信息技术的飞速发展、新型交互方式的不断涌现，在人机交互研究领域，这类问题日益成为研究的热点。

近日获得中国计算机学会（CCF）优秀博士学位论文奖的研究成果中，清华大学博士易鑫试图以深化的贝叶斯方法解决人机自然交互行为噪声带来的意图推理难题，为解决“胖手指”问题带来了新的思路。

易鑫的导师——清华大学计算机系教授、全球创新学院院长史元春告诉《中国科学报》：“这算是我们向让机器理解人类行为迈出的一小步。”

兼顾交互的自然性和高效性

贝叶斯方法也称为贝叶斯定理，它所呈现的公式可以让人们通过已知的条件概率（通常是因果方向的）计算未知的概率，因而成为很多进行概率推理的现代人工智能系统的基础。

而对于易鑫来说，在他以人机交互研究为主题的博士学位论文中，与贝叶斯方法相关的关键词是“文本输入”。易鑫告诉《中国科学报》：“文本输入是人机交互中最基本的任务之一，是人向计算机表达交互意图的重要途径。”而在进行文本输入意图推理时，目前最常用的方法——经典统计解码方法，其本质也是贝叶斯方法。

随着信息技术的发展，在传统物理键盘之外，触屏、虚拟现实等新型交互接口不断出现，在提高了交互自然性的同时，却显著降低了交互的性能。“如何兼顾交互的自然性和高效性，成为人机交互研究中的难题。”易鑫说。

人机交互研究的一大特点是与实际需求或应用场景联系非常紧密。在数十年以前，人机界面就经历了从命令行界面到图形用户界面的演变。

易鑫介绍说，命令行界面的优点是由于物理键盘输入相对较高的准确率，以及几乎不需要冗余的操作，所以熟练的用户可以达到非常高的交互效率。但是，其缺点在于交互非常不直观，用户需要记忆大量的指令，有时甚至需要具备计算机领域的专业知识和技能，才能达到较高的使用效率。

为了改进这一问题，研究者提出了图形用户界面。图形用户界面的一大优势是摆脱了抽象的命令，显著降低了用户的学习和认知成本。然而，由于图形用户界面的基本操作是指点，即用户需要使用鼠标操作屏幕指针来选择交互目标，因而其往往对用户指点操作的精度有较高的要求。

易鑫告诉记者，多年来人机界面的发展趋势是越来越强调交互的自然性，即用户的交互行为与其生理和认知的习惯相吻合，并随之出现了触摸交互界面，以及近年来的体感交互、虚拟现实等三维交互界面。三维交互界面的优势是进一步提升了人机界面的自然性，但其挑战则在于完全缺乏触觉反馈，导致用户动作行为中的噪声相对较大，难以进行交互意图的准确推理，从而限制了交互输入的准确度。

“此前，也有研究者尝试采用贝叶斯方法解决文本输入中兼顾交互的自然性和高效性这一难题，但往往仅考虑了落点位置信息，作用有限。”易鑫告诉记者，为此，他在自己的研究中面向多种输入接口，从点击模型精度优化（提升计算精度）、面向不确定性输入映射的计算方法扩展（扩展计算方法）和文本输入手部动作建模（扩充先验知识）等方面优化了文本输入的基本贝叶斯方法，相应的技术也大幅提高了自然文本输入的交互性能。

触屏设备上的模型优化

易鑫在其研究中，针对触屏软键盘这一文本输入接口上的胖手指难题，提出了触屏软键盘上精度优化的点击模型。

他告诉《中国科学报》，在日常生活中，虽然智能手机、智能手表等触屏设备正变得越来越普遍，但由于触摸操作的不准确性，在触屏上点击小尺寸目标仍然十分困难。而其不准确性主要来自两方面原因：一是用户点击行为中的噪声，也常常被称为“胖手指”问题，二是点击位置识别算法的误差。

为了测量用户在智能手机上触摸时的落点偏差，易鑫和他的同伴从校园招募了多名被试人员。在实验中，他们主要关注两个问题：一是落点偏差是否随着目标位置的不同而不同，二是拇指和食指两种点击姿势下的偏差模式是否一致。最终，他们发现，在使用食指和拇指点击时，点击偏差都会受到目标位置的影响，其中后者受到的影响更为显著。

基于触摸落点位置的高精度识别方法，易鑫在论文中进一步建立了接口尺寸与输入速度、准确率和落点分布的作用关系，提升了软键盘输入贝叶斯方法中点击模型与输入行为的吻合程度，定量描述了当用户在宽度为2.0到4.0厘米的超小尺寸全键盘上进行文本输入时的行为特征。

用户实验结果证明，基于该精度优化的点击模型的贝叶斯方法能支持用户在宽度仅为3.5厘米的智能手表全键盘上达到与智能手机软键盘相当的、每分钟35个英文单词的输入速度和近100%的准确率。此外，点击模型的精度优化也能将手机软键盘的文本输入错误率降低23%。

另外，易鑫还在研究中定量分析了点击模型和语言模型的能力分别对文本输入的贝叶斯方法识别效果的影响，为点击模型的精度优化提供了依据和理论指导。

在行为中发现知识

“如果单纯就文本输入问题而言，特别是涉及自然的人机交互方式，易鑫所做的工作在国际上是领先的。”在对易鑫的研究进行评价时，史元春用词十分严谨。

可以作为佐证的成果之一是，易鑫对于空中文本输入的研究。空中文本输入对于后桌面时代交互（如虚拟现实、移动手机）是一个有潜力和被期待的交互需求。在这方面，虽然十指盲打是人们在日常生活中最高效和最习惯的输入方式，但针对基于该能力的空中裸手十指盲打技术的研究，此前尚没有人取得很好的效果。

而易鑫在研究中提出了一种使得空中裸手十指盲打成为可能的新型技术ATK。结果证明，ATK在输入速度和准确率方面都超过了已有的空中文本输入技术，第一次较好地实现了这一已经提出数十年的交互概念。

对于下一步的研究，易鑫的设想之一是，研究贝叶斯方法与大数据机器学习类方法的融合。他表示，虽然贝叶斯方法在目前的研究中取得了不错的效果，但是其模型的参数还是基于少量（数十人）的样本训练而来。随着原型的迭代和可用数据的增多，大数据机器学习类方法将有机会在意图推理中发挥重要的作用。然而，为了保持模型的可解释性与可推广性，需要探索贝叶斯方法与大数据机器学习类方法的有机融合方法，将“黑盒子”与“白盒子”结合起来，以达到精度和推广性的同步优化。

史元春告诉记者，与人机交互领域贝叶斯方法的应用相比，机器学习领域的贝叶斯方法主要是在数据中发现知识，而人机交互则是在行为中发现知识。她正主持进行的一项“十三五”国家重点研发计划中的前沿基础类研究项目，就是开展人机交互自然性的计算原理的研究，致力于探索使机器可以理解人类表达方式的能力。“易鑫的研究也是我们这项研究中的一部分。”史元春说。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg