向机器理解人类行为迈出一小步

640?wx_fmt=jpeg

一名被试人员正在键盘上打字

来源:《中国科学报》

摘要:近日,《中国科学报》采访了CCF优秀博士学位论文奖获奖者、清华大学博士易鑫及其导师史元春教授,深入报道了他们对人机自然交互研究的最新进展。


随着信息技术的发展,在传统物理键盘之外,触屏、虚拟现实等新型交互接口不断出现,在提高了交互自然性的同时,却显著降低了交互的性能。如何兼顾交互的自然性和高效性,成为人机交互研究中的难题。


在信息技术领域,“胖手指”这一术语专指由于手指本身的柔软,以及点击时对于屏幕显示内容的遮挡,在触屏上点击时往往难以精确控制落点位置的问题。随着信息技术的飞速发展、新型交互方式的不断涌现,在人机交互研究领域,这类问题日益成为研究的热点。


近日获得中国计算机学会(CCF)优秀博士学位论文奖的研究成果中,清华大学博士易鑫试图以深化的贝叶斯方法解决人机自然交互行为噪声带来的意图推理难题,为解决“胖手指”问题带来了新的思路。


易鑫的导师——清华大学计算机系教授、全球创新学院院长史元春告诉《中国科学报》:“这算是我们向让机器理解人类行为迈出的一小步。”


兼顾交互的自然性和高效性


贝叶斯方法也称为贝叶斯定理,它所呈现的公式可以让人们通过已知的条件概率(通常是因果方向的)计算未知的概率,因而成为很多进行概率推理的现代人工智能系统的基础。


而对于易鑫来说,在他以人机交互研究为主题的博士学位论文中,与贝叶斯方法相关的关键词是“文本输入”。易鑫告诉《中国科学报》:“文本输入是人机交互中最基本的任务之一,是人向计算机表达交互意图的重要途径。”而在进行文本输入意图推理时,目前最常用的方法——经典统计解码方法,其本质也是贝叶斯方法。


随着信息技术的发展,在传统物理键盘之外,触屏、虚拟现实等新型交互接口不断出现,在提高了交互自然性的同时,却显著降低了交互的性能。“如何兼顾交互的自然性和高效性,成为人机交互研究中的难题。”易鑫说。


人机交互研究的一大特点是与实际需求或应用场景联系非常紧密。在数十年以前,人机界面就经历了从命令行界面到图形用户界面的演变。


易鑫介绍说,命令行界面的优点是由于物理键盘输入相对较高的准确率,以及几乎不需要冗余的操作,所以熟练的用户可以达到非常高的交互效率。但是,其缺点在于交互非常不直观,用户需要记忆大量的指令,有时甚至需要具备计算机领域的专业知识和技能,才能达到较高的使用效率。


为了改进这一问题,研究者提出了图形用户界面。图形用户界面的一大优势是摆脱了抽象的命令,显著降低了用户的学习和认知成本。然而,由于图形用户界面的基本操作是指点,即用户需要使用鼠标操作屏幕指针来选择交互目标,因而其往往对用户指点操作的精度有较高的要求。


易鑫告诉记者,多年来人机界面的发展趋势是越来越强调交互的自然性,即用户的交互行为与其生理和认知的习惯相吻合,并随之出现了触摸交互界面,以及近年来的体感交互、虚拟现实等三维交互界面。三维交互界面的优势是进一步提升了人机界面的自然性,但其挑战则在于完全缺乏触觉反馈,导致用户动作行为中的噪声相对较大,难以进行交互意图的准确推理,从而限制了交互输入的准确度。


“此前,也有研究者尝试采用贝叶斯方法解决文本输入中兼顾交互的自然性和高效性这一难题,但往往仅考虑了落点位置信息,作用有限。”易鑫告诉记者,为此,他在自己的研究中面向多种输入接口,从点击模型精度优化(提升计算精度)、面向不确定性输入映射的计算方法扩展(扩展计算方法)和文本输入手部动作建模(扩充先验知识)等方面优化了文本输入的基本贝叶斯方法,相应的技术也大幅提高了自然文本输入的交互性能。


触屏设备上的模型优化


易鑫在其研究中,针对触屏软键盘这一文本输入接口上的胖手指难题,提出了触屏软键盘上精度优化的点击模型。


他告诉《中国科学报》,在日常生活中,虽然智能手机、智能手表等触屏设备正变得越来越普遍,但由于触摸操作的不准确性,在触屏上点击小尺寸目标仍然十分困难。而其不准确性主要来自两方面原因:一是用户点击行为中的噪声,也常常被称为“胖手指”问题,二是点击位置识别算法的误差。


为了测量用户在智能手机上触摸时的落点偏差,易鑫和他的同伴从校园招募了多名被试人员。在实验中,他们主要关注两个问题:一是落点偏差是否随着目标位置的不同而不同,二是拇指和食指两种点击姿势下的偏差模式是否一致。最终,他们发现,在使用食指和拇指点击时,点击偏差都会受到目标位置的影响,其中后者受到的影响更为显著。


基于触摸落点位置的高精度识别方法,易鑫在论文中进一步建立了接口尺寸与输入速度、准确率和落点分布的作用关系,提升了软键盘输入贝叶斯方法中点击模型与输入行为的吻合程度,定量描述了当用户在宽度为2.0到4.0厘米的超小尺寸全键盘上进行文本输入时的行为特征。


用户实验结果证明,基于该精度优化的点击模型的贝叶斯方法能支持用户在宽度仅为3.5厘米的智能手表全键盘上达到与智能手机软键盘相当的、每分钟35个英文单词的输入速度和近100%的准确率。此外,点击模型的精度优化也能将手机软键盘的文本输入错误率降低23%。


另外,易鑫还在研究中定量分析了点击模型和语言模型的能力分别对文本输入的贝叶斯方法识别效果的影响,为点击模型的精度优化提供了依据和理论指导。


在行为中发现知识


“如果单纯就文本输入问题而言,特别是涉及自然的人机交互方式,易鑫所做的工作在国际上是领先的。”在对易鑫的研究进行评价时,史元春用词十分严谨。


可以作为佐证的成果之一是,易鑫对于空中文本输入的研究。空中文本输入对于后桌面时代交互(如虚拟现实、移动手机)是一个有潜力和被期待的交互需求。在这方面,虽然十指盲打是人们在日常生活中最高效和最习惯的输入方式,但针对基于该能力的空中裸手十指盲打技术的研究,此前尚没有人取得很好的效果。


而易鑫在研究中提出了一种使得空中裸手十指盲打成为可能的新型技术ATK。结果证明,ATK在输入速度和准确率方面都超过了已有的空中文本输入技术,第一次较好地实现了这一已经提出数十年的交互概念。


对于下一步的研究,易鑫的设想之一是,研究贝叶斯方法与大数据机器学习类方法的融合。他表示,虽然贝叶斯方法在目前的研究中取得了不错的效果,但是其模型的参数还是基于少量(数十人)的样本训练而来。随着原型的迭代和可用数据的增多,大数据机器学习类方法将有机会在意图推理中发挥重要的作用。然而,为了保持模型的可解释性与可推广性,需要探索贝叶斯方法与大数据机器学习类方法的有机融合方法,将“黑盒子”与“白盒子”结合起来,以达到精度和推广性的同步优化。


史元春告诉记者,与人机交互领域贝叶斯方法的应用相比,机器学习领域的贝叶斯方法主要是在数据中发现知识,而人机交互则是在行为中发现知识。她正主持进行的一项“十三五”国家重点研发计划中的前沿基础类研究项目,就是开展人机交互自然性的计算原理的研究,致力于探索使机器可以理解人类表达方式的能力。“易鑫的研究也是我们这项研究中的一部分。”史元春说。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

邬贺铨院士:工业互联网ICT的新挑战来(附PPT照片)

来源:走向智能论坛摘要:2月21日,由中国信息通信研究院、工业互联网产业联盟、中国通信学会联合主办的2019工业互联网峰会在北京召开。中国工程院院士邬贺铨做题为“工业互联网ICT的新挑战”的主旨演讲。尊敬的苗部长、赵院长、张总&#xff0…

计算机视觉及智能影像报告:未来规模超200亿美元

来源:网易智能近日,Forrester咨询公司对中国计算机视觉及智能影像市场进行了调查,访问了包括研究机构、科研院校、投资机构以及部分互联网企业,视频行业企业,针对以视频行业为代表的文娱产业中人工智能的应用趋势、面临…

权威报告丨2018-2019 新型互联网生态研究报告摘要

来源:商业伙伴摘要:核心观点:1、传统ICT企业与互联网企业,正在相互进入对方业务领地;2、新型互联网企业既有互联网的基因,又专注于B端企业级市场;3、政府、金融与制造是新型互联网市场规模最大的…

【杂】如何修复视频--> Wondershare Repairit

近日换宿舍,从一个校区搬到另一个校区,突发奇想决定用相机录一点视频~ 浅浅尝试一下录vlog才发现做短视频也并非想象中那般容易,尤其是构思内容和文案,并且实施起来也会有很多问题,比如手拿着相机录真的很抖o((⊙﹏⊙)…

中国独角兽企业总榜发布:百亿超级独角兽达13家(附榜单)

来源:悟空智能科技摘要:这份榜单中的独角兽企业均为2018年有外部融资且估值超10亿美元的优秀企业,中国共有203家企业上榜。这203家独角兽企业涉及金融、文化娱乐、汽车交通、企业服务、物流、硬件、本地生活、医疗健康、电子商务、房产服务、…

一文读懂图像传感器

来源:传感器技术图像传感器是各种工业及监控用相机、便携式录放机、数码相机,扫描仪等的核心部件。目前,这个快速增长的市场现在已经延伸到了玩具、手机、PDA、汽车和生物等领域。图像传感器图像传感器定义及种类图像传感器应用成像物镜将外界…

MyEclipse配置Tomcat 6

打开首选项 禁用MyEclipse自带的Tomcat 6 下载apache-tomcat-6.0.29.tar.gz 地址:http://yunpan.cn/cKg6kq2RmjdUB 提取码 986a 地址:http://pan.baidu.com/s/1kTDqZiv 下载后只需要解压即可使用。 配置下载的Tomcat 6地址 转载于:https://www.cnblogs.…

一文读懂5G:颠覆生活资费天价?

来源:网易手机当我们还在习惯于用非智能机慢速浏览web网页的时候,3G网络悄然而至,当我们认为3G已经能够满足日常所需的时候,4G已经走入了我们的生活,而当我们直到今天,依然感叹于4G的快速时,更加…

6分钟完成ImageNet训练,NVIDIA创下六项AI性能新记录!

来源:智东西自AlphaGo引爆人工智能大潮以来,其中的大热门——机器学习,不仅在计算机视觉、语音处理等领域不断突破技术的瓶颈,而且开始快速普及到安防、金融、医疗等多个传统行业。从刷脸支付到个性化推荐,机器学习已经…

一文看尽2019 MWC十大新机

来源:网易智能、网易手机一年一度的世界移动通信大会(MWC 2019)在巴塞罗那正式拉开了帷幕,今年的MWC因为有了折叠屏的加入,看点更足,同时随着5G技术与5G设备的推进,整场大会逛下来,相…

新型人造DNA结构信息密度加倍

来源:中国科学报脱氧核糖核酸(DNA)中存储着遗传代码。它由4种核苷酸组成,以4个不同字母表示。美国研究人员最新合成一种由8个字母组成的新型DNA结构。其信息存储密度加倍,未来有望应用于合成生物等领域。DNA是存储及传…

未来的农业没有农民

来源 : science robotics作者 :Senthold Asseng、Frank Asche编译:机器之能 微胖摘要:本文取自最新一期Science Robotics 的Future farms without farmers 一文。文章认为,未来农场的所有组成部分已经存在。随着时间的…

模式识别与机器学习笔记(一)

本系列博文是对研一课程《模式识别与机器学习》的随堂笔记,希望将老师所讲的与自己的见解记录下来,方便加深自己的理解以及以后复习查看,笔记完全按照老师所讲顺序,欢迎交流。 一、模式识别与机器学习的基本问题 机器学习主要解…

重磅推荐:中国人工智能趋势报告(完整版)

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云…

模式识别与机器学习笔记(二)机器学习的基础理论

机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。 一、极大似然估计(Maximam Likelihood Estimation,MLE ) 在了解极大似然估计之…

Cell Stem Cell:研究人员开发出大脑类器官用于研究认知障碍!

图片来源:Cell Stem Cell来源:细胞摘要:来自耶鲁大学的研究人员近日在实验室培养皿中模拟了两种大脑结构以及它们之间的相互作用,为揭示神经精神疾病的起因带来了曙光。耶鲁大学遗传学副教授In-Hyun Park及其团队创造了大脑中丘脑…

图像处理与图像识别笔记(一)

本系列是研一课程《图像处理与图像识别》的随堂笔记,主要内容是数字图像处理方面,根据老师的讲课内容与自己的理解所书写,还会有一些具体实现的代码,基于Python,欢迎交流。本篇主要介绍图像处理与图像识别的基础知识。…

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date,这是java.util.Date的子类。查询API后发现可用的方法很少。包含构造只有4个: Date(long date) 使用给定毫秒时间值构造一个 Date 对象。voidsetTime(long date) …

神经网络的黎明

来源:中信出版社摘要:任何人工智能的难题都可以被解决。唯一能证明这一论断成立的是这样一个事实:自然界通过进化已经解决了这些难题。但在20 世纪50年代就已经存在各种暗示,如果AI 研究者能够选择完全不同于符号处理的方式&#…

计算机视觉(一)概述

一、什么是计算机视觉 计算机视觉(Computer Vision)是一门如何使计算机“看”的学问,让摄像头和电脑代替人眼对目标进行识别、跟踪、测量等机器视觉。计算机视觉能够模拟人类视觉的优越的能力,如识别物体、估计立体空间与距离、躲避障碍、理解图像、想象…