腾讯俞栋:定义下一代智能人机交互,从目标、挑战到实现路径

640?wx_fmt=jpeg

来源:腾讯AI实验室


语音识别及深度学习领域专家、腾讯AI Lab副主任及西雅图实验室负责人俞栋博士,在2018年腾讯全球合作伙伴大会上展示了腾讯AI正在推进的跨领域前沿研究:下一代的多模态智能人机交互。以下是有补充的演讲全文,介绍了人机交互的历史与目标、下一代智能人机交互的优势与挑战,及腾讯AI的解决方案。

人机交互的未来

就是多模态智能人机交互


人机交互的历史

在计算机的发展历史上,随着技术的进步,发生过几次大的交互模式的演进。最近的两次大家比较熟悉的转变是从以鼠标/键盘为主的交互模式转换为以触摸和语音为主的交互模式。


人类创造计算机的最早目的是帮助自己处理一些繁琐的计算任务,比如弹道计算;那时候,只有经过训练的专业人员才有能力向计算机输入信息和阅读计算机输出的结果。随着硬件和软件技术的发展,计算机的速度越来越快,功能也愈渐强大,人与计算机的交互方式也越来越多样化,并日益向对人类而言更自然更便捷的“以人为中心”的方向发展。实际上,在计算机的发展历史上已发生过几次显著的交互范式演进。


1946 年正式投入使用的世界第一台通用计算机 ENIAC 的输入和输出都在卡带上进行,这种人机交互方式需要对卡带进行加工(打孔或涂绘等),从而为计算机提供二进制程序,因此速度缓慢。60 年代中期,命令行界面出现了,计算机使用者可以通过键盘直接输入程序并在屏幕上获得反馈,各种编程语言也顺势发展。1968 年,Douglas Engelbart 设计的 NLS 系统将鼠标、指针、超文本和多窗口界面整合进了计算机系统中,奠定了我们当今的主流桌面计算机的基于图形界面的形式基础。

人机交互的未来

现在,智能手机的普及已经让人们习惯了基于触摸屏的交互方式,现在几乎所有有人的地方都有“点手机”的身影。在语音识别和自然语言处理技术的推动下,基于语音的交互方式也正在迅猛发展——智能语音助手已经成为了很多智能手机的标配,智能音箱也正在进入越来越多的家庭。此外,基于计算机视觉乃至脑波分析的交互技术也已经出现,比如通过人脸跟踪控制系统或通过检测玩家的表情来个性化地调整视频游戏的难度和剧情等。


640?wx_fmt=png


交互模式的演进主要还是为了降低交互的困难程度,使更多人能够使用计算和智能设备,也使用户能够方便地使用更多形态和数量的设备。显而易见,每一次交互范式的转变都带来了新的用户群体、新的应用场景、新的商业模式、和新的想象空间。比如触摸方式的普及使很多老年人也会使用智能设备,语音技术的进展则使得我们可以远距离控制设备,极大地增加了可交互设备的数量。但是,新型交互方式并不会在所有场景中都完全替代已有的交互方式;在可预见的未来里,程序命令、图形界面和语音等交互方式都将有各自更为擅长的应用场景,基于智能处理技术的多模态交互将成为人机交互发展的未来。


多模态智能人机交互系统的优势


多模态的智能人机交互相比单模态的传统交互方式有几个优点:

640?wx_fmt=png

优势1: 交互自然

最明显的优点是交互的自然度和自由度,用户可以根据场合以及对不同模态的熟悉度来选择一种或多种方式与设备交互,比如用户可以用手势或语音或者结合手势和语音来表达同一意思。


优势2:信息融合

在很多场景下,单一的信息源往往不足以保证系统的准确率和鲁棒性,比如在高噪音场景下,语音信号会受到很大干扰从而影响语音识别的准确率。然而通过多模态信息的融合,比如同时基于手势、口型或面部表情我们可以获得更精确的语义信息。不但如此,多模态信息融合也可以使系统更准确地辨识用户、情感、场景、和发声人位置,从而降低交互的成本。


优势3:互为监督

不同模态之间可以互相提供关联和监督信息。不同模态之间的关联是语义理解的一个很重要的组成部分,比如当我们提到一个有实体的概念时我们往往会联想到这个实体的形状、声音、运动方式等诸多方面,又比如当我们听到咣当一声时会联想到门被关上了,并且头脑中会出现门的形象。这些都是通过多模态之间的关联学习到的。不同模态之间的关联和监督信息还能够帮助系统在运行过程中持续做自适应学习,比如当系统同时具备麦克风阵列和摄像头阵列时,麦克风和摄像头可以互相提供校准信息。


优势4:多维感觉

这对用户和系统都很重要,因为人在交互过程中,除了语言信息外,还会使用很多副语言信息和非语言信息,例如态度、情感、意图等。这些信息很多是通过面部表情和肢体语言来辅助表达的。多维感觉对用户尤其重要,因为用户可以在多模态交互系统中从视觉、听觉、触觉等多个维度来感知和体会智能设备想要表达的情感和语义。


智能人机交互系统的终极目标


智能人机交互系统的终极目标是使人与机器交互和人与人交互一样轻松自然。我们认为从以人为本的角度来看,理想的系统应该具有几个重要的指标。

640?wx_fmt=png

目标1:不用学就会

最重要的指标就是不用学就会,如果用户愿意学习一些不熟悉的交互方式,他/她会有更多的选择,但是如果他/她不愿意学的化也能以其最自然的方式比如听觉和视觉与机器交互。

目标2:多模态交互

人与人之间的交互就是多模态的,我们可以用语言、表情和肢体动作等方式传达我们的想法和意图,因为这些方式对人而言是最自然的。基于刚刚提到的多模态交互的优势我们认为这样的系统也应该是多模态的,这里多模态包含输入的多模态和输出的多模态,而由于智能设备可以提供屏幕输出,从输出的效率来说它们甚至可能比人更为优越,这一模态是很多人机交互场景的核心。

目标3:深层次理解

结合场景、世界知识和历史交互信息,再对语义、语用和情感进行深层次理解,能交互自然而有效率。

目标4:拟人式对话

在系统的输出侧,如果系统能够以高逼真度、高自然度、和高清晰度的拟人形象、声音、用词、和表达方式来和用户交互,就能大大减小对用户感知能力的要求。

目标5:个性化交互

最后一个指标是个性化交互,这也是为了使交互更自然。比如当与小孩交互时我们会希望机器的回答匹配孩子的认知水平、智能设备的语调和口吻适合孩子。又比如当与不同人交互时我们会希望智能设备的交互方式和内容是用户所感兴趣的。我们虽然不知道这些指标到什么程度用户会觉得足够好,但我们知道如果智能设备可以生成对话和形象使之表现得和与用户进行视频通话的朋友一样自然, 那智能人机交互系统的终极目标就达到了。


640?wx_fmt=png

智能交互系统距离期望目标尚远


在下一代智能交互的道路上,我们已经有了一些进展,但离我们的目标还有不少的距离。比如,虽然用户可以用语音和系统交互,但是用户往往需要适应机器,需要学习如何和系统交互以及系统能理解什么。在多模态交互方面,各模态往往互相独立或只有单一模态,没有充分发挥多模态能提供的能力和体验。对语义、情感、和场景的理解也还远远不到位,往往只有在非常特定的垂类上有一定的理解能力,超出这些垂类系统就表现得非常弱智。机器在交互过程中脸部表情和声音还不自然,并且有时会出现前言不搭后语的情况,更不用说通过不同的语调,借助不同的语气词,使用不同的回答方式,并结合丰富的面部表情和肢体语言来和用户交互。系统对用户也没有或只有简单的辨识和建模,对答没有统一风格也缺少个性化特色。


多模态智能交互系统的挑战与实现路径


我们可以看到,人机是一个高度协同的系统,为了降低对人的要求和限制,我们必须通过技术手段提升机器的能力。这里是一个高度简化的多模态交互系统,我们只列了语音和视觉两个模态的输入和输出。不过,这已经足以让我们看到系统的主要能力和信息流。在目前的系统中,这个框架图中的每一个模块都还不完善,都需要很多的前沿研究和细致的工程实现。要实现人机智能交互的终极目标我们面对的挑战还很多。这里我列举其中的四个挑战和我们正在研究的解决方案。

挑战一:复杂场景下语音唤醒和识别

640?wx_fmt=png


在多模态交互系统中,语音作为对人来说最自然和最常用的交互手段是不可或缺的。虽然语音识别技术经过这些年的研究已经能在近场识别中达到或超过实用的门槛,但在很多真实远场场景下性能还远远不够,而远距交互是语音优于其他交互方式比如键盘和触摸的关键点。这里主要的挑战来自于重口音和鸡尾酒会这样的场景。为了在这些复杂场景下提升系统的识别率,我们的解决方案需要结合声源和人脸信息来辨识说话人及其方向,使用多通道语音来分离和跟踪特定说话人的语音,并利用该说话人信息做识别自适应。目前的交互系统中有一个很大的痛点是用户需要经常使用唤醒词来唤醒系统,这使交互过程不够自然,效率不高。我们认为结合语义、目光交流、和视觉场景分析是减少交互中唤醒词使用次数的重要方向。

挑战二:对话、场景、和情感理解

理解能力,这不仅包含自然语言的理解还包含场景和情感层面的理解。自然语言理解被广泛地认为是目前系统里最薄弱的一个环节,这是因为语言是用来刻画和描述世界并传递信息的,所以要理解一个语句所对应的实体或概念,我们往往需要了解这个实体或概念相对应的视觉、听觉、触觉体验以及和它相关的其他概念。而且,为了提升语言交互的效率人们往往假设许多背景信息交互的双方是已知的,不需要在对话中提及或传输。


640?wx_fmt=png


这些都表明要提升理解能力很重要的一点,就是构建一个关于世界的模型,这个模型可能不止包含语言表达的知识还包括与概念相关的其他模态信息。这也表明为了使系统更有效率地和用户交互需要建立用户模型,用以描述用户的个性、习惯、爱好、对话历史,以及用户所了解的世界,有了用户模型,系统就可以针对性地进行个性化交互,也可以比较容易地理解和用户相关的语言。另外,为了提升对对话场景和情感的理解,我们可以同时利用声音和视觉信息来判别场景和情感。

挑战三:智能对话管理

对话需要逻辑上一致、语义上连贯。与人与人交互类似,人机交互也有不同的目的,并且多种目的的交互方式往往会在同一个对话段里出现,对话系统需要能灵活处理不同类型的对话而且需要因人而异。

640?wx_fmt=png


一个可行的实现方式是将任务型、问答型、和闲聊型对话分解成可复用的更小的数量巨大的微技能,并通过统一的多层次对话管理模块整合在一起。对话管理模块需要能支持用户主导和系统主导的对话,能在两者之间自由切换,并对不同个性的用户使用不同的对话策略。

挑战四:高逼真度多模态对话回复

这是为了使用户能够和与人交互那样自然地得到信息反馈。视频展示方面,我们的做法是逐步实现低成本、高可定制化、可控人脸实时动态三维建模和高真实度纹理生成和渲染。这里是我们和腾讯NEXT Studio团队合作的Siren虚拟人,可以看到我们在高逼真度智能控制语音和人脸方面的一些进展。对话回答的生成方面,我们从数据中总结出各种表达语义信息的模板,并利用它们作为基本回复方式结合用户模型和对话状态生成最后的回答,并和视频同步合成具有情感的表情和声音。

640?wx_fmt=png

Siren虚拟人


这样的虚拟人已经具备了一些基础的功能,包括多模态的输入、语音闲聊、简单的行政功能等,但是,完全达到智能人机交互的终极目标还有很长的路要走。


多模态智能人机交互系统赋能应用场景


然而,在我们逼近这一目标的过程中,就可以逐渐赋能一系列应用场景,比如在办公场景下的虚拟秘书、家庭里的陪伴机器宠物、游戏里的虚拟玩家、车载虚拟助手、和社交里的千人千面的交互bot。

640?wx_fmt=png

多模态智能人机交互系统赋能应用场景


比如,对于青年人来说,开车途中可以通过和虚拟助手通话来控制汽车中控系统和智能设备,而虚拟助手还可以通过语音和视觉信息来判断驾驶员的疲劳程度和情感状态,降低驾驶风险。工作中,虚拟秘书可以帮助处理高重复性、高标准化工作,让你专注在核心问题上。下班后,虚拟社交使你能够打破时间、空间、想象力的界限,兼顾娱乐性、隐私性,创造更大的世界。

640?wx_fmt=png

多模态智能人机交互系统服务不同场景下的不同人群——青年


再比如,对于儿童来说,虚拟教师可以随时随地根据儿童的现状和特点做针对性教学,学生可以通过AR/VR来认识世界并通过和虚拟世界中虚拟人物的交互而快速掌握知识。虚拟妈妈可以代替真实的妈妈陪伴儿童,给儿童讲故事,陪儿童玩游戏,指导儿童做作业。

640?wx_fmt=png

多模态智能人机交互系统服务不同场景下的不同人群——儿童


随着智能技术的进一步发展,计算机对多模态数据的理解和整合能力也将越来越强,人机交互也将变得更加自然便捷。可以预见,未来的智能机器不仅能听懂和理解我们的话语,通过我们微妙的肢体语言洞悉我们的情绪,也许甚至还能基于充分的数据在我们表达出自己的想法之前就预测到我们的意图。


此外,未来的智能机器也许根据需求精确地呈现视觉形象,甚至借助味觉、嗅觉和触觉等方式与人类进行更丰富的交互。正如某些科幻中描述的那样,随着多模态智能人机交互的演进,未来某天我们也许真的能够创造出那种无论是外观还是行为都与人类别无二致的智能机器。我们非常看好多模态智能交互的未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493761.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图像处理中的通信原理——冈萨雷斯读书笔记(四)

完美重建要求使用无限求和来内插,实践中,不得不寻求某种近似。在图像处理中,二维内插最普通的应用就是调整图像的大小。放大可看成是过取样,缩小是欠取样。无论是过取样还是欠取样,都需要内插,内插有最近邻…

unity3d游戏开发(一)——圈圈叉叉

参考:http://game.ceeger.com/forum/read.php?tid1719 ———————————————————开始————————————— 好吧,吹了那么多我们开始吧,先发个最终截图 当然,你觉得3个格子太少,你还可以扩展成任…

腾讯张正友:攻克可进化机器人,6个研究趋势与7大技术突破点

来源:腾讯AI实验室11月2日,机器人及多媒体技术专家、腾讯Robotics X实验室主任张正友博士,在2018年腾讯全球合作伙伴大会的人工智能分论坛上,展示了腾讯在机器人领域的思考。包括:腾讯将人工智能(AI&#x…

摩拜开锁方式

摩拜作为共享单车中发展得比较好的一个,最近又因为被美团收购和抛弃同龄人的文章上了新闻,我们从技术上看,它的解锁时候的通信方式是怎样的呢? 注意到摩拜的一款车车筐里面装了太阳能电池,所以能源问题容易解释。我们先…

前沿地带:从量子计算到量子互联网

来源:资本实验室当我们进入互联网时代,科技进步和社会发展就建立在了数据与计算能力的基础之上。庞大的数据量与快速的计算能力这两大基本因素决定着我们进入未来社会的速度,而在当前的各种新技术中,量子计算无疑是最具未来感的新…

千万级负载均衡架构设计

负载均衡 (Load Balancing) 负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。 大型网站负载均衡的利器 全局负载均衡系统&#xf…

科学为什么重要?马化腾公开信引热议,透露企业未来发展方向

来源:世界科技创新论坛摘要:美国强大的源泉,不是因为它有原子弹,航空母舰,隐性飞机,或者芯片,而在于它牢牢地掌握着基础科学的最前沿。科学一点都马虎不得,没有捷径可走,…

吴恩达斯坦福大学机器学习 CS229 课程学习笔记(二)

终于要开始正式的学习了。看了第一节课最大的印象是Ng老师的优雅,儒雅,偏英式的发音(突然意识到他从小在伦敦长大)。配着字幕看的视频,但还是希望能锻炼一下自己的听力,也只有在自己看过一遍印象才深刻&…

当自动驾驶汽车撞过来的时候,你希望它如何判断?

来源:网易智能 摘要:据报道,当无人驾驶汽车在繁忙的街道上发生碰撞的时候,它该优先避免让谁受伤呢?它该杀死谁,而不杀死谁呢?麻省理工学院的一项研究表明,你的回答将取决于你来自哪里…

细数黑客攻击的七大战术

不计其数的黑客们游荡在因特网中来欺骗那些容易上当的用户。它们多年使用着重复的攻击手段,毫无创新地利用着我们懒惰、误判和一些犯二的行为。 不过每年,恶意软件研究人员总会遇到一些引人侧目的攻击手段。这些攻击手段在不断拓展恶意攻击的范围。新的攻…

人工智能黑暗面

来源:大数据文摘编译:DonFJ、蒋宝尚机器学习是现在大家都打了鸡血想用或者在用的技术。但是,你以为只有好人能用它吗?Too young too simple!接下来,我将揭秘AI技术黑暗的一面——犯罪份子和人工智能的孽缘。…

认识蚁群算法

好像是看罗胖的罗辑思维,看到过一种说法,越是准入门槛高的,难以取代的行业,所需的工具是越简单的。摄影师需要昂贵的镜头,而画家却只需要简单的纸笔,尽管照片比画逼真得多,但是却无法取代绘画的…

薛定谔的猫跳进了生物学界,化学家表示:没有我可能办不到

来源:原理摘要:在生物科学界流传着“物理学家累了就来生物界玩一玩”的调侃。确实,现今学科之间密不可分,生物学的发展对特定物理技术的需求也越大。但是这样化学家却不满意了?1943年,物理学家薛定谔在都柏…

图像配准之特征点匹配的思考

最近赶时髦,看了一些智能优化算法如蚁群算法,还有机器学习的一些东西,就想着怎么把这些先进的东西用在图像配准中。头脑风暴了一下,觉得在已经检测到两幅图像的特征点的基础上,就如何对它们进行匹配似乎有优化的空间。…

指针%p输出的一些认识

还是看源码发现的问题 static int import_lowe_features( char*filename, struct feature** features ) 这个函数的作用是将txt文件中的Lowe的特征点导入到feature结构体中。在这个函数中第二个参数是指向结构体的指针的指针。 f calloc( n, sizeof(struct feature) );//在内存…

全球智慧医疗产业发展现状

来源:无锡情报所摘要:全球智慧医疗市场主要集中在美国、欧洲、日本和中国,而产品生产主要集中在美国、欧洲和日本。 随着大数据、云计算、物联网和人工智能技术快速发展和普及,运用互联网应用平台提升医疗资源的使用效率、提高救治和服务水平…

2018AI和机器学习界的12个重大收购案

来源:网络大数据据IDC声称,到2018年,全球人工智能(AI)和认知系统支出将达到190亿美元,这比2017年的支出总额增加约54%。并购在不断发生。仅2017年就见证了几起大宗收购,比如雅虎被Verizon收购、苹果收购Shazam等。知名…

PCA对特征点描述子降维

降维在机器学习领域其实是很重要的一部分,因为在高维情形下回出现样本稀疏,计算距离、内积困难,是所有机器学习面临的共同问题,被称为维数灾难(Curse of dimensionality),而降维就是解决的一个办…

C语言基础知识整理

一、 关于sizeof和strlen。Sizeof()用于计算某类型或者某变量在内存中所占空间。比如整数分为short型,int型,long整型,分别占2,2/4,4个字节,int型具体占用几个字节和编译系统有关。我们输入字符串时通常用c…

【2017-2019】Gartner战略技术趋势一览

来源:学术plus 、装备参考近期,Gartner公布了2019年十大战略技术趋势的预测,值此之际,本文总结回顾并简要分析了2017-2019三年的战略趋势变化。Gartner副总裁兼研究员David Cearley指出:在智能、数字、网格三大领域下的…