在数字时代,社交机器人正迅速成为主流社会的一部分,从培训医生和教育儿童到提供谈话疗法和客户服务。现在,这是一个价值数十亿美元的全球产业,对具有类似人类社交智能的机器人的需求不断增长,这标志着我们技术史上的一个重要里程碑。由于人工智能 (AI) 的快速发展,机器人——曾经主要局限于沉闷、肮脏和危险的工作,例如放货架、清洁地板和停用炸弹——现在被提升到加入人类社会世界,为社会带来巨大的变革潜力 (1)。此外,作为人类数字孪生,这种机器人可以作为科学探究的宝贵工具,使研究人员能够模拟、研究和更好地理解复杂的人类社会行为和认知过程(2)。
但是,如果您与社交机器人互动过,您可能很快就会意识到这种潜力的局限性。尽管他们的外表越来越令人印象深刻,但他们的互动往往笨拙、生硬和尴尬。感觉有些不对劲。为什么?一个关键的局限性是,当前的社交机器人缺乏社交同步的艺术,在这种艺术中,点头、微笑、手势和语音都是在对话伙伴之间精心策划的(3)。虽然这种轮流对我们大多数人来说似乎毫不费力,但它是一项高度复杂的技能,涉及快速处理他人的言语、声调、面部表情和手势,并精确计划何时以及如何做出回应(4)。这些复杂的交流动态存在于每一种语言中,包括口语和手语,被广泛认为是成功社交互动的基本“引擎”(5)。因此,对于社交机器人来说,要进行人类的社交互动,这种社交同步技能是必不可少的。然而,与许多其他人类社交行为一样,为社交机器人配备复杂的类人社交智能具有挑战性(6)。
在他们最近的论文中,胡等人(7)通过赋予一个人形社交机器人Emo来讨论社会同步的艺术。Emo 是一款皮肤柔软的拟人化面部机器人,可以使用 26 个磁力控制的面部执行器显示各种细微的面部表情。它的眼眶中还有高分辨率摄像头,可以检测不同类型的面部表情。尽管 Emo 可以模仿它检测到的人类面部表情,但参与社会同步涉及更精细的计划和执行响应。为了实现这一目标,胡及其同事使用神经网络训练Emo,根据人类对话者早期的面部动作预测他们的面部表情。例如,检测到嘴角上扬表明将显示快乐的面部表情。Emo 的预测能力使其能够计划和执行自己的面部表情作为响应,从而实现更像人类的社交同步。胡及其同事还升级了Emo的处理能力,使其在轻量级计算设施上运行,从而释放了处理能力,用于开发其他功能,如语音和听力。
使用这种简单而优雅的方法,胡及其同事将Emo的社交互动技能从单纯的模仿(图1A)提升到社交同步的艺术(图1B)。这样的发展对社交机器人的未来有着深远的影响。例如,即使在这种仅基于面部表情的新生形式中,这些轮流技能也可以从根本上改善人机交互中的信任和融洽关系,使社交机器人更接近发挥其潜力。重要的是,Emo新技能的成功将取决于其人类对话伙伴对它们的看法。这些新技能是否改善了与人类用户的社交交流,产生了信任和同理心?还是有些东西还没关?如果是这样,它是什么?鉴于 Emo 的面部表情可以精确控制,解决这个问题的一个富有成效的方法是使用来自人类行为科学的数据驱动的社会心理物理学方法 (8)。具体来说,Emo表情的不同特征,例如它们开始的确切时间或特定的面部运动成分,将被实验操纵,以测试它们如何影响人类用户行为,例如参与者对Emo的信任或参与程度。通过确定促进或阻碍人类用户参与的特定功能,这些反馈可用于提高 Emo 的一般用途和定制应用(包括跨文化互动)的社交沟通技巧 (9),从而提高其实用性、可访问性和适销性 (10)。
图 1.机器人与人类互动中的面部表情模仿与面部表情社交同步。
(A)在面部表情模仿中,社交机器人复制人类的面部表情,这不可避免地涉及明显的延迟和随后的异步。例如,在时间点 3 时,当人类展示他们的面部表情时,机器人保持中立,从而在机器人和人类之间产生不匹配。(B)在面部表情社会同步中,机器人可以从早期的面部动作中预测人类的面部表情(见时间点2)。这使机器人能够将其面部表情与人类的面部表情同步。例如,在时间点 3,机器人和人类同时显示相同的面部表情。信用:改编自胡等人。(7)
最后,人类的社交互动本质上是多模态的,涉及视觉和听觉信号的复杂组合,如点头、“嗯”和“啊”、扬起眉毛、回避目光、长时间眨眼和手势。在这里,胡及其同事专注于单一模式 - 面部表情 - 但他们的结果为开发具有更复杂多模态信号的社交同步技能铺平了道路。这样的壮举,虽然是一个复杂的跨学科努力,但可以真正使社交机器人加入人类的社会世界。