有了这个标准,你就知道和你聊天的AI是什么水平了

5738c6e8b46ec384c0f6a96e14ba65f4.jpeg

来源:AI前线

编辑:刘燕

InfoQ 获悉,6 月 28 日,由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起,联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI 对话系统分级定义》(以下简称《分级定义》)正式发布。

《分级定义》将推动 AI 对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用有据可依,并将加速下一代 AI 对话系统的研发与应用。   

3b9944f40107ba5748776a2f99322e49.jpeg

《AI 对话系统分级定义》

AI 对话系统已演进到第三代:

以大数据和大模型为显著特征

起源于图灵测试的 AI 对话系统,是人工智能领域最重要的研究方向之一。

如果说自然语言处理是人工智能“皇冠上的明珠”,那么 AI 对话系统则是自然语言处理中最难、最核心的任务之一,是“明珠中最亮的那颗”。

因此,AI 对话系统被认为是衡量人工智能发展水平的重要因素,代表了人工智能的发展方向。

在工业应用领域,AI 对话系统呈现出“爆炸式”增长的态势,如以“小度”“小爱”为代表的智能助理,广泛应用于个人助理、智能家居、智能汽车中,还有以谷歌对话机器人 Meena、Facebook 聊天机器人 Blender 为代表的开放域闲聊产品中,与大众日常生活紧密相关。

黄民烈认为,近年来,随着深度学习技术的不断发展,AI 对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,对话能力产生了革命性变化,在开放话题上展现了惊人的对话能力,对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。   

e4a43dfde5189ea6514e9dcbe2e978e8.jpeg

AI 对话系统发展历程

首个《分级定义》发布,

让 AI 对话系统的能力水平可衡量

然而,作为前沿技术,当前 AI 对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。

因此,为了更好地评估 AI 对话系统的能力水平,清华大学智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI 对话系统分级定义》,旨在衡量 AI 对话系统的能力水平,从而促进 AI 对话系统的进一步研究,同时为工业界应用提供参考。

以下是参与本次《分级定义》的研究机构和研究者 List(以姓氏拼音排序)。可以看到,基本上国内对话系统的主要玩家都参与到了这次分级定义的制定中。

科大讯飞 AI 研究院副院长陈志刚,京东集团副总裁、IEEE Fellow 何晓冬,清华大学长聘副教授黄民烈,阿里达摩院总监、资深算法专家李永彬,华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群,华为诺亚方舟实验室高级研究员糜飞,百度主任架构师牛正雨,腾讯 AI Lab 总监史树明,中国人民大学副教授宋睿华,阿里达摩院总监孙健,小米技术委员会主席、AI 实验室主任王斌,百度技术委员会主席吴华,美团自然语言处理中心总监武威,中国人民大学副教授严睿,中国科学院深圳先进技术研究院副研究员杨敏,OPPO 高级技术总监杨振宇,哥伦比亚大学助理教授俞舟,北京师范大学新闻传播学院院长张洪忠,哈尔滨工业大学副教授张伟男,北京聆心智能总监郑银河,三星电子中国研究院语言技术部技术总监朱璇。   

f135d4b459504935d04e5ab63933b9df.jpeg

黄民烈教授详细介绍《分级定义》

发布会现场,黄民烈教授向 InfoQ 等媒体详细介绍了《分级定义》的制定情况。

他表示,考虑到 AI 对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。

在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一 / 多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发,将 AI 对话系统划分为从 L0~L5 的六个等级,等级越高,AI 对话系统水平越高。

当前,AI 对话系统水平

最高已发展至 L2~L3 之间

多位参加制定的专家学者向 InfoQ 表示,在此《分级定义》的标准之下,当前,全球 AI 对话系统水平最高已发展至 L2~L3 之间,常见的如“小爱同学”等 AI 智能助理。

按照 L4 的定义,“在 L3 的基础上,在新场景上具有高质量对话能力,在多轮交互中拟人化(指人设、人格、情感、观点等维度的一致性)程度较高”。

现阶段,AI 对话系统在从 L3 向 L4 迈进的过程中,还面临诸多挑战。

华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群认为,保持人设的前后一致性就是一大难点,例如做到在对话过程中没有逻辑错误,在上下文的对话中不会自相矛盾,对话内容需要符合常识,还要跟人设保持一致,有些不一致的对话情形非常隐晦不易觉察... 这些实现起来都相当困难。目前,即便是最好的 AI 对话系统,还无法完美符合 L4 的标准。

值得注意的是,L4 级别强调拟人化的能力,但这并不意味着,在 L4 级别之前的 AI 对话系统就可以不用考虑拟人化,即便是 L1 级别也可以考虑实现简单的拟人化。但从分级角度看,拟人化的能力放在 L4 级别更合适,因为拟人化实现起来难度很高。而且,要在已经达到了 L3 的能力的基础上,在先具备多场景的能力后才能衡量拟人化。

可以看到,目前已经有很多厂商在做一些拟人化的探索,例如给 AI 对话产品赋予情感分析、情感疏导、人设等能力,使之表现出一定的拟人化程度,这类简单的拟人化特征相对容易实现。但这并不表明,其达到了 L4 的水平。L4 并不是简单的拟人化,还强调各个维度的一致性,保持一致性具有非常高的要求,此外,相较单轮次对话,在多轮对话中实现拟人特征的一致性富有挑战。即便现有的一些对话系统在做拟人化方面的尝试,但还不足以达到一致性的高度。

L5 级别,代表着 AI 对话系统的最高水平。

从 L4 到 L5 的演进,也需要攻克诸多技术难点。

小米集团技术委员会主席、AI 实验室主任王斌认为,L5 级别所要求的更高的拟人化程度,需要做更多显性、隐性内容的统一理解和一致表达,这个过程挑战重重,对于对话内容及背后的知识都有非常高的理解要求。此外,在开放场景里,L5 级别的 AI 对话系统要主动学习、持续学习,要求机器有主动性,并不断演化成长。对人而言,随着人的成长,其知识、观点、能力等多个维度都在演变,对话系统也要考虑这种演变。对话系统需要通过不断的交互学到新的东西,这样才能不断迭代演化,能力上持续进步。从目前的技术和发展趋势来看,要做到在整个迭代中学到新东西,这是 AI 追求的最终目标,本身就是巨大的挑战。此外,多模态的感知和表达并不如想象中容易。真实的系统中,不同模态间的关系非常复杂,如何从多模态中互相促进也是一个难点。

黄民烈表示,记忆的能力,联想和推理的能力、自学习的能力等都是从 L4 到 L5 实现过程中,需要具备的技术和能力。在 L5 级别,多模态的目标,是让对话系统真正做到“类人”。尤其在未来,如果适用到元宇宙里,表情的识别、语音的理解、从语音中感受情绪等能力就变得非常重要,高表现力的语音合成、动作和表情细粒度的表达等都需要一一攻克。

刘群补充道,记忆能力并不是简单的事情,对话系统不仅要记住人说过的事情,还要对这些记忆进行处理,是需要长期记忆还是短期记忆,是该记忆还是不该记忆,这些都需要很好的建模才能做到。

专家学者:《分级定义》具有多重意义

刘群向 InfoQ 等媒体表示,本次《分级定义》的制定在行业内是一次大胆的尝试,能够引发 AI 对话系统研究领域的思考和讨论,帮助研究人员更好地发现系统的问题并明确研究方向。

王斌表示,在从事 AI 智能助理的研发过程中,时常感到难以评判所开发 AI 对话系统的水平,因此《分级定义》的制定非常必要。《分级定义》发布后,AI 对话系统能力水平的衡量将有据可依。《分级定义》面向大众,面向用户,让用户能够更多地关注、更清晰地理解 AI 对话系统及其当前的能力水平;对行业来说,行业有了统一的评估规范,有助于企业明确研发方向。随着《分级定义》发布,以及后续相关评测规范的制定,能够促进行业更规范地发展。

北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战,他认为《分级定义》的发布 有助于社会对 AI 对话系统的发展阶段形成更清晰地认知,对于思考、讨论、制定法律规范形成有力参考,以规避 AI 对话可能产生的伦理问题。

AI 对话系统最高级别的应用为复杂情感任务,该《分级定义》的发布将促进 AI 对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,大大释放人力和物力成本,促进前沿科技走进大众日常生活。

此次《分级定义》的发布,是 AI 对话系统走向规范化、系统化发展的第一步。接下来,黄民烈教授将联合该领域相关研究机构及研究者开展白皮书的编纂,聚焦 AI 对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

7e64b024defb02b6d95b936011c4e4e0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481881.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UCL汪军专访:从生命体决策出发,探索智能决策的安全与风险

来源:智源社区整理:沈磊贤编辑:李梦佳导读:我们的日常生活中无时无刻不涉及到决策,如果说感知智能是从观察到发现规律的过程,那么决策智能就是从规律再返回到感知世界,进而改变数据的过程。这样…

课程设计-毕业设计-JAVA画板课程设计---总之岁月漫长,然而值得等待。

在校大学生的一份辛苦劳动成果写了一个小画板程序。 任务书... 1 1.1设计内容... 1 1.2设计任务及具体要求... 1 1.3软件开发运行环境.. 1 2 本组课题... 1 2.1课题... 1 2.2本人任务... 2 3 程序功能简介... 2 1.画板具体功能.. 2 2.功能分析:... 2 …

忆阻器取代晶体管?时间问题!

来源:悦智网1947年,贝尔实验室发明了晶体管,开创了一个电子设备的时代,电子设备比体积庞大、易碎的真空管电子设备更小、运行更冷、功耗更低。晶体管用作二进制开关,以促进电流从关闭状态变为开启状态。收音机、计算器…

可微硬件:AI将如何重振摩尔定律的良性循环

来源:OneFlow撰文:吕坚平本文阐述了当今AI硬件渊源,跳脱过去芯片设计窠臼,以可微分GPU及可微分ISP为例,提倡以AI为本的可微分硬件理念。希望借此可重振软硬件彼此加持的雄风,缓解甚至逆转摩尔定律的衰退。据…

2nm就靠它了!ASML加速研发新一代光刻机:更贵、更强

来源:万物智能视界用于生产 2nm 芯片的 ASML 新款光刻机预计在 2025 年首次投入使用,对芯片厂商而言,“2nm 工艺战”已经打响。ASML 冲刺 0.55 NA EUV 光刻机对于芯片厂商而言,要想发展先进制程,光刻机是关键设备。而从…

中国机器人产业图谱(2022)

来源:阿里云加速器与行行查研究中心编辑:蒲蒲当前中国机器人产业呈现良好发展势头,产业规模快速增长,“十三五”以来年均复合增长率约为15%;产业格局不断优化,以智能制造、智慧服务为使命与愿景的机器人企业…

全球十大半导体企业,美国独占七席

来源:芯师爷想要了解半导体行业,就永远绕不开一个国家:美国。作为半导体的重要发源地,美国成功确立了芯片市场的“老大”地位。根据IC Insights的芯片市场研究报告,2021年美国企业占据了全球芯市场总销售额的54%&#…

【前沿技术】AI终于攻陷了数学领域!高数考试超过普通博士??

来源:智能研究院高数考不好,不知道是多少人的噩梦。如果说你高数考得还不如AI好,是不是就更难以接受了?没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。课程范围…

中科院院士:几乎没有任何研究课题会完全按照预期发展;如果有,这种研究不会有任何突破、不会给人带来任何惊喜...

来源:科学网作者:Philip Ball(《国家科学评论》特约作者)2001年,唐本忠团队偶然观察到了这一有悖常理的光物理现象,从而在发光材料研究领域取得了重大原创突破。2016年,Nature将AIE点&#xff0…

工业人工智能系统框架、关键技术、典型应用与发展趋势

来源:原文刊载于《机床与液压》2022年5月 作者:唐露新 张儒锋 姜德志 林建文 周书兴近年来,智能制造是很多工业发达国家积极推进和重点发展的领域,美国、欧洲和日本等都将目光转向人工智能等核心技术,并不断取得新的突…

MIT Technology Review 2022年“全球十大突破性技术”解读

来源:中国科学基金自2001年起,MIT Technology Review每年都会评选出年度“全球十大突破性技术”,不少在当年崭露头角的技术,如今已经深刻地改变了我们的生活,推动了人类社会的进步。2022年2月23日,MIT Tech…

长文综述:大脑中的熵、自由能、对称性和动力学

来源:集智俱乐部作者:Viktor Jirsa, Hiba Sheheitli译者:JawDrin审校:彭菘峻 编辑:邓一雪 导语我们的大脑在一定程度上是贝叶斯推理系统,生成内部模型对外部世界作出预测,然后将预测与感官输入不…

统计学和机器学习到底有什么区别?

来源:不止数据分析统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而机器学习支撑的人工智能也被称为“统计学的外延”。例如,诺奖得主托马斯萨金特曾经说过人工智能其实就是统计学&#xff0…

谷歌2022学术指标出炉!Nature继续霸榜,CVPR第4,计算机5顶会入Top20

来源:公众号:【新智元】作者:新智元谷歌最新学术指标出炉!今年,AI顶会黑马迭出,CVPR仍保持总榜第4,ICLR和NeurIPS排名继续跃升。值得一提的是,ICCV、ICML直接挤进前20。一年一度的谷…

《自然》揭示:发生意外时,大脑中发生了什么?

来源:学术经纬▎药明康德内容团队编辑 当你需要你关注一些重要的事情时,你的大脑会发生什么?最近,一项发表于《自然》的研究告诉我们一项全新的答案:大脑会释放一股去甲肾上腺素。研究团队发现,去甲肾上腺…

基于嵌入式图像处理平台的实时多目标识别算法

基于嵌入式图像处理平台的实时多目标识别算法 人工智能技术与咨询 昨天 本文来自《科学技术与工程》,作者 王旭辉等 摘 要 提出了一种适用于空间观测任务的实时多目标识别算法,它基于DSP和FPGA组合的图像处理硬件平台,运用散点聚类、轨迹跟…

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习

来源:AI科技评论作者:Rajat Saxena et al.编译:bluemin编辑:陈彩娴与人类不同,人工神经网络在学习新事物时会迅速遗忘先前学到的信息,必须通过新旧信息的交错来重新训练;但是,交错全…

2021-11-05深度学习

关注微信公众号:人工智能技术与咨询。了解更多咨询 基于YOLOv3 和ASMS 的目标跟踪算法 人工智能技术与咨询 3天前 本文来自《光电工程》,作者吕晨等 1. 引言 目标跟踪一直是计算机视觉的重要应用领域和研究热点。随着硬件设施的完善和人工智能技术…

数字孪生技术在自动驾驶测试领域的应用研究概述

来源:汽车测试网作者:王庆涛 周正等摘 要:研究数字孪生技术在自动驾驶测试领域的应用。旨在构建高度开放的数字孪生自动驾驶测试平台,结合仿真测试工具、通信设备、真实测试车辆等功能单元,形成丰富的测试验证环境&…

2021-11-06深度学习

基于军事知识图谱的作战预案语义匹配方法研究 人工智能技术与咨询 前天 本文来自《指挥与控制学报》 ,作者梁汝鹏等 关注微信公众号:人工智能技术与咨询。了解更多咨询! 摘 要 提出了一种智能化的预案语义匹配方法,基于军事知识图谱,建立…