Nature封面:人类还在看提词器,AI的辩论能力却出现了重大进展

来源:机器之心

编辑:魔王、陈萍

人类斗嘴还要看提词器,AI 引经据典的能力却已经比你高出不止一个段位了。

在人工智能打败专业国际象棋选手、围棋选手,并在多个电子游戏中大展身手之后,现在它冲着职业辩论选手来了!

辩论是指对某个议题或主张,以言语 为主要方式,为分辨不同立场之优劣而进行的一种争论方式。辩论需要精湛的口才或强大的逻辑  思辩能力,且讲求反应。

辩论比赛不是人人都能上,很多人甚至连吵完架都后悔没发挥好,那么 AI 呢?它能在辩论中发挥出怎样的成绩呢?

2012 年,IBM 海法研究院开始研发能够与人类辩论的 AI 系统——Project Debater。2018 年 6 月,Project Debater 打败人类专业辩手,并在 2019 年 2 月第二次亮相时,对阵 2016 年世界辩论决赛选手、欧洲辩论赛冠军 Harish Natarajan。虽然在这次人机 battle 中,Project Debater 未能获得胜利,但它展示出了优秀的构建论据以及决策能力。

刚刚,IBM 关于 Project Debater 的一项研究登上了 Nature 封面,介绍了 Project Debater 的架构并进行了性能评估。

论文链接:

https://eorder.sheridan.com/3_0/app/orders/11030/files/assets/common/downloads/Slonim.pdf

Project Debater 与人类的对战

辩论赛的一大难点是论据挖掘,在很长时间里这一能力都被认为超出 AI 能力范畴。但 AI 技术进展、日益成熟的工程技术和广泛的商业需求促使该领域快速发展。IBM 海法研究院 Noam Slonim 博士等人决定开启一项挑战:开发一个能够与人类进行现场辩论的完全自主系统。

这就是 Project Debater。

Project Debater 是一项巨大的工程成就,融合了多种基于文本收集和解释辩论相关材料的新方法。

研究人员为了评估 Project Debater 系统的总体性能,将其与各种基线进行比较,并跟踪其随时间的进展情况,由结果可得,Project Debate 的评估结果明显优于其他系统,并且非常接近人类专家的得分。

Project Debater 系统对比评估。

和几乎所有目标高远的 AI 研究一样,Project Debater 面临一个关键的瓶颈,即如何获取足够的数据,以便计算出一个有效的解决方案。Project Debater 用双管齐下的方法解决了这一问题:它将关注范围缩小到约 100 个辩题;从庞大的数据集中获取原材料。

在 2018 年和 2019 年的一系列活动中,「Project Debater」与多名才华横溢、备受瞩目的人类辩手进行了较量,观众对其辩论进行了非正式评估。

「Project Debater」与人类辩手的较量。

在 1v1 辩论中,该系统进行一个 4 分钟的演讲,人类对手对此作出回应。然后,「Project Debater」对对手的观点做出回应,发表第二个 4 分钟辩论,对手用 4 分钟的时间进行反驳。最后,双方都做了 2 分钟的最终陈述。

人机比赛的辩论流程

该系统最薄弱之处或许是它难以模仿人类辩手的连贯性和流畅度,这与论据选择、抽象和编排的最高层次有关。然而,这种限制并非「Project Debater」所独有。尽管对辩论已经进行了两千年的研究,但人们对论证结构仍然知之甚少。

构成优秀论证的模型是多样化的,而构成优秀辩论的模型仅仅相当于形式化的直觉。因此,当时 Project Debater 的性能评估仅仅是通过询问人类观众是否认为它「表现不错」来完成的。在几乎三分之二的辩题中,人类认为是这样的。

所有辩论技术系统面临的最终挑战是:将论据视为受一系列孤立考虑因素影响的局部话语片段,还是将其编入更大范围的社会规模辩论中。在很大程度上,这关乎于如何设计待解决的问题,而不是如何制定解决方案。通过在论据上设置先验界限,得到理论上的简化,从而提供计算优势。

此外,在现实世界中,论据并不存在明确的界限:发生在辩论室之外的话语不是离散的,而是与一个交叉引用、类比、举例和泛化的网络连接起来。关于 AI 如何处理这种论据网络的想法已经在理论上被提出,并用软件实现——DebateGraph。

但这些实现面临了棘手的理论挑战和社会技术问题。

「Project Debater」是辩论技术发展的关键一步,也是将论据作为局部现象来处理的关键一步。它的成功让我们看到了 AI 系统是如何轻松处理论据网络的。

Project Debater 输出的辩论内容类型分析。

Project Debater 解决了一项重大挑战,它也代表了 AI 在促进人类推理方面的进步,正如 Slonim 等人所说,「这远远超出了当前 AI 技术的舒适区。」

如何造就强大的 AI 辩手

Project Debater 包含四个主要组件:论据挖掘、论据知识库(AKB)、论点反驳和辩论构建。其中前两个模块是辩论语音的内容源。

论据挖掘组件负责找出与辩题相关的论据和反驳论据,它包含两个阶段。在离线阶段中,该组件处理包含 4 亿新闻文章的大型语料库,将这些文章拆分为句子并进行索引。在在线阶段中,该模块基于给出的辩题依靠索引在语料库中执行句子级的论据挖掘、相关论断和论据检索。

正所谓「知己知彼,百战不殆」,该模块还会搜索支持对方观点的论据,这些论据将在论点反驳模块中得到使用。

AKB 模块则包含论据、反驳论据和与一般辩论类别相关的其他文本。给出一道辩题,它就可以找出最相关的材料。

论点反驳模块基于前两个模块预测对手的反对主张,并生成潜在的回应。最后的辩论构建模块则选择其他模块提议的文本,并将其组合成流畅的表述。

此外,IBM 还提供了 Project Debater 12 种底层技术的云 API,以供学术使用。

地址:

https://early-access-program.debater.res.ibm.com/academic_use.html

这些 API 包括处理 wikification、维基百科概念间的语义关联、短文本聚类和文本主题提取的自然语言理解能力。API 的核心部分服务于论据挖掘与分析,包括检测包含主张和论据的句子、检测句子中的主张界限、评估论据质量和立场分类(支持 / 反对)。

此外,Narrative Generation 和 Key Point Analysis API 还提供两项高级服务——创建不同类型的总结。Narrative Generation 为支持或反驳给定主题构建结构完备的语音。Key Point Analysis 是一种新型有前景的摘要方法,它可以基于给定主题将评论总结为一小组关键点,每个关键点的重要程度由评论中匹配句子的数量决定。

感兴趣的开发者可以申请试用。

参考链接:

https://www.nature.com/articles/d41586-021-00539-5

https://www.ibm.com/blogs/research/2021/03/project-debater-api/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485049.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MYSQL--浅析索引

索引是为了提高数据查询的效率,类似于书的目录。 索引的常见模型有三种: 1.哈希表: 只适用于等值查询,不适用于范围查询 为什么呢? 哈希表是(key,value)的格式存储,…

HDU Integer's Power(容斥原理)

题意 求[l,r]的最大指数和&#xff08;1<l,r<10^18&#xff09; 最大指数和&#xff08;如648^24^32^6,所以64的最大指数和是6&#xff09; 题解 很明显我们可以先求出[1,n]的最大指数和&#xff0c;然后再作差。 我们可以先求出num[i]代表[1,n]中最大指数为i的数有多少个…

人工智能姿态逐渐“亲民”,2021年AI五大趋势备受期待

来源&#xff1a;齐鲁壹点人工智能(AI)已成为多国科技发展领域的“香饽饽”&#xff0c;各国政府以及多家大企业也都不甘示弱&#xff0c;争相砸重金支持该领域的发展&#xff0c;各种创新因此如雨后春笋般喷薄而出。此外&#xff0c;新冠肺炎疫情的肆虐迫使我们进一步加大对于…

MYSQL--三种锁

数据库锁设计的初衷是处理并发问题。作为多用户共享的资源&#xff0c;当出现并发访问的时候&#xff0c;数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。根据加锁的范围&#xff0c;MySQL 里面的锁大致可以分成全局锁、表级锁和行锁三类。…

网络请求过程示例

1.域名解析&#xff1a;在客户端&#xff08;浏览器&#xff09;输入http://www.baidu.com&#xff0c;通过DNS解析到该域名对应的IP地址为220.181.27.48 2.数据包通过链路层发送到路由器&#xff0c;通过邻居协议(ARP协议)查找给定IP地址的MAC地址 3.TCP三次握手建立端到端的连…

行业观察 | 全球IoT云平台第一股诞生,IoT离爆发还有多远?

来源&#xff1a; 财经杂志文 &#xff1a;施然2021年3月18日&#xff0c;IoT云平台公司Tuya&#xff08;涂鸦智能&#xff09;上市&#xff0c;这也是目前全球范围内IoT云平台第一股。Tuya的云敲钟仪式在杭州举办&#xff0c;共同参与云敲钟仪式的&#xff0c;除了Tuya的高管团…

Leetcode--23.合并K个排序链表(Java)

合并 k 个排序链表&#xff0c;返回合并后的排序链表。请分析和描述算法的复杂度。 示例: 输入: [ 1->4->5, 1->3->4, 2->6 ] 输出: 1->1->2->3->4->4->5->6 思路&#xff1a;分治法 多个链表&#xff0c;两两合并&#xff0c;第…

SQL2012 之 创建备份计划

打开数据库&#xff0c;选择 管理 → 右键维护计划→选择新建维护计划&#xff0c;填写计划名称&#xff0c;如下图&#xff1a; 修改维护计划参数&#xff0c;如下图&#xff1a; 工具箱->备份数据库任务&#xff0c;拖到计划里&#xff0c;如下图&#xff1a; 编辑“备份数…

薛其坤院士对话马斯克:下一个颠覆性创新是什么?

来源&#xff1a;网易科技报道文&#xff1a;丁广胜他来了&#xff0c;他又来了&#xff0c;马斯克这次在家中远程视频参会中国发展高层论坛。这次很遗憾&#xff0c;马斯克不能现场展示“动感舞蹈”了。他谈到了自动驾驶&#xff0c;也谈到了星际探索。薛其坤院士谈到了太阳能…

redis的底层数据结构

redis:一个key-value系统 Redis 与其他 key - value 缓存产品相比有以下三个特点&#xff1a; Redis支持数据的持久化&#xff0c;可以将内存中的数据保存在磁盘中&#xff0c;重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据&#xff0c;同时还提…

「九章」量子计算优越性遭北大院士质疑,潘建伟陆朝阳长文回应

来源&#xff1a; 雷锋网作者&#xff1a;付静对量子计算和玻色取样的专业概念的理解存在偏差&#xff0c;或是「九章」受质疑的原因。2020 年 12 月 4 日&#xff0c;我国成功达到量子计算研究第一个里程碑量子计算优越性&#xff08;Quantum Computational Advantage&#xf…

Leetcode--542. 01 矩阵(java)

给定一个由 0 和 1 组成的矩阵&#xff0c;找出每个元素到最近的 0 的距离。 两个相邻元素间的距离为 1 。 示例 1: 输入: 0 0 0 0 1 0 0 0 0 输出: 0 0 0 0 1 0 0 0 0 示例 2: 输入: 0 0 0 0 1 0 1 1 1 输出: 0 0 0 0 1 0 1 2 1 注意: 给定矩阵的元素个数不超过 10000。…

OpenAI又放大招:连接文本与图像的CLIP,在ImageNet上效果媲美ResNet50

来源&#xff1a;AI科技评论公众号编译&#xff1a;蒋宝尚、陈彩娴2020年&#xff0c;通用模型产生了经济价值&#xff0c;特别是GPT-3&#xff0c;它的出现证明了大型语言模型具有惊人的语言能力&#xff0c;并且在执行其他任务方面也毫不逊色。2021年&#xff0c;OpenAI 联合…

[COCI2017-2018#1] Plahte

题面很长&#xff0c;可往往真正有用的题意却没有这么长&#xff0c;例如说这么一句&#xff1a; 床单放在上面&#xff0c;使它们之间角或边不会互相接触&#xff0c; 边也不会相交&#xff0c;但他可能把较小的床单放在大的上面&#xff0c;或者一个完全覆盖另个。 从这句话中…

Leetcode-437. 路径总和 III(Java)

给定一个二叉树&#xff0c;它的每个结点都存放着一个整数值。 找出路径和等于给定数值的路径总数。 路径不需要从根节点开始&#xff0c;也不需要在叶子节点结束&#xff0c;但是路径方向必须是向下的&#xff08;只能从父节点到子节点&#xff09;。 二叉树不超过1000个节…

美国国家创新体系的演化历程、特点及启示

本文来源&#xff1a;微信公众号科情智库原载于《全球科技经济瞭望》2020年12月第35卷第12期作者&#xff1a;李哲、杨晶、朱丽楠&#xff0c;中国科学技术发展战略研究院国家创新体系反映经济活动中科学技术知识生产和配置的整体状况&#xff0c;其着眼点是激励知识生产、提高…

牛客网--字符串合并处理(Java)

按照指定规则对输入的字符串进行处理。 详细描述&#xff1a; 将输入的两个字符串合并。 对合并后的字符串进行排序&#xff0c;要求为&#xff1a;下标为奇数的字符和下标为偶数的字符分别从小到大排序。这里的下标意思是字符在字符串中的位置。 对排序后的字符串进行操作…

再造一个爱因斯坦?GPT-3 让我看到了名人“重生”的希望

作者&#xff1a;Manuel Araoz译者&#xff1a;弯月来源&#xff1a;CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;自从GPT-3推出以来&#xff0c;我就一直在做各种尝试。这是一项非常酷的技术&#xff0c;我发现最有趣的一项实验就是通过GPT-3与已故去的名人对话。在本…

中文乱码解决

1.url链接设置字符编码 mysql.urljdbc:mysql://127.0.0.1:3306/micro_class?characterEncodingutf-82.数据库编码设置 查看数据库编码&#xff1a;show variables like character%; SET character_set_database utf8; SET character_set_server utf8; 转载于:https://www.c…

牛客网--单词倒排(Java)

题目描述 对字符串中的所有单词进行倒排。 说明&#xff1a; 1、每个单词是以26个大写或小写英文字母构成&#xff1b; 2、非构成单词的字符均视为单词间隔符&#xff1b; 3、要求倒排后的单词间隔符以一个空格表示&#xff1b;如果原字符串中相邻单词间有多个间隔符时&am…