复旦副教授魏忠钰：AI和人类对垒「奇葩说」，如何打造智能辩手？

来源：智源社区

作者：魏忠钰

整理：熊宇轩

导读：想象一下，在一场AI和人类对垒的「奇葩说」，智能辩手的表现会如何？

论辩的过程，既需要理解对方的表达，同时根据对方的观点生成自身的论据和观点，这个处理过程对于AI来讲，比一般性的对话要复杂很多。

2004 年，在论文「A Syetematic Theory of Argumantation: The Pragma-Dialectical Approach」中，学者们将「论辩」定义为一种口头的、社会的和理性的活动，旨在通过提出一组命题来证明或反驳某种观点中所表达的命题，从而说服对方接受我方的观点。

复旦大学大数据学院副教授魏忠钰在青源 Talk 第 13 期发表了题为「迈向智能辩手之路：对话式论辩技术进展」的报告。在本次报告中，魏忠钰介绍了计算论辩学的研究进展，重点介绍了其团队在「对话式观点抽取」方面的研究工作，指出了计算论辩学领域急需解决的问题。了解魏忠钰最新研究动态，请点击链接关注 https://hub.baai.ac.cn/users/951

你真的了解「论辩」吗？

从「口头性」的角度来说，论辩是一个语言处理问题，这种语言可能来自于口语环境也可能来自于书面写作环境；从「社会性」的角度来说，论辩过程发生在两个或多个人之间，它们针对某些具有争议的问题进行讨论；从「理性」的角度来说，论辩各方需要使用合理的观点表达对事情的看法。

「论点」是论辩活动中的重要概念，它包含观点（核心的声明点）和前提（支撑材料、原因）。我们的论辩过程要针对一些有争议性的话题展开，这些话题可以是一些社会性问题。如上图所示，假设我们论辩的话题是「死刑是不是应该要被废除」，为了支撑「应该废除死刑」的论点，我们可以使用以下两个前提：（1）死刑是不可逆转的暴力行为（2）做出死刑判决的人也可能犯错，有风险会让无辜的人收到伤害。使用观点作为基本工具，我们希望在论辩过程中说服对方，或使双方就某一个话题形成共识。

计算论辩学

「计算论辩学」旨在自动分析和生成观点和论辩过程，它有非常广泛的应用场景：（1）辅助决策：可以对有争议的问题提出论点，表明立场。例如，通过自动论辩文本分析方法为政策制定者分析舆论场中的正面、负面观点，帮助其做出更理性、更符合大众需求的判断；在法庭中，自动化论辩文本分析方法可以快速形成双方核心观点，从而节省法官的时间。（2）写作支持：评估议论文的质量，提供反馈。例如：为人类写作自动搜索论点，提供素材；辅助阅卷老师为作文打分。（3）逻辑审查：检查某段陈述是否逻辑一致。例如：识别个人陈述中的谎言。

论辩过程包含不同的粒度。在如上图所示的两段对话中，如果我们相对单一说话者形成的文本进行分析，首先需要发现文本中的基本「论辩单元」（例如：结论、前提），多个论辩单元可以组成一个观点。对某人的一段陈述进行分析、发现其观点的过程被称为「单体论辩」或者「独白式论辩」。而双方参与论辩的场景被称为「对话式论辩」。

「论辩」是一门交叉学科，与语言学、逻辑学有紧密的联系。在过去的数十年中，相关领域的研究者提出了一些论辩模型。其中，最经典的单体式论辩模型为「图尔敏模型」。对于一整句话，我们会将其中的核心观点、证据、让步假设等组成部分进行解析。

事实上，对话式论辩的场景更加普遍。1991 年，Freeman 在图尔敏模型的基础上提出了简化版的针对对话式论辩的模型。Freeman 模型弱化了对单个观点内部复杂结构的解析，仅仅保留了两个观点的内部结构：观点和前提，而更加关注观点之间交互关系的建模。它清晰地定义了支持、攻击的观点交互结构。

针对对话式论辩场景的「推理锚定理论」于 2011 年被提出，它更加普适。该理论将整个论述切分为两个部分：（1）基础表述（2）对话上下文。每当有新的对话内容加入之后，就会将其与当前的基础表述桥接，从而得到一系列桥接的标签集合（例如，对基础表述持质疑或断定态度）。

单体论辩

单体式论辩存在三大基础任务：（1）观点结构分析。将某人的表述细分成多个论辩性语义单元，对这些单元进行分类，识别出语义单元、语义单元之间的关系。（2）观点评估。对发言者的立场进行分析，对形成观点的方式进行分类，对形成的观点打分。（3）观点生成。对论辩性文本进行总结；给定某个观点，生成反方观点。

对话式论辩

对话式论辩则考虑一系列交互的观点，涉及到观点的交换。对话式论辩的文本理解包含以下四个子任务：（1）观点抽取。给定一个段落，通过单体式论辩分析技术分析其结构，提取观点，对观点分类。（2）交互式论点对识别。给定正反两方针对某一话题的发言，发现有交互关系的观点对。（3）交互式策略识别。给定论点对，识别回应观点使用的论辩方式。我们往往可以从四个层级上表达相反的意见，即「完全不相关的拒绝」（Irrelevance）、「仅仅反对」（Contradiction）、「给出未切中角度的回应」（Target Losing）、「切中角度的质疑」（Regutation）（4）论辩质量评估。给定观点对，评估回复的说服力。

对话式观点抽取

对话式观点抽取的研究受限于数据真实标注的收集。给定两个段落的交互文本，逐一发现其中有交互关系的观点对是一个很难的标注任务。我们在 NAACL 2021 上发表的论文「Discrete Argument Representation Learning for Interactive Argument Pair Identification」（论文最早于2019年在Arxiv上放出）充分利用「Change My View」（CMV）论坛帖子中使用的的引用（Quotation）操作，进行真实标注样本的收集。数据集合包含 12,000 条带有引用关系的交互观点对。在具体任务设置上，由于引用只能带来正样本，我们构建了正样本排序任务，即给定原始文本中的一个观点，从 5 个候选观点中找出唯一的正样本观点。

通过对样本的分析，我们发现回复贴往往会从一些特定的角度出发来回应某一主题，因此，我们在进行观点对抽取时，同时考虑了回复帖的回应角度，有效提升了观点对的抽取效果。在本文中，我们用离散变分自编码器（DVAE）进行观点的表示学习，DVAE 可以在隐式空间中对不同主题进行聚类建模，从而体现不同的回应角度。

外部知识对文本理解的帮助

在我们于 ACL 2021 上发表的论文「Leveraging Dialogical Argumentation Graph Knowledge in Interactive Argument Pair Identification」中，我们进一步探索了常识背景知识和推理知识对于论辩场景理解的帮助，从而获得更好的对话式观点抽取性能。

我们在对文本建模的同时，抽取出了其中包含的实体。接着，我们在背景知识的论辩知识图谱中发现每两个实体之间的链路，然后将链路与原始文本进行联合建模，最后使用文本和知识两部分的信息推理，判断两个观点是否成对。我们利用了 CMV 论坛上的帖子建模知识库，通过开源的信息抽取方法提取了实体及其关系。此外，我们还使用了 WordNet 和维基百科进行实体消歧。在使用了外部知识之后，模型的性能有明显的提升。

同行评审中的观点对抽取

阿里巴巴达摩院的语言智能研究团队于 2020 年的 EMNLP 提出了论文审稿场景下的观点对抽取任务，该任务更加完备，由单体论辩挖掘和观点匹配子任务组成。他们在 ICLR 的公开评审网站上收集了 4,000 多条评审意见以及回复的段落，共提取了 40,000 多个观点。

如上图所示，左侧为评审意见，右侧为作者的回复。他们构建了三个子任务：（1）观点挖掘。识别评审意见和回复中的观点。（2）句子匹配。给定评审意见和回复中的观点，判断这些观点两两是否成对。（3）观点对抽取。给定两个段落后，自动抽取相应观点，包含观点的发现和观点对匹配。

在论辩挖掘场景下，他们使用了扩增版的 BIO 标签体系（IOBES）进行序列化标注。其中 S 代表单句观点；E 代表观点的结束句。在观点对识别部分，他们仅仅使用了观点的第一个句子进行匹配。他们在训练中，将上述两个任务进行联合训练。

在 2021 年的 EMNLP 上，在哈尔滨工业大学深圳分校的研究团队发表的论文「Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph」中，作者构建了句子之间的关系图（ISRG），图中的绿色节点代表评论的句子，蓝色节点代表回复的句子，因此图中的边分为「同类节点之间的边」和「异类节点之间的边」。在推导过程中，他们提出了两种序列标注模型：（1）不使用交互图更新的句子表示，直接进行推理（2）结合交互图更新的句子表示进行推理。

对话式论辩场景下的公开数据集如上图所示，它们主要针对论辩挖掘、交互式论辩对抽取、论辩质量评估任务涉及。

迈向智能辩手之路

IBM 在以色列的团队于 2021 年在《自然》杂志上发表了一篇有关自主辩论系统的文章。在这篇文章中，他们设计了一个标准的牛津式的辩论系统，辩论双方分别需要进行开场发言、第二轮发言，以及总结发言。所有的观众在辩论开始前会选定自己的立场，然后在辩论结束后再次选择立场，根据支持比例的变化来判定哪一方获胜。

该系统首先通过论辩挖掘发现文本中的观点对，进而构建了一个包含通用回复的论辩知识库，系统根据论辩结构分析和论辩知识库生成有可能的潜在回应，并且将这些回应组合起来。作者对该系统进行了评估，结果显示该系统的性能优于普通人类，稍逊于人类专家。

然而，现实生活中涉及的辩题和场景更加复杂。为此，我们与阿里巴巴达摩院语言智能小组在 NLPCC 2021 上退出了一项评测挑战赛，该赛事包含三个赛道：（1）辩论立场分类（2）社交网络上的交互式观点对抽取（3）同行评审场景下的观点对抽取。

除了一般性的论辩机器人，我们将对话式论辩技术应用到了法律领域。庭审记录中包含诉辩双方对于案件的陈述，如何对陈述进行理解和组织是一些法律科技公司的核心诉求。为此，我们联合北京大学王选计算机研究所在中国法律智能技术评测平台上推出了论辩理解竞赛，该竞赛包含两个赛道：（1）争议观点对抽取（2）争议观点类型的发现。