论文浅尝 - AAAI2020 | 利用自然语言推断生成人称一致的对话

链接: https://arxiv.org/pdf/1911.05889.pdf


动机

虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然无法很自然的与人类对话,其中的一个主要问题就是对话系统缺乏一致的角色特征。图1中的例子展示了角色一致性是如何影响对话的质量。提高对话系统角色一致性的一个实用方法是明确定义一组描述对话系统角色信息(persona)的描述性文本,并以此为基础学习生成体现出预先定义角色信息的回复。尽管编码器-解码器框架在基于角色信息的对话生成模型中得到了成功的应用,但存在的问题是这些生成模型普遍缺乏对于一致性信息的建模。一方面,近几年自然语言推理技术(Natural Language Inference)相关技术有了长足的进步。有研究工作表明,回复和角色文本的一致性检测问题可以被建模为<角色信息,回复>之间的自然语言推理技术问题。如何在基于角色信息的对话生成模型中利用这种检测方法建模并提高角色的一致性是一个值得探索的问题。


亮点

论文亮点主要包括:

(1)提出了一个用于角色一致对话生成的RL框架,解决了在基于角色的对话模型中区分训练目标的挑战。

(2)这是第一项用NLI技术来增强角色一致性对话生成的工作。

(3)实验结果表明,提出的模型优于强基准,尤其是在角色一致性方面。


概念及模型

目标是学习一个生成模型G以生成角色信息一致的对话。形式化定义如下:给定输入X,角色信息的集合P={P1,P2...,Pn},目标是生成一个回复Y,即Y=G(X,P)。此外,附加一个自然语言推理模型NLI,生成的回复需要满足NLI(P,Y)∈{E,N},其中E表示一致,N表示中立。

图1 一致性对于回复质量的影响

图2  模型总体结构图

如图2所示,该文所提出的一致性对话生成框架由两部分组成:一个序列生成器G(Generator)和一个评估器(Evaluator)E。其中,评估器E由两个子模块组成,分别是一致性检测模块(一致,中立,矛盾)和自然度检测模块(自然,不自然)。在本文的任务中,一个理想的回复应该是看起来很自然并且与给定的角色信息保持一致的,即:

自然度模块 EN是一个二分类器,用于判断给定的回复来自模型生成还是训练数据。论文把输入的回复通过双向GRU编码为向量表示,然后通过多层感知器网络及SoftMax函数输出二分类概率。EN的训练目标是最小化预测结果和真实标签之间的交叉熵损失。来自EN的奖励定义R1为EN将给定回复预测为来自训练数据的概率。

一致性模块 EC是一个NLI的分类器。EC被训练来预测<角色信息,回复>之间的一致性关系,共有一致,中立和矛盾三种情况。由于首次尝试使用该方法来建模一致性,为了更好的探索自然语言推理技术模型对于提高回复一致性的帮助作用,论文使用了2个效果有明显差别的自然语言推理技术模型,Base模型和BERT模型,以观察对最终效果的影响。其中,Base模型为GRU+Interaction+MLP的典型NLI模型;BERT模型实在BERT_base的基础上进一步微调得到的。最终,来自一致性模块EC的奖励定义为:

E 是回复与角色信息一致的置信度,C 是回复与角色信息矛盾的置信度。通过该奖励函数,希望鼓励模型尽可能生成一致的回复并减少不一致回复的生成。

生成器 G 是一个用GRU作为基本单元,使用Seq2Seq的结构的生成模型。角色信息文本作为了输入的一部分。此外,在生成过程中的每一步都使用了展开(rollout)的方式来获取对于当前位置更为精确的奖励估计。最后用于优化 G 的奖励函数为:

R = 0.4R1 + 0.6R2

实验

论文在公开的PersonaChat数据集上进行了实验。实验评价主要考虑两个方面:

1.回复的一致性。考虑到有限样本的情况下人工标注难以得到足够的一致类别的样本,论文主要使用自然语言推理技术模型DIIN对生成的回复进行分类。结果如表1所示。其中,论文的方法缩写为RCDG,即Reinforcement Learning based Consistent Dialogue Generation。Entail.表示回复与角色信息一致的比例,值越高越好;Contr.表示回复与角色信息相矛盾的比例,值越低越好。同时,论文也给出了测试数据的相关比例。可以发现,PersonaChat中并非所有对话都与角色信息相关。此外,论文也的确在数据集中发现了极个别存在的矛盾回复。

2. 回复的质量。对回复质量的评价按照惯例进行,包括了客观指标(表2)和主观评价(表3)两部分。客观指标包括衡量流畅性的困惑度(ppl),衡量语义相似度的embedding metrics(Ave., Grd., Ext.)以及衡量多样性的Distinct-2(Dst.)。主观评价使用了0-2的总体质量打分方式。

表1 角色一致性评价结果

表2 对话质量自动指标结果

总结

在该项工作中,论文探索了利用自然语言推理技术来建模开放域对话生成中人物角色一致性的问题。为此,论文将该任务转化为一个强化学习问题,并在生成模型中利用自然语言推理技术信号提高回复的一致性。通过在PersonaChat数据集上的实验,论文证明了论文的方法相比于基线模型获得了有效提升。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能投放系统之场景分析最佳实践

美团点评作为业内最大的O2O的平台&#xff0c;以短信/push作为运营手段触达用户的量级巨大&#xff0c;每日数以千万计。 美团点评线上存在超过千万的POI&#xff0c;覆盖超过2000城市、2.5万个后台商圈。在海量数据存在的前提下&#xff0c;实时投放的用户在场景的选择上存在一…

7个提升PyTorch性能的技巧

文 | William Falcon源 | AI公园在过去的10个月里&#xff0c;在PyTorch Lightning工作期间&#xff0c;团队和我已经接触过许多结构PyTorch代码的风格&#xff0c;我们已经发现了一些人们无意中引入瓶颈的关键地方。我们非常小心地确保PyTorch Lightning不会对我们为你自动编写…

论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习

论文笔记整理&#xff1a;叶橄强&#xff0c;浙江大学在读硕士&#xff0c;研究方向为知识图谱的表示学习和预训练。来源&#xff1a;EMNLP 2020现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能&#xff0c;在知识图谱推理中显示出其优势。但在遍历过程…

Shield——开源的移动端页面模块化开发框架

一直以来&#xff0c;如何能更高效地开发与维护页面是Android与iOS开发同学最主要的工作和最关心的问题。随着业务的不断发展&#xff0c;根据特定业务场景产生的定制化需求变得越来越多。单一页面往往需要根据不同业务、不同场景甚至不同用户展示不同的内容。在这样的背景下&a…

1年排名前进13位 ,这个论题成顶会新宠!

写过论文的同学都知道&#xff0c;写久了真的会头秃&#xff0c;其中耗发量最高的当属论题和创新点。今天分享一套方法&#xff0c;这个方法已经帮助近3000位同学成功发&#xff08;拯&#xff09;表&#xff08;救&#xff09;论&#xff08;头&#xff09;文&#xff08;发&a…

LeetCode 50. Pow(x, n)(二分查找)

文章目录1. 题目2. 二分查找2.1 递归2.2 循环1. 题目 实现 pow(x, n) &#xff0c;即计算 x 的 n 次幂函数。 示例 输入: 2.00000, 10 输出: 1024.00000 示例 输入: 2.00000, -2 输出: 0.25000 解释: 2-2 1/22 1/4 0.25 说明: -100.0 < x < 100.0 n 是 32 位有符号…

OpenKG 祝大家 2021 新年快乐 —「2020 精选文章汇编」

过去的一年是不寻常的一年&#xff0c;虽然疫情改变了所有人的生活&#xff0c;但是它并没有击垮我们。这一年&#xff0c;大家依旧保持着开源开放的精神&#xff0c;持续地分享着知识图谱领域的技术动态、应用实践&#xff0c;同学们也持续不断地输出优质的论文笔记。OpenKG 继…

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么&#xff1f;”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因&#xff0c;业务人员会通过使用多维查询、dashboard等数据产品锁定问题&#xff0c;再辅助人工分析查找问题原因&#xff0c;这个过程通常需要一…

论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?

笔记整理 | 陈卓&#xff0c;浙江大学计算机科学与技术系&#xff0c;博士研究生研究方向 | 知识图谱&#xff0c;图神经网络&#xff0c;多模态论文链接&#xff1a;https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf发表会议&#xff1a;EMNLP 2020背景提要抽取式阅…

为什么每次有人大声通电话时,我就很烦躁...

文 | Chaos编 | 小戏不知你是否有过这样的体验&#xff0c;当你周围有人在大声讲电话时&#xff0c;你会不自觉的感觉到烦躁。为什么呢&#xff1f;有一种委婉的说法是因为你听到了不完整的对话。直白点说其实就是讲电话的人通过放大声音强行让你接收了他说的信息&#xff0c;但…

LeetCode 367. 有效的完全平方数(二分查找)

1. 题目 给定一个正整数 num&#xff0c;编写一个函数&#xff0c;如果 num 是一个完全平方数&#xff0c;则返回 True&#xff0c;否则返回 False。 说明&#xff1a;不要使用任何内置的库函数&#xff0c;如 sqrt。 示例 1&#xff1a; 输入&#xff1a;16 输出&#xff1…

美团点评联盟广告场景化定向排序机制

在美团点评的联盟广告投放系统&#xff08;DSP&#xff09;中&#xff0c;广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序&#xff0c;由于召回的候选集合较多&#xff0c;出于工程性能上的考虑&#xff0c;不能一次性在精…

论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;COLING 2020链接&#xff1a;https://www.aclweb.org/anthology/2020.coling-main.520.pdf本文发现&#xff0c;目前基于GCN的对齐方法都是分别考虑两个KG&#xff0c;然后分别学习它们的embedding&#xff0c;并认…

LeetCode 744. 寻找比目标字母大的最小字母(二分查找)

1. 题目 给定一个只包含小写字母的有序数组letters 和一个目标字母 target&#xff0c;寻找有序数组里面比目标字母大的最小字母。 数组里字母的顺序是循环的。举个例子&#xff0c;如果目标字母target ‘z’ 并且有序数组为 letters [‘a’, ‘b’]&#xff0c;则答案返回…

超越YOLOv5,1.3M超轻量,高效易用,这个目标检测开源项目太香了!

这个目标检测神器简直香炸了&#xff01;它不仅连续登录Github全球趋势榜&#xff0c;拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode。这个神器就是刚刚全面升级的PaddleDetection2.0&#xff01;它全面兼顾高性能算法、便捷开发、高效训练及完备部署&#xff…

MyFlash——美团点评的开源MySQL闪回工具

由于运维、DBA的误操作或是业务bug&#xff0c;我们在操作中时不时会出现误删除数据情况。早期要想恢复数据&#xff0c;只能让业务人员根据线上操作日志&#xff0c;构造误删除的数据&#xff0c;或者DBA使用binlog和备份的方式恢复数据&#xff0c;不管那种&#xff0c;都非常…

论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

笔记整理 | 王琰&#xff0c;东南大学来源&#xff1a;ACL 2020链接&#xff1a;https://arxiv.org/pdf/2005.02472.pdf概述本论文引入一项新任务&#xff1a;多媒体事件提取&#xff08;ME&#xff09;&#xff0c;该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外&#x…

屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……

文 | 魏旭编 | 橙橙子&#xff0c;小戏当 BERT 模型出来之后&#xff0c;Transformer 架构基本成为 NLP 任务的底色。诸如 Roberta、XLNet、ELECTRA、GPT3 等刷榜各类 NLP 任务的模型&#xff0c;无一不是基于 Transformer 框架。无疑&#xff0c;Transformer 开启了 NLP 的统治…

day01『NLP打卡营』实践课1:词向量应用演示

Day01 词向量作业辅导 本教程旨在辅导同学如何完成 AI Studio课程——『NLP打卡营』实践课1&#xff1a;词向量应用展示 课后作业。 1. 选择词向量预训练模型 在PaddleNLP 中文Embedding模型查询PaddleNLP所支持的中文预训练模型。选择其中一个模型&#xff0c;如中文维基百…