链接: https://arxiv.org/pdf/1911.05889.pdf
动机
虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然无法很自然的与人类对话,其中的一个主要问题就是对话系统缺乏一致的角色特征。图1中的例子展示了角色一致性是如何影响对话的质量。提高对话系统角色一致性的一个实用方法是明确定义一组描述对话系统角色信息(persona)的描述性文本,并以此为基础学习生成体现出预先定义角色信息的回复。尽管编码器-解码器框架在基于角色信息的对话生成模型中得到了成功的应用,但存在的问题是这些生成模型普遍缺乏对于一致性信息的建模。一方面,近几年自然语言推理技术(Natural Language Inference)相关技术有了长足的进步。有研究工作表明,回复和角色文本的一致性检测问题可以被建模为<角色信息,回复>之间的自然语言推理技术问题。如何在基于角色信息的对话生成模型中利用这种检测方法建模并提高角色的一致性是一个值得探索的问题。
亮点
论文亮点主要包括:
(1)提出了一个用于角色一致对话生成的RL框架,解决了在基于角色的对话模型中区分训练目标的挑战。
(2)这是第一项用NLI技术来增强角色一致性对话生成的工作。
(3)实验结果表明,提出的模型优于强基准,尤其是在角色一致性方面。
概念及模型
目标是学习一个生成模型G以生成角色信息一致的对话。形式化定义如下:给定输入X,角色信息的集合P={P1,P2...,Pn},目标是生成一个回复Y,即Y=G(X,P)。此外,附加一个自然语言推理模型NLI,生成的回复需要满足NLI(P,Y)∈{E,N},其中E表示一致,N表示中立。
图1 一致性对于回复质量的影响
图2 模型总体结构图
如图2所示,该文所提出的一致性对话生成框架由两部分组成:一个序列生成器G(Generator)和一个评估器(Evaluator)E。其中,评估器E由两个子模块组成,分别是一致性检测模块(一致,中立,矛盾)和自然度检测模块(自然,不自然)。在本文的任务中,一个理想的回复应该是看起来很自然并且与给定的角色信息保持一致的,即:
自然度模块 EN是一个二分类器,用于判断给定的回复来自模型生成还是训练数据。论文把输入的回复通过双向GRU编码为向量表示,然后通过多层感知器网络及SoftMax函数输出二分类概率。EN的训练目标是最小化预测结果和真实标签之间的交叉熵损失。来自EN的奖励定义R1为EN将给定回复预测为来自训练数据的概率。
一致性模块 EC是一个NLI的分类器。EC被训练来预测<角色信息,回复>之间的一致性关系,共有一致,中立和矛盾三种情况。由于首次尝试使用该方法来建模一致性,为了更好的探索自然语言推理技术模型对于提高回复一致性的帮助作用,论文使用了2个效果有明显差别的自然语言推理技术模型,Base模型和BERT模型,以观察对最终效果的影响。其中,Base模型为GRU+Interaction+MLP的典型NLI模型;BERT模型实在BERT_base的基础上进一步微调得到的。最终,来自一致性模块EC的奖励定义为:
E 是回复与角色信息一致的置信度,C 是回复与角色信息矛盾的置信度。通过该奖励函数,希望鼓励模型尽可能生成一致的回复并减少不一致回复的生成。
生成器 G 是一个用GRU作为基本单元,使用Seq2Seq的结构的生成模型。角色信息文本作为了输入的一部分。此外,在生成过程中的每一步都使用了展开(rollout)的方式来获取对于当前位置更为精确的奖励估计。最后用于优化 G 的奖励函数为:
R = 0.4R1 + 0.6R2
实验
论文在公开的PersonaChat数据集上进行了实验。实验评价主要考虑两个方面:
1.回复的一致性。考虑到有限样本的情况下人工标注难以得到足够的一致类别的样本,论文主要使用自然语言推理技术模型DIIN对生成的回复进行分类。结果如表1所示。其中,论文的方法缩写为RCDG,即Reinforcement Learning based Consistent Dialogue Generation。Entail.表示回复与角色信息一致的比例,值越高越好;Contr.表示回复与角色信息相矛盾的比例,值越低越好。同时,论文也给出了测试数据的相关比例。可以发现,PersonaChat中并非所有对话都与角色信息相关。此外,论文也的确在数据集中发现了极个别存在的矛盾回复。
2. 回复的质量。对回复质量的评价按照惯例进行,包括了客观指标(表2)和主观评价(表3)两部分。客观指标包括衡量流畅性的困惑度(ppl),衡量语义相似度的embedding metrics(Ave., Grd., Ext.)以及衡量多样性的Distinct-2(Dst.)。主观评价使用了0-2的总体质量打分方式。
表1 角色一致性评价结果
表2 对话质量自动指标结果
总结
在该项工作中,论文探索了利用自然语言推理技术来建模开放域对话生成中人物角色一致性的问题。为此,论文将该任务转化为一个强化学习问题,并在生成模型中利用自然语言推理技术信号提高回复的一致性。通过在PersonaChat数据集上的实验,论文证明了论文的方法相比于基线模型获得了有效提升。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。