IJCAI 2018：中科院计算所：增强对话生成一致性的序列到序列模型

文章来源：企鹅号 - 读芯术

你和“懂AI”之间，只差了一篇论文

号外！又一拨顶会论文干货来袭！

2018年6月9-10日，代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“ALS2018（ACL、IJCAI、AIGIR）论文预讲会”】在北京盛大举行。两天时间内，来自“情感分析”“推荐系统”“机器问答”“对话系统”等不同主题的顶级会议论文报告汇聚一堂，英雄相惜，华山论剑。

据芯君了解，本次预讲会在学术圈的火爆程度完全超出了主办方的想象，开放报名的短短几天就全面满额了，以至于主办方不得不设定条件筛选参会者。

读芯君作为本次预讲会的活动媒体，将全程跟随大会，为大家全程纪录活动中最前沿的观点，最有价值的成果，并特邀预讲会论文报告者联合为读者朋友们推出预讲会系列组文，向你展示顶会最新论文成果。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第56篇论文

作者：张海楠，兰艳艳，郭嘉丰，徐君，程学旗IJCAI 2018增强对话生成一致性的序列到序列模型Reinforcing Coherence for Sequence to Sequence Model in Dialogue Generation中国科学院计算所Institute of Computing Technology，Chinese Academy of Sciences【摘要】序列到序列模型（Seq2Seq）的方法在对话生成领域获得了高度关注。但目前存在一个严重的问题就是大多数现有的基于Seq2Seq的模型倾向于产生缺乏具体含义的通用回复。我们分析主要是因为Seq2Seq相当于优化Kullback-Leibler（KL）距离，因此它不惩罚那些生成概率高、真实概率低的句子。然而，真实的概率是未知的，构成了解决这个问题的挑战。我们考虑可以使用post和response一致性（即相似性）来近似真实概率，并统计了一致性分数与人工打分的关系，发现二者呈正比关系。因此我们将一致性分数作为奖励，加入到强化学习框架中，惩罚那些生成概率高但是真实概率低的句子。本文提出了三种不同类型的一致性函数，包括unlearned的相似性函数，预训练的语义匹配函数，以及端到端的对偶学习模型。实验在中文的微博数据集和英文的电影字幕数据集上均显示本文的模型可以产生更具体和更有意义的回复，无论在自动评价指标和人工评价两方面，本文的模型均好于Seq2Seq模型及其变种。

1 介绍本文重点讨论单轮对话生成问题，根据Post，可以自动生成适当的回复Response。大多数现有的神经对话模型都是基于Seq2Seq架构[Sutskever et al., 2014]的架构。递归神经网络（RNN）编码器首先将输入Post编码为固定长度的向量，然后将该向量输入到另一个RNN解码器，用该解码器进行回复生成。模型使用最大似然估计的方法进行参数学习，期望真实的概率可以通过生成的概率进行估计。

尽管Seq2Seq能够产生流畅的回复，但是这类模型经常生成通用回复，比如“我不知道”，“这是什么意思？”和“哈哈”。显然，这些回复缺乏具体的含义，用户的体验不好。通过我们的分析，主要原因是Seq2Seq的目标是等价于最小化KL距离。

但是，KL距离是不对称的，因此它不会惩罚生成概率高但真实概率低的句子。我们统计了生成句子在真实数据中的命中率：

统计结果如表1所示。

Exactly matching

Semantic matching

HitR

0.285561

0.426222

HitP

0.02419

0.03583

表1 生成语句在真实数据中的命中率和命中概率根据我们对对话数据STC的统计，Seq2Seq的完全命中率和完全命中概率分别为0.004239和0.00091。因此，我们得出一下结论：大多数生成的回复都不是真实的回复，这些回复的真实概率可能非常低。由于统计完全命中太过严格，我们还统计了语义层面的结果，当两个句子的余弦相似度足够大（本文设置0.9），就认为两个句子命中。在这种情况下的统计结果为命中率0.1449和命中概率0.01255。因此，即使我们考虑了语义层面，生成回复的真实概率仍然非常低。

在本文中，我们利用生成回复与Post的一致性分数作为对真实概率的估计，我们统计了一致性分数与人工评分（评分细则见实验）的关系，发现二者呈正相关，如图1所示。

图1 post-generation的一致性与人工评分的关系

2 模型我们提出了三种类型的一致性函数：

1.unlearned相似度函数，如余弦相似度(如图2所示)，可以直接用为相关性模型。

图2 post与generation的余弦相似度一致性分数2.语义层面的文本匹配模型可被视为衡量Post和生成回复的一致性的函数。在本文中，我们使用两个预训练的语义匹配函数，即GRU双线性模型[Socher et al.，2013]（如图3）和MatchPyramid [Pang et al.，2016]（如图4），这是代表两种不同类型的深度语义匹配模型，即表示重点突出的方法和着重于交互的方法。

图3 GRU双线性模型

图4 MatchPyramid一致性模型3.端到端的对偶学习框架[Xia et al.，2016]，它可以用来同时学习生成模型和一致性模型。对偶学习的过程如下：

1）agent1(第一个seq2seq模型)理解post，并生成G1，并把G1发送给agent2(第一个seq2seq模型)。

2）agent2是一个Response->post的模型，它收到G1，并通过自己的模型计算G1条件下生成X的概率，作为对agent1的奖赏。

3）agent1根据agent2给出的奖赏，调整自己的生成策略。

4）以上三个步骤从agent2开始，对称的重复一遍。

它的计算如下：

3 优化使用一致性分数作为奖励，融入到强化学习的框架中。学习过程将惩罚那些生成概率高但真实概率低的例子。强化学习框架如下图所示（左图是unlearned和预训练的学习框架，右图是对偶学习的学习框架）：

左图的优化公式为：

右图的优化公式为：

4 实验我们在两个公开数据集上进行了实验，即中文微博数据集和英文电影字幕数据集。实验结果显示我们的模型在自动评价和人工评价下，均明显好于baselines。在表2显示了自动评价的结果，我们提出的一致性模型比baseline模型获得更高的BLUE和distinct, 更低的PPL。对偶学习模型获得了最优的效果。