ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远

一只小狐狸带你解锁 炼丹术&NLP 秘籍

本文为MuTual论文作者的特别约稿

编辑:rumor酱、夕小瑶

前言

自然语言处理是人工智能领域的掌上明珠,而人机对话则是自然语言处理领域的最终极一环。

以BERT为代表的预训练模型为自然语言处理领域带来了新的春天,在人机对话问题上也不例外。检索式多轮对话任务中,最有名的对话数据集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基于BERT来做却直接刷到了85.8%的,93.1%的和高达98.5%的,已经基本逼近了人类的表现(英语差的可能已被BERT超越),这让很多研究检索式聊天机器人的小伙伴直呼这个领域没法继续往下做了。。

那么问题来了,既然聊天机器人在BERT的带领下超越人类了,为什么跟我打交道的聊天机器人依然宛如人工智障???

一言以蔽之,上个时代的对话数据集太弱了!!!

相信很多和聊天机器人对(liao)话(sao)过的小伙伴们都有感觉,就是每句话都回复的没什么毛病,但它像是只有三秒的记忆时间,回复的内容和前文的连贯性很差,甚至会出现自相矛盾的语句。比如

我:吃饭了吗机器人:吃了个苹果,最近在减肥。。。我:你不胖呀机器人:我不要减肥我:

当前的对话模型往往选择出的回复相关性较好,但是经常出现常识和逻辑错误。由于现有的大部分检索式对话数据集都没有正面刚这种对话逻辑问题,导致评价指标也无法直接反映一个模型对对话逻辑的掌握程度。针对此问题,西湖大学联合微软研究院提出了多轮对话推理数据集MuTual。

相比现有的其他检索式聊天数据集,MuTual要求对话模型具备常识推理能力;相比阅读理解式的推理数据集,MuTual的输入输出则完全符合标准检索式聊天机器人的流程。因此,MuTual也是目前最具挑战性的对话式数据集。测试过多个模型后,目前最佳的RoBERTa表现仅为70分左右,和人类的表现存在20多分的巨大差距。

此篇论文也发表在了ACL2020上。

论文地址:http://arxiv.org/abs/2004.04494

github地址:https://github.com/Nealcly/MuTual

arxiv访问慢的小伙伴也可以在订阅号后台回复关键词【0413】下载论文PDF。

数据集特点

现有的检索式聊天机器人数据集,诸如Ubuntu,Douban,对于给定的多轮对话,需要模型在若干候选回复中,选出最合适的句子作为对话的回复。然而这些数据集主要关注模型能否选出相关性较好的回复,并不直接考察模型的推理能力。随着BERT等预训练模型的涌现,此类数据集的测试集合已经达到了很好的效果。

已有的针对推理的数据集(DROP, CommonsenseQA, ARC, Cosmos等)大多被设计为阅读理解格式。它们需要模型在阅读文章后回答额外问题。由于任务不同,这些现有的推理数据集并不能直接帮助指导训练聊天机器人。下图为对话和推理式阅读理解的常用数据集:

基于目前对话数据集的缺陷,Mutual被提出,一个直接针对Response Selection的推理数据集。

数据集构建

MuTual基于中国高考英语听力题改编。听力测试要求学生根据一段双人多轮对话,回答额外提出的问题。并通过学生能否正确答对问题衡量学生是否理解了对话内容。为了更自然的模拟开放领域对话,我们进一步将听力题中额外的问题转化为对话中的回复。

标注者截选原对话中具备回答问题信息的片段,根据正确选项构造正确的回复(上图回复A),根据两个错误选项构造两个错误的回复(回复C和回复D)。

为了进一步提升难度,引入额外的推理信息,标注者还需根据正确选项构建一个负面的回复(回复B)。另外,标注者需要保证在无上文信息情况下,所有候选回复在逻辑上皆合理。这样可以让数据集聚焦于检测模型在多轮对话中的推理能力,而非判断单个句子是否具有逻辑性。

作者还在标注过程中控制正确和错误的回复与上文的词汇重叠率相似,防止模型可以通过简单的根据文本匹配选出候选回复。构造出的数据集主要包含聊天机器人需要的六种推理能力:态度推理(13%), 数值推理(7%), 意图预测(31%),多事实推理(24%)和常识等其他推理类型(9%)

在真实应用场景中,检索式对话模型无法检索所有可能的回复,如果没有检索到合适的回复,系统应具有给予安全回复(safe response)的能力。为了模拟这一场景,MuTualplus被提出。对于每个实例,MuTualplus随机替换掉MuTual中一个候选回复。如果正确回复被替换,安全回复即为新的正确回复。如果错误回复被替换,原正确回复仍为四个回复中最合适的。

实验

论文测试了主流的检索式对话模型(LSTM, SMN, DAM)和预训练语言模型(GPT, BERT, RoBERTa)在MuTual和MuTualplus上的表现,以Recall@1(正确检索结果出现在检索结果第一位), Recall@2(正确检索结果出现在检索结果前两位), MRR(Mean Reciprocal Rank,正确检索结果在检索结果中的排名的倒数)作为评价指标。

从结果可以看到,之前的检索式对话模型在此种任务上,表现只比Random的情况好一点。不过预训练模型也不能取得很好的效果,甚至RoBERTa也只能达到71%的Recall@1。然而未经培训的非母语者可以轻松达到94%。

进一步研究发现,模型表现不会随着对话轮数增加而变差(推理能力并不依赖复杂的对话历史)。在推理类型方面,模型在数值推理和意图推测中表现的较差。下图第一个例子中,时差运算只需简单的减法(5:00pm - 6h = 11:00am),第二个例子需要推理出对话出现在租房场景中,然而对现有的深度学习模型依然十分困难。

总结

尽管BERT为代表的预训练模型很大程度上解决了检索式对话的回复相关性问题,但是依然难以解决真实对话场景中的常识和逻辑问题,导致聊天机器人的真实用户体验依然不尽人意。现有的检索式对话数据集大都没有直接对该问题进行建模,因此我们提出了MuTual数据集,针对性的评测模型在多轮对话中的推理能力。

论文地址:http://arxiv.org/abs/2004.04494

github地址:https://github.com/Nealcly/MuTual

arxiv访问慢的小伙伴也可以在订阅号后台回复关键词【0413】下载论文PDF。

  • ACL2020 | FastBERT:放飞BERT的推理速度

  • 卖萌屋2020 Q1季度大会

  • LayerNorm是Transformer的最优解吗?

  • 如何优雅地编码文本中的位置信息?三种positioanl encoding方法简述

  • 在大厂和小厂做算法有什么不同?

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480686.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站系统的特点和架构设计

分布式架构 阿里P8架构师谈:淘宝技术架构从1.0到4.0的架构变迁 优知学院」淘宝技术架构的前世今生(上) 优知学院」淘宝架构的前世今生(下) 揭秘:一位亲历者眼中的淘宝技术架构发展之路 淘宝发展历程最具…

IDC 和浪潮联合发布了《2020-2021 中国人工智能计算力发展评估报告 》

近日,IDC 和浪潮联合发布了《2020-2021 中国人工智能计算力发展评估报告 》(以下简称《报告》)。《报告》指出,中国 AI 基础设施市场规模在 2020 年达到了 39.3 亿美元,到 2024 年预计达到 172. 2 亿美元。 《报告中》…

Linux系统中Oracle数据库使用SELECT语句检索数据(1)实例应用

Linux系统中Oracle数据库使用SELECT语句检索数据(1)实例应用 1,首先切换到Oracle用户,并进入数据库#sql / as sysdba2,启动数据库,并连接样例及表格,启动命令#startup,连接样例#conn scott/tiger3&#xff…

知乎搜索框背后的Query理解和语义召回技术

一只小狐狸带你解锁 炼丹术&NLP 秘籍前言随着用户规模和产品的发展, 知乎搜索面临着越来越大的 query 长尾化挑战,query 理解是提升搜索召回质量的关键。本次分享将介绍知乎搜索在 query term weighting,同义词扩展,query 改写…

阿里P8架构师谈:分布式架构设计12精讲

分布式架构设计包含: 分布式缓存 分布式消息中间件 分库分表、读写分离 单点登录等 想成为阿里160万年薪的P8架构师?你必须掌握如下6大技能体系! 阿里P8架构师谈:分布式架构系统拆分原则、需求、微服务拆分步骤 阿里P8架构师谈…

【干货】推荐系统中的机器学习算法与评估实战

【导读】推荐系统是机器学习技术在企业中最成功和最广泛的应用之一。本文作者结合MLMU演讲【1】的Slides,对推荐系统的算法、评估和冷启动解决方案做了详细的介绍。 作者 | Pavel Kordk 编译 | 专知 翻译 | XiaowenMachine Learning for Recommender systems — P…

Google | 突破瓶颈,打造更强大的Transformer

一只小狐狸带你解锁炼丹术&NLP秘籍作者:苏剑林 (来自追一科技,人称“苏神”)前言《Attention is All You Need》一文发布后,基于Multi-Head Attention的Transformer模型开始流行起来,而去年发布的BERT模型更是将Transformer模…

阿里P8架构师谈:高并发网站的监控系统选型、比较、核心监控指标

在高并发分布式环境下,对于访问量大的业务、接口等,需要及时的监控网站的健康程度,防止网站出现访问缓慢,甚至在特殊情况出现应用服务器雪崩等场景,在高并发场景下网站无法正常访问的情况,这些就会涉及到分…

斯坦福CS224n追剧计划【大结局】:NLP和深度学习的未来

一只小狐狸带你解锁炼丹术&NLP秘籍简介Stanford CS224n追剧计划是由夕小瑶的卖萌屋发起的开源开放NLP入门项目,借助github和微信群为大家提供同期小伙伴打卡讨论、内容沉淀、作业笔记和FAQ共享、连线斯坦福等服务。关于该计划的详请见这里 。1. Github项目地址h…

KubeVela 高可扩展的云原生应用平台与核心引擎

https://www.oschina.net/news/121015/kubevela-open-source 目录什么是 KubeVela ?KubeVela 解决了什么问题?1. 应用开发者眼中的 KubeVela一个 Appfile 示例2. 平台工程师眼中的 KubeVela3. KubeVela vs 经典 PaaS快速入门安装KubeVela1. 安装Kubernet…

打造工业级推荐系统(三):推荐系统的工程实现与架构优化

打造工业级推荐系统(三):推荐系统的工程实现与架构优化 gongyouliu 阅读数:4148 2019 年 4 月 26 日导读:个性化推荐系统,简单来说就是根据每个人的偏好推荐他喜欢的物品。互联网发展到现在,推荐…

阿里P8架构师谈:什么是缓存雪崩?服务器雪崩的场景与解决方案

什么是应用服务雪崩 雪崩问题 分布式系统都存在这样一个问题,由于网络的不稳定性,决定了任何一个服务的可用性都不是 100% 的。当网络不稳定的时候,作为服务的提供者,自身可能会被拖死,导致服务调用者阻塞&#xff0c…

论文浅尝 | 基于RNN与相似矩阵CNN的知识库问答

链接:https://arxiv.org/pdf/1804.03317.pdf概述当前大部分的 kbqa 方法为将 kb facts 与 question 映射到同一个向量空间上,然后计算相似性. 但是这样的做法会忽视掉两者间原本存在的单词级别的联系与交互. 所以本文提出一种网络结构 ARSMCNN,既利用到语义的信息, 又利用到单词…

斯坦福大学最甜网剧:知识图谱CS520面向大众开放啦!

一只小狐狸带你解锁炼丹术&NLP秘籍受本次疫情的影响,斯坦福大学的2020春季知识图谱课程——CS520面向公众线上开放啦!连课名都是爱你的形状!简单翻译一下重点:今年的CS520面向公众开放,大家可以通过远程视频软件Zo…

一篇文章详解大数据技术和应用场景

“ 本文作者 陈睿 ,优知学院创始人 新技术、新趋势往往趋之若鹜却又很难说的透彻,希望这篇文章能让大家完整的理解什么是大数据:该篇包含:大数据、技术、场景应用以及大数据的岗位。 什么是大数据 说起大数据,估计大家都觉得只…

对话周明:回望过去,展望未来,NLP有哪些发展趋势?

HomeBlog 对话周明:回望过去,展望未来,NLP有哪些发展趋势? 2019年2月15日 by 打不死的小强 AI 新闻 0 comments 周明博士是微软亚洲研究院副院长、国际计算语言学协会(ACL)主席、中国计算机学会理事、中…

阿里P8架构师谈:MongoDB、Hbase、Redis等NoSQL优劣势、应用场景

NoSQL的四大种类 NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时NoSQL凭借…

研讨会 | 知识图谱助力图书馆知识管理与智慧服务研讨会

知识图谱是大数据时代重要的知识表示方式之一,也是人工智能技术的重要支撑,在智能检索、数据分析、自动问答、知识推荐、知识管理等领域有着广泛的应用前景,为知识创新管理带来了新机遇。由于知识图谱实现了对象识别、文本理解、关系推理、机…

高效利用无标注数据:自监督学习简述

一只小狐狸带你解锁 炼丹术&NLP 秘籍 作者:huyber来源:https://zhuanlan.zhihu.com/p/108906502BERT的大热让自监督学习成为了大家讨论的热点,但其实word2vec和自编码器也都属于自监督学习范畴。本文通过整理自监督学习的一系列工作&…

TI-RTOS实时操作系统开发之功耗测试

文章目录写在前面CCS(code composer studio)开启Energy Trace配置电池参数设置测量时间在电流曲线图处点击右键开始测量写在前面 要测试一个产品的电流功耗方式有很多种: 1、电流转电压,通过在供电回路中串联10Ω电阻&#xff0c…