最新任务型对话数据集大全

合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍。这篇文章就向你介绍一份优质的数据集汇总,帮助你的研究工作轻松选择一片合适的用武之地。

本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。

图1. 数据集汇总项目

这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。

数据集的地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

一.背景介绍:什么是任务型对话 

我们收集的数据集主要针对任务型对话研究(Task-oriented Dialogue)。

任务型对话系统指在特定的情境下帮助用户完成特定任务的对话服务系统,例如帮助用户订餐、订酒店的对话系统。近年来,随着亚马逊Alex,微软小娜,苹果Siri等个人语音助理业务的兴起,基于对话的人机交互方式得到了广泛的关注,相关的研究也越来越多,俨然成为一个富有潜力的研究方向。

图2. 语音助手

目前任务型对话的研究可以大体分为两类:基于流程的任务型对话(Pipeline)以及端到端的任务型对话(End-to-End)。

基于流程的任务型对话是相对较为传统的方法。这种任务型对话的系统通过一套Pipeline流程实现。如图3所示, 任务型对话系统的流程依次包括:自然语言理解、对话状态跟踪、对话策略学习,自然语言生成模块。具体的,用户输入自然语言,对话系统按流程依次完成:分析用户意图,更新对话状态,根据对话策略做出动作,生成最终的自然语言回复。

图3. Pipeline任务型对话

然而,Pipeline流程式的对话系统存在错误级联和标注开销大的问题,为此最近有一部分研究尝试通过直接进行端到端的任务型对话学习来规避这些问题。端到端式对话系统根据用户输入句子直接给出自然语言回复。

二.为什么要做数据集汇总?

任务型对话任务并不是新课题,但是针对任务型对话的广泛研究在最近几年才兴起。任务型对话研究的方兴未艾反映在数据和语料上,就是目前现有的任务型对话数据集数量少,且其他成熟的任务已有的数据集在数据量上要少的多。 在这种情况下,尽可能多找到并有效的利用已有的数据资源就成为开展研究的关键之一。然而,搜罗并全面的寻找合适的数据集是一个费时费力的工作,所以整理统计目前已有的任务型对话领域的数据集的信息是有必要的,可以极大地为相关研究工作提供便利,让研究工作得以地快速开始。

除了数据本身的信息有价值之外,在重要数据集上的实验结果提升过程,可以很大程度上反映自然语言研究的前进脉络。所以,简单的数据集信息罗列并不能让我们满意,我们还计划提供一些常用数据上的实验结果和对应论文的信息。从而帮助研究人员了解和把握任务型对话领域研究的推进脉络。我们选择以Leaderboard的形式呈现数据集上的部分实验结果。

三.数据汇总的内容介绍

1.数据集信息

针对每个数据集,我们统计并总结了如下几个方面的内容。

表1. 数据集内容及说明

内容说明
Name数据集名称
Introduction数据集简介
Link (Download & Paper)数据下载链接和对应论文的链接
Multi or single turn对话数据是多轮还是单轮
Task对话数据是否为任务型对话
Task detail对话数据取自什么应用情景,如订餐,导航等
Whether Public Accessible是否可以免费下载
Size & Stats数据量、标注量统计
Included Label数据包括的标注类型
Missing Label数据缺失的标注类型

类似其他常见数据集汇总工作,我们为每个数据集提供了名称,下载链接,简介,数据量等信息。除了这些基本信息,我们还涵盖了一些任务型对话数据的特有的研究内容,例如:

  • Multi or single turn:对话数据是多轮还是单轮是任务型对话数据的重要属性,单轮对话数据往往用于自然语言理解任务,多轮对话数据往往用于端到端任务、对话策略学习、对话状态跟踪。

  • Task detail:数据适用于什么应用情景也是一个独特的关键信息,通过这个信息,研究者可以快速理解数据,开展Multi-domain 或Domain-transfer研究。

2. 实验结果Leaderboard

对于一些研究常用数据,我们提供了上面的一些State-of-the-art实验结果,并以Leaderboard的形式呈现,具体包括内容如下:

表2. Leaderboard内容及说明

内容说明
Model模型的名称
Score主要实验结果,F1分数,准确率
Paper/Source模型对应论文的名称和链接

其中我们的模型名称采用出处论文中的表述,分数的评价指标以具体的任务而定。实验结果列表配合上论文链接,可以让读者快速地了解一个任务。

此项信息内容仍在完善中。

四.数据集汇总内容样例

1. 数据集介绍样例

数据集的汇总目前以表格的形式,收录了17个数据的细节信息。读者可以在github项目中Excel文件或者Readme中直接查看。数据的格式如图4所示。

图4. 数据细节样例

2. Leaderboard 样例

我们以Leaderboard 的形式展示了语义槽抽取(Slot filling),用户意图识别(Intent detection),对话状态跟踪(Dialogue state tracking)三个任务上的一些领先结果。具体形式如图5所示。

图5. Leaderboard的样例

五.关于内容补充的邀请

我们欢迎各种形式的内容完善,包括但不限于:

  • 直接提交Pull Request

  • 向我们发送新数据

  • 向我们发送新的实验结果(已发表论文)

六.其他

数据集汇总地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480863.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网架构:常用基础中间件介绍

一般而言中间件和框架的区别是,中间件是独立运行的用于处理某项专门业务的CS程序,会有配套的客户端和服务端,框架虽然也是处理某个专门业务的但是它不是独立程序,是寄宿在宿主程序进程内的一套类库。 图上绿色部分代表了框架&…

论文浅尝 | How to Keep a Knowledge Base Synchronized

Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755. 论文链接:https://ww…

揭秘任务型对话机器人(上篇)

https://juejin.im/post/5b21d548e51d4506d93701e7 欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~本文来自专栏语言、知识与人工智能,作者腾讯知文实验室1. 什么是任务型机器人任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是…

如何判断样本标注的靠谱程度?置信度学习(CL)简述

一只小狐狸带你解锁NLP/DL/ML秘籍来源:AI科技评论前言使用ImageNet、CIFAR、MNIST 或 IMDB 这些数据集时,你是不是会潜意识中假设,这些数据集中的类标签都是正确的?然而,你可能不知道:ImageNet数据集中至少…

论文浅尝 | Open world Knowledge Graph Completion

来源:AAAI2018论文链接:https://arxiv.org/pdf/1711.03438.pdf代码链接:https://github.com/bxshi/ConMask本文解决知识库补全的问题,但和传统的 KGC 任务的场景有所不同。以往知识库补全的前提是实体和关系都已经在 KG 中存在&am…

NLP十大研究方向Highlights!

前言 DeepMind 科学家 Sebastian Ruder总结整理了机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向,本文将介绍该10个方向所取得的主要进展,简要说明我认为这个方向重要的原因,最后对未来的工作进行简短的展望。 这 10 个方向分别是…

图解Transformer

原文标题:The Illustrated Transformer 原文链接:https://jalammar.github.io/illustrated-transformer/ 论文地址:https://arxiv.org/abs/1706.03762 前言 Transformer在Goole的一篇论文Attention is All You Need被提出,为了方…

知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务

本文转载自公众号:知识工场。一、什么是实体识别与链接近年来,如何通过知识图谱让机器实现自然语言理解受到越来越多的关注。其中,识别文本中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,…

mikechen谈技术人成长的三大原则

“ 我自己是工程师出身,一路就像游戏打怪一样,不断去突破自己的职能舒适区,技术这条路我用了整整10年去把它全部打通,这些经验看似平淡,作为一个过来人,在你每一次新的选择的时候,你就会发现它…

最新进展 | 深度学习在天气预测中的应用

谷歌研究员提出使用机器学习方法预测未来短时间内的天气。此方法虽然处于早期发展阶段,但效果已经优于传统模型。 前言 天气总是会或轻或重地影响人们的日常生活,而天气预报的准确性会极大影响人们应对天气的方式。天气预报可以告知人们是否应当选取一条…

快速上手笔记,PyTorch模型训练实用教程(附代码)

前言自 2017 年 1 月 PyTorch 推出以来,其热度持续上升,一度有赶超 TensorFlow 的趋势。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点,如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。因…

领域应用 | 中医临床术语系统V2.0在线发布啦!

本文转载自公众号:中医药知识组织与标准。中医临床术语系统V2.0在线发布中医临床术语系统(Traditional Chinese Medicine Clinical Terminological Systems, TCMCTS)是由中国中医科学院中医药信息研究所研制的,用来描述健康状况和…

NLP Subword三大算法原理:BPE、WordPiece、ULM

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后,各路预训练语言模型如同雨后春笋般涌现,其中Subword算法在其中已经成为标配。且与传统空格分隔tokenization技术的对比有很大的优势~~ E.g. 模…

【小程序】微信小程序开发实践

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/diandianxiyu/article/details/53068012 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck…

技术人如何提升自己的核心竞争力

互联网行业是一个发展非常快&#xff0c;变化也快的行业&#xff0c;在这个行业&#xff0c;总是让人感觉既兴奋又不安。 兴奋的是你总能看到无数新奇的事物&#xff0c;甚至亲身参与到一场变革中去&#xff0c;而不安的则是&#xff0c;任凭你如何NB&#xff0c;你也无法保证哪…

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号&#xff1a;AI科技评论。AI 科技评论按&#xff1a;正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在…

ICLR2020 | 如何判断两个神经网络学到的知识是否一致

人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。在最终提交的 2594 篇论文中&#xff0c;有 687 篇被接收&#xff0c;接收率为 26.5%。本文介绍了上海交通大学张拳石团队的一篇接收论文——《Knowledge Consistency between Neural Networks and B…

7张图学会SQL

第1周&#xff1a;SQL入门 学习SQL语句的书写语法和规则从零学会SQL&#xff1a;入门​www.zhihu.com 第2周&#xff1a;查询基础 Select查询语句是SQL中最基础也是最重要的语句&#xff0c;这周我们就来利用Select来对表中的数据进行查询。从零学会SQL&#xff1a;简单查询​w…

大公司稳定工作和创业之间如何选择?

“ 是留在大公司&#xff0c;还是加入小型创业公司&#xff0c;还是自己创业&#xff0c;面对房价每年高涨的趋势&#xff0c;面对未来的不确定&#xff0c;应该怎样选择。 作为一个亲历者&#xff0c;希望你看完后能有所启发。 本文作者&#xff0c;陈睿 优知学院创始人 优知…

论文浅尝 |「知识表示学习」专题论文推荐

本文转载自公众号&#xff1a;PaperWeekly。本期论文清单来自清华大学博士生韩旭和北师大本科生曹书林&#xff0c;涵盖了近年知识表示学习方向的重要论文。[ 综述类 ]■ 论文 | Representation Learning: A Review and New Perspectives■ 链接 | https://www.paperweekly.sit…