全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

文 | 小轶

(大家好,我是已经鸽了夕总仨月没写文章了的小轶(yì)!新的一年一定改过自新,多读paper多写稿,望广大读者敦促(ง •̀_•́)ง)

今天要和大家分享的是卖萌屋学术站上的本月最热paper。何以最热,看它头上顶了多少大厂tag大概就知道了:

点开paper以后,小铁我更是直呼好家伙.....

超长author list——55位作者众星云集,来自共计全球44家不同机构。并且,在paper末尾更是花了近两页纸的篇幅详细记录每一位作者的贡献。足见项目之庞大,工作量之大。

这个集结了这么多各地大佬的神仙项目,致力于打造一个最强自然语言生成(NLG)评测基准——GEM。同名ACL 2021 workshop正在征稿,workshop的目标亦在于进一步强化完善GEM的评测体系。不出意外的话,GEM未来很可能成为NLG community中主流认可的评测基准。

论文题目
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

论文链接:
https://arxiv.org/pdf/2102.01672.pdf

项目主页
https://gem-benchmark.com/

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0301】 下载论文PDF~

NLG评测困境

NLG评测一直以来都存在诸多困难。我们可以从数据集评测指标两方面来总结一下。

首先是 数据集 。一方面是数据集的易用性。作者提倡每个数据集都配有一张Data Card,清晰地说明它的任务、语言、数据格式、潜在问题和局限性等等 [1]。另一方面是数据集的研究意义。随着NLG技术的不断发展,一些早期提出的数据集已经能够被很好地解决了。相应地,继续在这样的数据集上进行评测就意义不大了,不能因为这个数据集citation高就坚持用它。而那些真正具有进一步研究意义的数据集应该被加以更多的重视。

除了数据集,还有就是 评测指标 的问题。大家其实都知道BLEU、ROUGE等传统自动化指标的评测是不全面的。模型的更多特性,例如公平性、安全性、鲁棒性等等,都不能够通过它们准确度量。但大家还是用得义无反顾,因为测试成本低,也便于和prior works比较。当然,人工评测是一种解决办法。但人工毕竟成本高昂。另一个比较大的问题就是人工评测存在难以复现、标准不统一的问题。

那么,究竟哪些数据集是当前NLG领域最具代表性研究意义的?又应该采用哪些评测指标呢?

GEM的提出就意在解决上述两个问题。显然,这两个问题的答案是有时效性的。随着NLG技术的发展、新的数据集和评测指标的不断提出,问题的答案自然也会相应变化。所以,作者在论文中一再强调:GEM是一个将会不断更新的“活”基准(living benchmark)

GEM的作者团队已经根据NLG领域当前的发展现状,初步探讨了GEM_1.0版本应该包含的数据集和评测指标。同时,更是为之举办了同名ACL workshop,邀请NLG community的同僚们对GEM进行测评,并提出完善建议。

GEM的数据集

为了确定GEM应该包含哪些数据集,作者团队精挑细选,经历了一个漫长的讨论过程。首先由作者团队中每个人提议若干数据集作为候选。然后,在团队中进行问卷调查,并不断讨论,确立了一系列数据集挑选准则,例如:

  • 所选数据集应覆盖多个NLG代表性任务

  • 所选数据集应覆盖多语种

  • multi-reference者优先

  • high-resource和low-resource的数据集应同时兼具

  • .....

最后,团队成员根据挑选准则为候选数据集打分。其中11个数据集脱颖而出,有幸得到了GEM_1.0官方盖章。

▲GEM的11个数据集

为了进一步提高所选数据集的质量,作者团队对其中多个数据集进行了清洗和加工,并为每一个数据集配上Data Card,说明它针对的任务、语言、数据格式和局限性等等。

GEM的评测指标

由于workshop还在征稿,GEM的测试集细节和评测指标并没有完全披露。目前已公布的自动化评测指标如下图所示。

▲GEM已经公布的评测指标

其中,在语义相似度方面,GEM推荐了两个较新的指标——BERTScore[2]和BLEURT[3],分别发表于ICLR'20和ACL'20,都是基于预训练模型构建的。作者认为,GEM的存在能够快速推广新的、更有效的评测指标,解决研究者们总是停滞于使用早期指标的问题。

除此之外,GEM workshop举办后,将公布一些系统在测试集上的输出和相应的人工评测结果。这些数据可以用于研究与人工评测结果一致性更高的新指标

小结与感想

为解决NLG评测困境,55位大佬联合打造NLG评测基准GEM,收录了当今NLG领域最具代表性的11个数据集和多个评测指标。除了评测NLG系统,GEM亦可用于支持新的自动化评测指标研究。

能够看到来自全球的各路大佬,为一份有意义的工作集结在一起,感觉很酷乁( ˙ ω˙乁)!

萌屋作者:小轶

刚刚本科毕业于北大计算机系的美少女学霸!目前在腾讯天衍实验室做NLP研究实习生。原计划是要赴美国就读CMU的王牌硕士项目MCDS,不过因为疫情正处于gap year,于是就来和小夕愉快地玩耍啦~文风温柔优雅,偶尔暴露呆萌属性,文如其人哦!知乎ID:小轶。

作品推荐:

1.有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!

2.ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

3.Attention模型:我的注意力跟你们人类不一样

4.谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

5.EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!

6.这篇顶会paper,讲述了疫情期间憋疯的你和我

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] https://gem-benchmark.com/data_cards/MLSum

[2] https://arxiv.org/abs/1904.09675

[3] https://arxiv.org/pdf/2004.04696.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478946.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 171. Excel表列序号(26进制转10进制)

1. 题目 给定一个Excel表格中的列名称,返回其相应的列序号。 例如,A -> 1B -> 2C -> 3...Z -> 26AA -> 27AB -> 28 输入: "A" 输出: 1输入: "AB" 输出: 28输入: "ZY" 输出: 701来源:力扣&…

用户评论标签的抽取

原文链接:https://blog.csdn.net/shijing_0214/article/details/71036808 无意中在知乎中看到一个问题:淘宝的评论归纳是如何做到的? 了解之后觉得较为容易实现,就简单实现了一个对用户评论的标签抽取功能,纯属兴趣所致…

开源开放|数据地平线通过OpenKG开放全行业因果事理、大规模实时事理等7类常识知识库...

本期介绍开放中文简称、中文同义、中文抽象、全行业因果事理、实体概念描述、实时事理知识库、军事武器装备知识等七个事理相关知识图谱。截至目前,该七个数据集规模达数千万、累计下载次数达两千余次,可用于底层事理推理、查询扩展、数据增强等多个自然…

写给工程师的十条精进原则

引言 时间回到8年前,我人生中第一份实习的工作,是在某互联网公司的无线搜索部做一个C工程师。当时的我可谓意气风发,想要大干一场,结果第一次上线就写了人生中第一个Casestudy。由于对部署环境的不了解,把SVN库里的配置…

我删掉了Transformer中的这几层…性能反而变好了?

文 | chaos编 | 小轶基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让…

LeetCode 821. 字符的最短距离

1. 题目 给定一个字符串 S 和一个字符 C。返回一个代表字符串 S 中每个字符到字符串 S 中的字符 C 的最短距离的数组。 示例 1:输入: S "loveleetcode", C e 输出: [3, 2, 1, 0, 1, 0, 0, 1, 2, 2, 1, 0]来源:力扣(LeetCode) 链…

论文浅尝 - ESWC2020 | ESBM:一个面向实体摘要的评测集

本文转载自公众号:南大Websoft。实体摘要(Entity Summarization),是知识图谱研究与应用中的一个关键问题。南京大学Websoft团队为此制作了一个评测集,称作ESBM,是目前可以公开获取的规模最大的评测集。这项…

美团在O2O场景下的广告营销

美团作为中国最大的在线本地生活服务平台,覆盖了餐饮、酒店、旅行、休闲娱乐、外卖配送等方方面面生活场景,连接了数亿用户和数百万商户。如何帮助本地商户开展在线营销,使得他们能快速有效地触达目标用户群体提升经营效率,是美团…

LeetCode 202. 快乐数(快慢指针)

1. 题目 2. 解题 一个数经过若干次各位数平方和后,会等于它自己使用类似环形链表的快慢指针法,最终快慢指针相遇,若不为1则是不快乐数 class Solution { public:int bitSquareSum(int n) {int sum 0, bit;while(n > 0){bit n % 10;su…

全栈深度学习第4期: 机器学习岗位区别与团队管理

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

会议交流 | DataFunCon 线上大会 - 知识图谱专题论坛

OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。点击阅读原文,进入 OpenKG 博客。

我国政务大数据政策的文本分析:推进逻辑与未来进路

原文地址:https://www.sohu.com/a/238844423_99983415 摘要:[目的/意义]从已颁布政策文件中找出我国推进政务大数据发展和应用的内在逻辑, 为优化未来的政策路径提供对策建议。[方法/过程]通过政府门户网站收集189条有效政策文本, 综合运用词频分析软件…

Flutter原理与实践

Flutter是Google开发的一套全新的跨平台、开源UI框架,支持iOS、Android系统开发,并且是未来新操作系统Fuchsia的默认开发套件。自从2017年5月发布第一个版本以来,目前Flutter已经发布了近60个版本,并且在2018年5月发布了第一个“R…

LeetCode 522. 最长特殊序列 II

1. 题目 给定字符串列表,你需要从它们中找出最长的特殊序列。 最长特殊序列定义如下:该序列为某字符串独有的最长子序列(即不能是其他字符串的子序列)。 子序列可以通过删去字符串中的某些字符实现,但不能改变剩余字…

论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述

本文转载自公众号:计算机工程。大规模企业级知识图谱实践综述王昊奋, 丁军, 胡芳槐, 王鑫中文摘要:近年来,知识图谱及其相关技术得到快速发展,并被广泛应用于工业界各种认知智能场景中。在简述知识图谱相关研究的基础上&#xff0…

2021年了,对话系统凉透了吗?

文 | 兔子酱编 | 夕小瑶大家好,我是可盐可甜的兔子酱,一枚卖萌屋的资深潜水小编,今天终于有了自己的第一篇文章,希望耗时一周撰写的本文能让大家有所收获~这篇文章,算是对自己在头部大厂2年算法岗炼丹经历的一个经验浓…

前端可用性保障实践

本文基于已发表在Infoq的“美团收银台前端可用性保障实践”一文编辑而成。 一般可用性都是说后端服务的可用性,都说我们的服务可用性到了几个9,很少有人把可用性放到前端来。其实对于任何一个有UI交互流程的业务,都会有前端服务可用性&#x…

LeetCode 762. 二进制表示中质数个计算置位

1. 题目 给定两个整数 L 和 R ,找到闭区间 [L, R] 范围内,计算置位位数为质数的整数个数。 (注意,计算置位代表二进制表示中1的个数。例如 21 的二进制表示 10101 有 3 个计算置位。还有,1 不是质数。) …

报名通道开启 | 顶会 ICLR 2021:医疗对话生成与自动诊断国际竞赛,邀你来战!...

ICLR,2013 年由深度学习三巨头中的Yoshua Bengio 和 Yann LeCun 牵头创办,已受到研究者和开发者的广泛认可,是当之无愧的深度学习领域顶级会议。今年,由中山大学、加利福尼亚大学圣迭戈分校和腾讯天衍实验室等组织联合举办的医疗对…

论文浅尝 | 图神经网络的对抗攻击和防御相关文献集

本文转载自公众号:专知。作者:Wei Jin。导读:本资源整理了关于图形数据或GNN(图形神经网络)上的对抗攻击和防御的论文链接。并对其进行分类。目录Survey PapersAttack PapersDefense PapersCertified Robustness Papers地址连接:h…