聊聊机器翻译界的“灌水与反灌水之战”!

文 | Willie_桶桶
编 | 智商掉了一地

针对机器翻译领域如何提高和判断实验可信度,这篇ACL2021的oustanding paper迈出了关键的一步!(来读!全文在末尾)

作为不停读论文和调参炼丹的科研党,也许在我们的身边总会出现这样类似的对话:

案例1: xxx博士不讲武德,竟然让我把一部分测试集加入到训练集里面去,这是在公然蔑视学术道德?

案例2: 嘿嘿,调了调句子的最大长度,评测性能终于刷上去了。

案例3: 哇靠,那个人在作弊,baseline用BERT,自己的模型竟然用BERT-Large。

案例4: 就这个指标比SOTA好,其他几个指标都不行,要不就贴好的指标吧,老天保佑reviewer不要发现这个漏洞。

案例5: 单模态的性能也太强了吧,这让多模态效果怎么发论文?还是随便跑跑baseline,把性能调低点。

案例6: 调了一上午的参数,这次效果终于比SOTA强了,赶紧记录一下,顺便保存好checkpoint。

案例7: 这论文写的评测代码竟然是错的,我说性能怎么比我复现的好那么多。

案例8: 刚刚发邮件询问作者为啥引用我的实验效果那么低,他竟然说抄错了。

随着AI领域的持续火热,越来越多的同学在"想方设法"地设计算法来刷新任务性能,并产出了一篇篇精妙绝伦的论文。相关领域会议投稿量呈现出爆炸式地增长,然而投稿论文的质量参差不齐,作为一个普通投稿人,如何设计实验以更加有说服力地证明提出方法的有效性;以及作为一个审稿人,如何快速判断这篇论文提出的算法是否可(guan)信(shui),是值得深思的问题。针对机器翻译领域如何提高和判断实验可信度,下面这篇ACL2021的oustanding paper迈出了关键的一步!

论文标题
Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

论文链接
https://aclanthology.org/2021.acl-long.566.pdf

1 背景

过去10年间涌现了大量提升机器翻译性能的算法,这些算法通过与前人的模型对比自动评测指标,比如BLEU分数值,来凸显其性能。随着论文报告的分数值越来越高,我们不禁要问,这些论文的评测方式真的有说服力吗?算法真的有效吗?整个社区是朝着良性的方向发展,还是灌水之风日渐严重?

为了回答以上问题,本文评估了过往10年间(2010 ~ 2020)发表在ACL相关会议的769篇机器翻译领域论文,着重对论文评测进行了分析,包括:

  • 评价指标的多样性

  • 统计显著性检验

  • 直接复制前人实验结果

  • 数据划分和预处理

基于分析结果,本文揭露了造成可疑评估的一个个陷阱,反映出当前社区正在朝着令人担忧的方向发展。

2 令人失望的评估结果

通过对769篇论文的评估,作者揭露了当前机器翻译评测中令人担忧的4个陷阱

2.1 称霸机器翻译的BLEU

上图展示了10年间各种评价指标在机器翻译论文中所占的比重,BLEU以压倒性的优势成为了最热门的评价指标,几乎99%的论文都用它来衡量算法的优越性,而其他改进的评测指标则逐渐被学者们忽视。众所周知,BLEU作为一种自动评价指标存在一些缺陷,它仅仅能反应出模型某些特定方面的优势,所以有很多工作致力于研究更加合理的自动评测指标。

然而,一个很讽刺的现象是:过去10年间有超过108种改进的评测指标,其中很多更容易使用并且表现出比BLEU更加契合人类的评测模式,比如chrF,但大部分从未被人使用过;长此以往,这些自动评测的研究还有存在的意义吗?

为了说明仅仅依赖一种评价指标来衡量翻译模型性能是不充分的,作者统计了多种提交至WMT20的模型,使用BLEU和chrF评测指标的排名情况,结果如下表所示。

从表中可以看出,使用BLEU作为评价指标时,NiuTrans系统是赛道中排名第一的模型,而当使用chrF指标时,Tohoku-AIP-NTT系统要优于NiuTrans系统。这反映出仅使用BLEU是无法准确得出某个模型更优的结论,机器翻译社区应该鼓励使用更优的评价指标来作为BLEU的补充或者替代品。

2.2 被遗忘的统计显著性检验

统计显著性检验是一种确保实验结果并非巧合的标准方法。在机器翻译领域,统计显著性检验早已被用于自动评测指标中,即评估两个机器翻译系统之间评测分值的差异是否巧合。直观上,这个检测能更加有说服力地反映算法的有效性,但近十年来使用该检验的论文越来越少。

上图展示了各年ACL相关会议论文中使用统计显著性检验的比例。从图中我们可以发现,人们越来越不喜欢使用这个检验,即使它可以显著的提升论文可信度,导致这种现象出现的原因是有更好的提升可信度的方式,还是因为论文页数限制而无法添加多余实验(xin xu)呢?

此外,作者设计了另一组验证实验来说明,统计显著性检验结果与自动评测指标提升幅度没有直接的联系。在实验中,Custom 1操作指的是将模型输出中的最后一句替换为空白行,Custom 2操作对应将模型输出中最后一句替换为重复同一个词10k次的句子。

实验结果如上表所示,其中第一行表示各系统提交到WMT20的原始结果。观察表中结果可以发现,Custom 2操作会导致BLEU和chrF指标分值的剧烈下降,但在统计显著性检验实验中,并没有发现任何系统要明显优于其他的系统。

2.3 一直copy一直爽

随着NLP论文爆发式的增长,直接复制前人报告的实验结果进行对比,是一种省时又省力的方式,在机器翻译领域亦是如此。

上图是近10年间,各年直接复制前人实验结果进行对比的论文比重。越来越多的论文更加倾向于直接复制实验结果而不是复现相关实验,这在2015年以后显得尤为明显;拷贝结果的确可以省时省力,但引发的问题是:那些论文是否提供了足够信息,以确保它取得的分值和前人报告的结果具有可比性

那么,稍微对模型输出进行处理会造成性能的差异吗?作者设计了一组实验,测试被科研人员广泛使用的后处理方式对性能的影响。针对模型输出结果进行后处理的操作包括:是否完全小写化、是否标点规范化、是否进行tokenize处理。实验结果如上表所示,不同的后处理方式对自动评测结果有很大的影响,比如进行完全小写化处理,可以将Tohoku-AIP-NTT系统在赛道和Volctrans系统在赛道的评测BLEU值分别提高1.4和1.6,这在翻译领域可谓是显著的提升。

2.4 评测中数据的"艺术"

数据集通常被分为训练集、验证集和测试集,以用于模型学习和评测,不同的数据预处理方式可以带来各种“期待”的结论。机器翻译领域论文大多提出新算法以提高翻译准确度(因变量),而评测新的算法对因变量的影响时,需要保持其他所有自变量(例如数据集)不变,否则无法保证算法性能的可信度。

那么实际情况又是怎样的呢?作者统计了近十年进行性能对比却使用不同数据的论文比例,结果如上图所示。十年来,越来越多的论文在进行对比实验时使用了不一致数据,在这种设定下,我们无法判断出性能的提升到底是因为算法的优越还是数据的"艺术"。

为了说明数据的"艺术"对性能的影响,作者设计了一组对比实验,评估各种被广泛使用的数据预处理方式对结果造成的影响,包括数据最大长度、是否Truecase处理、过滤其他语言文本噪音、删减1个语料。实验结果如上表所示,简单地改变数据集中句子的长度或者进行Truecase操作,都会导致各种评价指标和显著性检验结果剧烈波动,所以要真正凸显算法的有效性,保证数据一致性是不可或缺的

3 反击灌水的攻与防

通过评估近10年769篇ACL相关会议论文,本文发现了当前机器翻译领域普遍存在的4个陷阱,并且给出了关于如何增强论文可信度以及判别论文结果的指导方案。

针对提高论文结果可信度,需要:

  • 不应该仅使用BLEU作为评测指标,也需要结合其他更加合适的自动评测指标及人工评测。

  • 无论自动评测指标分值提高有多大,都应该尽量进行统计显著性检验。

  • 尽量不要直接拷贝别人的实验结果,如果不可避免,要保证结果具有可比性。

  • 要保证所有的数据集以及预处理方式一致。

对于评估论文实验结果的可信度,可以通过回答以下问题进行打分(每个yes得1分,分数越高越可信):

  • 是否使用了比BLEU更能与人类判断相关联的指标,或者进行了人工评估?(yes/no)

  • 是否进行了统计显著性检验?(yes/no)

  • 是否为论文计算了自动度量分数而不是从其他工作中复制?如果复制,是否所有复制的和比较的分数都通过确保其可比性的工具(例如 SacreBLEU)计算得出?(yes/no)

  • 如果对比的机器翻译系统是为了凸显算法的优越性,那么系统间是否使用了相同的数据集及预处理方式?(yes/no)

4.总结

当前对于生成任务,评价指标仍然不甚完善,各种"艺术性"操作也经常层出不穷。看惯了身边谜之操作的你,是否愿意支持评测规范化,加入反击的阵营呢?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 273. 整数转换英文表示

1. 题目 将非负整数转换为其对应的英文表示。可以保证给定输入小于 231 - 1 。 示例 1: 输入: 123 输出: "One Hundred Twenty Three"示例 2: 输入: 12345 输出: "Twelve Thousand Three Hundred Forty Five"示例 3: 输入: 1234567 输出: "One Mill…

数据标注平台doccano----简介、安装、使用、踩坑记录

1.doccano的安装与初始配置 1.1 doccano的用途 document classification 文本分类sequence labeling 序列标注,用于命名实体识别sequence to sequence seq2seq,用于翻译speech to text 语音转文本标注 命名实体标注 序列标注(如机器翻译&…

月圆花美 中秋快乐!

OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。点击阅读原文,进入 OpenKG 网站。

大众点评支付渠道网关系统的实践之路

业务的快速增长,要求系统在快速迭代的同时,保持很好的扩展性和可用性。其中,交易系统除了满足上述要求之外,还必须保持数据的强一致性。对系统开发人员而言,这既是机遇,也是挑战。本文主要梳理大众点评支付…

拍不完的脑袋:推荐系统打压保送重排策略

文 | 水哥源 | 知乎saying1.懂模型不只是要知道模型能干什么,更要知道它不能干什么2.在从业一段时间后应该有一次“转职”,如果你相信模型无所不能,你应该走科研路线;如果你对模型不是很放心,那你应该成为一名工程师3.…

LeetCode 572. 另一个树的子树(二叉树迭代器)

1. 题目 给定两个非空二叉树 s 和 t,检验 s 中是否包含和 t 具有相同结构和节点值的子树。s 的一个子树包括 s 的一个节点和这个节点的所有子孙。s 也可以看做它自身的一棵子树。 示例 1: 给定的树 s:3/ \4 5/ \1 2 给定的树 t:4 / \1 2 返回 tr…

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

笔记整理:李磊,浙江大学硕士,研究方向为自然语言处理 链接:https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型(如GPT)在预训练阶段学习到了大量的知识,具有很好的学习新任务的能力&a…

Spark性能优化指南——高级篇

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 调优概述 有的时候,我们可能会遇到大数据计算中一…

LeetCode 342. 4的幂(位运算)

文章目录1. 题目2. 解题2.1 通用解法2.2 找规律1. 题目 给定一个整数 (32 位有符号整数),请编写一个函数来判断它是否是 4 的幂次方。 示例 1: 输入: 16 输出: true示例 2: 输入: 5 输出: false进阶: 你能不使用循环或者递归来完成本题吗? …

格局打开,带你解锁 prompt 的花式用法

文 | Severus就如同《倚天屠龙记》中的主角张无忌,语言模型修炼了深厚的内功,但是遇到他的乾坤大挪移之前,他空有一身本领却不会用。但学会之后,于所有武功又都融会贯通。光明顶上血战六大派,他可以打出比崆峒派威力更…

论文浅尝 | 基于异质图交互模型进行篇章级事件抽取

笔记整理:娄东方,浙江大学 & 恒生电子股份有限公司博士后,研究方向为事件抽取来源:ACL2021链接:https://arxiv.org/abs/2105.14924GitHub项目地址:https://github.com/RunxinXu/GIT本文关注篇章事件抽取…

GAN 的内在漏洞,只看眼睛就能找出虚拟人脸?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

LeetCode 869. 重新排序得到 2 的幂(排序 全排列)

1. 题目 给定正整数 N ,我们按任何顺序(包括原始顺序)将数字重新排序,注意其前导数字不能为零。 如果我们可以通过上述方式得到 2 的幂,返回 true;否则,返回 false。 示例 1: 输入…

Spark性能优化指南——基础篇

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已…

会议交流 | 京东硅谷首席科学家领衔,图机器学习峰会火热开启!

2021年10月10日,DataFunSummit:图机器学习在线峰会将如约而至。本次峰会的形式再次创新,由图与推荐与DataFun联合策划、京东硅谷研发中心 首席科学家 吴凌飞博士与腾讯大数据 AI平台总监 陶阳宇博士领衔参与,既包括前沿的学术分享…

召回 粗排 精排,如何各司其职?

文 | 水哥源 | 知乎saying1.AB测试几乎是系统改进的不二法则,算法做AB,开发做AB,产品做AB,运营更要做AB2.召回有点像一个甩锅侠,我不管我给的准不准,我就管我把潜在的能投的都吃进来就行3.其他环节想要提升…

LeetCode 558. 四叉树交集(递归)

1. 题目 四叉树是一种树数据,其中每个结点恰好有四个子结点:topLeft、topRight、bottomLeft 和 bottomRight。四叉树通常被用来划分一个二维空间,递归地将其细分为四个象限或区域。 我们希望在四叉树中存储 True/False 信息。四叉树用来表示…

Online Learning算法理论与实践

背景 Online Learning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果。本文主要介绍Online Learning的基本原理和两种常用的Online Learning算法:FTRL(Follow The Regularized Leader)[1]和BPR(Bayesia…

在斯坦福,做 Manning 的 phd 要有多强?

文 | 付瑶编 | 小轶博士的毕业论文是我们博士学位教育重要的一环,不仅仅是获得学位的最后一个难关,也是读博期间工作的总结展现。那么一个优秀的博士在读博期间会做出多少成果?ta 的博士论文又长什么样?今天,让我们打开…

LeetCode 655. 输出二叉树(二叉树高度二叉树遍历)

1. 题目 在一个 m*n 的二维字符串数组中输出二叉树,并遵守以下规则: 行数 m 应当等于给定二叉树的高度。列数 n 应当总是奇数。根节点的值(以字符串格式给出)应当放在可放置的第一行正中间。根节点所在的行与列会将剩余空间划分…