论文投稿新规则,不用跑出SOTA,还能“内定”发论文?!

文 | Sheryc_王苏

从5月初开始,CV圈似乎开始了一阵MLP“文艺复兴”的热潮:在短短4天时间里,来自谷歌、清华、牛津、Facebook四个顶级研究机构的研究者分别独立发布了4篇关于MLP结构在图像任务上取得不错效果的论文。虽然研究本身令人兴奋,但发表的过程却让人一言难尽:来自牛津的小哥Luke就在reddit上抱怨到他正在进行的实验被谷歌的MLP-Mixer抢先发表(scoop)了,所以他正在撰写的实验总结也只能以实验报告的方式尽快挂在arXiv上。

做研究的过程中,同样的想法被其他研究者抢先发表是家常便饭。或许我们已经对此习以为常,但这真的没有办法解决吗?在NAACL 2021上,就有研究者从心理学、药学等其他学科研究中被普遍使用的“预注册”机制(Pre-registration)出发,为NLP领域量身定做了一套预注册机制,希望能用一套新的研究和投稿流程让作者不再担心被抢先发表不再担心好的研究因为没有SOTA被拒不再担心慢研究赶不上快节奏…根据作者在文中绘制的蓝图,这种机制虽然简单却好处多多,它究竟能够为未来的NLP研究带来什么样的改变呢?

论文题目
Preregistering NLP Research

论文链接
https://arxiv.org/abs/2103.06944

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0525】 下载论文PDF~

什么是预注册?

预注册

所谓预注册,指的是在进行一项研究之前,将自己的详细研究计划在预注册网站[1]上进行注册。预注册的内容反映了在研究开始之前需要考虑的所有事项,例如自己的研究假设、模型设计和实验方案。

在内容上,预注册很像是在申请项目资金时撰写的申请材料,或是研究开始前导师要求撰写的研究计划,不过虽然内容类似,预注册的不同之处在于“注册”二字:这些内容会被提交至网站上,并打上提交之时的时间戳,证明作者在某个时刻已经完成了实验设计。在网站上预注册的内容可以作为实验的初始设计记录、作为实验取得进展或发生变化后记录进度的仓库,甚至可以直接作为“注册报告”(Registered reports)向期刊或会议直接投稿。这种机制早在2018年就已在Science上发文[2]进行过相关讨论,但目前在AI领域还并不常见。

注册报告投稿制度

上文中提到的“注册报告投稿制度正是线上预注册制度的主要副产物。在这种审稿制度下,同行评议过程被分为两个阶段

  1. 研究开始前,作者给审稿人提交一份预注册的研究计划。随后,审稿人根据研究计划进行评审,经过多轮修改,决定是否接收该研究计划

  2. 研究计划被接受后,开始根据已提交的研究计划进行相关实验,撰写论文,随后向审稿人进行第二轮提交。随后,审稿人根据论文进行评审,经过多轮修改,决定是否接收该论文

对于注册报告投稿制度,一般在第一阶段的研究计划被接受后,作者便得到了来自主办方的保证,即只要按照研究计划完成的论文即可被接收,无论实验效果好坏。因此,如果实验计划被认为有意义,即使最终被证明方法无效也可以被接收。

在进行实验时,作者可以随时对研究计划进行修改,但对研究计划的任何修改都需要在最终报告中体现。目前,注册报告投稿制度已经被包括Nature子刊在内的数百种期刊采用。

预注册有哪些好处?

看起来,预注册似乎只是将自己的详细研究方案在开始着手试验之前挂在网站上。但是,这样简单的操作却能带来新的研究范式,改变现有研究中的诸多问题:

  1. 让自己提前完整设计研究方案。在进行研究之前,通过预注册网站上提供的一系列问题列表让自己在动手之前就可以从多个维度仔细思考研究的细节和意义,避免进行无意义的探索。同时,正如NLP大牛Jason Eisner所建议的[3],预注册过程中撰写的报告或许可以作为最终论文的一部分,让自己在开始研究之前就着手撰写论文。

  2. 区分探索性分析(Exploratory)和验证性分析(Confirmatory)。所谓探索性分析指通过实验结果产生新的假设,而验证性分析指通过更多实验和分析验证先前已提出的假设。在一些实际研究中,研究者往往将探索性分析伪装成验证性分析,即首先通过实验得出结果,再通过结果反推出一个假设,说明自己的实验验证了反推出的假设,这种行为被简称为HARKing(Hypothesizing after results are known),会导致产生不严谨的假设。如果是根据注册报告进行评价,则在得到实验结果前就需要对探索性分析和验证性分析进行区分,避免错误假设的出现。

  3. 避免发表偏见[4]。所谓发表偏见,指的是会议或期刊偏好于发表现象显著、结果好的研究,而不偏好现象不明显、结果较差的研究。实际上,有些研究即使结果不好也有其发表价值,但是为了能够让论文发表,研究者倾向于压缩负面的发现,着重强调好的结果。这也难怪为何近年来NeurIPS上还会有“I Can't Believe It's Not Better! Workshop”[5]这样专发没效果的模型的workshop了。但如果根据注册报告投稿制度,根据论文本身的设计来确定接受与否,就可以让研究者在看到哪条路可行的同时,更多的接触到那些前人试过但不可行的方案了。

  4. 避免被他人抢先发表。注册报告制度使得先提出实验方案的人拥有优先权。即使不实行注册报告制度,预注册报告上的时间戳也可以证明提出类似想法的时间先后。预注册报告可以随时选择是否公开,让他人难以直接通过预注册报告剽窃方案。

  5. 鼓励慢科学[6]。当注册报告被同意接受之后,作者不需要担心被提前发表,因此可以不用在尽可能短的时间赶完文章,而是可以选择用更长时间仔细打磨自己的想法,让论文更具深度。

NLP的预注册有什么特点?

不同领域有着不同的研究特点,甚至同一领域内的不同种类论文也有不同的研究方法。这篇论文的最大贡献就在于其对NLP领域内的各类论文分别提出了一个初版的预注册表格,作者在预注册时需要回答表格内的若干问题。

对于NLP领域,作者根据COLING 2018的论文分类将研究分为了3种:计算辅助的语言学分析(Computationally-aided linguistic analysis),NLP工程实验(NLP engineering experiment paper),以及复现/资源/立场/综述(Reproduction/Resource/Position/Survey paper)。其中,作者对于除Position Paper以外的各类研究都给出了推荐的预注册表格。

下面以最为常见的NLP工程实验论文为例,在预注册过程中需要回答以下问题:

  1. 你的研究目的是什么?

  2. 你的研究假设是什么?

  3. 独立变量有哪些(例如:模型结构)?非独立变量有哪些(例如:模型输出好坏)?

  4. 以上变量将被如何衡量

  5. 实验包含几种语料或任务

  6. 你将使用哪些软件库

  7. 你将使用何种硬件

  8. 你将使用何种参数设置

  9. 你将使用什么样的数据

  10. 如果实验数据不存在,请回答关于资源类论文(Resource paper)关于收集数据的预注册问题(原文附录A.6)。如果实验数据存在,你对实验数据的熟悉程度是?你的实验假设在多大程度上与该数据相关?这在多大程度上影响了你方法在其他数据上的泛化性能?你是否准备收集更多数据来验证自己的方法?

  11. 为何选择该数据?这些数据有哪些关键性质

  12. 这些数据是如何被划分为训练集/验证集/测试集的?

  13. 你将如何分析结果并测试自己的假设?如果是自动评测,你将使用什么样的指标和实现?它们被如何设置?如果是人工评测,请回答关于人工评测设置的预注册问题(原文附录A.8.1)

  14. 你是否会进行错误分析?如果是,请回答关于错误分析设置的预注册问题(原文附录A.8.2)

  15. 你是否有其他需要进行预注册的信息?

其他种类论文的预注册表格可以在论文的附录中找到。

可以看到,预注册的问题着重瞄准自己的方法如何能论证/反驳自己的假设,而非如何在数据集上取得更好结果。虽然需要回答的问题很多,但这些问题基本涵盖了NLP实验论文的全部设计细节,在着手试验之前想清楚以上所有问题对于实验的整体把握会有相当大的帮助。

总结

预注册和注册报告制度虽然已经被心理学等学科的顶刊作为标准流程,它的可行性和影响依然在探索之中。不过,对于我们一直以来所诟病的“刷SOTA”、抢创意、堆算力的行为,使用注册报告制度或许能够带来缓解;同时,预注册制度也能让研究者从在单一数据集上追求模型性能的过程中提前跳出来,从更高的角度和更多元的视角上探索自己的方法对整个领域的推动作用。即使预注册不是标准流程,在研究开始前仔细思考和记录预注册问题的结果也能提前避免一些弯路,让后续的实验更有效率。在AI领域日益火爆的当下,对于研究和投稿流程的改进同样是一项重要课题,几年后NLP的研究范式会变成什么样,着实让人期待呢(=•ω•=)


萌屋作者:Sheryc_王苏

北航高等理工学院CS专业的市优秀毕业生,蒙特利尔大学/MILA博士生,资深ACG宅,目前作为实习生在腾讯天衍实验室进行NLP研究。虽主攻NLP,却对一切向更完善的智能迈进的系统和方向充满好奇。如果有一天N宝能真正理解我的文字,这个世界应该会被卖萌占领吧。(还没发过东西的)知乎ID:Sheryc

作品推荐:

  1. NLP未来,路在何方?12位巨佬联名指路!

  2. 这几个模型不讲“模德”,我劝它们耗子尾汁

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].常用的预注册网站,不妨去看看:Open Science Framework: https://osf.io/prereg/ AsPredicted: https://aspredicted.org/

[2].Science对于预注册的讨论:More and more scientists are preregistering their studies. Should you?. Science. https://www.sciencemag.org/news/2018/09/more-and-more-scientists-are-preregistering-their-studies-should-you

[3].研究之前先开始写:Write the Paper First by Jason Eisner. https://www.cs.jhu.edu/~jason/advice/write-the-paper-first.html

[4].发表偏见:Publication Bias - Wikipedia. https://en.wikipedia.org/wiki/Publication_bias

[5].慢科学与快科学:Research Fast and Slow by Min-Yen Kan. http://bit.ly/kan-coling18

[6].有关预注册机制的更多细节:https://www.cos.io/initiatives/prereg?_ga=2.218660505.1451147193.1621172626-420219689.1621172626

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

即时配送的订单分配策略:从建模和优化

最近两年,外卖的市场规模持续以超常速度发展。近期美团外卖订单量峰值达到1600万,是全球规模最大的外卖平台。目前各外卖平台正在优质供给、配送体验、软件体验等各维度展开全方位的竞争,其中,配送时效、准时率作为履约环节的重要…

LeetCode677. 键值映射(Trie树)

1. 题目 实现一个 MapSum 类里的两个方法,insert 和 sum。 对于方法 insert,你将得到一对(字符串,整数)的键值对。字符串表示键,整数表示值。如果键已经存在,那么原来的键值对将被替代成新的键…

技术实践 | ICDE2021-大规模知识图谱预训练及电商应用

本文作者 | 张文(浙江大学)、黄志文(阿里巴巴)、叶橄强(浙江大学)、文博(浙江大学)、张伟(阿里巴巴),陈华钧*(浙江大学)接…

吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生!

文 | 赵一静最近,三个重量级榜单,视觉推理VCR、文本推理ANLI、视觉问答VQA同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地,重塑了小编的认知和期望。如此全能,堪称是AI领域的外(一)星&a…

Spring Data REST 远程代码执行漏洞(CVE-2017-8046)分析与复现

前言 2009年9月Spring 3.0 RC1发布后,Spring就引入了SpEL(Spring Expression Language)。对于开发者而言,引入新的工具显然是令人兴奋的,但是对于运维人员,也许是噩耗的开始。类比Struts 2框架,…

体验paddle2.0rc版本API-Model--实现Mnist数据集模型训练

原文链接:体验paddle2.0rc版本API-Model–实现Mnist数据集模型训练:https://blog.csdn.net/weixin_44604887/article/details/109566281 尝试Mnist训练 导入需要的包导入Mnist数据集组网搭建网络查看模型参数查看模型网络(自动命名&#xff0…

LeetCode 648. 单词替换(Trie树)

1. 题目 在英语中,我们有一个叫做 词根(root)的概念,它可以跟着其他一些词组成另一个较长的单词——我们称这个词为 继承词(successor)。例如,词根an,跟随着单词 other(其他),可以形成新的单词 another(另一个)。 现…

99%算法工程师不知道的if/else优化技巧

文 | IT技术控知乎、灵剑知乎观点一(IT技术控)前期迭代懒得优化,来一个需求,加一个if,久而久之,就串成了一座金字塔。当代码已经复杂到难以维护的程度之后,只能狠下心重构优化。那,有…

人工智能在线特征系统中的生产调度

在上篇博客《人工智能在线特征系统中的数据存取技术》中,我们围绕着在线特征系统存储与读取这两方面话题,针对具体场景介绍了一些通用技术,此外特征系统还有另一个重要话题:特征生产调度。本文将以美团点评酒旅在线特征系统为原型…

LeetCode 211. 添加与搜索单词 - 数据结构设计(Trie树)

1. 题目 设计一个支持以下两种操作的数据结构: void addWord(word) bool search(word) search(word) 可以搜索文字或正则表达式字符串,字符串只包含字母 . 或 a-z 。 . 可以表示任何一个字母。 示例: addWord("bad") addWord("dad&quo…

研究综述 - TKDE2020 | 基于知识图谱的推荐系统

作者 | 郭庆宇转载公众号 | 读芯术TKDE 2020综述:基于知识图谱的推荐系统A Survey on Knowledge Graph-Based Recommender Systems中科院计算所、百度、港科大、中科大、微软原文Qingyu Guo, Fuzhen Zhuang, Chuan Qin, Hengshu Zhu, Xing Xie, Hui Xiong, Qing He…

谢撩,人在斯坦福打SoTA

文 | Jazon编 | 小戏小编注:不知道大家还记不记得卖萌屋之前人在斯坦福,刚上CS224n的Jazon小哥发来的关于斯坦福神课CS224n上半学期的报道?今天,Jazon又在斯坦福前线发来了关于他在CS224n下半学期的经历,那么现在让我们…

前端感官性能的衡量和优化实践

本文已发表在2017年8月《程序员》杂志。 我们为什么需要关注站点的性能,性能为什么如此重要呢?如今任何互联网产品首先重要的都是流量,流量最终会转换为商业价值。所以在互联网产品中,流量、转化率和留存率基本上是产品经理或者业…

LeetCode 421. 数组中两个数的最大异或值(Trie树)

1. 题目 给定一个非空数组&#xff0c;数组中元素为 a0, a1, a2, … , an-1&#xff0c;其中 0 ≤ ai < 231 。 找到 ai 和aj 最大的异或 (XOR) 运算结果&#xff0c;其中0 ≤ i, j < n 。 你能在O(n)的时间解决这个问题吗&#xff1f; 示例:输入: [3, 10, 5, 25, 2,…

论文浅尝 - EMNLP2020 | 基于知识库的多跳关系推理

笔记整理 | 谢辛&#xff0c;浙江大学硕士研究方向 | 自然语言处理&#xff0c;知识图谱Feng Y, Chen X, Lin B Y, et al. Scalable multi-hop relational reasoning for knowledge-aware question answering[J]. 2020.emnlp-main.99链接&#xff1a;https://arxiv.org/pdf/200…

智能工单处理,达观数据助力运营商实现业务流程智能化改造

智能工单处理&#xff0c;达观数据助力运营商实现业务流程智能化改造 https://m.sohu.com/a/466386308_383123 智能工单处理&#xff0c;达观数据助力运营商实现业务流程智能化改造 达观数据 05-14 14:04 订阅 运营商一线业务运营亟待智能化改造 近几年&#xff0c;运营商领域…

CV和NLP中的无监督预训练(生成式BERT/iGPT和判别式SimCLR/SimCSE)

文 | Smarter在之前的文章中讲过unsupervised learning主要分为生成式和判别式&#xff0c;那么unsupervised pretrain自然也分为生成式和判别式。目前CV和NLP都出现了非常强大的无监督预训练&#xff0c;并且在生成式和判别式都各有造诣&#xff0c;本文主要想归纳一下CV和NLP…

Android Binder漏洞挖掘技术与案例分享

本文由作者根据其在KCon 2016黑客大会上的演讲内容整理而成。演讲稿链接&#xff1a;Binder fuzzing based on drozer。 文章开始&#xff0c;先来看几个我在工作生活中发现的Android漏洞。其中包括Android系统锁屏密码绕过&#xff08;影响了所有安全补丁在2016年10月份以前的…

Transformer太深不行?NUS字节发现注意力坍缩,提出重注意机制!

文 | 陈萍、杜伟源 | 机器之心CNN 通过堆叠更多的卷积层来提高性能&#xff0c;而 transformer 在层次更深时会很快进入饱和。基于此&#xff0c;来自新加坡国立大学和字节跳动 AI Lab 的研究者引入了 Re-attention 机制&#xff0c;以很小的计算代价重新生成注意力图以增强各层…

LeetCode 212. 单词搜索 II(Trie树+DFS)

1. 题目 给定一个二维网格 board 和一个字典中的单词列表 words&#xff0c;找出所有同时在二维网格和字典中出现的单词。 单词必须按照字母顺序&#xff0c;通过相邻的单元格内的字母构成&#xff0c;其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的…