智源就“抄袭事件”发布最新通报:2 处属于抄袭,已得到原作者谅解,相关责任人均已主动离职...

808fa872354f1cab6f010e6a23a93c5d.jpeg

来源:AI前线

整理:冬梅

大模型论文抄袭事件,终于有了结果。

今年 4 月,一篇名为《A Roadmap for Big Model》(大模型路线图)的论文被爆出抄袭,该篇论文中涉及国内 19 家机构和百名 AI 学者,其中不乏业内知名 AI 学术大佬。

事件一出,舆论哗然,也把国内的 AI 学术圈推上了风口浪尖。

作为此篇论文第一单位,北京智源研究院立即对此事做出了积极回应,并邀请第三方专家对此事展开独立调查。智源研究院还就 IEEE 手册条款的理解和抄袭严重程度的认定,通过邮件咨询了 IEEE 学术出版规范负责人的意见。

历时三个月,7 月 15 日,根据 CCF 调查报告和 IEEE 专家反馈,智源研究院与 16 篇文章的通讯作者进行了沟通,对于存在问题文章的作者责任进行了核查与认定,并将调查和处理情况在官网上进行了通报。

以下为通报全文:

1. 组织失察责任认定

该综述报告由智源研究院大模型研究中心牵头组织、邀请国内外 19 个机构共 100 位科研人员分别撰写的 16 篇独立专题文章组成,每篇文章都有对应的撰写作者和通讯作者(除第 12 篇外),所有作者共同署名整个报告(这种组织模式参考了斯坦福大学“On the Opportunities and Risks of Foundation Models” (https://arxiv.org/pdf/2108.07258v2.pdf) 一文的编撰方式)。综述报告首先上传至预印本网站 arXiv,原计划经过修改完善后再正式出版。

智源研究院大模型研究中心作为组织单位,对综述报告撰写中可能存在的风险隐患缺少充分考虑,未采取必要措施避免相关问题出现,对整个事件负有监督失察责任。

综述报告的第一作者(智源大模型研究中心人员)未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于 2022 年 3 月 26 日将综述报告上传至 arXiv,负有主要组织责任。

2. 两处抄袭的责任认定

综述报告 10 处被质疑片段中,2 处属于抄袭。

第 2 篇文章的 2.3.1 节存在共计 179 个单词的多句重复,在最开始明确标注了引用文献,但未明确区别引用文字,且篇幅较大,属于《学术出版规范 期刊学术不端行为界定》“三、论文作者学术不端行为类型”中的 “1.5 文字表述剽窃”:“成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示”,达到《IEEE 出版物服务和产品委员会操作手册》“对不同等级的抄袭行为进行判定的指南” 中“第 5 级”(认定要点为“对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分”。

说明:抄袭共分 5 级,第 1 级最严重,第 5 级最轻微),由该文章的 第二作者(智源大模型研究中心人员)完成,应负直接责任。该文章的 通讯作者(智源大模型研究中心人员),未对该文章进行有效审查,应负失察责任。该篇文章第 2.4.3 节存在多句重复,有明确参考文献标注,属于规范引用。参与文章的其他作者撰写的部分未发现抄袭。

第 8 篇文章的 8.3.1 节存在 74 个单词的整句重复,无明确引用,属于抄袭,相关段落由该文章 第一作者(智源大模型研究中心人员)完成,应负直接责任。该文章其他作者是文章初稿完成人,初稿不涉及被质疑内容。该文章第一作者未经通讯作者及其他作者同意将自己加为第一作者并对文章进行了大篇幅修改,文章发布前未与通讯作者确认,因此通讯作者和其他作者均没有责任。

上述两名作者已经按照 IEEE 手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。

3. 四处引用不规范的责任认定

除前述 2 处抄袭外,综述报告 10 处被质疑片段中,尚有部分片段属于引用不规范,但不构成抄袭,其他被质疑部分属于规范引用。具体认定如下:

第 10 篇文章存在少数重复文字,是在明确添加标注引用参考文献情况下的转述,属于规范引用。

第 12 篇文章的 12.2.3 节存在共计 36 个单词的重复,无整句重复,相关内容由该文章第二作者完成。重复内容包括两个部分,一部分包含 17 个重复单词,属于规范引用参考文献;另一部分包含 19 个重复单词,在对相关领域介绍时,引用了其他论文引言部分对于本领域的总结,但在本句中未标注引用参考文献,属于引用不规范,但不构成抄袭。该文章无通讯作者,其他作者是文章的完成人,所撰写的部分未发现抄袭。

第 14 篇文章 14.2.2 节一处多句 63 个单词重复,有明确参考文献标注,属于规范引用。14.2.3 节一处一句 30 个单词重复,有明确参考文献标注,属于规范引用。

14.2.2 节另存在一处一句 29 个单词的重复,文字上指明了引用对象,但本句没有直接添加引用,相关段落由该文章的第二作者完成;14.2.3 节另存在一处一句 27 个单词重复,在 14.2.3 节中有参考文献标注,在本句中没有直接标注,相关段落由该文章的第四作者完成,上述两处属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。

第 16 篇文章 16.1 节一处存在多句重复,相关段落由第二作者完成。该段落起始处对参考文献有明确引用,后续其他句子存在本句未直接标注的情形,属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。

综述报告第 3、4、5、6、7、9、11、13、15、17 篇文章未发现抄袭。

4. 处理和整改情况通报

智源研究院在质疑发生后,对照国家新闻出版署《学术出版规范 期刊学术不端行文界定》标准并参照《IEEE 出版物服务和产品委员会操作手册》对抄袭的认定指南,从严要求,安排可能存在问题文章的作者向原作者进行了书面致歉,均已得到原作者反馈和谅解。同时,安排第一作者完成从 arXiv 撤稿。上述的抄袭和引用不规范的调查结论也已通知所有作者并获得确认。对照《IEEE 出版物服务和产品委员会操作手册》对抄袭行为的处罚措施,智源研究院和相关责任人已经从严履行了应该承担的相关学术责任。

鉴于上述两处抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。

除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!

针对此次事件发现的论文发表流程中的风险漏洞,智源研究院已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度。后续,智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。

事件回溯

4 月 8 日,谷歌大脑研究员 Nicholas Carlini 发文指出:

我发现了机器学习研究领域发生了一件论文抄袭事件。一篇名为《A Roadmap for Big Model》(以下简称“大模型论文”)的论文,抄袭了我发表的名为《Deduplicating Training Data Makes Language Models Better》的论文中的几个段落 。Nicholas Carlini 表示,更令人沮丧的是,自己发表的论文并不是唯一被抄袭对象,这篇大模型论文至少抄袭了十几篇其他论文。

此外,Nicholas Carlini 还将论文中内容相似度比较高的地方用绿色进行了标注(左侧是大模型论文中的文本,右侧是原始论文中的相应文本):

a177105e15876d1a6c8ff488dc3d7ed7.gif

由于大模型论文最后的署名中涉及 19 家机构和 100 位 AI 领域知名作者,因此此事一出,在国内外学术圈里引发了极高的关注。

针对质疑,4 月 13 日,北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,首先向相关原文作者和学术界、产业界的同仁和朋友致歉,并公布了初步调查结果:

  1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共 200 页。报告发布后,根据反馈持续进行修改完善,到 4 月 2 日在 arXiv 网站上已经更新到第三版。

  2. 4 月 13 日,我们获悉谷歌研究员 Nicholas Carlini 在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第 2 篇文章的第 3.1 节 179 个词,第 8 篇文章的第 3.1 节 74 个词、第 12 篇文章的第 2.3 节 55 个词、第 14 篇文章的第 2 节 159 个词、第 16 篇文章的第 1 节 146 个词与其他论文重复,应属抄袭。我们决定立即从报告中删除相应内容,报告修订版今天将提交 arXiv 进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。

  3. 智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。

    ff1efb2b740ae2e7339649689ea1c8f4.jpeg

此外,智源研究院还表示:“确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。”

随后,4 月 15 日,智源研究院邀请的第三方专家——中国计算机学会(CCF)组成了调查组,就此事展开独立调查。

b3642b5f4f70f84d8f460cb2ad275d66.jpeg

历时 3 个月,7 月 15 日,智源在官网通报了调查结果。

至此,此次论文抄袭事件最终以第三方介入、独立开展调查的方式为大众交付了一个公开透明的结果。

参考链接:

https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html

https://www.baai.ac.cn/portal/article/index/cid/5/id/423.html

https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html

https://www.baai.ac.cn/portal/article/index/cid/5/id/422.html


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e0c00a1f135871ac1fbbaeecb4b30606.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能技术在智能制造中的典型应用场景与标准体系研究

人工智能技术在智能制造中的典型应用场景与标准体系研究 人工智能技术与咨询 来源:《中国工程科学》 ,作者李瑞琪等 摘要: 针对人工智能在智能制造领域应用不断深入的趋势,本文基于企业关键绩效指标(KPI&#xff09…

旷视张祥雨:从基础科研的「大」和「统一」,看视觉AI研究新趋势

来源:机器之心在 MegTech 2022 上,旷视研究院基础科研负责人张祥雨表示:“大”和 “统一” 是视觉 AI 基础研究的新趋势。基础模型科研是 AI 创新突破的基石,每一代基础模型的突破都极大程度地促进了视觉 AI 的发展。7 月 15 日&a…

基于位置的知识图谱链接预测

基于位置的知识图谱链接预测 人工智能技术与咨询 本文来自《中文信息学报》,作者张宁豫等 摘 要: 链接预测是知识图谱的补全和分析的基础。由于位置相关的实体和关系本身拥有丰富的位置特征,该文提出了一种基于位置的知识图谱链接预测方法。该方法首…

意识理论综述:众多竞争的意识理论如何相互关联?

来源: 集智俱乐部作者:Anil K. Seth & Tim Bayne译者:李路凯、陈斯信编辑:邓一雪 导语意识和底层的神经活动之间如何联系起来?试图解释这一问题的意识理论层出不穷。然而,随着实验数据积累,…

滑翔导弹末段多约束智能弹道规划

滑翔导弹末段多约束智能弹道规划 人工智能技术与咨询 来源:《光学精密工程》,作者邵会兵等 摘要:滑翔导弹末段飞行时空复杂度高、不确定性强、约束多,给弹道规划与制导算法带来了较大的建模和求解难度。针对这一问题&#xff0…

《时代》杂志:元宇宙时代将改变世界

来源:新智元元宇宙上了Time封面,有点官宣那味儿了!还在纠结会不会错过元宇宙和web3浪潮?清华大学科学史系副教授胡翌霖,这次给你讲个透!元宇宙——下一个数字时代将会改变一切。这是最新一期的Time杂志封面…

空战决策知识构建方法研究

空战决策知识构建方法研究 人工智能技术与咨询 本文来自《系统工程与电子技术》,作者吕跃等 0 引言 随着空战训练以及作战仿真实验的深入, 战训数据随之大量产生, 需要解决“数据丰富, 知识贫乏”的数据应用问题, 挖掘数据背后的空战决策知识, 客观说明“人在回路…

【学会双百讲堂】中国指挥与控制学会“百名专家、百场讲座”第七讲——城市大脑系列学术报告(第一期)...

来源:中国指挥与控制学会中国指挥与控制学会“百名专家、百场讲座”第七讲——城市大脑系列学术报告(第一期)主办单位:中国指挥与控制学会承办单位:中国指挥与控制学会城市大脑专业委员会远望智库北京邮电大学人工智能…

专家:人工智能开始对现实世界产生重大影响​​

专家:人工智能开始对现实世界产生重大影响 ​​人工智能技术与咨询​​ 本文摘自中国日报网 中国日报网11月8日电 据英国《卫报》报道,曾撰写过一本有关人工智能的权威教科书的美国科学家表示,在将人工智能的进步比作原子弹技术的发展时&…

普林斯顿陈丹琦:如何让「大模型」变小

来源:智源社区 整理:路啸秋审校:夏梦舟、钟泽轩(陈丹琦团队)导读:“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智…

数字化转型知识方法系列之:数字化转型的基本认识与参考架构

数字化转型知识方法系列之:数字化转型的基本认识与参考架构 人工智能技术与咨询 一、数字化转型是什么? 数字化转型是顺应新一轮科技革命和产业变革趋势,不断深化应用云计算、大数据、物联网、人工智能、区块链等新一代信息技术&#xff0…

ASML的EUV光刻机卖不动?

来源:万物智能视界缺芯让台积电、三星等厂商订单大增,而ASML作为光刻机供应商,也跟着收益。今年第一季度ASML的新增订单突破70亿欧元,第二季度的新增订单为85亿欧元。不过全球半导体市场从产能紧张已经转向过剩,部分领…

不用发论文也不教课的12名教授,为这个研究所拿下8次学界最高奖

法国高等科学研究所一角丨图片来源:CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid131812来源:Ars Technica作者:DHANANJAY KHADILKAR翻译:阿金编辑:魏潇本文经授权转载自微信公众号“科研圈”早在今…

基于图嵌入的兵棋联合作战态势实体知识表示学习方法

基于图嵌入的兵棋联合作战态势实体知识表示学习方法 人工智能技术与咨询 来源:《指挥控制与仿真》,作者王保魁等 摘 要:为将基于离散符号的兵棋联合作战态势实体知识表示为机器更加容易学习、处理和应用的形式,根据兵棋联合作战态势实体知识的特点,提…

张钹院士专访:人工智能永远在路上

来源: 瑞莱智慧RealAI新一代人工智能蓬勃兴起,各类应用加速落地,“人工智能”的本质到底是什么?今天,以数据驱动的人工智能在“奔跑”的道路又会遭遇哪些瓶颈问题?什么是第三代人工智能?它能让人…

人工智能支撑马赛克战机理研究

人工智能支撑马赛克战机理研究 人工智能技术与咨询 来源:《航空兵器》,作者付翔等 0 引言 近30年来, 随着信息化军事变革的兴起, 各种新的军事作战概念和作战理论层出不穷[1]。从20世纪90年代前后提出的“信息战”“空地一体战”“数字化部队”等, 到…

强化学习大牛Sergey Levine新作:三个大模型教会机器人认路

来源:机器之心内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey Levine 的新作。给定一个目的地,在没有导航轨迹的情况下顺利到达,有多难&#xff1f…

数字化转型知识方法系列之五:数字化转型战略

数字化转型知识方法系列之五:数字化转型战略 人工智能技术与咨询 一、数字化转型是信息时代企业级核心战略 新一轮科技革命和产业变革迅猛发展,企业发展环境日益复杂多变,机遇挑战并存。全球经济从增量发展转向存量竞争,资源…

再发:迄今为止 脑网络结构功能模块元素 最全面复杂清晰 类芯片多图及分解...

来源:CreateAMind从工程的角度来看,大脑皮层是一个六层电路卡,由晶体管和逻辑门组成,其密度是我们最紧凑的微处理器(Apple A8)的五倍。然后它被智能折叠起来以适应更小的空间,同时还减少了相互连…

量子计算机研究进展

量子计算机研究进展 人工智能技术与咨询 来自《南京邮电大学学报(自然科学版)》,作者郭光灿等 摘要:量子计算机是未来量子技术时代最具颠覆性的技术,文中将以量子计算机的诞生、工作原理和在世界范围内的发展现状为主要阐述内容。目前阶段…