在最近的一项研究中,意大利国际高等研究院(SISSA)的博士生耿明萌量化了 ChatGPT 对学术论文写作的影响。
与以往主要分析 ChatGPT 生成的段落或文章不同,这次研究更关注整体情况。
论文地址:https://arxiv.org/pdf/2404.08627
耿明萌希望在大模型火热的背景下,从类似足球裁判员和数据分析师的角度研究 ChatGPT 的影响。
事实上,一年前他并不是 ChatGPT 的支持者,也未打算追随大模型研究的潮流。
2023年夏天,他提交了一篇论文初稿,导师给了一些简略的建议和批注,多涉及写作问题。这促使耿明萌尝试使用 ChatGPT 修改和润色论文,但很快发现其词频与人类写作不同。
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952
如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!
官网有更详细介绍:WildCard
因此,他决定从词频角度分析 ChatGPT 对论文的影响。导师虽对该方法的简单性感到疑惑,但因缺乏相关经验暂时搁置了这个想法。
直到2023年秋天,导师忙于出差宣传新书,耿明萌决定自己尝试。
在解决数据问题后,他在万圣节假期前开始了研究,并在几周内得出了初步结果:ChatGPT 出现后,学术论文中一些词语的使用频率确实发生了变化。
耿明萌选取了 arXiv 上最新的 100 万篇论文摘要进行分析,发现2018年至2023年间论文数量暴增,其中90%来自数学、物理和计算机学科。
研究显示,如“significant”的词频几乎翻倍,而“is”和“are”的词频减少了约10%。
接着,他通过 ChatGPT API 修改2022年 arXiv 上的前两万篇论文摘要,分析 ChatGPT 的词语偏好。
结果表明,2023年 ChatGPT 修改前后的词频变化与2022年高度相关,但2022年与2021年相比变化较小。
耿明萌提出了一个含噪声项的模型,证明在某些情况下,词语的选取不在多而在于其频率和变化率。
同时,对于不同类别和混合比例的摘要,词语选取也应有所不同。理论分析在模拟中得到验证。
基于此,他开始根据真实的 arXiv 摘要数据估算 ChatGPT 的影响。ChatGPT API 的模拟输出因 prompt 不同而产生相对值。
以“Revise the following sentences”为基准,ChatGPT 的修改比例约为35%。若使用更精准的 prompt,贡献可能超过100%。
耿明萌更愿意用“影响”而非“比例”来描述结果,因为不同的 prompt 会产生不同的输出。
一些作者可能会在使用 ChatGPT 后刻意抹去痕迹,或受其影响但最终未使用 ChatGPT 润色摘要。此外,其他大模型可能有相似但不同的词频变化。
总的来说,耿明萌依然认为,使用 ChatGPT 或其它工具,来润色论文和翻译论文本身并没有错,但要知道修改前后语义上的差别。
对于母语非英语的研究人员来说,这些新工具的合理使用确实也能促进公平,但直接利用这些工具生成论文段落是不可取的。
而研究 ChatGPT 对于论文风格的影响,则能助力科研人员更好地使用类似工具。
如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!
官网有更详细介绍:WildCard
推荐阅读:
GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!
GPT-4替代大学生参加考试,94%成功作弊未被发现!
CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司