GPT-4o将改变论文学术文风,科学家揭示5年内百万篇论文“is”“are”词频减少10%!

 

在最近的一项研究中,意大利国际高等研究院(SISSA)的博士生耿明萌量化了 ChatGPT 对学术论文写作的影响。

与以往主要分析 ChatGPT 生成的段落或文章不同,这次研究更关注整体情况。
 

论文地址:https://arxiv.org/pdf/2404.08627

耿明萌希望在大模型火热的背景下,从类似足球裁判员和数据分析师的角度研究 ChatGPT 的影响。



事实上,一年前他并不是 ChatGPT 的支持者,也未打算追随大模型研究的潮流。

2023年夏天,他提交了一篇论文初稿,导师给了一些简略的建议和批注,多涉及写作问题。这促使耿明萌尝试使用 ChatGPT 修改和润色论文,但很快发现其词频与人类写作不同。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


因此,他决定从词频角度分析 ChatGPT 对论文的影响。导师虽对该方法的简单性感到疑惑,但因缺乏相关经验暂时搁置了这个想法。


直到2023年秋天,导师忙于出差宣传新书,耿明萌决定自己尝试。



在解决数据问题后,他在万圣节假期前开始了研究,并在几周内得出了初步结果:ChatGPT 出现后,学术论文中一些词语的使用频率确实发生了变化。



耿明萌选取了 arXiv 上最新的 100 万篇论文摘要进行分析,发现2018年至2023年间论文数量暴增,其中90%来自数学、物理和计算机学科。



研究显示,如“significant”的词频几乎翻倍,而“is”和“are”的词频减少了约10%。



接着,他通过 ChatGPT API 修改2022年 arXiv 上的前两万篇论文摘要,分析 ChatGPT 的词语偏好。

结果表明,2023年 ChatGPT 修改前后的词频变化与2022年高度相关,但2022年与2021年相比变化较小。



耿明萌提出了一个含噪声项的模型,证明在某些情况下,词语的选取不在多而在于其频率和变化率。

同时,对于不同类别和混合比例的摘要,词语选取也应有所不同。理论分析在模拟中得到验证。


基于此,他开始根据真实的 arXiv 摘要数据估算 ChatGPT 的影响。ChatGPT API 的模拟输出因 prompt 不同而产生相对值。



以“Revise the following sentences”为基准,ChatGPT 的修改比例约为35%。若使用更精准的 prompt,贡献可能超过100%。

耿明萌更愿意用“影响”而非“比例”来描述结果,因为不同的 prompt 会产生不同的输出。

一些作者可能会在使用 ChatGPT 后刻意抹去痕迹,或受其影响但最终未使用 ChatGPT 润色摘要。此外,其他大模型可能有相似但不同的词频变化。

总的来说,耿明萌依然认为,使用 ChatGPT 或其它工具,来润色论文和翻译论文本身并没有错,但要知道修改前后语义上的差别。

对于母语非英语的研究人员来说,这些新工具的合理使用确实也能促进公平,但直接利用这些工具生成论文段落是不可取的。

而研究 ChatGPT 对于论文风格的影响,则能助力科研人员更好地使用类似工具。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41330.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot怎么单独关闭某个类打印出来的日志?

application.yml文件增加以下内容: logging:level:org.springframework.amgp.rabbit: OFF 配置logging:level是配置的什么? 在application.yml文件中配置logging.level是用来设置日志级别的。这是Spring Boot应用中的一个常用配置,它允许您…

Spring AOP实现操作日志记录示例

1. 准备工作 项目环境:jdk8springboot2.6.13mysql8 1.1 MySQL表 /*Navicat Premium Data TransferSource Server : localhostSource Server Type : MySQLSource Server Version : 50730Source Host : 127.0.0.1:3306Source Schema …

双扩散金属氧化物半导体(DMOS)应用广泛 超结VDMOS市场需求空间大

双扩散金属氧化物半导体(DMOS)应用广泛 超结VDMOS市场需求空间大 双扩散金属氧化物半导体简称DMOS,是MOS管的一种。MOS管全称为金属氧化物半导体场效应管,又称为MOSFET,是一种利用改变电压来控制电流的半导体器件。  …

《梦醒蝶飞:释放Excel函数与公式的力量》8.8 STDEVP函数

8.8 STDEVP函数 STDEVP函数是Excel中用于计算总体数据的标准偏差的函数。标准偏差是统计学中的一个重要指标,用于衡量数据集中各数值偏离平均值的程度。总体标准偏差考虑了整个数据集,而不是样本。 8.8.1 函数简介 STDEVP函数用于返回总体数据的标准偏…

Redis 中的通用命令(命令的返回值、复杂度、注意事项及操作演示)

Redis 中的通用命令(高频率操作) 文章目录 Redis 中的通用命令(高频率操作)Redis 的数据类型redis-cli 命令Keys 命令Exists 命令Expire 命令Ttl 命令Type命令 Redis 的数据类型 Redis 支持多种数据类型,整体来说,Redis 是一个键值对结构的,…

第N7周:seq2seq翻译实战-pytorch复现-小白版

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 理论基础 seq2seq(Sequence-to-Sequence)模型是一种用于机器翻译、文本摘要等序列转换任务的框架。它由两个主要的递归神经网络&#…

【leetcode】双指针算法题

文章目录 1.算法思想2.移动零3.复写零方法一方法二 4.快乐数5.盛水最多的容器方法一(暴力求解)方法二(左右指针) 6.有效三角形的个数方法一(暴力求解)方法二(左右指针) 7.两数之和8.…

CNN文献综述

卷积神经网络(Convolutional Neural Networks,简称CNN)是深度学习领域中的一种重要模型,主要用于图像识别和计算机视觉任务。其设计灵感来自于生物学中视觉皮层的工作原理,能够高效地处理图像和语音等数据。 基本原理…

UVa1265/LA4848 Tour Belt

UVa1265/LA4848 Tour Belt 题目链接题意分析AC 代码 题目链接 本题是2010年icpc亚洲区域赛大田赛区的F题 题意 给出一个有n个结点m条边的加权无向图G(2≤n≤5000,1≤m≤n(n-1)/2),满足如下条件的结点集B(2≤|B|≤n&am…

剪画小程序:手机制作音乐串烧,用它,真的很简单!

Hello,大家好呀,我是不会画画的小画。 相伴关注歌手的小伙伴们,上周五的《歌手 2024》第八期大家看了吧!那期节目里有好几首歌都让我沉醉其中,像汪苏泷的《听见下雨的声音》、谭维维的《兰花花儿》等等。 为了能让大…

c++之旅第十一弹——顺序表

大家好啊,这里是c之旅第十一弹,跟随我的步伐来开始这一篇的学习吧! 如果有知识性错误,欢迎各位指正!!一起加油!! 创作不易,希望大家多多支持哦! 一,数据结构…

基于docker环境及Harbor部署{很简短一点了,耐心看吧}

用到的环境: docker 、nacos、compose、harbor(自行安装 ,以下连接作为参考) nacos:史上最全整合nacos单机模式整合哈哈哈哈哈_nacos 源码启动 单机模式-CSDN博客 docker、compose、harbor:史上最全的整合Harbor安装教程&#…

数据结构之顺序表专题

在学习数据结构之前我们要先了解什么是数据结构? 1.数据结构相关概念 1.什么是数据结构? 数据结构是由“数据”和“结构”两词组合而来。 什么是数据?常见的数值1、2、3、4.、教务系统里保存的用户信息(姓名、性别、年龄、学历等等)、网页里肉眼可以…

TensorBoard进阶

文章目录 TensorBoard进阶1.设置TensorBoard2.图像数据在TensorBoard中可视化3.模型结构在TensorBoard中可视化(重点✅)4.高维数据在TensorBoard中低维可视化5.利用TensorBoard跟踪模型的训练过程(重点✅)6.利用TensorBoard给每个…

complex复数库学习

此头文件是数值库的一部分。本篇介绍complex的基本用法。 常用的API如下: 运算 real 返回实部 (函数模板) imag 返回虚部 (函数模板) abs(std::complex) 返回复数的模 (函数模板) arg 返回辐角 (函数模板) norm 返回模(范数)的平方 (函数模板) conj 返回复共轭 (函…

桌面保存的Word文件删除怎么找回?超实用的三个方法?

在日常工作和学习中,我们经常会使用Word文档进行文字编辑和文件保存。但是,有时由于操作失误或系统故障,我们会不小心将存放在电脑桌面重要的Word文件删除了。导致无法挽回的损失,但幸运的是,有一些方法可以帮助我们找…

源代码防泄漏的制胜法宝——沙箱

沙箱技术作为现代信息安全领域的一种重要手段,其在源代码防泄密方面的应用愈发受到业界的关注。源代码作为企业或组织的核心资产,一旦泄露,不仅可能导致知识产权的流失,还可能对企业运营造成重大影响。因此,利用沙箱技…

跨境干货|最新注册Google账号方法分享

谷歌账号对做跨境外贸业务的人来说是刚需,目前来说大部分的海外社媒平台、工具都可以用谷歌账号来注册。但是仍然有很多朋友并不知道如何注册这个谷歌账号,今天就来给大家分享2个注册谷歌账号的方法,一个是手机号注册,一个是如何跳…

面向对象案例:电影院

TOC 思路 代码 结构 具体代码 Movie.java public class Movie {//一共七个private int id;private String name;private double price;private double score;private String director;private String actors;private String info;//get和setpublic int getId() {return id;…

opencv概念以及安装方法

#opencv相关概念介绍 Open Source Computer Vision Library 缩写 opencv 翻译:开源的计算机视觉库 ,英特尔公司发起并开发,支持多种编程语言(如C、Python、Java等),支持计算机视觉和机器学习等众多算法&a…