AI文章互评:得分最高的竟然不是GPT-4!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

GPT-4o模型刚发布时,我曾写过一篇文章测评它的创意写作能力,并将其与Kimi和通义千问进行了横向对比,具体文章可以看这里:让AI写高考作文:GPT-4、Kimi、通义千问“创意写作”能力横向测评!。测评中我采用了2023年高考语文全国甲卷作文:《人·技术·时间》作为测试题目分别让GPT-4oGPT-4 Turbo、Kimi、通义千问写出了对应的文章。具体的作文题目和AI创作的文章可以拉到文末查看。

虽然我在那篇文章里尽量客观地对这4个AI模型/工具的表现做了点评,但难免带有个人主观上的偏见,以及在文章质量判断上可能会出现不准确的情况,毕竟不是专业的。那么既然文章是由AI生成的,何不让AI作为阅卷老师给这些文章打分、点评,看看它们如何评价这些由AI生成的文章?这里感谢小伙伴@kiwilli的提议。

这里我们要做的操作就是让GPT-4oGPT-4 Turbo、Kimi、通义千问这四个AI模型化身为高考作文的阅卷老师,然后分别给这四篇作文打分并点评,最终汇总每篇文章的最终得分。老规矩,先上结论,然后再讲操作细节。

结论

评分汇总

作文标题GPT-4oGPT-4 TurboKimi通义千问平均分
掌控时间还是被时间掌控:技术发展的两面性 (来自GPT-4o)5455565755.5
技术的双刃剑:我们真正掌控了时间吗? (来自GPT-4 Turbo)5157585856.0
时间的双刃剑:技术与自由 (来自Kimi)5557575856.75
做时间的主人,而非仆人 (来自通义千问)5654585856.5
数据分析与结论
  1. 平均分最高的作文

    • 时间的双刃剑:技术与自由(来自Kimi),平均分为56.75。

    • 紧随其后的是 做时间的主人,而非仆人(来自通义千问),平均分为56.5。

  2. AI评审员打分趋势

    • GPT-4o 对自己的作文评分相对较低(刚正不阿?),对其他作文评分较高,尤其对通义千问和Kimi的作文评分较高。

    • GPT-4 Turbo 对自己和Kimi的作文评分相对较高,但对通义千问和GPT-4o的评分相对均衡。

    • Kimi 对自己的评分最高,其他评分相对较高且一致。

    • 通义千问 对所有作文的评分相对一致,但对Kimi和自己的评分较高。

  3. AI评审员偏好

    • 不同评审员对作文的偏好可能不同。例如,Kimi和通义千问倾向于给出较高的语言评分,这可能表明他们更重视文章的语言表达和文学价值。

    • GPT-4 Turbo对逻辑评分较为严格,更加注重论证的合理性和逻辑性。

  4. 评分一致性

    • 四篇作文中,时间的双刃剑:技术与自由做时间的主人,而非仆人获得了比较一致的高评分,表明这两篇作文在评审员中获得了较为一致的认可。

    • 从平均分来看,所有文章的表现都比较均衡,平均分在55分以上,表明所有作文的总体质量都较为优秀。

  5. 评分差异

    • 技术的双刃剑:我们真正掌控了时间吗?掌控时间还是被时间掌控:技术发展的两面性 在各评审员之间的评分差异相对较大,尤其是GPT-4o对前者评分较低,而其他评审员评分较高。

1号评审员:GPT-4o

作文标题内容评分结构评分语言评分逻辑评分总分
掌控时间还是被时间掌控:技术发展的两面性18/2013/1514/159/1054/60
技术的双刃剑:我们真正掌控了时间吗?17/2013/1513/158/1051/60
时间的双刃剑:技术与自由18/2014/1514/159/1055/60
做时间的主人,而非仆人19/2014/1514/159/1056/60

2号评审员:GPT-4 Turbo

作文标题内容评分结构评分语言评分逻辑评分总分
掌控时间还是被时间掌控:技术发展的两面性18/2014/1514/159/1055/60
技术的双刃剑:我们真正掌控了时间吗?19/2014/1514/1510/1057/60
时间的双刃剑:技术与自由18/2015/1514/1510/1057/60
做时间的主人,而非仆人18/2014/1513/159/1054/60

3号评审员:Kimi

作文标题内容评分结构评分语言评分逻辑评分总分
掌控时间还是被时间掌控:技术发展的两面性19/2014/1514/159/1056/60
技术的双刃剑:我们真正掌控了时间吗?20/2014/1515/159/1058/60
时间的双刃剑:技术与自由20/2014/1514/159/1057/60
做时间的主人,而非仆人20/2014/1515/159/1058/60

4号评审员:通义千问

作文标题内容评分结构评分语言评分逻辑评分总分
掌控时间还是被时间掌控:技术发展的两面性19/2014/1515/159/1057/60
技术的双刃剑:我们真正掌控了时间吗?19/2015/1515/159/1058/60
时间的双刃剑:技术与自由19/2015/1515/159/1058/60
做时间的主人,而非仆人19/2015/1515/159/1058/60

AI互评过程详述

高考作文评审员提示词

首先,直接把作文题目和每一篇文章发给AI工具打分点评是不可行的,因为无法保证评分维度和判断标准的一致性,也无法保证AI模型在评分过程中的稳定性。这个时候就需要像创建AI Agent那样,用一套完整的结构化提示词来定制化模型的行为,相当于创建一个AI版的高考作文评审员

下面这个提示词是我经过多次测试优化后得出的效果比较好的高考作文评审员提示词,其中描述了上下文背景,任务目标,所需要用到的专业技能,以及评分标准。

# Role: 高考作文评审员## Profile:
作为一名高考作文评审员,你需要对作文进行打分并提供详细点评,确保评分客观公正,并给出有深度的反馈。## Background:
高考作文是高考语文考试的重要组成部分,满分为60分。高考作文评审需要对作文进行全面的分析和评估,打分不仅要客观公正,还要有深度的点评,帮助考生了解自己的优缺点。评分标准包括内容、结构、语言和逻辑四个方面。## Goals:
1. 对高考作文进行全面评估和评分。
2. 提供详细的点评,指出作文的优点和不足。
3. 确保评分和点评具有客观性和深度。
4. 帮助考生提升写作能力,提供建设性的反馈。## Constraints:
1. 不提及作者信息,以保证评分的客观性。
2. 保持评分的严谨性,避免个人偏见。
3. 遵循高考作文评分标准,从内容、结构、语言和逻辑四个方面进行评分。
4. 在点评时,应注意语言的专业性和指导性,避免打击考生的自信心。## Skills:
1. 语文教学经验,熟悉高考作文评分标准。
2. 优秀的语言表达能力,能提供专业的点评。
3. 细致的分析能力,能全面评估作文的各个方面。
4. 保持评分和点评的客观性和公正性。
5. 识别优秀表达和逻辑能力,并给予建设性反馈。## Workflow:
1. 开场白:介绍自己的角色,并说明将对作文进行评分和点评。
2. 输入:接收用户提交的高考作文题目和作文。
3. 评分:根据高考作文评分标准,从内容、结构、语言、逻辑等方面进行评分。- 内容:20分,评估作文的主题和论点是否明确、充实。- 结构:15分,评估作文的段落安排、逻辑顺序是否合理。- 语言:15分,评估作文的语言表达是否流畅、准确。- 逻辑:10分,评估作文的论证是否有力、严谨。
4. 点评:详细点评作文的优点和不足,给出改进建议。
5. 输出:生成评分结果和详细点评,反馈给用户。## Examples:
### 输入:
高考作文题目:
高考作文: ### 评分:
内容评分:18/20
结构评分:12/15
语言评分:14/15
逻辑评分:8/10
总分:52/60### 点评:
这篇作文以“诚信”为主题,内容丰富,结构清晰。开头引入传统美德“诚信”的重要性,中间通过个人经历和社会现象的对比,突出了诚信在现代社会中的重要性。语言表达流畅,例子生动,具有很强的说服力。小小不足在于结尾可以更有力地总结全文,但整体表现非常出色。## Initialization:
你好,我是高考作文评审员,我将对你的作文进行评分并提供详细的点评。请提交你的高考作文题目和作文,我会在接下来为你进行评审和反馈。

AI互评

接下来就是AI互评的环节。把上面的提示词分别发给4个AI模型/工具,它们就能够化身为高考作文评审员,然后发送作文题目和文章,开始互相点评。注意在向AI发文章时,为了保证客观性和公平性,我并没有提及这篇文章出自哪里。

GPT-4o

GPT-4 Turbo

Kimi

通义千问2.5

这里由于文章篇幅原因,就不放每一篇文章的打分点评截图了,具体的得分会在后面汇总。

打分汇总

既然打分和点评都是由AI完成的,那么后续的分数汇总肯定也得它们来完成。直接让他们把对上面4篇文章的评分汇总到一个markdown格式的表格里就行。值得一提的是,这一步其实对AI模型的能力要求非常高,其中最重要的是上下文的理解和处理,模型需要能够有足够长的上下文长度,以便向上搜索到对应每篇文章的得分。

在这一步过程中,GPT-4oGPT-4 Turbo和Kimi都能够按照要求完成了汇总打分数据并制作表格这个任务,但通义千问表现不佳,我尝试了3次,它才得出了正确的结果(前几次均出现了表格中的数据和之前的打分不符合的情况,属于AI幻觉)。

GPT-4o

GPT-4 Turbo

Kimi

通义千问2.5

作文题目和AI文章

这里附上本次测评用到的高考作文题目,以及由这4个AI工具生成的文章,以便小伙伴们查看。

题目

阅读下面的材料,根据要求写作。

人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。

这句话引发了你怎样的联想与思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

AI创作的文章

GPT-4o

GPT-4 Turbo

Kimi

通义千问2.5

结语

Kimi第一,通义千问第二,果然还是中文模型最懂中文?对于这样的AI互评结果,你觉得怎么样?欢迎评论区留言讨论。


精选推荐

  1. 使用GPT-4o模型的5种方法,总有一种适合你!

  2. 关于最新模型GPT-4o的14条总结,都在这里!

  3. 免费的GPT4终于要来了!OpenAI直播发布会详细解读!

  4. 春日暖阳,何不来看一场OpenAI的发布会


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实力!云起无垠晋级“第九届安全创客汇”年度10强

2024年5月28日,第九届“安全创客汇”复赛在重庆圆满落幕。在本次国内最具影响力的网络安全创业大赛中,云起无垠凭借其技术的创新性和巨大市场价值,成功跻身年度十强。 随着人工智能技术的不断发展,特别是在大模型技术的推动下&…

【图像处理与机器视觉】XJTU期末考点

题型 选择:1 分10 填空:1 分15 简答题(也含有计算和画图):10 分*4 计算题:15 分20 分 考点 选择题(部分) 数字图像处理基础 p(x,y),q(s,t)两个像素之间的距离由公式&#xff1a…

湖南(品牌调研)源点咨询 企业品牌调研侧重点分析

本文由湖南长沙(市场调研)源点咨询编辑发布 企业建立品牌,往往都需进行科学性的品牌调研。因为只有这样,才能让企业更好的把握市场的发展趋势,进而为品牌的建立和发展提供更有价值的数据参考!那么品牌的调…

AI精选付费资料包【37GB】

课程介绍 一、人工智能论文合集 二、AI必读经典书籍 三、超详细人工智能学习大纲 四、机器学习基础算法教程 五、深度学习神经网络基础教程 六、计算机视觉实战项目 课程获取 资料:AI精选付费资料包(37.4GB)获取:扫码关注公z号…

esp8266阿里云上线(小程序控制)

此wechatproject已上传在页面最上方 由图可见,项目只有两个页面,一个是获取该产品下的设备信息列表,一个是某设备对应的详情控制页面,由于这个项目只利用esp8266板子上自带的led,功能简单,只需要控制开关即…

Update! 基于RockyLinux9.3离线安装Zabbix6.0

链接: Ansible离线部署 之 Zabbixhttp://mp.weixin.qq.com/s?__bizMzk0NTQ3OTk3MQ&mid2247487434&idx1&sn3128800a0219c5ebc5a3f89d2c8ccf50&chksmc3158786f4620e90afe440bb32fe68541191cebbabc2d2ef196f7300e84cde1e1b57383c521a&scene21#we…

YOLOv9改进策略 | Conv篇 | 利用YOLOv10提出的SCDown魔改YOLOv9进行下采样(附代码 + 结构图 + 添加教程)

一、本文介绍 本文给大家带来的改进机制是利用YOLOv10提出的SCDown魔改YOLOv9进行下采样,其是更高效的下采样。具体而言,其首先利用点卷积调整通道维度,然后利用深度卷积进行空间下采样。这将计算成本减少到和参数数量减少到。同时,这最大限度地保留了下采样过程中的信息,…

创新指南|提高人才回报率的重要举措和指标

员工是组织最大的投资,也是最深层的价值源泉。人才系统必须同时强调生产力和价值创造。让合适的人才担任合适的职位,并为员工提供成功所需的支持和机会,这是实现回报的关键。本文将介绍组织可以采取的五项行动,以最大化企业的人才…

postgresql常用命令#postgresql认证

PostgreSQL 是一个功能强大的开源关系数据库管理系统,提供了一系列命令行工具来管理和操作数据库。以下是一些常用的 PostgreSQL 命令,涵盖数据库和用户管理、数据操作以及查询和维护等方面。 #PostgreSQL培训 #postgresql认证 #postgreSQL考试 #PG考试…

汽车识别项目

窗口设计 这里的代码放在py文件最前面或者最后面都无所谓 # 创建主窗口 window tk.Tk() window.title("图像目标检测系统") window.geometry(1000x650) # 设置窗口大小# 创建背景画布并使用grid布局管理器 canvas_background tk.Canvas(window, width1000, height…

【Hive SQL 每日一题】统计各个商品今年销售额与去年销售额的增长率及排名变化

文章目录 测试数据需求说明需求实现分步解析 测试数据 -- 创建商品表 DROP TABLE IF EXISTS products; CREATE TABLE products (product_id INT,product_name STRING );INSERT INTO products VALUES (1, Product A), (2, Product B), (3, Product C), (4, Product D), (5, Pro…

英码科技推出鸿蒙边缘计算盒子:提升国产化水平,增强AI应用效能,保障数据安全

当前,随着国产化替代趋势的加强,鸿蒙系统Harmony OS也日趋成熟和完善,各行各业都在积极拥抱鸿蒙;那么,边缘计算要加快实现全面国产化,基于鸿蒙系统开发AI应用势在必行。 关于鸿蒙系统及其优势 鸿蒙系统是华…

ROS2从入门到精通4-3:全局路径规划插件开发案例(以A*算法为例)

目录 0 专栏介绍1 路径规划插件的意义2 全局规划插件编写模板2.1 构造规划插件类2.2 注册并导出插件2.3 编译与使用插件 3 全局规划插件开发案例(A*算法)常见问题 0 专栏介绍 本专栏旨在通过对ROS2的系统学习,掌握ROS2底层基本分布式原理,并具有机器人建…

2023-2025年最值得选择的Java毕业设计选题大全:1000个热门选题推荐✅✅✅

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

冥想第一千一百七十八天

1.周末,早上先骑着电车到绿谷公园拿了姐给的精油,40分钟到家。 2.早上带着媳妇吃了饭,等丈母娘和小侄子。一起去荥泽水乡特别的推荐。感受特别好玩。 3.晚上带着丈母娘和小侄子吃了饭,给送到中原福塔。回来都都12点了。 4.累的&am…

JDK安装目录

1、bin 该路径下存放了各种工具命令,其中比较重要的有:javac和java javac:jdk提供的编译工具,我们可以通过这个工具,把当前路径下的 .java 文件编译成 .class 字节码文件java:jdk提供的一个工具&#xff0…

计算机视觉与模式识别实验1-4 图像的傅立叶变换

文章目录 🧡🧡实验流程🧡🧡1. 傅立叶变换1.a 绘制一个二值图像矩阵,并将其傅立叶函数可视化。1.b 利用傅立叶变换分析两幅图像的相关性,定位图像特征。读入图像‘text.png,抽取其中的字母‘a’ 2. 离散余弦…

2024年5月2日 Go生态洞察:Go 1.22中的安全随机性

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 专栏链接: 🔗 精选专栏:…

JavaEE IO流(1)

1.什么是IO流 (1)input输入 Output输出 这两个的首字母就是IO的组成 (2)比如你的电脑可以通过网络上传文件和下载文件 这个上传文件就是Output 这个下载翁建就是input (3)这个输入和输出的标准是以CPU为参照物为基准的 其中通…

Python编程基础1

Python特点: 高级:有高级的数据结构,缩短开发时间与代码量。 面向对象:为数据和逻辑相分离的结构化和过程化编程添加了新的活力。 可升级:提供了基础的开发模板,可以在它上面开发软件,实现代码的…