OpenAI发布一周年,那些声称超过它的模型都怎么样了?

这篇报告详尽地回顾了自ChatGPT发布一年以来,各种声称与ChatGPT相当或更优的开源大语言模型在各种任务上的表现!
报告整合了各种评估基准,分析了开源LLMs与ChatGPT在不同任务上的比较。

包括一般能力、代理能力、逻辑推理能力、长文本建模能力、特定应用能力(如问答、总结)、以及可信赖性(如幻觉、安全性)。

结论先行:综合能力,ChatGPT,依然,遥遥领先!42e6a8270e5ccbcad7db13b8e10ba570.jpegad51880b1ff77e1bd31411a437f890cc.jpeg以下是报告简要总结: 

1、一般能力:

基准测试:

包括MT-Bench(多轮对话和指令遵循能力测试),AlpacaEval(测试模型遵循一般用户指令的能力),Open LLM Leaderboard(评估LLMs在多种推理和通用知识任务上的表现)。

模型性能:

•Llama-2-70B-chat 在 AlpacaEval 中达到了 92.66% 的胜率,超过了 GPT-3.5-turbo。

•WizardLM-70B 在 MT-Bench 上得分为 7.71,但低于 GPT-4(8.99)和 GPT-3.5-turbo(7.94)。

•Zephyr-7B 在 AlpacaEval 中的胜率为 90.60%,在 MT-Bench 上得分为 7.34。•GodziLLa2-70B 在 Open LLM Leaderboard 上的得分为 67.01%,而 Yi-34B 得分为 68.68%。•GPT-4 保持最高表现,胜率为 95.28%

2、代理能力:

基准测试:包括工具使用(API-Bank、ToolBench)、自我调试(InterCode-Bash、MINT-HumanEval),遵循自然语言反馈(MINT),和环境探索(ALFWorld、WebArena)。模型性能:Lemur-70B-chat 在 ALFWorld、IC-CTF 和 WebArena 环境测试中表现优于 GPT-3.5-turbo 和 GPT-4

3、逻辑推理能力:

基准测试:包括GSM8K(数学问题解决)、MATH(竞赛数学问题)、TheoremQA(应用定理解决科学问题)、HumanEval(编程问题)等。模型性能:•WizardCoder 在 HumanEval 上比 GPT-3.5-turbo 高出 19.1% 的绝对改进。•WizardMath 在 GSM8K 上比 GPT-3.5-turbo 有 42.9% 的绝对改进

4、应用特定能力:

基准测试:包括查询聚焦摘要(AQualMuse、QMSum等)和开放式问答(SQuAD、NewsQA等)。模型性能:InstructRetro在NQ、TriviaQA、SQuAD 2.0和DROP上比GPT-3有7-10%的改进。

5、医学领域应用:

基准测试:包括心理健康分析(IMHI)和放射学报告生成(OpenI、MIMIC-CXR)。模型性能:•MentalLlama-chat-13B 在 IMHI 训练集上微调后,其表现超过了 ChatGPT 在 9 个任务中的 9 个。•Radiology-Llama-2 在 MIMIC-CXR 和 OpenI 数据集上大幅超过了 ChatGPT 和 GPT-4

6、可信赖性:

基准测试:包括TruthfulQA、FactualityPrompts、HaluEval等,用于评估LLMs的真实性和安全性。模型性能:•不同的方法和模型(如 Platypus、Chain-of-Verification、Chain-of-Knowledge 等)在减少幻觉和提高安全性方面取得了进步 •例如Platypus在TruthfulQA上比GPT-3.5-turbo表现出约20%的改进。
在这份调查中,我们对在ChatGPT发布一周年之际在各个任务领域超越或迎头赶上ChatGPT的高性能开源LLM进行了系统性回顾。此外,我们提供了关于开源LLM的见解、分析和潜在问题。我们相信这份调查将为开源LLM领域提供有前途的方向,并激发进一步的研究和发展,有助于缩小它们与付费对手之间的差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/197416.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【daily notes on IT/AI/science】

coder, tools NIL), Advance program language: node.js,I) plus/extra, Database, mysql, Oracle, nosql, mongDB, ,,etcII), Script: shell, .sh(many lines of Linux commands)/linux/.bash文件引入方式/, powershell/.ps (many lines of powershell commands) (…

Java生成word[doc格式转docx]

引入依赖 <!-- https://mvnrepository.com/artifact/org.freemarker/freemarker --><dependency><groupId>org.freemarker</groupId><artifactId>freemarker</artifactId><version>2.3.32</version></dependency> doc…

四川成都数字创新大赛-5-数据交易

目录 数据交易痛点 数据交易痛点解决方案-今日洞察 建立行业新标准,扩大

Mybatis中的设计模式

Mybatis中的设计模式 Mybatis中使用了大量的设计模式。 以下列举一些看源码时&#xff0c;觉得还不错的用法&#xff1a; 创建型模式 工厂方法模式 DataSourceFactory 通过不同的子类工厂&#xff0c;实例化不同的DataSource TransactionFactory 通过不同的工厂&#xff…

17:00面试,17:06就出来了,问的问题有点变态。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到8月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%,…

css新闻链接案例

利用html和css构建出新闻链接案例&#xff0c;使用渐变色做出背景色变化 background: linear-gradient(to bottom, rgb(137, 210, 251), rgb(238, 248, 254), white); 利用背景图片&#xff0c;调整位置完成 dd { height: 28px; line-height: 28px; background-image: url(./图…

CMMI认证有什么意义

什么是CMMI认证 CMMI&#xff08;Capability Maturity Model Integration&#xff09;即能力成熟度模型集成&#xff0c;是由美国卡内基梅隆大学软件工程研究所&#xff08;SEI&#xff09;开发的&#xff0c;用于评估和改善企业软件开发过程的一种标准。它主要关注软件开发过…

1、命名空间、C++的复合类型、缺省参数

命名空间 1、命名空间的定义 使用namespace定义&#xff0c;使用作用域限定符::访问 #include <iostream> namespace ICBC{int money 0;void save( int m){money m;} } int main( void ){ICBC::save( 100); std::cout << "工行卡余额&#xff1a;"…

@Scheduled,Quartz,XXL-JOB三种定时任务总结

Scheduled&#xff0c;Quartz&#xff0c;XXL-JOB三种定时任务总结 一、Scheduled 简介 Scheduled 是 Spring 框架中用于声明定时任务的注解。通过使用 Scheduled 注解&#xff0c;你可以指定一个方法应该在何时执行&#xff0c;无需依赖外部的调度器。 这个注解通常与Enab…

javascript object转换成json格式

JavaScript中object与json的转换 1、JSON字符串: var str1 { "name": "cxh", "sex": "man" };2、JSON对象: var str2 { "name": "cxh", "sex": "man" };3、JSON字符串转换为JSON对象 要使…

判断是否存在重复的数

系列文章目录 进阶的卡莎C_睡觉觉觉得的博客-CSDN博客数1的个数_睡觉觉觉得的博客-CSDN博客双精度浮点数的输入输出_睡觉觉觉得的博客-CSDN博客足球联赛积分_睡觉觉觉得的博客-CSDN博客大减价(一级)_睡觉觉觉得的博客-CSDN博客小写字母的判断_睡觉觉觉得的博客-CSDN博客纸币(C…

(C语言)通过循环按行顺序为一个矩阵赋予1,3,5,7,9,等奇数,然后输出矩阵左下角的值。

#include<stdio.h> int main() {int a[5][5];int n 1;for(int i 0;i < 5;i ){for(int j 0;j < 5;j ){a[i][j] n;n 2;}}for(int i 0;i < 5;i ){for(int j 0;j < i;j )printf("%-5d",a[i][j]);printf("\n");}return 0; } 运行截图…

深入理解JVM内存空间的担保策略

Java虚拟机&#xff08;JVM&#xff09;的内存管理是Java性能调优中最重要的方面之一&#xff0c;特别是在处理大型应用和服务时。JVM内存管理的一个关键组成部分是垃圾回收&#xff08;GC&#xff09;。在GC过程中&#xff0c;JVM需要确保有足够的内存来创建新对象&#xff0c…

STM32串口接收不定长数据(空闲中断+DMA)

玩转 STM32 单片机&#xff0c;肯定离不开串口。串口使用一个称为串行通信协议的协议来管理数据传输&#xff0c;该协议在数据传输期间控制数据流&#xff0c;包括数据位数、波特率、校验位和停止位等。由于串口简单易用&#xff0c;在各种产品交互中都有广泛应用。 但在使用串…

Java中的锁

Java常见锁 【超全面】_java锁-CSDN博客 一文看懂Java中的锁 - 知乎 一文读懂 Java 中的各种锁 - 知乎 java中锁的分类总结_java string 锁-CSDN博客 https://www.cnblogs.com/hangychn/p/17184814.html https://www.cnblogs.com/durenniu/p/10949491.html 锁-Java - 知…

【LeeCode】链表总结

理论基础 链表的种类主要为&#xff1a;单链表&#xff0c;双链表&#xff0c;循环链表 链表的存储方式&#xff1a;链表的节点在内存中是分散存储的&#xff0c;通过指针连在一起。 链表是如何进行增删改查的。 数组和链表在不同场景下的性能分析。 经典题目 虚拟头节点 …

Passkey模式

以下内容参考自谷歌的代码&#xff1a; 原文地址 Passkey 模式用于以比简单地将其他类设置为友元类更细粒度的方式将类的部分方法暴露给另一个类。本质上&#xff0c;它涉及创建一个“passkey”类&#xff0c;该类只能由特定的其他类构造&#xff0c;并要求在调用您希望限制使…

手把手教你做基于stm32的红外、语音、按键智能灯光控制(下)

目录&#xff1a; 4.6. DHT11温湿度传感器模块4.7. 语音识别模块4.7. OLED显示屏模块 5. 不同的工作模式6. 总结 在接着&#xff08;上&#xff09;写之前&#xff0c;首先来看一下效果&#xff1a; 链接: link 需要源码什么的可以私信我哦 4.6. DHT11温湿度传感器模块 这个…

C陷阱与缺陷——第2章语法陷阱

1. 理解函数声明 硬件将调用首地址为0位置的子例程 (*(void(*)())0)(); 任何C变量的声明都由两部分组成&#xff1a;类型以及一组类似表达式的声明符&#xff0c;声明符从表面看与表达式有些类似&#xff0c;对它求值应该返回一个声明中给定类型的结果。 假定变量fp是一个函…

[go 面试] 构建高效微服务通信:选择合适的通信方式

关注公众号【爱发白日梦的后端】分享技术干货、读书笔记、开源项目、实战经验、高效开发工具等&#xff0c;您的关注将是我的更新动力&#xff01; 构建分布式系统或微服务架构时&#xff0c;服务间通信成为至关重要的一环。不同的通信方式各有优劣&#xff0c;因此在选择时需根…