Llama 3 是怎么回事?Arena 数据分析

4 月 18 日,Meta 发布了他们最新的开放权重大型语言模型 Llama 3。从那时起,Llama 3-70B 就在 English Chatbot Arena 排行榜上迅速上升,拥有超过 50,000 次对战。Meta 的这一非凡成就对开源社区来说是个好消息。在这篇博文中,我们旨在深入探讨为什么用户将 Llama 3-70b 与 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus 等顶级模型相提并论。

我们调查了以下内容:

  1. 用户在问什么类型的提示?用户是否更喜欢 Llama 3 的某些类型的提示?
  2. 这些提示有多具有挑战性?如果提示更容易/更难,排名是否会改变?
  3. 某些用户或提示是否过度代表?重复的提示或少数用户的排名是否会影响胜率?
  4. Llama 3 是否有让用户更喜欢它的定性差异?

我们专注于 Llama 3-70b 与 5 个顶级模型(claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-0409-preview)的对战,得出以下结论:

  • Llama 3 在开放式写作和创意问题上击败了其他顶级模型,但在更封闭的数学和编码问题上失利。

  • 随着提示变得更难,Llama 3 对顶级模型的胜率显着下降。

  • 去重或异常值不会显著影响胜率。

    定性地说,Llama 3 的输出比其他模型更友好、更具对话性,这些特征在 Llama 3 获胜的对战中更频繁出现。

在这里插入图片描述
图 1.Llama 3-70b 在不同提示主题上对五大模型的胜率(不包括平局)。* 表示该类别包含的对战不足 50 个。

分析不同类型提示的胜率

主题分析。我们利用 LLM 标注器(Llama 3-70b)将用户提示分类为预先建立的主题分类法(来自 Reka 的论文),并在图 1 中可视化 Llama 3-70b 与其他顶级模型的胜率。我们看到,Llama 3 在头脑风暴和写作等开放式和创造性任务上的胜率最高,在数学和翻译等更封闭的技术任务上的胜率最低。有趣的是,Llama 3 在数据处理任务(主要包括解析和数据框操作)上获得了最高的胜率,但由于该类别只有 19 个样本,这仍然是不确定的。

胜率与提示难度。我们采用了最近发布的评分提示难度的流程,以确定随着提示变得更难,Llama 3 与其他顶级模型相比如何。我们定义了一套"困难程度"标准,并使用 GPT-4-turbo 对每个提示进行 0 到 7 的标注,以表明满足这些标准中的多少个(分数越高表示提示越难)。我们的 7 个标准是:

1.具体性:提示是否要求具体的输出?
2.领域知识:提示是否涵盖一个或多个特定领域?
3.复杂性:提示是否具有多个层次的推理、组成部分或变量?
4.解决问题:提示是否直接涉及 AI 展示积极的解决问题的技能?
5.创造力:提示在解决问题的方法上是否涉及一定程度的创造力?
6.技术准确性:提示是否需要在回答中保持技术准确性?
7.真实世界应用:提示是否与现实世界应用相关?

我们对排行榜前 3 名模型的 1000 场对战进行评分,并在图 2 中绘制它们的胜率与提示得分的关系。我们观察到,与其他顶级模型相比,Llama 3 的性能显着下降,从 50% 的高胜率下降到 40% 的低胜率。我们得出结论,随着这些"困难程度"标准中的更多标准得到满足,与其他模型相比,Llama 3 的胜率迅速下降。请注意,这些标准可能并不详尽,更多讨论请参见博客。
在这里插入图片描述

图 2.几个顶级模型在满足关键标准数量区间内对最强 6 个模型的胜率。*最强模型之间的英语对战:llama-3-70b-chat、claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-api-0409-preview。

在这里插入图片描述
图 3.在 3.5K 个 arena 对战样本中,满足困难程度标准数量的提示百分比。我们观察到,相当一部分对战被归类为困难(约 27%)。

我们可以进一步分析哪些类型的提示会影响胜率,方法是在表示给定提示是否满足上述每个标准的 7 个二元列上拟合决策树。从这棵决策树中,我们可以将提示分成标准子集,使得 Llama 3-70b-Instruct 要么表现非常好,要么表现非常差。图 4 所示的树告诉我们,当以某些条件为前提时,哪些子集会最大程度地改变模型的胜率。

在这里插入图片描述

图 4.使用标准决策树算法拟合的分层提示标准子集上的 Llama 3-70b-Instruct 胜率。

首先要注意的是,"具体性"是树的根节点,这表明该标准已经将 Llama 3-70b-Instruct 的性能划分为其优势和劣势。它支持我们之前的初步发现,即 Llama 3-70b-Instruct 在开放式提示(非特定)上比在更客观的任务上更强。我们可以进一步遍历树,看到 Llama 3-70b-Instruct 在开放式创意提示上相当强大(参见蓝色路径),对这些顶级模型达到约 60% 的胜率。沿着橙色路径,我们注意到,在回答特定的基于推理的提示时,Llama 3-70b-Instruct 对顶级模型的胜率要低得多。

过度代表的提示和评委的影响

重复提示的影响。使用模糊字符串匹配,我们发现 Llama 3 和其他顶级模型之间的对战中约 9%(6658/7327)的用户提示是重复的,并在表 1 中显示,去重并不显着影响 Llama 3 的胜率。

表 1:Llama 3-70b 对战统计。
在这里插入图片描述

表 2.LLM 的详细参与指标(时间范围:2023 年 4 月 24 日 - 5 月 1 日)

在这里插入图片描述
为了限制投票次数多的用户的影响,我们可以取每个评委胜率的平均值,从而限制每个评委的影响。在这种情况下,我们发现表 3 中所示的分层胜率仍然与原始胜率非常相似,这表明非常活跃的评委并没有扭曲结果。

表 3.模型胜率(时间范围:2023 年 4 月 24 日 - 5 月 1 日)。最新和详细版本请点击此处。请注意,平局计为 0.5,胜利和失败分别计为 1 和 0。

在这里插入图片描述
Llama 3 输出与其他模型的定性差异。从 Llama 3 和其他模型输出的定性分析中,我们观察到 Llama 3 的输出通常比其他模型更兴奋、积极、对话性和友好。

测量情绪。为了衡量兴奋度,我们根据感叹号的存在为每个输出分配一个二元标签。对于积极性、友好性和对话性,我们使用 GPT-3.5 作为评委,对每个输出进行 1-5 分的评分。在给定的对战中,如果 Llama 3 的输出得分高于对手,则标记为更兴奋、积极、对话性或友好。图 5 显示了不同模型中这些品质的分布,揭示了与对手相比,Llama 3 的输出通常表现出更高水平的兴奋、积极、友好和对话性。

在这里插入图片描述图 5:Llama 3 在 arena 提示中比对手更积极/友好/对话/感叹的比例。

情绪与胜率有关吗?图 6 比较了 Llama 3 在获胜对战和失败对战中输出的情绪品质。我们看到,所有特征在获胜对战中出现得更多,在失败对战中出现得更少,但这种差异相对较小,尤其是在积极性和友好性方面。这表明,虽然这些特征可能在竞争成功中发挥作用,但要得出更确定的见解,还需要进一步探索它们的影响。

在这里插入图片描述

图 6:当 Llama 3 比对手更积极/友好/对话/感叹时,Llama 3 的情绪与其胜率的关系。

结论

从一开始,我们的使命就是推进 LLM 的发展和理解。虽然过去我们一直专注于高层次的排名和基准设计,但展望未来,我们希望扩展这里的分析,并对人类偏好和模型行为的变化进行更深入的分析。

心得:

我认为这是一篇高质量的分析博文,对Llama 3的表现进行了全面而细致的评估。以下几点给我留下了深刻印象:

  1. 多角度的数据分析:作者不仅比较了Llama3在不同任务领域的胜率,还考察了提示难度、重复提示、评委行为等因素的影响。这种多维度的分析有助于更准确地理解模型的优劣势

  2. 定性与定量相结合:除了各种数据统计,文章还总结了Llama3输出的定性特点,如更友好、更有对话感等。定性分析与定量结果相佐证,让读者对Llama 3的特点有更直观的认识。

  3. 客观中立的态度:文章没有回避Llama3在数学、编码等任务上的不足,而是如实呈现了其局限性。同时也充分肯定了它在开放式写作等方面的优势。这种客观的评价让人感到分析的可信度。

  4. 展望未来的分析方向:作者指出当前分析的局限,并展望了未来可以深入探索的问题,如人类偏好的变化等。这种对研究方向的思考很有启发性。

  5. 可复现性:文中详细描述了分析使用的标注方法、评估指标的定义等,便于其他研究者复现或扩展相关工作。

参考博文: https://lmsys.org/blog/2024-05-08-llama3/
作者:Lisa Dunlap, Evan Frick, Tianle Li, Isaac Ong, Joseph E. Gonzalez, Wei-Lin Chiang,2024 年 5 月 8 日

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11827.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux信息显示相关指令

1、查看cpu 查看cpu信息:cat /proc/cpuinfo 查看cpu个数:nproc cat /proc/cpuinfo | grep "physical id" | uniq | wc -l uniq命令:删除重复行;wc –l命令:统计行数 查看CPU核数 cat /proc/cpuinfo | grep "cpu cores" | uniq 2、查看内存 cat /pr…

快解析Tplink端口映射如何设置

Tplink作为国内知名路由器品牌,有着广泛的用户群体。使用快解析端口映射是实现内网服务器被外网访问必须要做的设置,很多对网络不懂得小白不知道该到哪里去做,下面我就讲解一下tplink路由器如何做端口映射。 1:访问路由器 &#…

uboot 顶层 Makefile 逐行分析

文章目录 0001-00080009-00180019-00510052-00920093-01070108-01230124-01770178-21350178-01810182-01860187-02020203-02450246-02620263-02720273-03370338-03830384-03870388-04250426-04490450-04740475-04860487-04980499-05340535-05500551-05650566-221822192220-2332…

想半天憋不出几个字?试试AI扩写

大家在写文章时是否也经常这样?想了半天,结果只能写出几个字,但是要求往往又是几百多个字,那么有没有啥工具可以帮我们在原文的基础上扩写一下文章字数,让我们达到字数要求呢? 下面给大家介绍一下如何扩写文…

Django开发实战之定制管理后台界面及知识梳理(下)

接上一篇:Django开发实战之定制管理后台界面及知识梳理(中) 1、前台设置 1、隐藏路由 当你输入一个错误地址时,可以看到这样的报错: 从这样的报错中,我们可以看到,这个报错页面暴漏了路由&a…

FullCalendar日历组件集成实战(1)

背景 有一些应用系统或应用功能,如日程管理、任务管理需要使用到日历组件。虽然Element Plus也提供了日历组件,但功能比较简单,用来做数据展现勉强可用。但如果需要进行复杂的数据展示,以及互动操作如通过点击添加事件&#xff0…

python数据可视化:从n个点中挑选m组3个点绘制m个三角形matplotlib.pyplot.triplot()

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 python数据可视化: 从n个点中挑选m组3个点 绘制m个三角形 matplotlib.pyplot.triplot() [太阳]选择题 以下关于matplotlib.pyplot.triplot()函数说法正确的是? impor…

Linux---windows 机器和远端的 Linux 机器如何通过 XShell 传输文件

一、关于rzsz 这个工具用于 windows 机器和远端的 Linux 机器通过 Xshell 传输文件. 二、下载rzsz软件 用root输入命令: sudo yum install -y lrzsz下载完成: 三、如何传输 有图形化界面 1、从Windows机器传输给远端Linux机器 ① 直接拖拽 直接将…

微软如何打造数字零售力航母系列科普10 - 什么是Azure Databricks?

什么是Azure Databricks? 目录 一、数据智能平台是如何工作的? 二、Azure Databricks的用途是什么? 三、与开源的托管集成 四、工具和程序访问 五、Azure Databricks如何与Azure协同工作? 六、Azure Databricks的常见用例是…

JavaSE——集合框架一(2/7)-Collection集合的遍历方式-迭代器、增强for循环、Lambda、案例

目录 Collection的遍历方式 迭代器 增强for循环(foreach) Lambda表达式遍历集合 案例 需求与分析 代码部分 运行结果 Collection的遍历方式 迭代器 选代器是用来遍历集合的专用方式(数组没有选代器),在Java中…

【Spring Boot】 深入理解Spring Boot拦截器:自定义设计与实现全攻略

💓 博客主页:从零开始的-CodeNinja之路 ⏩ 收录文章:【Spring Boot】 深入理解Spring Boot拦截器:自定义设计与实现全攻略 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 SpringBoot统⼀功能处理一…

第十五节:贪心算法(下)

一 、 贪心算法的解题套路实战一(最多的会议宣讲场次) 1.1 描述 一些项目要占用一个会议室宣讲,会议室不能同时容纳两个项目的宣讲。 给你每一个项目开始的时间和结束的时间 你来安排宣讲的日程,要求会议室进行的宣讲的场次最多。…

HTML静态网页成品作业(HTML+CSS)——动漫哆啦A梦网页(3个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有3个页面。 二、作品演示 三、代…

Mongo关联查询两张表中分别满足某些条件的记录

如果是在mysql里面,这个查起来就很方便,但是,在mongo里面的话,查询起来就没这么方便了。 如果使用付费版的Studio 3T工具的话,也可以像使用mysql一样查询mongo数据,但是免费版不支持sql的用法,只…

Python---Pandas万字总结(1)

Pandas基础-1 Pandas 是 一个强大的分析结构化数据的工具集。Pandas 以 NumPy 为基础(实现数据存储和运算),提供了专门用于数据分析的类型、方法和函数,对数据分析和数据挖掘提供了很好的支持;同时 pandas 还可以跟数…

kubeadm 在vubuntu22.04.4 server 上安装kubernetes 1.28.9

一、基础安装(所有节点执行)---------------------------------------- 时间同步 关闭防火墙 sudo ufw disable sudo ufw status关闭交换内存 临时关闭 sudo swapoff -a free -m永久关闭 sudo vim /etc/fstab 注释掉交换内存 转发 IPv4 并让 iptab…

云贝教育 |【好课上新】ITSS服务工程师与服务经理认证培训

课程前言 ITSS是中国电子技术标准化研究院推出的,包含“IT 服务工程师”和“IT 服务经理”的系列培训。有效满足GB/T 28827.1 的符合性评估要求和ITSS服务资质升级要求。 IT 服务工程师”结合 IT服务从业人员能力规范和要求,从服务技术、服务技巧和服务…

【Linux】调试器-gdb使用

大家好,我是苏貝,本篇博客带大家了解Linux的编译器-gcc/g,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 1. 背景(A) 看大小(B) 查看ELF格式的文件 2.使用(A) 进入gdb(B) quit/q&#xff…

【码农日常】将mp4转换为逐帧图片

项目场景: 拍摄了一段视频记录设备工作的状态和测量仪器的实时数据。由于测量仪器岁数比较大,不够智能,遂打算将视频转换为逐帧图片进行分析。 网上没找到现成工具,借鉴网上大神的操作方式打算用python写一个工具。 问题描述 用…

一、VIsual Studio下的Qt环境配置(Visual Studio 2022 + Qt 5.12.10)

一、下载编译器Visual Studio2022和Qt 5.12.10 Visual Studio 2022 社区版就够学习使用了 Qt5.12.10 安装教程网上搜,一大堆 也很简单,配置直接选默认,路径留意一下即可 二、配置环境 Ⅰ,配置Qt环境变量 系统变量下的Path&a…