GPT-4o: 从最难的“大海捞针”基准看起

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。当然最重要的是订阅跟随“鲁班模锤”

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以很优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。”--Sam Altman
"...a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that."--Sam Altman

GPT-4o

OpenAI周一宣布了一款新的生成式AI模型,GPT-4o(omni),代表着模型全能,能够处理文本、语音和视频的能力。GPT-4o将在未来几周内推出。OpenAI 首席技术官Mira Murati表示,GPT-4o不仅提供“GPT-4 级别”智能,还改善了GPT-4跨多种模式和媒体的能力。 “这非常重要,因为我们正在研究我们自己与机器之间交互的未来。”

GPT-4 Turbo是OpenAI之前最先进的模型,它接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。

周一发布的GPT-4o将语音融合,从而支持各种新应用。用户现在可以像真正的助手一样与 ChatGPT进行交互,享受实时响应,临时打断以及动态的交互。GPT-4o甚至可以捕捉声音的细微差别,并产生不同情感风格的反应,包括唱歌。

比如

  • 在对话时可以随时打断;

  • 根据场景生成多种音调,带有人类般的情绪和情感;

  • 通过和AI视频通话让它在线解答各种问题

Gpt-4o Demos

GPT-4o的模型架构由经验丰富的专家团队领导,拥有多个关键组件,其中

  • Reimar Leike主导的预训练策略优化和高级的Tokenizer技术

  • Heewoo Jun和Allan Jabri指导下的强大编码器和解码器

  • Prafulla Dhariwal和Alexander Kirillov牵头进一步提升其多模态的能力,使得模型能够无缝处理各种数据类型。

从最难的“大海捞针”基准看起

网上其他基准的评估很多,这里选取两种另类的评估来展示它的实力。大海捞针(needle-in-a-needlestack)测试是一种评估方法,它通过在长文本中随机插入关键信息,形成大型语言模型(LLM)的Prompt。该测试旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力,这可以反映LLM对长文本的理解基础能力。

任务介绍在OpenCompass的NeedleBench框架中,为了全面评估模型在长文本信息提取和推理方面的能力而设计的难度增加的测试方案。

  • 单一信息检索任务(Single-Needle Retrieval Task, S-RT):评估LLM在长文本中提取单一关键信息的能力,测试其对广泛叙述中特定细节的精确回忆能力。这对应于原始的大海捞针测试任务设定。

  • 多信息检索任务(Multi-Needle Retrieval Task, M-RT):探讨LLM从长文本中检索多个相关信息的能力,模拟实际场景中对综合文档的复杂查询。

  • 多信息推理任务(Multi-Needle Reasoning Task, M-RS):通过提取并利用长文本中的多个关键信息来评估LLM的长文本能力,要求模型对各关键信息片段有综合理解。

  • 祖先追溯挑战(Ancestral Trace Challenge, ATC):通过设计“亲属关系针”,测试LLM处理真实长文本中多层逻辑挑战的能力。在ATC任务中,通过一系列逻辑推理问题,检验模型对长文本中每个细节的记忆和分析能力。在这个场景去掉了无关文本(Haystack)的设定,而是将所有文本设计为关键信息,LLM必须综合运用长文本中的所有内容和推理才能准确回答问题。

直到今天,还没有LLM能够在这个基准上表现得很好。NIAN是一个包含数千首打油诗的prompt ,prompt 的提问让大模型给出与提问相关的特定位置的打油诗。

prompt是由一系列打油诗组合而成(比如2500首的打油诗),在最后会存在一个问题。问题询问的是会和其中一首打油诗相关。需要简洁地回答问题。

下面的实验中,先来看看GPT-4 Turbo 和 Claude-3 Sonnet的表现 ,再来看看Mistral最新的8x22模型。Mistral最新的8x22模型在这个基准测试中也遇到了很大的困难。即使在提示开始时,它也只能正确回答问题 50% 。Mistral Large 做得更好,但仍然只达到 70%正确率。

GPT4-TurboClaude-3

open-mixtral-8x22bmistral-large-latest

<==看看这条丝滑的曲线就可以管中窥豹,GPT-4o的能力突破。

再来看看Aider排名

Aider主要是评估LLM的编辑代码能力,而不是编写代码能力。为了评估 LLM的这项技能,Aider使用一对基准来评估模型是否遵循系统的要求来编辑代码的能力。GPT-4o以72.9%在编辑代码的排行榜上名列前茅,而Opus则为 68.4%。

GPT-4o以62.9%在重构排行榜上排名第二,输给了Opus的72.3%。

在人工智能创新领域,GPT-4o是人类聪明才智和协作的证明。凭借其突破性的架构、多样化的应用和潜在的影响,代表着通用人工智能的探索又向前迈出的重要一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/12757.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python slice() 使用方法及示例说明

slice()参数 slice() 可以采用三个参数&#xff1a; start&#xff08;可选&#xff09; -对象切片开始的起始整数。如果未提供或者值为None&#xff0c;则默认为第一个数据。 stop-整数&#xff0c;直到切片发生。切片在索引stop-1&#xff08;最后一个元素&#xff09;处停…

基于EBAZ4205矿板的图像处理:12二值化图像的膨胀与腐蚀

基于EBAZ4205矿板的图像处理&#xff1a;12二值化图像的膨胀与腐蚀 先看效果 注意&#xff1a;我的项目中的膨胀和腐蚀是对二值化图像中的像素值为255的像素进行处理&#xff0c;而我的图像中255为白色&#xff0c;0为黑色&#xff0c;所以是对颜色为白色的像素点进行的膨胀和…

【Vue】Vue 中的数据传递策略:探索跨组件通信的多样化方法

Vue 中的数据传递策略&#xff1a;探索跨组件通信的多样化方法 在现代的前端开发过程中&#xff0c;Vue.js 以其灵活和易于理解的结构脱颖而出&#xff0c;成为了广受欢迎的 JavaScript 框架之一。在构建动态应用时&#xff0c;组件之间的数据传递是必不可少的&#xff0c;但随…

Google I/O 2024:有关AI的一切已公布|TodayAI

2024年谷歌I/O大会圆满落幕&#xff0c;谷歌在会上发布了一系列更新&#xff0c;涵盖从最新的人工智能技术到Android系统的多项改进。此次大会特别关注于谷歌的Gemini人工智能模型&#xff0c;并详细介绍了这些模型如何被融入到Workspace、Chrome等多个应用程序中&#xff0c;展…

男士内裤哪个牌子质量好又舒服?五款不容错过的男士内裤

男士内裤&#xff0c;作为男士日常穿着的重要贴身衣物&#xff0c;其舒适度和透气性至关重要。尽管有些男士可能习惯长时间穿着同一条内裤&#xff0c;但为了确保健康和舒适&#xff0c;建议每3-6个月更换一次内裤。长时间不更换内裤会导致其舒适性和透气性下降&#xff0c;同时…

性价比王者HUSB237,极简PD Sink的“瘦身秘籍”

在小型化、高集成的要求下&#xff0c;慧能泰取电芯片进行技术升级后“瘦身成功”&#xff0c;推出最新一代极具性价比的最简PD Sink取电芯片——HUSB237。 图1&#xff1a;HUSB237 demo及封装图 HUSB237 是一款极具性价比的最简PD Sink取电芯片&#xff0c;支持PD3.1协议包含…

C#知识|上位机面向对象编程时如何确定类?

哈喽&#xff0c;你好啊&#xff0c;我是雷工&#xff01; 01 项目分类 1.1、无数据库的项目&#xff1a;应用面向对象的思想和发方法设计&#xff0c;完成各个类的设计过程&#xff0c;确定各个类之间的关系。 1.2、有数据库的项目&#xff1a;项目的框架和思路相对固定&…

【风电功率预测-粉丝福利】向量加权平均算法优化卷积神经网络结合长短记忆网络INFO-CNN-LSTM

如何做 风电功率预测是一项重要的任务&#xff0c;可以帮助优化风电发电效率和电网调度。为了提高风电功率预测的准确性&#xff0c;可以使用卷积神经网络&#xff08;Convolutional Neural Network, CNN&#xff09;结合长短期记忆网络&#xff08;Long Short-Term Memory, L…

管道通信机制详解:无名管道 vs 有名管道

目录 无名管道&#xff08;匿名管道&#xff09; 定义 特点 创建与使用 有名管道&#xff08;FIFO&#xff09; 定义 特点 创建与使用 总结 在多进程通信中&#xff0c;管道是一种非常基本且实用的机制&#xff0c;它允许进程间进行数据传输。根据是否在文件系统中有名称&#…

2024中国振威化工装备展

2024上海国际化工设备展览会 第十六届上海国际化工装备博览会将于2024年11月19-21日在国家会展中心&#xff08;上海&#xff09;举办&#xff0c;预计参展企业1000多家&#xff0c;展览面积7万平方米&#xff0c;观众突破10万人次。展会设置石化装备、化工单元设备、化工环保…

Flutter 中的 ChoiceChip 小部件:全面指南

Flutter 中的 ChoiceChip 小部件&#xff1a;全面指南 在Flutter中&#xff0c;ChoiceChip是一种特殊的组件&#xff0c;用于表示一组可选项中的单个选项。它通常用于实现简单的选择功能&#xff0c;如单选按钮或复选框。本文将详细介绍如何在Flutter应用中使用ChoiceChip。 …

【算法基础】你见过ST表吗?它竟然这么强大

文章目录 ST表&#xff08;Sparse Table&#xff09;观察预处理区间求和区间最小值查询 ST表&#xff08;Sparse Table&#xff09; ST表是一种用于区间查询的数据结构。它上面大部分的区间查询都是 O ( l o g n ) O(logn) O(logn)的时间。但它在查询区间最大值最小值问题上非…

算法课程笔记——蓝桥云课第11次直播

算法课程笔记——蓝桥云课第11次直播

收藏与品鉴:精酿啤酒的艺术之旅

啤酒&#xff0c;这一古老的酒精饮品&#xff0c;不仅是人们生活中的日常饮品&#xff0c;更是一种艺术和文化的载体。对于Fendi club啤酒而言&#xff0c;收藏与品鉴更是一门深入骨髓的艺术之旅。 Fendi club啤酒的收藏&#xff0c;不仅仅是简单的存放和保管&#xff0c;而是一…

交换机组网最常见的8大故障及解决方式

有朋友多次提到网络故障&#xff0c;其中在交换机组网时常见的故障比较多&#xff0c;为了便于大家排除这些故障&#xff0c;在此介绍一些常见的典型故障案例及处理思路。 故障1&#xff1a;交换机刚加电时网络无法通信 【故障现象】 交换机刚刚开启的时候无法连接至其他网络…

数据库面试题(MySQL、Oracle)

数据库 数据库的四大特性 原子性&#xff1a; 事务中的所有操作要么全部执行成功&#xff0c;要么全部执行失败&#xff0c;不存在部分执行的情况&#xff1b;成功必须要完全应用到数据库&#xff0c;失败则不能对数据库产生影响&#xff1b; 一致性&#xff1a; 事务在执…

Java面向对象——接口的定义与实现

普通类&#xff1a;只有具体实现 抽象类&#xff1a;具体实现和规范&#xff08;抽象方法&#xff09;都有 接口&#xff1a;只有规范。自己无法写方法。专业的约束&#xff01;约束和实现分离&#xff1a;面向接口编程 接口就是规范&#xff0c;定义的是一组规则&#xf…

k8s StatefulSet

Statefulset 一个 Statefulset 创建的每个pod都有一个从零开始的顺序索引&#xff0c;这个会体现在 pod 的名称和主机名上&#xff0c;同样还会体现在 pod 对应的固定存储上。这些 pod 的名称是可预知的&#xff0c;它是由 Statefulset 的名称加该实例的顺序索引值组成的。不同…

现货黄金在线交易有哪些优势_EE trade

现货黄金在线交易拥有几项独特优势&#xff0c;使其成为广受投资者青睐的贵金属投资方式&#xff1a; 1. 全天候交易 现货黄金市场几乎可以实现24小时不间断交易&#xff0c;投资者可以根据全球市场的变动随时参与交易&#xff0c;这提供了极大的灵活性和即时反应市场变化的能…

PyTorch 中构建神经网络的常用方法介绍

在 PyTorch 中构建神经网络通常有以下几种方法。每种方法都有其特定的应用场景&#xff0c;选择哪种方法取决于你的具体需求&#xff0c;例如模型的复杂度、是否需要多 GPU 训练、是否需要自定义层或操作等。在实践中&#xff0c;这些方法往往是相互结合使用的&#xff0c;以达…