GPT-4o: 从最难的“大海捞针”基准看起

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区，可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。当然最重要的是订阅跟随“鲁班模锤”。

“我们使命的一个关键部分是将非常强大的人工智能工具免费（或以很优惠的价格）提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。”--Sam Altman
"...a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that."--Sam Altman

GPT-4o

OpenAI周一宣布了一款新的生成式AI模型，GPT-4o(omni)，代表着模型全能，能够处理文本、语音和视频的能力。GPT-4o将在未来几周内推出。OpenAI 首席技术官Mira Murati表示，GPT-4o不仅提供“GPT-4 级别”智能，还改善了GPT-4跨多种模式和媒体的能力。 “这非常重要，因为我们正在研究我们自己与机器之间交互的未来。”

GPT-4 Turbo是OpenAI之前最先进的模型，它接受了图像和文本组合的训练，可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。

周一发布的GPT-4o将语音融合，从而支持各种新应用。用户现在可以像真正的助手一样与 ChatGPT进行交互，享受实时响应，临时打断以及动态的交互。GPT-4o甚至可以捕捉声音的细微差别，并产生不同情感风格的反应，包括唱歌。

比如

“

在对话时可以随时打断；
根据场景生成多种音调，带有人类般的情绪和情感；
通过和AI视频通话让它在线解答各种问题

”

Gpt-4o Demos

GPT-4o的模型架构由经验丰富的专家团队领导，拥有多个关键组件，其中

Reimar Leike主导的预训练策略优化和高级的Tokenizer技术
Heewoo Jun和Allan Jabri指导下的强大编码器和解码器
Prafulla Dhariwal和Alexander Kirillov牵头进一步提升其多模态的能力，使得模型能够无缝处理各种数据类型。

从最难的“大海捞针”基准看起

网上其他基准的评估很多，这里选取两种另类的评估来展示它的实力。大海捞针（needle-in-a-needlestack）测试是一种评估方法，它通过在长文本中随机插入关键信息，形成大型语言模型(LLM)的Prompt。该测试旨在检测大型模型是否能从长文本中提取出这些关键信息，从而评估模型处理长文本信息提取的能力，这可以反映LLM对长文本的理解基础能力。

任务介绍在OpenCompass的NeedleBench框架中，为了全面评估模型在长文本信息提取和推理方面的能力而设计的难度增加的测试方案。

单一信息检索任务(Single-Needle Retrieval Task, S-RT)：评估LLM在长文本中提取单一关键信息的能力，测试其对广泛叙述中特定细节的精确回忆能力。这对应于原始的大海捞针测试任务设定。
多信息检索任务(Multi-Needle Retrieval Task, M-RT)：探讨LLM从长文本中检索多个相关信息的能力，模拟实际场景中对综合文档的复杂查询。
多信息推理任务(Multi-Needle Reasoning Task, M-RS)：通过提取并利用长文本中的多个关键信息来评估LLM的长文本能力，要求模型对各关键信息片段有综合理解。
祖先追溯挑战(Ancestral Trace Challenge, ATC)：通过设计“亲属关系针”，测试LLM处理真实长文本中多层逻辑挑战的能力。在ATC任务中，通过一系列逻辑推理问题，检验模型对长文本中每个细节的记忆和分析能力。在这个场景去掉了无关文本(Haystack)的设定，而是将所有文本设计为关键信息，LLM必须综合运用长文本中的所有内容和推理才能准确回答问题。

直到今天，还没有LLM能够在这个基准上表现得很好。NIAN是一个包含数千首打油诗的prompt ，prompt 的提问让大模型给出与提问相关的特定位置的打油诗。

prompt是由一系列打油诗组合而成（比如2500首的打油诗），在最后会存在一个问题。问题询问的是会和其中一首打油诗相关。需要简洁地回答问题。

下面的实验中，先来看看GPT-4 Turbo 和 Claude-3 Sonnet的表现，再来看看Mistral最新的8x22模型。Mistral最新的8x22模型在这个基准测试中也遇到了很大的困难。即使在提示开始时，它也只能正确回答问题 50% 。Mistral Large 做得更好，但仍然只达到 70%正确率。