LLM（十一）| Claude 3：Anthropic发布最新超越GPT-4大模型

2024年3月4日，Anthropic发布最新多模态大模型：Claude 3系列，共有Haiku、Sonnet和Opus三个版本。

Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度，超过OpenAI的GPT-4。

Haiku模型更注重效率，能以3秒时间阅读一份10,000 tokens的论文；Sonnet比之前的Claude 2/2.1版本更智能，适用于知识检索等任务。

这三个模型目前都支持20万上下文窗口。Anthropic表示，它们也支持100万上下文，需要消耗巨大AI算力，只提供给特定用户。

用户可免费使用Claude 3 Sonnet模型（https://claude.ai/chats）；如果想使用最强大的Opus 版本需要开通会员；Haiku 模型即将推出。

下面是对官网文章[1]的翻译：

今天，我们宣布推出Claude 3模型系列，并为一系列认知任务设定了新的行业基准。该系列包括三个最先进的模型，按能力升序排列：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一个连续的模型都提供了越来越强大的性能，允许用户为其特定应用程序选择智能、速度和成本[2]的最佳平衡。

Opus和Sonnet现在可以在claude.ai和Claude API中使用，后者现在在159个国家[3]普遍可用，Haiku将很快推出。

一、Claude 3 模型家族

二、智能新标准

Opus是我们最智能的模型，在人工智能系统的大多数常见评估基准上都优于同行，包括本科生级专家知识（MMLU）、研究生级专家推理（GPQA）、基础数学（GSM8K）等。它在复杂任务上表现出接近人类水平的理解力和流利性，引领了一般智力的前沿。

所有Claude 3[4]模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。

以下是Claude 3模型与我们的同行在多个能力基准[1]上的比较：

三、近乎即时的结果

Claude 3模型可以支持实时客户聊天、自动补全和数据提取任务，这些任务的响应必须是即时的。

Haiku是市场上同类智能模型重速度最快、性价比最高的。它可以在不到三秒的时间内阅读一篇包含图表和图形的arXiv（约10k tokens）研究论文。我们预计在推出后性能将进一步提高。

对于绝大多数工作负载，Sonnet比Claude 2和Claude 2.1快2倍，智能水平更高。它擅长需要快速响应的任务，如知识检索或销售自动化。Opus与Claude 2和2.1的速度相似，但智能水平更高。

四、强大的视觉能力

Claude 3模型拥有与其他领先模型想媲美的先进视觉能力。他们可以处理各种视觉格式，包括照片、图表、图表和技术图表。我们特别高兴能为我们的企业客户提供这种新的模式，其中一些客户的知识库有高达50%的信息以PDF、流程图或演示幻灯片等各种格式编码。

五、更少的拒绝

以前的Claude模型经常做出不必要的拒绝，这表明缺乏上下文理解。我们在这一领域取得了有意义的进展：与前几代模型相比，Opus、Sonnet和Haiku拒绝回答接近系统安全边界的提示的可能性要小得多。如下所示，Claude 3模型显示出对请求的更细致理解，识别出真正的危害，并更少地拒绝无害的提示。

六、准确性提高

各种规模的企业都依赖我们的模型为客户服务，因此我们的模型输出必须在规模上保持高精度。为了评估这一点，我们使用了一大组复杂的事实问题，这些问题针对当前模型中的已知弱点。我们将反应分为正确答案、错误答案（或幻觉）和承认不确定性，其中模型说它不知道答案，而不是提供不正确的信息。与Claude 2.1相比，Opus在这些具有挑战性的开放式问题上的准确性（或正确答案）提高了两倍，同时错误答案的水平也有所降低。

除了产生更值得信赖的回答外，我们很快将在Claude 3模型中启用引用，以便他们就可以在参考材料中指向精确的句子来验证他们的答案。

七、长语境和近乎完美的回忆

Claude 3系列模型最初将在发布时提供200K上下文窗口。然而，这三种模型都能够接受超过100万个tokens的输入，我们可以将其提供给需要增强处理能力的精选客户。

为了有效地处理长上下文提示，模型需要强大的回忆能力。“大海捞针”（NIAH）评估衡量了模型从大量数据中准确回忆信息的能力。我们通过每个提示使用30个随机针/问题对中的一个，并在不同的众包文档语料库上进行测试，增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆，准确率超过99%，而且在某些情况下，它甚至可以识别出评估本身的局限性，即“针”句子似乎是由人类人工插入到原始文本中的。

八、负责任的设计

我们开发了Claude 3系列模型，使其尽可能值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险，从错误信息和CSAM到生物滥用、选举干预和自主复制技能。我们继续开发宪法AI[5]等方法，以提高我们模型的安全性和透明度，并对我们的模型进行了调整，以缓解新模式可能引发的隐私问题。

解决日益复杂的模型中的偏见是一项持续的努力，我们在这个新版本中取得了进展。如模型卡所示，根据问答偏差基准（BBQ）[6]，Claude 3比我们以前的模型显示出更少的偏见。我们仍然致力于推进减少偏见的技术，并在我们的模型中促进更大的中立性，确保它们不会偏向任何特定的党派立场。

尽管与以前的模型相比，Claude 3模型家族在生物知识、网络相关知识和自主性的关键指标上有所进步，但根据我们的负责任扩展政策[7]，它仍处于人工智能安全级别2（ASL-2）。我们的红团队评估[8]（根据我们的白宫承诺和2023年美国行政命令进行）得出的结论是，这些模型目前存在的灾难性风险可能性可以忽略不计。我们将继续仔细监测未来的模型，以评估其接近ASL-3阈值的程度。更多的安全细节可在Claude 3模型卡[4]中获得。