Anthropic 是 OpenAI 的主要竞争对手之一,于 3 月初推出了其最新的大型语言模型 (LLM),称为 Claude 3。事实证明,Claude 3 的性能优于 OpenAI 的旗舰产品 GPT-4,这让 AI 社区感到惊讶,这标志着 GPT-4 的第一个实例被超越。与此同时,谷歌的 Gemini Ultra 落后于两者。
Claude 3 的推出似乎开启了法学硕士竞争的第二阶段,在这一阶段,公司优先考虑上下文理解、稳健性和推理,而不是单纯的规模。在 OpenAI、Anthropic、Google、Meta 和 Mistral AI 等主要参与者的贡献下,生成式 AI 领域最近正在迅速加速发展。
LLM 竞赛的第一阶段是在 2022 年底 OpenAI 的 ChatGPT 首次亮相后启动的。这一阶段的特点是规模竞赛,各公司竞相开发主要关注规模和计算能力的日益强大的模型。
OpenAI 的 GPT-4 曾经是这些努力的顶峰,为生成式人工智能在理解和生成类人文本方面可以实现的目标设定了基准。随后的许多LLM,包括Google的Gemini系列、Anthropic的Claude 2、Meta的Llama系列和Mistral AI的Mistral Large,继续挑战GPT-4的统治地位,但都失败了。
然而,Anthropic 的 Claude 3 的崛起标志着向新时代的范式转变。现在战场已经多极化。
第二阶段开始
我们认为GPT-4被Claude 3超越标志着LLM竞赛进入第二阶段:
Claude 3家族展示了三款尖端型号,分别为Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,按其不断增长的能力排列。Claude 3 Opus 在所有关键性能基准测试中均优于 GPT-4。
比较 Claude 与 GPT 和 Gemini 各种参数的图表
Claude 3对先进科学有着前所未有的理解水平。例如,理论量子物理学家凯文·费舍尔(Kevin Fischer)对Claude 3对其博士论文的把握感到震惊。
Claude 3不仅理解复杂的科学原理,而且还表现出一定程度的突现能力。例如,当 Claude 3 在没有看到他尚未发表的论文的情况下,只用两个提示就重新发明了他的算法时,另一位量子计算专家大吃一惊。
Claude 3 的“元意识”程度(可以是与人类创建的数据进行出色的模式匹配对齐)让它知道自己正在大海捞针评估的模拟中进行测试。这种测试方法就像“大海捞针”一样,旨在确定LLM能否在数十万字内准确地找出关键事实。这种方法最初由开源社区成员 Greg Kamradt 发明,很快就受到了主要人工智能公司的关注。像谷歌、Mistral AI 和 Anthropic 这样的巨头现在通常通过这些测试来展示他们的新模型的性能。