谷歌上新！最强开源模型Gemma 2，27B媲美LLaMA3 70B，挑战3140亿Grok-1

文章目录

- LMSYS Chatbot Arena：开源模型性能第一
- Gemma为什么这么强？
- - 架构创新
  - 对AI安全性的提升

A领域竞争激烈，GPT-4o 和 Claude 3.5 Sonnet 持续发力，谷歌迅速跟进。

谷歌为应对AI竞争所采取的策略：依靠 Gemini 闭源模型对抗 OpenAI，再通过 Gemma 模型牵制 Meta 的开源模型。Gemma 虽然采用了和 Gemini 同源的技术，但参数规模更为轻量。

在这里插入图片描述

6月28日，在I/O Connect大会上，谷歌发布新一代最强开源模型 Gemma 2，共有 90 亿参数（9B）和 270 亿参数（27B）两种大小。据谷歌介绍，与第一代 Gemma 模型相比，Gemma 2 的性能更高、推理效率更快，并且安全性也更有保障，可在单个NVIDIA H100或TPU主机上运行。

Gemma 2的核心亮点概括来说就是：参数虽小但性能极佳。

性能远超同同等规模模型。27B 模型在性能上能够与比其大两倍的模型相媲美，9B 模型也优于 Meta 的 Llama 3 8B 等相似尺寸的开源模型。

在这里插入图片描述

Gemma 2 的突出优势在于其效率上的提升。27B 模型支持在单个Google Cloud TPU主机、英伟达的A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度运行推理，这能够极大地降低部署AI模型所需的硬件要求和成本。
Gemma 2 优化了跨硬件的超快推理。比如在 Google AI Studio 中尝试全精度的Gemma 2，在CPU上使用量化版本 Gemma.cpp解锁本地性能，或通过 Hugging Face Transformers库在配备英伟达RTX或GeForce RTX的家用电脑上，均可使用。

目前，模型权重已经在HuggingFace上公开。
在这里插入图片描述

项目地址：https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

LMSYS Chatbot Arena：开源模型性能第一

Gemma 2 在LMSYS竞技场上取得了亮眼的成绩。

在总体评分上，Gemma 2 取到了开源模型最高分，而且用 27B 的参数「以小搏大」，超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型，而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。

在这里插入图片描述

新的排行类别「多轮对话」，包括两轮或多轮的测试，以衡量模型在更长时间内交互的能力。

在「多轮对话」排行榜上，Claude家族的排名显著提升，Gemma 2 的表现依旧强劲。Gemma 2 实现了2个名次的进步，进入前十行列，而且压了 Llama 3-70B-Instruct 一头。

在这里插入图片描述

Gemma为什么这么强？

架构创新

Gemma 2 在设计的架构上均有创新，旨在实现卓越的性能和提高推理效率。

Gemma 2 训练数据量大约是第一代的两倍。27B模型的训练数据有13万亿token，9B模型和2.6B模型则分别为8万亿、2万亿token。

基于Transformer解码器架构，与 Gemma 1 不同之处在于，Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制，引入了分组查询注意力（GQA）以提高推理速度，相比 Gemma 1 也使用了更深的网络结构。

在这里插入图片描述

图注：Gemma 2 关键模型参数

局部滑动窗口和全局注意力：Gemma 2 交替使用局部滑动窗口和全局注意力，滑动窗口大小设置为4096 token，而全局注意力层的设置为8192 token。
Logit软上限：按照Gemini 1.5版，Gemma 对每个注意层和最终层的logit进行软封顶。通过将logits设置在一个合理的固定范围内，可以有效提升训练的稳定性，防止内容过长。
使用RMSNorm进行前后归一化：为了使训练更加稳定，Gemma 2 运用了 RMSNorm 对每个转换层、注意层和反馈层的输入和输出进行归一化。这一步和Logit软上限都使得模型训练更稳定平滑，不易出现崩溃。
分组查询注意力：GQA通过将算力集中于注意力分组内，提升数据处理速度，同时保持下游性能。
知识蒸馏：能够训练出有竞争力性能的9B和27B模型，成功的知识蒸馏过程估计是最为重要的环节。

技术报告中也有Gemma 2的更多信息。

在这里插入图片描述