引言
近日,Google推出了开源模型Gemma 2,吸引了广大研究人员和开发者的关注。相比上一代模型,Gemma 2在性能和可用性方面实现了显著提升,提供了9B和27B两个版本,并且对外开放免费使用。本文将深入探讨Gemma 2的技术细节、性能改进以及其在实际应用中的潜力。
Gemma 2简介
Gemma 2是Google最新的开放大语言模型,提供了9B参数和27B参数两个规模版本,每个版本又分别有预训练基础和指令调优两个子版本。与第一代Gemma相比,Gemma 2不仅在性能上大幅提升,而且在部署要求上大幅降低,只需一块NVIDIA H100 Tensor Core GPU或TPU主机即可运行。此外,用户还可以在Google AI Studio中使用Gemma 2,即使硬件不达标也能测试27B参数版本的全部功能。
架构与训练数据改进
局部滑动窗口注意力与全局注意力
Gemma 2在架构上进行了全方位的改良,采用了局部滑动窗口注意力和全局注意力相结合的方法。局部滑动窗口注意力是一种减少Transformer模型中注意力计算的内存和时间的方法,在Gemma 2中每隔一层应用一个4096 token的滑动窗口,而中间层则使用8192 Token的全局二次注意力。这一改进使得模型在保持长上下文长度的前提下,能够提高输出质量,即使token数量过半,模型仍有余力关注所有的Token。
软上限技术
此外,Gemma 2在最终层和每个注意力层都使用了软上限技术,这是一种防止logits过度增长的方法。通过将logits除以最大值阈值(soft_cap),再通过tanh层确保它们在(-1, 1)范围内,最后再乘以阈值,从而确保最终值在(-soft_cap, +soft_cap)区间内。这一技术稳定了模型训练,尽管软上限与Flash Attention / SDPA不兼容,但在推理过程中仍然可以使用,不会干扰模型的高效执行。
知识蒸馏与训练策略
知识蒸馏
Gemma 2引入了知识蒸馏的方法,这是一种常用于训练较小模型模仿较大模型的方法。开发者可以将大语言模型的下一个Token预测任务与教师模型提供的Token概率分布结合起来,从而为学生模型提供更丰富的学习信号。在Gemma 2的训练过程中,9B参数的模型通过知识蒸馏预训练,而27B参数模型则是从头开始预训练的。
在线蒸馏
为了进一步优化训练效果,Gemma 2团队采用了在线蒸馏的方式。学生模型通过SFT提示生成补全,用于计算教师和学生logits之间的KL散度,从而在整个训练过程中最小化KL散度,使学生模型能够准确模拟教师的行为,同时最小化训练和推理之间文本不匹配的可能性。这一方法不仅部分解决了训练和推理不一致的问题,还具有廉价便捷的优势,适合开源社区中的开发者使用。
性能评估与实际应用
性能评估
在Google的评估中,27B模型在13万亿token上训练,并与Qwen1.5 34B和LLaMA-3 70B等规模相似的模型进行了比较。结果显示,Gemma 2在同规模类型中的表现最佳,甚至与训练时间更长的大型模型相比也具有竞争力。在MBPP、MMLU、ARC-C、GSM8K、BBQ Disambig等知名基准测试中,Gemma 2在多轮测试中表现出色,特别是在MMLU 5-shot测试中,27B模型得分达到75.2%,相比Gemma-1的42.3%有显著提升。
实际应用
Google还为Gemma 2提供了免费使用方式,用户可以通过Kaggle或Colab笔记本免费使用该模型,并有机会申请Gemma 2的学术研究计划,从而获得Google Cloud的信用额度。此外,Gemma 2还在Kaggle和Hugging Face Models提供下载渠道,进一步方便了研究人员和开发者的使用。
安全与未来展望
安全保障
在提升模型性能的同时,Google也重视安全保障。Gemma 2在训练过程中遵循严格的内部安全程序,对预训练数据进行筛选,并对一系列综合指标进行了严格测试和评估,从而识别和缓解潜在的偏见和风险。团队还开源了基于Gemma模型开发的文本水印技术SynthID,并提供了负责任的生成式AI工具包,帮助开发者和研究人员构建和部署安全的AI应用。
未来展望
Gemma 2的发布标志着Google在开源大语言模型领域迈出了重要一步。随着技术的不断发展,我们可以期待Gemma 2在性能和应用范围上进一步拓展,为研究人员和开发者提供更多的可能性。未来,更多的机构和平台将对Gemma 2进行测试和评估,从而验证其实际应用效果,并推动其在各个领域的广泛应用。
结论
Gemma 2作为Google最新的开源大语言模型,在性能、架构和训练方法上实现了显著提升,并通过免费使用方式和多种平台支持,为研究人员和开发者提供了强大的工具。随着更多机构对其进行测试和评估,Gemma 2有望在未来成为开源大语言模型中的重要一员,为AI技术的发展和应用带来更多创新和可能性。