谷歌上新!最强开源模型Gemma 2,27B媲美LLaMA3 70B,挑战3140亿Grok-1

文章目录

    • LMSYS Chatbot Arena:开源模型性能第一
    • Gemma为什么这么强?
      • 架构创新
      • 对AI安全性的提升

A领域竞争激烈,GPT-4o 和 Claude 3.5 Sonnet 持续发力,谷歌迅速跟进。

谷歌为应对AI竞争所采取的策略:依靠 Gemini 闭源模型对抗 OpenAI,再通过 Gemma 模型牵制 Meta 的开源模型。Gemma 虽然采用了和 Gemini 同源的技术,但参数规模更为轻量。

在这里插入图片描述

6月28日,在I/O Connect大会上,谷歌发布新一代最强开源模型 Gemma 2,共有 90 亿参数(9B)和 270 亿参数(27B)两种大小。据谷歌介绍,与第一代 Gemma 模型相比,Gemma 2 的性能更高、推理效率更快,并且安全性也更有保障,可在单个NVIDIA H100或TPU主机上运行。

Gemma 2的核心亮点概括来说就是:参数虽小但性能极佳。

  1. 性能远超同同等规模模型。27B 模型在性能上能够与比其大两倍的模型相媲美,9B 模型也优于 Meta 的 Llama 3 8B 等相似尺寸的开源模型。

在这里插入图片描述

  1. Gemma 2 的突出优势在于其效率上的提升。27B 模型支持在单个Google Cloud TPU主机、英伟达的A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度运行推理,这能够极大地降低部署AI模型所需的硬件要求和成本。

  2. Gemma 2 优化了跨硬件的超快推理。比如在 Google AI Studio 中尝试全精度的Gemma 2,在CPU上使用量化版本 Gemma.cpp解锁本地性能,或通过 Hugging Face Transformers库在配备英伟达RTX或GeForce RTX的家用电脑上,均可使用。

目前,模型权重已经在HuggingFace上公开。
在这里插入图片描述

项目地址:https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

LMSYS Chatbot Arena:开源模型性能第一

Gemma 2 在LMSYS竞技场上取得了亮眼的成绩。

在总体评分上,Gemma 2 取到了开源模型最高分,而且用 27B 的参数「以小搏大」,超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。

在这里插入图片描述

新的排行类别「多轮对话」,包括两轮或多轮的测试,以衡量模型在更长时间内交互的能力。

在「多轮对话」排行榜上,Claude家族的排名显著提升,Gemma 2 的表现依旧强劲。Gemma 2 实现了2个名次的进步,进入前十行列,而且压了 Llama 3-70B-Instruct 一头。

在这里插入图片描述

Gemma为什么这么强?

架构创新

Gemma 2 在设计的架构上均有创新,旨在实现卓越的性能和提高推理效率。

Gemma 2 训练数据量大约是第一代的两倍。27B模型的训练数据有13万亿token,9B模型和2.6B模型则分别为8万亿、2万亿token。

基于Transformer解码器架构,与 Gemma 1 不同之处在于,Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的网络结构。

在这里插入图片描述

图注:Gemma 2 关键模型参数

  • 局部滑动窗口和全局注意力:Gemma 2 交替使用局部滑动窗口和全局注意力,滑动窗口大小设置为4096 token,而全局注意力层的设置为8192 token。
  • Logit软上限:按照Gemini 1.5版,Gemma 对每个注意层和最终层的logit进行软封顶。通过将logits设置在一个合理的固定范围内,可以有效提升训练的稳定性,防止内容过长。
  • 使用RMSNorm进行前后归一化:为了使训练更加稳定,Gemma 2 运用了 RMSNorm 对每个转换层、注意层和反馈层的输入和输出进行归一化。这一步和Logit软上限都使得模型训练更稳定平滑,不易出现崩溃。
  • 分组查询注意力:GQA通过将算力集中于注意力分组内,提升数据处理速度,同时保持下游性能。
  • 知识蒸馏:能够训练出有竞争力性能的9B和27B模型,成功的知识蒸馏过程估计是最为重要的环节。

技术报告中也有Gemma 2的更多信息。

在这里插入图片描述

报告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

对AI安全性的提升

Gemma 2在实用高效的同时,也从安全角度做出了新举措。

谷歌致力于为开发人员和研究人员提供构建和部署AI所需的资源,提供了「负责任的生成式AI工具包」。最近,谷歌开源了LLM Comparator,可以帮助评估语言模型,并通过Python库进行比较和可视化。此外,谷歌正致力于为 Gemma 模型开源文本水印技术 SynthID。

在训练 Gemma 2 时,遵循了严格的内部安全流程,预训练数据都经过了严格的筛选,并根据全面指标进行了测试,以识别和减轻偏见和风险。谷歌还发布了大量与安全和代表性损害相关的公共基准测试结果。

在这里插入图片描述

Gemma 2目前可以在Google AI Studio中使用,在Gemma 27B下测试其全部性能,而无需硬件要求。
此外,为方便研发人员使用,Gemma 2还可通过Kaggle或谷歌Colab免费获取。

参考资料:
https://blog.google/technology/developers/google-gemma-2/
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/42308.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hdu物联网硬件实验3 按键和中断

学院 班级 学号 姓名 日期 成绩 实验题目 按键和中断 实验目的 实现闪灯功能转换 硬件原理 无 关键代码及注释 /* Button Turns on and off a light emitting diode(LED) connected to digital pin 13, when pressing a pushbutton attached…

解决WSL2报错:当前电脑配置不支持WSL2,请启用虚拟机平台 Windows 功能并确保在 BIOS 中启用虚拟化

事情要追溯到突发奇想下载了腾讯的手游模拟器开始。。。因为一直闪退,模拟器自检就要求把虚拟化功能关闭了,结果还是一直闪退,WSL2也给我报错了。。。大无语 主要通过以下两个步骤解决,操作了之后需要把电脑重启: 一、…

小程序做自定义分享封面图,Canvas base64图片数据真机上不显示?【已解决】

首选说一下需求,做一个小程序分享,但是封面图要自定义,除了要有对应商品还有有背景图,商品名。类似这种 实现逻辑,把商品图和背景图,再加上价格和商品名用canvas 渲染出来 这是弄好之后的效果图&#xff0…

SpringSecurity中文文档(Servlet Method Security)

Method Security 除了在请求级别进行建模授权之外&#xff0c;Spring Security 还支持在方法级别进行建模。 您可以在应用程序中激活它&#xff0c;方法是使用EnableMethodSecurity 注释任何Configuration 类&#xff0c;或者将 < method-security > 添加到任何 XML 配…

springbootAl农作物病虫害预警系统-计算机毕业设计源码21875

摘要 随着农业现代化的推进&#xff0c;农作物病虫害的防治已成为农业生产中的重要环节。传统的病虫害防治方法往往依赖于农民的经验和观察&#xff0c;难以准确、及时地预测和防控病虫害的发生。因此&#xff0c;开发一种基于现代信息技术的农作物病虫害预警系统&#xff0c;对…

【计算机毕业设计】012基于微信小程序的科创微应用平台

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

解决vite 断点调试定位不准确问题

问题&#xff1a;vite构建时&#xff0c;控制台报错行数等信息定位不准确或debugger断点调试定位不准确 解决&#xff1a;F12后打开设置面板&#xff0c;把“JavaScript源代码映射”去掉可临时解决&#xff0c;如需永久解决需升级vite到最新版 还有一种&#xff1a; 参考&…

7.9 cf div3

BProblem - B - Codeforces 题目解读&#xff1a; 找到严格大于相邻数字的数&#xff0c;将其减一&#xff0c;直到整个数组成为稳定的&#xff08;不存在数字严格大于相邻数&#xff09; ac代码 #include<bits/stdc.h> typedef long long ll;#define IOS ios::sync_w…

免费白嫖A100活动开始啦,InternLM + LlamaIndex RAG 实践

内容来源&#xff1a;Docs 前置知识&#xff1a; 检索增强生成&#xff08;Retrieval Augmented Generation&#xff0c;RAG&#xff09; LlamaIndex LlamaIndex 是一个上下文增强的 LLM 框架&#xff0c;旨在通过将其与特定上下文数据集集成&#xff0c;增强大型语言模型&a…

决策树算法简单介绍:原理和方案实施

决策树算法介绍&#xff1a;原理和方案实施 决策树&#xff08;Decision Tree&#xff09;是一种常用的机器学习算法&#xff0c;它既可以用于分类任务&#xff0c;也可以用于回归任务。由于其直观性和解释性&#xff0c;决策树在数据分析和模型构建中得到了广泛的应用。本文将…

顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和技术。关…

挖K脚本检测指南

免责声明:本文仅做分享... 目录 挖K样本-Win&Linux-危害&定性 Linux-Web 安全漏洞导致挖K事件 Windows-系统口令爆破导致挖K事件 --怎么被挖K了??? 已经取得了权限. 挖K样本-Win&Linux-危害&定性 危害&#xff1a;CPU 拉满&#xff0c;网络阻塞&…

在Linux下使用Docker部署chirpstack

目录 一、前言 二、chirpstack 1、chirpstack是什么 2、chirpstack组件 3、为什么选择Docker部署 三、Linux下部署过程 四、web界面部署过程 一、前言 本篇文章我是在Linux下使用 Docker 进行部署chirpstack&#xff0c;chirpstack采用的是v4 版本&#xff0c;v4 版本 与…

Logstash常用的filter四大插件

以博客<ELK日志分析系统概述及部署>中实验结果为依据 补充&#xff1a;如何用正则表达式匹配一个ipv4地址 &#xff08;[0-9] | [1-9][0-9] | 1[0-9][0-9] | 2[04][0-9] | 25[0-5]&#xff09;\.&#xff08;[0-9] | [1-9][0-9] | 1[0-9][0-9] | 2[04][0-9] | 25[0-5]&a…

基于Java的数码论坛系统设计与实现

你好&#xff0c;我是计算机领域的研究者。如果你对数码论坛系统开发感兴趣或有相关需求&#xff0c;欢迎联系我。 开发语言&#xff1a; Java 数据库&#xff1a; MySQL 技术&#xff1a; Java技术、MySQL数据库、B/S架构、SpringBoot框架 工具&#xff1a; Eclipse、MySQ…

css 文件重复类样式删除

上传文件 进行无关 className 删除 <div style"display: flex;"><input type"file" change"handleFileUpload" /><el-button click"removeStyles" :disabled"!fileContent">Remove Styles and Download&…

antd a-select下拉框样式修改 vue3 亲测有效

记录一下遇到的问题 1.遇到问题&#xff1a; 使用到Vue3 Ant Design of Vue 3.2.20&#xff0c;但因为项目需求样式&#xff0c;各种查找资料都未能解决; 2.解决问题&#xff1a; ①我们审查元素可以看到&#xff0c;下拉框是在body中的; ①在a-select 元素上添加dropdownCla…

运行时异常与一般异常的异同

运行时异常与一般异常的异同 1、运行时异常&#xff08;Runtime Exception&#xff09;1.1 特点 2、 一般异常&#xff08;Checked Exception&#xff09;2.1 特点 3、异同点总结3.1 相同点3.2 不同点 4、总结 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷…

图形学各种二维基础变换,原来线性代数还能这么用,太牛了

缩放变换 均匀缩放 若想将一个图形缩小0.5倍 若x乘上缩放值s等于x撇&#xff0c;y同理&#xff0c;则 x ′ s x y ′ s y \begin{aligned} & x^{\prime}s x \\ & y^{\prime}s y \end{aligned} ​x′sxy′sy​&#xff0c;这样就表示了x缩小了s倍&#xff0c;y也是…

UML中用例之间的可视化表示

用例除了与参与者有关联关系外&#xff0c;用例之间也存在着一定的关系&#xff0c;如泛化关系、包含关系、扩展关系等。 4.2.1 包含关系 包含关系指的是两个用例之间的关系&#xff0c;其中一个用例&#xff08;称为基本用例&#xff0c;Base Use Case&#xff09;的行为包…