谷歌上新!最强开源模型Gemma 2,27B媲美LLaMA3 70B,挑战3140亿Grok-1

文章目录

    • LMSYS Chatbot Arena:开源模型性能第一
    • Gemma为什么这么强?
      • 架构创新
      • 对AI安全性的提升

A领域竞争激烈,GPT-4o 和 Claude 3.5 Sonnet 持续发力,谷歌迅速跟进。

谷歌为应对AI竞争所采取的策略:依靠 Gemini 闭源模型对抗 OpenAI,再通过 Gemma 模型牵制 Meta 的开源模型。Gemma 虽然采用了和 Gemini 同源的技术,但参数规模更为轻量。

在这里插入图片描述

6月28日,在I/O Connect大会上,谷歌发布新一代最强开源模型 Gemma 2,共有 90 亿参数(9B)和 270 亿参数(27B)两种大小。据谷歌介绍,与第一代 Gemma 模型相比,Gemma 2 的性能更高、推理效率更快,并且安全性也更有保障,可在单个NVIDIA H100或TPU主机上运行。

Gemma 2的核心亮点概括来说就是:参数虽小但性能极佳。

  1. 性能远超同同等规模模型。27B 模型在性能上能够与比其大两倍的模型相媲美,9B 模型也优于 Meta 的 Llama 3 8B 等相似尺寸的开源模型。

在这里插入图片描述

  1. Gemma 2 的突出优势在于其效率上的提升。27B 模型支持在单个Google Cloud TPU主机、英伟达的A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度运行推理,这能够极大地降低部署AI模型所需的硬件要求和成本。

  2. Gemma 2 优化了跨硬件的超快推理。比如在 Google AI Studio 中尝试全精度的Gemma 2,在CPU上使用量化版本 Gemma.cpp解锁本地性能,或通过 Hugging Face Transformers库在配备英伟达RTX或GeForce RTX的家用电脑上,均可使用。

目前,模型权重已经在HuggingFace上公开。
在这里插入图片描述

项目地址:https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

LMSYS Chatbot Arena:开源模型性能第一

Gemma 2 在LMSYS竞技场上取得了亮眼的成绩。

在总体评分上,Gemma 2 取到了开源模型最高分,而且用 27B 的参数「以小搏大」,超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。

在这里插入图片描述

新的排行类别「多轮对话」,包括两轮或多轮的测试,以衡量模型在更长时间内交互的能力。

在「多轮对话」排行榜上,Claude家族的排名显著提升,Gemma 2 的表现依旧强劲。Gemma 2 实现了2个名次的进步,进入前十行列,而且压了 Llama 3-70B-Instruct 一头。

在这里插入图片描述

Gemma为什么这么强?

架构创新

Gemma 2 在设计的架构上均有创新,旨在实现卓越的性能和提高推理效率。

Gemma 2 训练数据量大约是第一代的两倍。27B模型的训练数据有13万亿token,9B模型和2.6B模型则分别为8万亿、2万亿token。

基于Transformer解码器架构,与 Gemma 1 不同之处在于,Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的网络结构。

在这里插入图片描述

图注:Gemma 2 关键模型参数

  • 局部滑动窗口和全局注意力:Gemma 2 交替使用局部滑动窗口和全局注意力,滑动窗口大小设置为4096 token,而全局注意力层的设置为8192 token。
  • Logit软上限:按照Gemini 1.5版,Gemma 对每个注意层和最终层的logit进行软封顶。通过将logits设置在一个合理的固定范围内,可以有效提升训练的稳定性,防止内容过长。
  • 使用RMSNorm进行前后归一化:为了使训练更加稳定,Gemma 2 运用了 RMSNorm 对每个转换层、注意层和反馈层的输入和输出进行归一化。这一步和Logit软上限都使得模型训练更稳定平滑,不易出现崩溃。
  • 分组查询注意力:GQA通过将算力集中于注意力分组内,提升数据处理速度,同时保持下游性能。
  • 知识蒸馏:能够训练出有竞争力性能的9B和27B模型,成功的知识蒸馏过程估计是最为重要的环节。

技术报告中也有Gemma 2的更多信息。

在这里插入图片描述

报告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

对AI安全性的提升

Gemma 2在实用高效的同时,也从安全角度做出了新举措。

谷歌致力于为开发人员和研究人员提供构建和部署AI所需的资源,提供了「负责任的生成式AI工具包」。最近,谷歌开源了LLM Comparator,可以帮助评估语言模型,并通过Python库进行比较和可视化。此外,谷歌正致力于为 Gemma 模型开源文本水印技术 SynthID。

在训练 Gemma 2 时,遵循了严格的内部安全流程,预训练数据都经过了严格的筛选,并根据全面指标进行了测试,以识别和减轻偏见和风险。谷歌还发布了大量与安全和代表性损害相关的公共基准测试结果。

在这里插入图片描述

Gemma 2目前可以在Google AI Studio中使用,在Gemma 27B下测试其全部性能,而无需硬件要求。
此外,为方便研发人员使用,Gemma 2还可通过Kaggle或谷歌Colab免费获取。

参考资料:
https://blog.google/technology/developers/google-gemma-2/
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/42308.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hdu物联网硬件实验3 按键和中断

学院 班级 学号 姓名 日期 成绩 实验题目 按键和中断 实验目的 实现闪灯功能转换 硬件原理 无 关键代码及注释 /* Button Turns on and off a light emitting diode(LED) connected to digital pin 13, when pressing a pushbutton attached…

AI端侧大模型未来发展趋势

一、定义与优势 端侧AI大模型是指基于移动终端设备上的大型神经网络模型,这些模型能够在本地设备(如智能手机、PC、汽车、XR以及物联网设备等)上直接运行和处理人工智能算法,实现如图像识别、语音识别、自然语言处理等任务。端侧…

解决WSL2报错:当前电脑配置不支持WSL2,请启用虚拟机平台 Windows 功能并确保在 BIOS 中启用虚拟化

事情要追溯到突发奇想下载了腾讯的手游模拟器开始。。。因为一直闪退,模拟器自检就要求把虚拟化功能关闭了,结果还是一直闪退,WSL2也给我报错了。。。大无语 主要通过以下两个步骤解决,操作了之后需要把电脑重启: 一、…

docker里日志分割的方法

在Docker中对日志进行按大小分割(log rotation)是一个常见的需求,因为长时间运行的容器可能会生成大量日志,导致磁盘空间不足。Docker提供了内置的日志管理功能,可以通过配置日志驱动来实现日志的自动分割。以下是具体…

安卓系统裁剪原生app

目录 前言一、修改build目录main.mk二、修改build目录product.mk三、在.mk中使用PRODUCT_DEL_PACKAGES属性 前言 安卓系统裁剪预置应用或服务基本步骤 一、修改build目录main.mk ifdef FULL_BUILD# The base list of modules to build for this product is specified# by th…

小程序做自定义分享封面图,Canvas base64图片数据真机上不显示?【已解决】

首选说一下需求,做一个小程序分享,但是封面图要自定义,除了要有对应商品还有有背景图,商品名。类似这种 实现逻辑,把商品图和背景图,再加上价格和商品名用canvas 渲染出来 这是弄好之后的效果图&#xff0…

管理者要勇敢做“坏人”

有点正义感的人都对坏人深恶痛绝,但在团队管理上,有一种观念或许会让你感到意外,那就是管理者要敢于做“坏人”。这并不是让管理者去做恶,而是在某些关键时刻,要有勇气打破常规的“好人”形象,做出不受欢迎…

执行数据库语句时没有报错,并且提示执行成功,但在数据库中没有新增数据

这可能是因为你没有提交事务。在执行 INSERT、UPDATE 或 DELETE 等修改数据的操作后,需要明确地提交事务才能将更改持久化到数据库中。 以下是一个示例,展示python中如何在执行 INSERT 语句后提交事务: import pymysql# MySQL数据库连接配置…

SpringSecurity中文文档(Servlet Method Security)

Method Security 除了在请求级别进行建模授权之外&#xff0c;Spring Security 还支持在方法级别进行建模。 您可以在应用程序中激活它&#xff0c;方法是使用EnableMethodSecurity 注释任何Configuration 类&#xff0c;或者将 < method-security > 添加到任何 XML 配…

springbootAl农作物病虫害预警系统-计算机毕业设计源码21875

摘要 随着农业现代化的推进&#xff0c;农作物病虫害的防治已成为农业生产中的重要环节。传统的病虫害防治方法往往依赖于农民的经验和观察&#xff0c;难以准确、及时地预测和防控病虫害的发生。因此&#xff0c;开发一种基于现代信息技术的农作物病虫害预警系统&#xff0c;对…

【计算机毕业设计】012基于微信小程序的科创微应用平台

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

Python数据分析实战,公交车站点设置优化分析,案例教程编程实例课程详解

一、引言 随着城市化进程的加快,公共交通在城市交通中扮演着越来越重要的角色。公交车站点作为公共交通系统的重要组成部分,其布局设计直接影响到公共交通的运输效率和市民的出行体验。本文将通过Python数据分析的方法,对某城市的公交车站点设置进行优化分析,旨在提出合理的…

解决vite 断点调试定位不准确问题

问题&#xff1a;vite构建时&#xff0c;控制台报错行数等信息定位不准确或debugger断点调试定位不准确 解决&#xff1a;F12后打开设置面板&#xff0c;把“JavaScript源代码映射”去掉可临时解决&#xff0c;如需永久解决需升级vite到最新版 还有一种&#xff1a; 参考&…

esp32_spfiffs

生成 spiffs image python spiffsgen.py <image_size> <base_dir> <output_file> eg, python spiffsgen.py 0x2000 ./folder hello.bin Arduino 的库有例子可以直接用于 OTA 升级 spiffs 分区 HTTPUpdateResult HTTPUpdate::updateSpiffs(HTTPClient &h…

7.9 cf div3

BProblem - B - Codeforces 题目解读&#xff1a; 找到严格大于相邻数字的数&#xff0c;将其减一&#xff0c;直到整个数组成为稳定的&#xff08;不存在数字严格大于相邻数&#xff09; ac代码 #include<bits/stdc.h> typedef long long ll;#define IOS ios::sync_w…

免费白嫖A100活动开始啦,InternLM + LlamaIndex RAG 实践

内容来源&#xff1a;Docs 前置知识&#xff1a; 检索增强生成&#xff08;Retrieval Augmented Generation&#xff0c;RAG&#xff09; LlamaIndex LlamaIndex 是一个上下文增强的 LLM 框架&#xff0c;旨在通过将其与特定上下文数据集集成&#xff0c;增强大型语言模型&a…

如何选择可靠的三方支付公司?

选择可靠的三方支付公司需要考虑以下几个方面&#xff1a; - 资质和信誉&#xff1a;确保支付公司具有合法的资质和良好的信誉&#xff0c;可以查看其营业执照、支付业务许可证等相关证件。 - 安全性&#xff1a;了解支付公司的安全措施&#xff0c;如加密技术、风险控制体系等…

【康复学习--LeetCode每日一题】2965. 找出缺失和重复的数字

题目&#xff1a; 给你一个下标从 0 开始的二维整数矩阵 grid&#xff0c;大小为 n * n &#xff0c;其中的值在 [1, n2] 范围内。除了 a 出现 两次&#xff0c;b 缺失 之外&#xff0c;每个整数都 恰好出现一次 。 任务是找出重复的数字a 和缺失的数字 b 。 返回一个下标从 0…

探索回归模型的奥秘:从理论到实践,以PlugLink为例

回归模型初探 回归分析&#xff0c;顾名思义&#xff0c;旨在探索两个或多个变量之间的关系&#xff0c;特别是当一个变量&#xff08;因变量&#xff09;依赖于其他一个或多个变量&#xff08;自变量&#xff09;时&#xff0c;它能够预测因变量的值。常见的回归模型包括线性…

spring web flux 记录用户日志及异常日志

package cn.finopen.boot.autoconfigure.aop;Configuration EnableAspectJAutoProxy Order public class EndpointLogAopConfiguration {/*** 请求方法白名单*/private static final String[] METHOD_WHITE_LIST {"get", "unreadCount", "find"…