谷歌掀桌子!开源Gemma:可商用,性能超过Llama 2!

2月22日,谷歌在官网宣布,开源大语言模型Gemma。

Gemma与谷歌最新发布的Gemini 使用了同一架构,有20亿、70亿两种参数,每种参数都有预训练和指令调优两个版本。

根据谷歌公布的测试显示,在MMLU、BBH、GSM8K等主流测试平台中,其70亿模型在数学、推理、代码的能力超过Llama-2的70亿和130亿,成为最强小参数的类ChatGPT模型。

目前,Gemma可以商用,并且普通笔记本、台式机就能跑,无需耗费巨大的AI算力矩阵。

Kaggle地址:https://www.kaggle.com/models/google/gemma/code/

huggingface地址:https://huggingface.co/models?search=google/gemma

技术报告:https://goo.gle/GemmaReport

图片

谷歌作为贡献出Transformers、TensorFlow、BERT、T5、JAX、AlphaFold等一系列改变世界AI发展的宗师级大师,在生成式AI领域却一直落后于OpenAI。

不仅如此,开源领域还打不过类ChatGPT开源鼻祖Meta的Llama系列。痛定思痛之后,谷歌决定重新加入开源阵营,以抢夺开发者和用户。

Gemma简单介绍

谷歌表示,Gemma之所以性能如此强悍,主要是使用了与Gemini相同的技术架构。

更详细的开发者指南:https://ai.google.dev/gemma/docs?utm_source=agd&utm_medium=referral&utm_campaign=quickstart-docu

Gemini的基础架构建立在Transformer编码器结构之上,通过多层自注意力和前馈神经网络来建模序列依赖性。不同的是Gemini采用了多查询注意力机制,可处理超复杂长文本。

图片

具体来说,模型首先将输入序列的每个位置编码成多组查询向量。然后,将这些查询向量并行地与键值对进行批量注意力运算,得到多个注意力结果。

除了开源模型权重,谷歌还推出Responsible Generative AI Toolkit等一系列工具,为使用Gemma提供更安全的AI应用程序提供指导。

目前,Gemma开放了两个版本:预训练,该版本未针对 Gemma 核心数据训练集以外的任何特定任务或指令进行训练;指令微调,通过人类语言互动进行训练,可以响应对话输入,类似ChatGPT聊天机器人。

跨框架、工具和硬件,对Gemma进行优化

开发者可以根据自己的数据微调 Gemma 模型,以适应特定的应用程序需求,例如,生成摘要/文本或检索增强生成 (RAG)等。Gemma 支持以下多种工具和系统:

多框架工具:可跨多框架 Keras 3.0、本机 PyTorch、JAX 和 Hugging Face Transformers 进行推理和微调。

跨设备兼容性:Gemma可以跨多种设备类型运行,包括笔记本电脑、台式机、物联网、移动设备和云,从而实现广泛的 AI 功能。

图片

高级硬件平台:谷歌与NVIDIA合作,针对 NVIDIA GPU 优化 Gemma模型,从数据中心到云端再到本地RTX AI PC,提供行业领先的性能并与尖端AI技术集成。

针对 Google Cloud 进行了优化:Vertex AI 提供广泛的 MLOps 工具集,具有一系列调整选项,并可使用内置推理优化功能进行一键式部署。

高级定制功能可通过完全管理的顶点人工智能工具或自我管理的GKE 实现,包括部署到 GPU、TPU 和 CPU 平台上具有成本效益的基础设施。

Gemma性能测试

谷歌在MMLU、BBH、GSM8K等主流测试平台中,用Gemma 70亿模型与Llama-2、Mistral在数学、推理、代码等方面进行了深度测试。

Gemma的标准学术基准测试平均分数都高于同规模的Llama 2和Mistral模型。甚至在一些关键能力方面,高于Llama-2 130亿参数模型。

图片

也就是说,Gemma是一款参数很小,性能却异常强悍的大模型。

本文素材来源谷歌官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/697868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解密C语言选择结构:掌握条件语句与分支逻辑的利器

引言 C语⾔是结构化的程序设计语⾔,这⾥的结构指的是顺序结构、选择结构、循环结构。为什么有着三种结构呢,大家其实可以想象一下,生活中的绝大数事情都可以抽象着三种结构,而我们今天要给大家介绍的就是三大结构之一——选择结构…

Jenkins 中部署Nodejs插件并使用,并构建前端项目(3)

遇到多个版本nodeJS需要构建的时候 1、第一种就是一个配置安装,然后进行选中配置 2、第二种就是插件:nvm-wrapper,我们还是选用NodeJS插件: (1)可以加载任意npmrc文件; (2&#x…

鸿蒙NEXT出现有前途吗?是否会和安卓、IOS开发历程一样?

只要有手机操作系统这玩意存在,一定是需要原生开发人员的,但随着独立操作系统越来越多的话,混合App开发可能是个“万能解决方案”。 2024年,在中国,被各大媒体和开发者称为“鸿蒙元年”。 在2023年底就有业内人士透露…

【es6】Map 和 Object 对象的区别

对象 Object Object 是一个特殊的对象,它本身是一个顶级对象,同时还是一个构造函数,还可以使用字面量的方式声明一个对象本质上是键值对的集合,但是健只能是字符串 或 Symbol使用 . [] 去获取object 的属性,不存在则…

jenkins编译使用nohup部署进程到后台失败,解决方法

在shell脚本中加入BUILD_IDdontKillMe server为二进制文件 #!/bin/bashBUILD_IDdontKillMenohup ./server & 原理:jenkins默认会在构建完成后杀掉构建过程中shell命令触发的衍生进程。jenkins根据BUILD_ID识别某个进程是否为构建过程的衍生进程,故…

常见锁策略,CAS,synchrodized原理讲解

🎥 个人主页:Dikz12📕格言:那些在暗处执拗生长的花,终有一日会馥郁传香欢迎大家👍点赞✍评论⭐收藏 目录 常见锁策略 乐观锁和悲观锁 轻量级锁和重量级锁 自旋锁和挂起等待锁 读写锁 公平锁和非公平锁…

基于Java+SpringBoot+Vue.js前后端分离玩具购物商城系统设计和实现 可行性分析

博主介绍:黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程&#xff…

已解决java.lang.NullPointerException异常的正确解决方法,亲测有效!!!

已解决 java.lang.NullPointerException 异常的正确解决方法,亲测有效!!! 文章目录 问题分析 报错原因 解决思路 总结 Q1 - 问题分析 在Java编程中,NullPointerException 可能是最常见的运行时异常之一。这种异…

基于Java在线考试网站系统 设计与实现(Springboot框架)毕业设计论文提纲参考

博主介绍:黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程&#xff…

264.【华为OD机试真题】最长子字符串的长度(二)(动态规划DP-JavaPythonC++JS实现)

🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目-最长子字符串的长度(二)二.解题思路三.题解代码…

Transformer 架构—Encoder-Decoder

文章目录 前言 一、Encoder 家族 1. BERT 2. DistilBERT 3. RoBERTa 4. XML 5. XML-RoBERTa 6. ALBERT 7. ELECTRA 8. DeBERTa 二、Decoder 家族 1. GPT 2. GPT-2 3. CTRL 4. GPT-3 5. GPT-Neo / GPT-J-6B 三、Encoder-Decoder 家族 1. T5 2. BART 3. M2M-100 4. BigBird 前言 …

每日五道java面试题之spring篇(三)

目录: 第一题 ApplicationContext和BeanFactory有什么区别?第二题 Spring中的事务是如何实现的?第三题 Spring中什么时候Transactional会失效?第四题 Spring容器启动流程是怎样的?第五题 Spring Boot、Spring MVC 和 S…

Sip网络广播号角,sip广播系统公共广播系统有源喇叭

Sip网络广播号角,sip广播系统公共广播系统有源喇叭 SV-7044VP网络有源喇叭,具有10/100M以太网接口,内置高品质扬声器,通过自带放大器播放网络音频,扬声器输出功率高达30W,还支持设置最多10个组播优先区域&…

js如何抛异常,抛自定义的异常

js如何抛异常,抛自定义的异常 最简单的自定义异常 throw "hello" 来自chrome123的控制台的测试 throw "hello" VM209:1 Uncaught hello (匿名) VM209:1 try{ throw "hello";}catch(e){console.log(e);} VM338:1 hello…

nuxt项目搭建

1.先下载nuxt脚手架 yarn create nuxt-app <项目名>&#xff0c;记得安装完项目&#xff0c;npm i,下载node包 目录介绍 components 存放组件分别是头部&#xff08;包含导航&#xff09;和底部 layouts 页面布局&#xff0c;实现一个页面整体架构规则&#xff0c;头…

XTuner InternLM-Chat 个人小助手认知微调实践

要解决的问题&#xff1a; 如何让模型知道自己做什么&#xff0c;是什么样身份。是谁创建了他&#xff01;&#xff01;&#xff01; 概述 目标&#xff1a;通过微调&#xff0c;帮助模型认清了解对自己身份弟位 方式&#xff1a;使用XTuner进行微调 微调前&#xff08;回答…

精致女童时尚穿搭~你想要的我都有哦

不论是版型还是颜色 都绝绝子的一件轻薄外套 整件看着干净利落有设计感 两侧按扣式口袋超级实用的 穿着透气不闷热 搭配各种风格的裤子都一绝

【安卓基础5】中级控件

&#x1f3c6;作者简介&#xff1a;|康有为| &#xff0c;大四在读&#xff0c;目前在小米安卓实习&#xff0c;毕业入职 &#x1f3c6;本文收录于 安卓学习大全持续更新中&#xff0c;欢迎关注 &#x1f3c6;安卓学习资料推荐&#xff1a; 视频&#xff1a;b站搜动脑学院 视频…

中东阿拉伯阿联酋迪拜媒体宣发稿新闻报道推广有哪些平台渠道?跨境出海营销

【本篇由言同数字科技有限公司原创】阿拉伯联合酋长国是一个经济和文化极为繁荣的地区&#xff0c;其中的迪拜更是以其独特的地理位置、国际化的环境和世界级的商业和金融中心而出名。 1. 全球市场&#xff1a;阿联酋迪拜是一个全球化的商业枢纽&#xff0c;吸引了来自世界各地…

无线听觉新体验:南卡、韶音、墨觉骨传导耳机综合评测

作为一个资深的跑步爱好者&#xff0c;我几乎离不开音乐的陪伴。不知道大家有没有同感&#xff0c;有时候一首歌曲就是我坚持下去的动力&#xff0c;尤其是在那段艰难的跑步时刻。但是找到一款既能让我在运动中自由呼吸、又能提供优质音乐体验的耳机&#xff0c;并不是一件容易…