[AI Google] 双子座模型家族迎来新突破:更快的模型、更长的上下文、AI代理等更多功能

Google发布了Gemini模型家族的更新,包括新的1.5 Flash模型,该模型旨在提高速度和效率,以及Project Astra,这是对未来AI助手愿景的展示。1.5 Flash是专为大规模高频任务优化的轻量级模型,具有突破性的长上下文窗口。同时,1.5 Pro模型也得到了显著改进,包括更长的上下文窗口、增强的代码生成和逻辑推理能力。此外,Gemini Nano现在能够理解多模态输入,而Gemma 2则是下一代开放模型,旨在促进负责任的AI创新。Project Astra展示了通用AI代理的未来,这些代理能够理解和响应复杂世界,并具有更自然的互动能力。


我们很高兴地介绍双子座模型家族的一系列更新,包括新的1.5 Flash——我们的轻量级模型,旨在提高速度和效率,以及Project Astra——我们对未来AI助手愿景的展示。

一张复杂的AI模型网络连接到另一个更加精简的模型的插图,展示了Google DeepMind如何通过大型模型教授和训练小型模型。

去年12月,我们推出了首个原生多模态模型双子座1.0,包括Ultra、Pro和Nano三种尺寸。仅仅几个月后,我们发布了1.5 Pro,它具有增强的性能和突破性的长上下文窗口,可容纳100万个令牌。

开发者和企业客户已经开始以令人惊叹的方式使用1.5 Pro,发现它的长上下文窗口、多模态推理能力和总体表现非常有用。

我们从用户反馈中得知,某些应用需要更低的延迟和更低的服务成本。这激励我们继续创新,因此今天,我们推出了双子座1.5 Flash:一个比1.5 Pro更轻量级的模型,旨在快速且高效地大规模服务。

1.5 Pro和1.5 Flash都可通过Google AI Studio和Vertex AI的公开预览版获得,拥有100万个令牌的上下文窗口。现在,1.5 Pro还可通过等待名单向使用API的开发者和Google Cloud客户提供,拥有200万个令牌的上下文窗口。

我们还介绍了双子座模型家族的更新,宣布了我们的下一代开放模型Gemma 2,并分享了未来AI助手的发展,通过Project Astra。

与双子座1.5的200万令牌能力相比,领先的基础模型的上下文长度

双子座模型家族的更新

新的1.5 Flash,专为速度和效率优化

1.5 Flash是双子座模型家族的新成员,也是通过API提供的最快的双子座模型。它专为大规模的高容量、高频率任务而优化,服务成本更高效,并具有我们突破性的长上下文窗口。

虽然它比1.5 Pro轻量级,但它在处理大量信息的多模态推理方面表现出色,并为它的尺寸提供了令人印象深刻的质量。

解释新的双子座1.5 Flash模型的三个关键特性——速度和效率、多模态推理和长上下文窗口的图标和文本的插图。

新的双子座1.5 Flash模型专为速度和效率优化,在多模态推理方面表现出色,并具有我们突破性的长上下文窗口。

1.5 Flash在摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等方面表现出色。这是因为通过一种称为“蒸馏”的过程,由1.5 Pro训练而来,将更大模型的最关键知识和技能转移到更小、更高效的模型中。

在我们的更新后的双子座1.5技术报告、双子座技术页面以及了解1.5 Flash的可用性和定价中关于1.5 Flash的信息。

显著改进1.5 Pro

在过去的几个月里,我们显著改进了1.5 Pro,这是我们在广泛任务上表现最佳的模型。

除了将其上下文窗口扩展到200万个令牌之外,我们还通过数据和算法进步改进了它的代码生成、逻辑推理和规划、多轮对话,以及音频和图像理解。我们在每个任务的公共和内部基准上都看到了强大的改进。

1.5 Pro现在可以遵循越来越复杂和细微的指令,包括那些指定产品级行为涉及角色、格式和风格的指令。我们改进了对模型响应的控制,以适应特定用例,如打造聊天代理的个性和响应风格,或通过多个函数调用自动化工作流程。并且我们允许用户通过设置系统指令来引导模型行为。

我们在Gemini API和Google AI Studio中添加了音频理解,因此1.5 Pro现在可以对在Google AI Studio上传的视频进行图像和音频推理。我们正在将1.5 Pro集成到Google产品中,包括Gemini Advanced和Workspace应用。

在我们的更新后的双子座1.5技术报告和双子座技术页面上关于1.5 Pro的信息。

Gemini Nano理解多模态输入

Gemini Nano正在从仅文本输入扩展到包括图像。从Pixel开始,使用Gemini Nano与多模态的应用将能够像人们一样理解世界——不仅仅是通过文本,还通过视觉、声音和口语。

在Android上关于Gemini 1.0 Nano的信息。

下一代开放模型

今天,我们还分享了一系列对Gemma的更新,这是我们基于创建双子座模型相同的研究和技术构建的开放模型家族。

我们宣布Gemma 2,我们下一代开放模型,用于负责任的AI创新。Gemma 2拥有新的架构,专为突破性的性能和效率而设计,并将以新的尺寸提供。

Gemma家族还通过PaliGemma扩展,这是我们受到PaLI-3启发的首个视觉语言模型。并且我们已经升级了我们的负责任生成式AI工具包,加入了LLM Comparator用于评估模型响应的质量。

在开发者博客上信息。

开发通用AI代理的进展

作为Google DeepMind使命的一部分,我们一直希望负责任地开发能够造福人类的通用AI代理。这就是为什么今天,我们分享了构建未来AI助手愿景的进展,通过Project Astra(高级视觉和对话响应代理)。

要真正有用,代理需要像人们一样理解和响应复杂和动态的世界,并吸收和记住它看到和听到的内容,以理解上下文并采取行动。它还需要是主动的、可教的和个性化的,以便用户可以自然地与它交谈,没有延迟或延迟。

虽然我们在开发能够理解多模态信息的AI系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别是一个困难的工程挑战。在过去几年中,我们一直在努力改进我们的模型如何感知、推理和对话,以使互动节奏和质量感觉更自然。

Project Astra的两部分演示,我们对未来AI助手的愿景。每部分都是在单次拍摄中实时捕获的。

在双子座的基础上,我们已经开发了原型代理,它们可以通过连续编码视频帧、将视频和语音输入结合成事件时间线,并缓存这些信息以供高效回忆,来更快地处理信息。

通过利用我们领先的语音模型,我们还增强了它们的声音,赋予代理更广泛的语调范围。这些代理可以更好地理解它们被使用的上下文,并快速、流畅地回应。

有了这样的技术,很容易想象一个未来,人们可以拥有一个专家级的AI助手,通过手机或眼镜随时待命。其中一些功能将在今年晚些时候来到Google产品,如Gemini应用和网页体验。

持续探索

到目前为止,我们的双子座模型家族已经取得了令人难以置信的进展,我们总是力求进一步推进最前沿的艺术。通过投资于不懈的创新生产线,我们能够探索前沿的新想法,同时也解锁了双子座新颖和令人兴奋的用例的可能性。

了解更多关于双子座及其功能的信息。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/24334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Diffusers代码学习: IP-Adapter Inpainting

IP-Adapter还可以通过Inpainting自动管道和蒙图方式生成目标图片。 # 以下代码为程序运行进行设置,使用Inpainting 的自动管道, import os os.environ["HF_ENDPOINT"] "https://hf-mirror.com"from diffusers import AutoPipelin…

【java】速度搭建一个springboot项目

使用软件:IDEA,mysql 使用框架:springboot mybatis-plus druid 坑点 使用IDEA搭建一个springboot项目的时候,需要考虑一下IDEA版本支持的JDK版本以及maven版本。否则再构建项目,引入pom的时候就会报错。 需要检查…

04 uboot 编译与调试

新手不需要详细掌握 uboot,只需要知道它是一个什么东西即可,工作中也只是改一些参数而已。 1、uboot 是什么 Linux 系统要启动就必须需要一个 bootloader 程序,也就说芯片上电以后先运行一段 bootloader 程序。这段 bootloader 程序会先初始化 DDR 等外设,然后将 Linux 内…

利用PowerQuery控制数据行数

PowerBI报表在开发的过程中,经常会遇到数据量非常庞大的情况,在这种情况下,本机连接数据源如果不进行特殊处理的话,那么刷新数据的时候可能会发生数据刷新时间过长、数据加载内存错误、开发过程中构建DAX卡顿等情况。 那么在实际开…

不确定性+电动汽车!含高比例新能源和多类型电动汽车的配电网能量管理程序代码!

前言 能源供应的可持续性和清洁性是当今世界共同关注的议题,配电网与可再生能源发电相结合,通过多能互补和梯级利用,在不同时空取长补短,提高能源利用率,减少温室气体排放,是解决能源短缺和环境问题的有效…

[职场] 关于薪酬需要知道的两个知识点 #知识分享#知识分享

关于薪酬需要知道的两个知识点 薪酬问题是面试过程中比较核心的问题,也是每次面试必问的。如果你进入到面试的后一阶段,这类问题可以让面试官或企业判断求职者的要求是否符合企业的薪酬标准,并进一步判断求职者对自身价值的认可程度。关于薪…

数据结构之快速排序算法(快排)【图文详解】

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 博主主页:LiUEEEEE                        …

【Java数据结构】详解Stack与Queue(三)

🔒文章目录: 1.❤️❤️前言~🥳🎉🎉🎉 2. 队列(Queue) 2.1队列的概念 2.2队列的方法 2.3队列的使用 2.4循环队列 循环队列的介绍 循环队列图 如何区分循环队列是满还是空…

外挂知识库的基本知识与内容

外挂知识库 1.什么是rag? RAG,即LLM在回答问题或生成文本时,会先从大量文档中检索出相关的信息,然后基于这些信息生成回答或文本,从而提高预测质量。 2.外挂知识库的实现思路 只用几十万量级的数据对大模型进行微调并不能很好…

第五十六周:文献阅读

目录 摘要 Abstract 文献阅读:应用于地表水总磷浓度预测的可解释CEEMDAN-FE-LSTM-Transformer混合模型 一、现有问题 二、提出方法 三、方法论 1、CEEMDAN(带自适应噪声的完全包络经验模式分解) 2、FE(模糊熵 &#xff09…

Vue3【十】07使用ref创建基本类型的响应式数据以及ref和reactive区别

Vue3【十】07使用ref创建基本类型的响应式数据以及ref和reactive区别 ref 也可以创建对象类型的响应式数据,不过要使用.value ref 处理对象数据的时候,底层数据还是reactive格式的 reactive 重新分配一个新对象,会失去响应式可以使用Object.a…

保姆级 | MySQL的安装配置教程(非常详细)

一、下载Mysql 官网步骤 MySQLhttps://www.mysql.com/进入官网首页 点击DOWNLOADS 点击MySQL Community (GPL) Downloads 点击 小页面直接进入 MySQL :: Download MySQL Installerhttps://dev.mysql.com/downloads/installer/点击“Download”下载最新版本,其他…

【吊打面试官系列】MySQL 中 InnoDB 支持的四种事务隔离级别名称,以及逐级之间的区别?

大家好,我是锋哥。今天分享关于 【MySQL 中 InnoDB 支持的四种事务隔离级别名称,以及逐级之间的区别?】面试题,希望对大家有帮助; MySQL 中 InnoDB 支持的四种事务隔离级别名称,以及逐级之间的区别&#xf…

碳素钢化学成分分析 螺纹钢材质鉴定 钢材维氏硬度检测

碳素钢的品种主要有圆钢、扁钢、方钢等。经冷、热加工后钢材的表面不得有裂缝、结疤、夹杂、折叠和发纹等缺陷。尺寸和允许公差必须符合相应品种国家标准的要求。 具体分类、按化学成分分类 : 碳素钢按化学成分(即以含碳量)可分为低碳钢、中…

机器学习笔记 - stable diffusion web-ui安装教程

一、Stable Diffusion WEB UI 屌丝劲发作了,所以本地调试了Stable Diffusion之后,就去看了一下Stable Diffusion WEB UI,网络上各种打包套件什么的好像很火。国内的也就这个层次了,老外搞创新,国内跟着屁股后面搞搞应用层,就叫大神了。 不扯闲篇了,我们这里从git源码直接…

问题:11单位内部人员对行政机关作出的行政处分不服,可申请行政复议. #其他#微信

问题:11单位内部人员对行政机关作出的行政处分不服,可申请行政复议. 参考答案如图所示

问题:脾梗塞时,下列情况最符合的是 #职场发展#知识分享#媒体

问题:脾梗塞时,下列情况最符合的是 A、脾肿大 B、脾区摩擦感 C、两者均有 D、两者均无 参考答案如图所示

uniapp视频组件层级太高,解决方法使用subNvue原生子体窗口

目录 前言 先看一下uniapp官网的原话: subNvue的一些参数介绍 subNvues使用方法: 绑定id 显示 subNvue 弹出层 subNvue.show() 参数信息 subNvue.hide() 参数信息 在使用subNvue 原生子体窗口 遇到的一些问题 前言 nvue 兼容性 以及使用方式 控…

把ROS程序作为桌面图标双击启动

1 写launch文件 把ROS程序写成一个launch文件&#xff0c;例如 powerline_with_rviz.launch <launch><!-- Load camera parameters --><rosparam file"$(find choose_powerline)/config/camera_params.yaml" command"load"/><!-- …

深入理解并应用KTT求解约束性极值问题

KT 很简单&#xff0c;口诀记心端&#xff0c;等式求最优&#xff0c;不等式验证——小飞打油 以后每期尝试编一句口诀&#xff0c;帮助大家记忆&#xff0c;可以是打油诗&#xff0c;也可以是类似“奇变偶不变&#xff0c;符号看象限”的口诀&#xff0c;如果编的不好&#xf…