Google 发布最强大模型Gemini,能力与GPT-4相当

一、Gemini 介绍

Gemini 是一个多模式模型系列,在图像、音频、视频和文本领域展示了真正强大的功能。其中功能最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平,其中包括 12 个流行文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音基准测试中的 5 个识别和语音翻译基准。 Gemini Ultra 是第一个在 57 个科目的 MMLU 上达到人类专家表现且得分高于 90% 的模型。它还在新的 MMMU 多模态推理基准上取得了 62.4% 的新的最先进分数,比之前的最佳模型高出 5 个百分点以上。

介绍 Gemini:我们最大、最有能力的 AI 模型

Gemini 还是我们迄今为止最灵活的模型,它能够在从数据中心到移动设备的各种设备上高效运行。它的尖端技术能力将极大地改善开发者和企业用户使用 AI 构建和扩展应用的方式。

Gemini 模型建立在 Transformer 解码器之上,通过架构和模型优化的改进得到增强,以实现大规模稳定训练并在 Google 张量处理单元上进行优化推理。它们经过训练可支持 32k 上下文长度,采用高效的注意力机制(例如多查询注意力(Shazeer,2019))。

Gemini 有多种尺寸,包括两种版本的 Nano(专为手机等内存受限环境中的设备上使用而设计)、Pro(用于增强数据中心的性能和大规模可部署性)和 Ultra(用于高度复杂的环境)任务)。即使是较小的型号也非常棒!

1.1、产品集成

Gemini 目前已经集成到 Google 的许多产品中。

截至今天,Gemini Pro 型号现已为 Bard ( http://bard.google.com ) 提供支持。从 Bard 更新说明中可以知道,由于目前 Google Bard 新版中嵌入的 Gemini Pro 版本暂时只支持英文,所以大家在体验的时候可以用英文,中文效果会不太理想。

12 月 13 日,开发者可以通过 Google AI StudioGoogle Cloud Vertex AI ( https://cloud.google.com/vertex-ai ) 上的 API 访问 Gemini Pro。 Android 开发者可以在 Pixel 8 Pro 上使用 Android Nano 尺寸。 明年初,Google 将完成对模型的进一步信任和安全检查,并通过额外的 RLHF 调整进一步完善它之后,将推出由 Gemini Ultra 模型提供支持的 Bard Advanced。作为其中的一部分,Google 将 Ultra 提供给选定的客户、开发人员、合作伙伴以及安全和责任专家,以便在更广泛地使用它之前进行早期实验和反馈。

1.2、多模态设计

Google从一开始就将 Gemini 设计为多模态,而不是从纯文本模型开始,然后在事后嫁接视觉和音频编码器。这意味着我们可以很自然地交错模式:说几句话,添加图像,添加一些文本,也许是短视频,同样,模型可以自然地交错文本和图像作为输出。

二、基准测试

MMMU 是上周刚刚发布的全新基准测试 ( https://mmmu-benchmark.github.io ),约有 11,500 个示例,需要图像理解、大学水平的学科知识和深思熟虑的推理。我们认为在这个基准测试中尝试 Gemini 模型来看看它们的表现会很有趣。凭借其多模式和推理功能,Gemini Ultra 远远超过了最先进的 GPT-4V。

2.1、文本/编程能力

在各种文本、数学、编码和推理基准测试中,包括 MMLU、GSM8K、MATH、Big-Bench Hard、HumanEval、Natural2Code、DROP 和 WMT23,Gemini 均优于所有其他模型,并改进了现有模型艺术。在 MMLU 上,Gemini Ultra 是第一个在 57 个科目的 MMLU 上达到人类专家表现且得分高于 90% 的模型。

当使用 32 个样本的 CoT 时,Gemini Ultra 在 MMLU 上获胜 2.75%,但当使用 5 次提示时,以相同的差距输给 GPT-4。值得注意的是,G-Ultra 在编码任务方面似乎比 GPT-4 好得多。

2.2、图像理解能力

在图像理解方面,Gemini 在我们检查的所有基准测试中都表现良好,Ultra 模型在每个基准测试中都创下了新的最先进结果。

2.3、多模态能力和推理能力

从发布的报告中的有个例子可以很好地说明 Gemini 的多模式能力和推理能力。

将此图像作为输入和提示:

“找出这些图表中突出的数据点及其含义。然后为显示的所有数据生成详细的降价表”

Gemini 能够产生如下所示的响应:

“最突出的数据点是美国填埋的塑料垃圾,占 73%。这明显高于显示的其他国家和地区。这意味着美国在回收或焚烧塑料废物方面没有像其他国家和地区那样做那么多。”

以及条形图中表示的每个数据点的渲染表格版本。

2.4、跨语言支持

Gemini 在跨多种不同语言的多语言图像理解任务中也表现出色。

2.5、视频理解能力

Gemini Ultra 还在各种少镜头视频字幕任务以及零镜头视频问答任务中取得了最先进的结果。

2.6、音频理解能力

在语音识别和语音翻译任务中,Gemini 也表现出色。我们尚未针对这些任务评估 Ultra 模型,但我们预计该模型规模的增加将产生比 Gemini Pro 模型更好的结果,Gemini Pro 模型已经在我们检查的所有五个基准中设定了新的最先进结果。

三、Gemini 特点

3.1、强劲的性能

Google 对 Gemini 模型进行了严格测试,并评估了它们在各种任务上的表现。从自然图像、音频和视频理解到数学推理,Gemini Ultra的性能在32个广泛使用的大型语言模型(LLM)研究和开发中的学术基准中有30项超过了当前的最新成果。

Gemini Ultra以90.0%的分数成为首个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型使用数学、物理、历史、法律、医学和伦理学等57个学科的组合来测试世界知识和解决问题的能力。

Gemini 在文本基准测试上优于 GPT-4。但真的是这样吗?尽管结果令人印象深刻,但如果您注意使用相同提示技术(例如 Big-bench、Hellaswag 和 Math)报告的结果,您会发现性能差异很小。

在新的 MMMU 基准测试中,Gemini Ultra 也取得了 59.4% 的高分。该测试包含了多个领域的多模态任务,需要深入的推理能力。 在我们测试的图像基准方面,Gemini Ultra 无需物体字符识别 (OCR) 系统的辅助,就超越了之前的尖端模型。这些基准测试突显了 Gemini 的天生多模态能力,并预示了其更为复杂的推理能力。

3.2、下一代模型能力

回想起我们曾经对多模态模型的那份笨拙拼接,它们虽能应对简单任务,如图像描述,但在抽象和复杂的逻辑推理面前却显得力不从心。如今,Google 以其创新精神,设计了Gemini——一个天生支持多模态的智能体。从摇篮期便在多种模态间游刃有余,它通过额外的多模态数据微调,其理解和推理的能力已远超过现有模型,成为各领域的领跑者。

一点一滴、细节之中,Gemini 1.0 展现了它处理复杂书面和视觉信息的能力。就如同在茫茫数据海洋中寻找那一线生机,它能洞察难以辨识的知识,无论是科学还是金融领域,都预示着数字化突破的曙光。

当我们谈论编程之美时,Google 的Gemini 展示了它在理解、解释、生成流行编程语言(比如 Python、Java、C++ 和 Go)方面的高超技艺。它跨语言的操作能力和对复杂信息的处理,让它在全球编程基础模型中脱颖而出。在多个编程基准测试中,包括行业标准的HumanEval和我们内部的Natural2Code数据集中,Gemini Ultra 的表现尤为出色。

不仅如此,Gemini 还可作为高级编码系统的动力核心。回想两年前我们推出了AlphaCode——首个在编程竞赛中达到竞争水平的AI代码生成系统。而今,借助Gemini专业版,我们打造了AlphaCode 2,它不仅擅长解决编程问题,更涵盖了复杂的数学和理论计算机科学难题。

到目前为止,创建多模态模型的标准方法涉及训练不同模态的单独组件,然后将它们拼接在一起,粗略模拟部分功能。这些模型有时可以很好地执行某些任务,比如描述图像,但在更概念化和复杂的推理方面表现不佳。

Google 设计了 Gemini,使其本能地支持多模态,从一开始就在不同的模态上进行了预训练。然后,我们使用额外的多模态数据对其进行了微调,以进一步提高其效果。这有助于Gemini从根本上无缝地理解和推理各种输入,远远优于现有的多模态模型——而且它的能力在几乎每个领域都是最先进的。

3.2.1、复杂推理能力

Gemini 1.0的复杂多模态推理能力可以帮助理解复杂的书面和视觉信息。这使它在发现在大量数据中难以辨别的知识方面具有独特的技能。

它惊人的能力通过阅读、过滤和理解信息从数十万份文件中提取见解,将有助于在从科学到金融等许多领域以数字速度实现新突破。

Gemini 揭示新的科学见解

3.2.2、理解文本、图像、音频等

Gemini 1.0 能够同时处理和理解文本、图像、音频等多种信息,这使它在理解复杂话题上更加细腻,能够回答那些涉及到复杂主题的问题。它在解释数学和物理等复杂科目的推理过程方面表现尤为出色。

Gemini 在数学和物理学方面的解释能力

3.2.3、高级编程

Google 推出首个版本的 Gemini 能够理解、解释并生成世界上最受欢迎编程语言(例如 Python、Java、C++ 和 Go)的高质量代码。其跨语言操作能力和对复杂信息的处理使其成为全球领先的编程基础模型之一。

Gemini Ultra 在多个编程基准测试中表现卓越,其中包括 HumanEval —— 一个评估编程任务性能的重要行业标准,以及我们的内部数据集 Natural2Code,该数据集使用作者生成的来源而不是基于网络的信息。

Gemini也可以用作更高级编码系统的引擎。两年前,我们推出了AlphaCode,这是第一个在编程竞赛中达到竞争水平的AI代码生成系统。

利用Gemini的专业版本,创建了一个更先进的代码生成系统AlphaCode 2,它擅长解决超越编码的竞赛编程问题,涉及复杂的数学和理论计算机科学。

Gemini 在编码和竞赛编程方面表现出色

在与原版 AlphaCode 相同的平台上进行评估时,AlphaCode 2 展现了显著提升,解决问题数量几乎翻倍。估计其性能超过了 85% 的竞赛参与者,相较于 AlphaCode 的近 50% 有显著提高。当程序员与 AlphaCode 2 协作,为代码样本定义特定属性时,其表现更为出色。

3.3、更加可靠、可扩展和高效

Google 在自家AI优化基础设施上,借助内部设计的Tensor处理单元(TPU)v4和v5e对Gemini 1.0进行了大规模训练。这不仅是我们最稳固和可扩展的训练模型,同时也是效率最高的服务模型之一。

在TPU上运行时,Gemini 的速度远超以往那些小巧但功能有限的模型。这些专为AI加速而生的处理器已成为Google众多AI驱动产品的核心——从搜索到YouTube、Gmail、Google地图、Google Play和Android——为全球数十亿用户提供服务,并帮助世界各地的公司以成本效益的方式训练大型AI模型。

此外,Google 还发布了迄今为止最强大、高效和可扩展的TPU系统Cloud TPU v5p。这一代TPU将加速Gemini 的发展,并助力开发者及企业客户更快速地训练大规模生成式人工智能模型,让新产品和功能更快地触达用户。

3.4、以责任和安全为核心构建

Google 始终致力于推动大胆而负责任的人工智能发展。基于谷歌的人工智能原则和我们产品的健全安全政策,Google 为Gemini增设了新的保护措施,以适应其多模态能力。在开发每一个阶段,我们都深思熟虑潜在风险,并致力于测试和减轻这些风险。

Gemini 经历了谷歌AI模型中最全面的安全评估,覆盖了偏见和毒性等关键问题。我们开展了针对网络攻击、说服力及自主性等新颖研究领域的探索,并应用了谷歌研究中最先进的对抗测试技术,在部署前提前识别关键安全问题。

为了更好地发现评估方法中可能存在的盲点,谷歌正与一系列多元化的外部专家和合作伙伴合作,对Gemini 进行各种问题上的压力测试。在训练阶段,我们通过使用真实有毒提示等基准来诊断内容安全问题,并确保其输出符合我们的政策。

为了减少可能造成的伤害,谷歌建立了专门的安全分类器来识别、标记和分类暴力或负面刻板印象内容。这种分层方法结合了强大的过滤器,使Gemini 对每个人都更加安全和包容。同时,我们将持续应对模型所面临的事实性、基础性、归因性和协作性等已知挑战。

责任和安全始终是我们模型开发和部署的核心。这是一项长期承诺,需要合作建设,因此我们正在与行业和更广泛的生态系统合作,通过组织如MLCommons、Frontier Model Forum及其AI安全基金以及我们的安全AI框架(SAIF)来定义最佳实践,并制定安全和安全基准,该框架旨在帮助减轻公共和私营部门AI系统特定的安全风险。在开发Gemini的过程中,我们将继续与全球的研究人员、政府和民间社会团体合作。

3.5、让Gemini面向全世界

Gemini 1.0现在正在一系列产品和平台上推出:

3.5.1、谷歌产品中的Gemini专业版

通过谷歌产品将Gemini 带给数十亿人。

从今天开始,Bard将使用Gemini Pro的精细调整版本进行更高级的推理、规划、理解等。这是Bard自推出以来最大的升级。

它将在全球170多个国家和地区提供英文版本,并计划在不久的将来扩展到不同的模式,并支持新的语言和地点。

还将Gemini引入Pixel。Pixel 8 Pro是第一款专为运行Gemini Nano而设计的智能手机,它为录音应用中的“摘要”功能和Gboard中的智能回复功能提供支持,首先在WhatsApp中推出,明年将在更多的消息应用中推出。

在未来几个月里,Gemini 将会在我们的更多产品和服务中推出,比如搜索、广告、Chrome 和 Duet AI。

已经开始在搜索中尝试Gemini,它使我们的搜索生成体验(SGE)对用户更快,在美国英语搜索中延迟减少了40%,同时提高了质量。

3.5.2、使用Gemini构建产品

从12月13日开始,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

Google AI Studio是一个免费的基于网络的开发者工具,可帮助开发者和企业客户快速使用API密钥原型设计和推出应用程序。当需要完全托管的AI平台时,Vertex AI允许通过完全数据控制对Gemini进行定制,并从Google Cloud的其他功能中获益,以提高企业安全性、安全性、隐私和数据治理以及合规性。

Android开发者还可以通过AICore在Android 14上的Pixel 8 Pro设备上使用我们最高效的Gemini Nano模型进行设备任务构建。立即注册AICore的早期预览。

3.5.3、Gemini Ultra 即将推出

对于 Gemini Ultra,我们目前正在进行广泛的信任和安全检查,包括由可信赖的外部方进行红队测试,并在向人类反馈的基础上进一步完善模型,使用微调和强化学习,然后才会广泛推出。

作为这一过程的一部分,我们将使Gemini Ultra提供给一些特定的客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈,然后在明年初向开发者和企业客户推出。

明年初,我们还将推出Bard Advanced,这是一种全新的、尖端的人工智能体验,让您可以使用我们最好的模型和能力,首先是Gemini Ultra。

3.5.4、Gemini 时代:开启创新未来之门

这是 AI 发展的关键里程碑,也标志着我们 Google 迈入了一个全新时代。我们将继续快速创新,并负责任地提升我们的模型能力。

我们已经在 Gemini 上取得了重大进展,并正在努力进一步拓展其未来版本的能力,如在规划和记忆方面的提升,以及增加处理更多信息的上下文窗口,以便提供更佳的响应。

我们对 AI 负责任地赋能世界所带来的巨大潜力感到兴奋。这是一个充满创新的未来,它将激发创造力,拓展知识,推动科学发展,并改变全球数十亿人的生活和工作方式。

四、模型训练

Gemini 是一项大规模的科学和工程工作,需要 ML、分布式系统、数据、评估、RL、微调等方面的各种不同专业知识(该报告的 800 多名作者)。最大的 Gemini 模型在大量 TPUv4 pod 上进行训练。它构建在 JAX 和 Pathways 系统 ( https://arxiv.org/abs/2203.12533 ) 之上,这使我们能够从单个 Python 进程跨多个数据中心的大量 TPUv4 Pod 协调大规模训练计算。

Gemini Ultra 的训练基础设施非常令人着迷,Gemini 在多个数据中心的多个 TPUv4 Superpod(4096 个 TPU)上并行训练数据。疯狂的是,他们的网络速度足以在多个数据中心之间同步梯度,而不会显著降低训练效率。

五、References

[1]. Gemini 官方介绍

https://blog.google/technology/ai/google-gemini-ai/#sundar-note

[2]. Gemini 技术报告

https://goo.gle/GeminiPaper

[3]. 多模式提示推理

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/204746.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

让工作更高效,那些不能错过的8款泳道图绘制工具

在现代企业的运营管理中,泳道图扮演了至关重要的角色。这种独特的图表工具以其直观、清晰的特点,帮助我们理解和改进复杂的工作流程,从而提升效率。本文将为你分享8款实用且高效的泳道图绘制工具,它们能够帮助你轻松创建出专业级别…

Java程序员,你掌握了多线程吗?【文末送书】

目录 摘要 01、多线程对于Java的意义 02、为什么Java工程师必须掌握多线程 03、Java多线程使用方式 04、如何学好Java多线程 参与方式🥇 推荐一个人工智能学习网站 https://www.captainbed.cn/bear 摘要 互联网的每一个角落,无论是大型电商平台的…

C语言内存函数讲解

目录 文章目录 内存函数针对的数据类型不确定可能是整型数据,字符数据,结构体数据...... memcpy的使用和模拟实现 memcpy的使用 memcpy打印字符数据 memcpy打印整型数据 memcpy的模拟实现 模拟实现的memcpy打印重叠情境 memmove的使用和模拟实现 memm…

为什么出海企业需要呼叫中心?

随着现代商业世界的发展,企业面临着越来越多的挑战和机遇。为了提高客户服务水平、客户满意度、企业形象和销售业绩,呼叫中心已成为越来越多企业的首选。那么,为什么出海企业需要呼叫中心呢? 1. 提高客户服务质量 首先&#xff…

Linux | tar,bc,uname指令

Linux | tar,bc, 文章目录 Linux | tar,bc,tar指令【重要】bc指令uname –r指令 tar指令【重要】 tar [-cxtzjvf] 文件与目录 … 参数: -c :建立一个压缩文件的参数指令(create 的意思);-x &am…

为什么对中小企业来说,数字化转型很难?

引言 数字化转型对中小企业至关重要,然而,实施这一转型却充满挑战。中小企业面临着资源、技术、文化和安全方面的种种难题,这些困难限制了它们在数字化领域的发展和竞争力。这种挑战不仅影响企业内部运营,还直接影响其与客户和市…

中国的下一个风口:数字化!

——“中国的下一个风口是什么?数字化?你赞同吗?” ——“中国的下一个风口是不是‘数字化’,不敢妄下定论。” 但可以肯定的是,企业想站上未来产业的风口,“数字化”是必经之路。也就是说,数…

HarmonyOS 开发 Java 与 ArkTS 如何抉择?

本文详细分析 Java 与 ArkTS 在 HarmonyOS 开发过程的区别,力求解答学员的一些困惑。 何为 HarmonyOS? 在讨论语言的差异时,我们先了解下什么是 HarmonyOS。华为官方是这么解释 HarmonyOS 的: “鸿蒙操作系统”特指华为智能终端…

视频集中存储/智能分析融合云平台EasyCVR平台接入rtsp,突然断流是什么原因?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

Halcon 机械视觉 使用仿射变换 机械手实现孔位定位

要推算机械手平面坐标系A与相机平面坐标系B的关系,我们可以首先找到两个平面坐标系之间的平移量和旋转量。 平移量:选择一个公共的参考点,比如某个标志物,假设在坐标系A中的坐标为(Ax, Ay),在坐标系B中的坐标为(Bx, B…

GD32F303移植RT-Thread

我的平台: 芯片:GD32F303CCT6 编译器:KEIL5 一、下载keil专用 RT-Thread 安装包 https://www.keil.arm.com/packs/ 。。。。 。。。。 二、准备一个干净的GD32F303裸机工程,我就增加了串口功能 三、开始移植 1.rt-thread系统…

Java网络编程——非阻塞通信

对于用ServerSocket以及Socket编写的服务器程序和客户程序,它们在运行过程中常常会阻塞。例如当一个线程执行ServerSocket的accept()方法时,假如没有客户连接,该线程就会一直等到有了客户连接才从accept()方法返回。再例如当线程执行Socket的…

Chart 5 性能优化概述

文章目录 前言5.1 可移植性5.2 优化梗概5.3 OpenCL 移植的初始评估5.4 将CPU代码移植到OpenCL GPU5.5 并行化GPU和CPU工作负载5.6 瓶颈分析5.6.1 识别瓶颈5.6.2 解决瓶颈 5.7 API层面性能优化5.7.1 API函数调用的正确安排5.7.2 使用基于事件驱动的pipeline5.7.3 内核编译和构建…

0基础学习云计算难吗?

很多人经常会问云计算是什么?云计算能干什么?学习云计算能做什么工作?其实我们有很多人并不知道云计算是什么,小知今天来给大家讲讲学习云计算能做什么。 中国的云计算行业目前正处于快速发展阶段,随着互联网和数字化…

人脸识别安卓主板_MTK方案智能闸机门禁工业安卓主板定制开发

人脸识别主板广泛应用于各个领域,包括人脸支付系统、人脸识别监控系统、写字楼办公楼门禁闸机、校园、地铁、住宅门禁、考勤机、智能门锁、广告机、售卖机等。 主板基于联发科MTK方案,并由行业PCBA和MTK的核心板组成。根据产品需求,可以选择…

qt creator配置opencv库 (MSVC版本)

目录 1. MSVC版本 1.1 使用cmake编译opencv 1.2 再使用visual studio 2019生成opencv的lib,dll 1.3 配置opencv的系统环境变量 1.4 新建qt项目 1. MSVC版本 1.1 使用cmake编译opencv 1.2 再使用visual studio 2019生成opencv的lib,dll 1.3 配置opencv的系统环境变量 D:…

Educational Codeforces Round 159 (Div. 2) A~E

A.Binary lmbalance(思维) 题意: 给出一个01字符串,你可以对字符串进行无限次下列操作: 选择一个位置 i ( 1 ≤ i ≤ ∣ s ∣ − 1 , |s|为字符串s的长度 ) i(1 \le i \le |s| - 1,\text{|s|为字符串s的长度}) i(1≤…

深度学习实战66-基于计算机视觉的自动驾驶技术,利用YOLOP模型实现车辆区域检测框、可行驶区域和车道线分割图

大家好,我是微学AI,今天给大家介绍一下深度学习实战66-基于计算机视觉的自动驾驶技术,利用YOLOP模型实现车辆区域检测框、可行驶区域和车道线分割图。本文我将介绍自动驾驶技术及其应用场景,并重点阐述了基于计算机视觉技术下的自动驾驶。自动驾驶技术是一种利用人工智能和…

LeetCode刷题--- 计算布尔二叉树的值

个人主页:元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏:http://t.csdnimg.cn/ZxuNL http://t.csdnimg.cn/c9twt 前言:这个专栏主要讲述递归递归、搜索与回溯算法,所以下面题目主要也是这些算法做的 我讲述…

cache教程1.LRU 缓存淘汰策略

这一节实现LRU算法,要理解明白其使用的数据结构。 FIFO/LFU/LRU 算法简介 Cache的缓存全部存储在内存中,内存是有限的,因此不可能无限制地添加数据。当占用内存超过了给定的内存大小时候,就需要从缓存中移除一条或多条数据了。我…