Google Gemini Pro 国内版:【直达链接】
Google Gemini Pro 国内版
能力分类 | 基准测试 | 描述 | 更高分数更好 | Gemini Ultra | GPT-4 |
---|---|---|---|---|---|
通用 | MMLU | 57个主题(包括STEM、人文等)的问题表示 | 是 | 90.0% | 86.4%(5-shot, 报告) |
推理 | Big-Bench Hard | 需要多步骤推理的多样化挑战性任务 | 是 | 83.6%(3-shot) | 83.1%(3-shot, API) |
阅读理解 | DROP | 阅读理解(F1分数) | 是 | 82.4(变量shots) | 80.9(3-shot, 报告) |
常识推理 | HellaSwag | 日常任务的常识推理 | 是 | 87.8%(10-shot*) | 95.3%(10-shot*, 报告) |
数学 | GSM8K | 基础算术操作(包括小学数学问题) | 是 | 94.4%(maj1@32) | 92.0%(5-shot CoT, 报告) |
数学 | MATH | 挑战性数学问题(包括代数、几何、预备微积分等) | 是 | 53.2%(4-shot) | 52.9%(4-shot, API) |
编码 | HumanEval | Python代码生成 | 是 | 74.4%(0-shot, IT*) | 67.0%(0-shot*, 报告) |
编码 | Natural2Code | Python代码生成,未泄露在网上的新保留数据集,类似HumanEval | 是 | 74.9%(0-shot) | 73.9%(0-shot, API) |
图像 | MMMU | 大学级多学科推理问题 | 是 | 59.4%(0-shot pass@1, 仅Gemini Ultra*) | 56.8%(0-shot pass@1, GPT-4V) |
图像 | VQAv2 | 自然图像理解 | 是 | 77.8%(0-shot, 仅Gemini Ultra*) | 77.2%(0-shot, GPT-4V) |
图像 | TextVQA | 自然图像中的OCR | 是 | 82.3%(0-shot, 仅Gemini Ultra*) | 78.0%(0-shot, GPT-4V) |
图像 | DocVQA | 文档理解 | 是 | 90.9%(0-shot, 仅Gemini Ultra*) | 88.4%(0-shot, GPT-4V) |
图像 | Infographic VQA | 信息图表理解 | 是 | 80.3%(0-shot, 仅Gemini Ultra*) | 75.1%(0-shot, GPT-4V) |
图像 | MathVista | 视觉环境中的数学推理 | 是 | 53.0%(0-shot, 仅Gemini Ultra*) | 49.9%(0-shot, GPT-4V) |
视频 | VATEX | 英语视频字幕(CIDEr) | 是 | 62.7(4-shot, Gemini Ultra) | 56.0(4-shot, DeepMind Flamingo) |
视频 | Perception Test MCQA | 视频问答 | 是 | 54.7%(0-shot, Gemini Ultra) | 46.3%(0-shot, SeViLA) |
音频 | CoVoST 2(21种语言) | 自动语音翻译(BLEU分数) | 是 | 40.1(Gemini Pro) | 29.1(Whisper v2) |
音频 | FLEURS(62种语言) | 自动语音识别(基于错误率,越低越好) | 否 | 7.6%(Gemini Pro) | 17.6%(Whisper v3) |
目前,Bard 聊天机器人平台由 Bard LLM 和 Gemini Pro LLM 提供支持。Gemini 系列的全面推出将是一个缓慢的过程,可能会涉及旧的法律硕士与更新、更高效的 Gemini LLM 的类似组合。对于用户来说,这一切都将在幕后进行。
当 Ultra 在 2024 年发布时,它将挑战 ChatGPT 的地位。测试显示,它已在 32 个类别中的 30 个类别中超越了 OpenAI 的模型。
“我们最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平,包括 12 个流行的文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音识别和语音翻译基准测试中的 5 个。” – Jeff Dean,谷歌 DeepMind 首席科学家。
与此同时,ChatGPT 的数据模型则是直接从互联网上获取的公开数据。GPT-3.5 和 GPT-4 模型都使用了截至 2021 年 9 月的数据。