Google Gemini Pro 国内版

Google Gemini Pro 国内版：【直达链接】

能力分类	基准测试	描述	更高分数更好	Gemini Ultra	GPT-4
通用	MMLU	57个主题（包括STEM、人文等）的问题表示	是	90.0%	86.4%（5-shot, 报告）
推理	Big-Bench Hard	需要多步骤推理的多样化挑战性任务	是	83.6%（3-shot）	83.1%（3-shot, API）
阅读理解	DROP	阅读理解（F1分数）	是	82.4（变量shots）	80.9（3-shot, 报告）
常识推理	HellaSwag	日常任务的常识推理	是	87.8%（10-shot*）	95.3%（10-shot*, 报告）
数学	GSM8K	基础算术操作（包括小学数学问题）	是	94.4%（maj1@32）	92.0%（5-shot CoT, 报告）
数学	MATH	挑战性数学问题（包括代数、几何、预备微积分等）	是	53.2%（4-shot）	52.9%（4-shot, API）
编码	HumanEval	Python代码生成	是	74.4%（0-shot, IT*）	67.0%（0-shot*, 报告）
编码	Natural2Code	Python代码生成，未泄露在网上的新保留数据集，类似HumanEval	是	74.9%（0-shot）	73.9%（0-shot, API）
图像	MMMU	大学级多学科推理问题	是	59.4%（0-shot pass@1, 仅Gemini Ultra*）	56.8%（0-shot pass@1, GPT-4V）
图像	VQAv2	自然图像理解	是	77.8%（0-shot, 仅Gemini Ultra*）	77.2%（0-shot, GPT-4V）
图像	TextVQA	自然图像中的OCR	是	82.3%（0-shot, 仅Gemini Ultra*）	78.0%（0-shot, GPT-4V）
图像	DocVQA	文档理解	是	90.9%（0-shot, 仅Gemini Ultra*）	88.4%（0-shot, GPT-4V）
图像	Infographic VQA	信息图表理解	是	80.3%（0-shot, 仅Gemini Ultra*）	75.1%（0-shot, GPT-4V）
图像	MathVista	视觉环境中的数学推理	是	53.0%（0-shot, 仅Gemini Ultra*）	49.9%（0-shot, GPT-4V）
视频	VATEX	英语视频字幕（CIDEr）	是	62.7（4-shot, Gemini Ultra）	56.0（4-shot, DeepMind Flamingo）
视频	Perception Test MCQA	视频问答	是	54.7%（0-shot, Gemini Ultra）	46.3%（0-shot, SeViLA）
音频	CoVoST 2（21种语言）	自动语音翻译（BLEU分数）	是	40.1（Gemini Pro）	29.1（Whisper v2）
音频	FLEURS（62种语言）	自动语音识别（基于错误率，越低越好）	否	7.6%（Gemini Pro）	17.6%（Whisper v3）

目前，Bard 聊天机器人平台由 Bard LLM 和 Gemini Pro LLM 提供支持。Gemini 系列的全面推出将是一个缓慢的过程，可能会涉及旧的法律硕士与更新、更高效的 Gemini LLM 的类似组合。对于用户来说，这一切都将在幕后进行。

当 Ultra 在 2024 年发布时，它将挑战 ChatGPT 的地位。测试显示，它已在 32 个类别中的 30 个类别中超越了 OpenAI 的模型。

“我们最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平，包括 12 个流行的文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音识别和语音翻译基准测试中的 5 个。” – Jeff Dean，谷歌 DeepMind 首席科学家。

与此同时，ChatGPT 的数据模型则是直接从互联网上获取的公开数据。GPT-3.5 和 GPT-4 模型都使用了截至 2021 年 9 月的数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/660007.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！