如何评估大模型音频理解能力-从Gemini说起

      Gemini家族包含Ultra、Pro和Nano三种大小的模型是谷歌开发的大型多模态人工智能模型,它在人工智能的多模态领域实现了重大突破,结合了语言、图像、音频和视频的理解能力。

     Gemini的性能评估情况如下:

Gemini模型的评估的具体指标从文本理解能力、图像理解能力、音频理解能力、多模态能力四个维度进行测试。评估具体指标核心之一就是选择基准测试集。选择基准测试集时,我们会从几个关键因素做选择,如数据覆盖范围、数据质量和规模、评价指标和评价指标。

1、Gemini模型的评估的具体指标

1.1 文本理解能力

学术基准测试:包括MMLU、GSM8K、Math、BIG-Bench等文本理解和推理基准测试。

长文本理解:涵盖NarrativeQA、Scrolls等长文本理解基准测试。

数学/科学理解:包括GSM8K、Math、MMLU等数学和科学知识理解基准测试。

推理能力:包括BigBench Hard、CLRS等推理能力基准测试。

摘要能力:涵盖XL Sum、WikiLingua等摘要生成基准测试。

多语言能力:包括WMT23、WikiLingua等机器翻译和多语言摘要生成基准测试。

1.2 图像理解能力

对象识别:包括VQAv2、TextVQA等图像和文档的文本理解基准测试。

细节识别:涵盖DocVQA、ChartQA等细节识别基准测试。

图表理解:包括MathVista、AI2D等图表理解基准测试。

跨语言图像理解:包括XM-3600等跨语言图像理解基准测试。

1.3 视频理解能力

视频问答:涵盖VATEX、YouCook2、NextQA等视频问答基准测试。

视频推理:包括ActivityNet-QA、Perception Test MCQA等视频推理基准测试。

1.4 音频理解能力

语音识别:包括FLEURS、VoxPopuli、Librispeech等语音识别基准测试。

语音翻译:涵盖CoVoST 2等语音翻译基准测试。

1.5 多模态能力

跨模态推理:涵盖MMMU、AI2D等跨模态推理基准测试。

图像生成:涵盖图像生成基准测试。

视频理解:涵盖视频理解基准测试。

音频理解:涵盖音频理解基准测试。

跨模态组合推理:涵盖多模态推理基准测试。

2、语音识别领域三大基准测试集

       在语音识别领域,FLEURS、VoxPopuli和Librispeech是几个重要的基准测试集,用于评估语音识别系统的性能。

2.1 FLEURS

FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)基准测试集是一个用于评估和推动低资源语言语音理解研究的多语言语音数据集,由Alexis Conneau等人创建,并在arXiv上发表相关论文。它旨在鼓励在更多语言中发展语音技术,以实现更广泛的语音识别和语音翻译技术的普及。

主要特点:

多语言覆盖:FLEURS包含102种语言,提供了大约12小时的有监督语音数据支持每种语言,这为研究者提供了足够的数据来训练和评估多语言语音识别模型。

任务多样性:FLEURS可以用于多种语音相关的任务,包括自动语音识别(ASR)、语音语言识别(Speech LangID)、翻译和检索。

数据集构建:FLEURS是基于机器翻译的FLoRes-101基准测试构建的,它使用了来自FLoRes公开可用的dev和devtest数据集中的多对多平行句子。

2.2 VoxPopuli

VoxPopuli是由Facebook AI(现为Meta AI)开源的大规模多语言语音数据集,旨在推动语音识别、表示学习、半监督学习以及同声传译等领域的研究。数据集可通过GitHub仓库获取,其中包含了下载脚本和使用指南。

主要特点:

数据集规模和多样性:VoxPopuli提供了23种语言的100,000小时未标记语音数据,以及1,800小时的转录演讲和它们对15种目标语言的口译,总计达到17,300小时。

数据来源:VoxPopuli的数据来源于2009-2020年间欧洲议会的事件录音,包括全体会议、委员会会议等。这些录音包括了来自不同欧盟语言的演讲,并被部分转录和口译。

数据处理:为了提高数据质量,VoxPopuli的创建者们构建了数据处理流程,包括使用基于能量的语音活动检测(VAD)算法将长录音分割成15-30秒的短片段,并去除连续沉默超过2秒的片段。

数据集应用:VoxPopuli不仅适用于自动语音识别(ASR)任务,还适用于语言模型训练、半监督学习以及语音到文本的翻译任务。

预训练模型:Facebook AI还提供了基于VoxPopuli数据训练的预训练wav2vec 2.0模型,这些模型可以用于下游语音任务。

下载:https://github.com/facebookresearch/voxpopuli

2.3 Librispeech

LibriSpeech是一个用于评估英语语音识别性能的开源数据集,它包含了约1000小时的16kHz采样率的有声读物录音。这个数据集被广泛用于训练和评估自动语音识别(ASR)系统的性能。

主要特点:

数据集规模:LibriSpeech数据集规模庞大,提供了充足的数据用于深度学习模型的训练和测试。

数据分集:LibriSpeech数据集通常被分为多个子集,包括训练集(train-clean-100, train-clean-360, train-other-500)、开发集(dev-clean, dev-other)和测试集(test-clean, test-other)。这些子集根据录音的质量和来源进行了区分。

测试集特点:

test-clean:此测试集包含了清晰度较高的说话人的录音,用于评估ASR系统在理想或较为理想条件下的性能。

test-other:相比test-clean,此测试集包含了更多不同背景和录音条件下的语音数据,用于评估ASR系统在更广泛或更具有挑战性的场景下的性能。

数据格式:LibriSpeech数据集中的音频文件通常以flac格式存储,同时提供对应的文本文件(.trans.txt),其中包含了音频内容的转录文本。

数据预处理:在使用LibriSpeech数据集进行ASR任务之前,需要进行数据预处理,包括将音频文件转换成适合模型输入的特征表示,如梅尔频率倒谱系数(MFCC)等。

使用工具:LibriSpeech数据集可以与多种工具和库一起使用,例如TensorFlow Datasets、Torchaudio等,这些工具提供了方便的数据加载和管理功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Sqli-labs第一关到第四关

目录 一,了解PHP源代码 二,破解第一关 2.1在了解完源码之后,我们重点看一下 2.2破解这道题表中有几列 2.3查看表中哪一列有回显 2.4查询库,表,列信息 三,总结 前提: 之所以把1234关…

gpt_academic的使用——含一键安装和接入其他API以及本地模型

https://github.com/binary-husky/gpt_academic/releases/ https://github.com/binary-husky/gpt_academic/wiki 安装

测试平台开发:Django开发实战之注册界面实现(上)

实现注册功能,大概包括以下几个步骤 1、设计ui ##字段 通过看数据库里面的user表里面的字段,可以大概知道需要几个字段: emailusernamepasswordpassword_confirm 生成简单的ui界面,复制这个html代码 然后在项目路径下面创建一…

鸿蒙 DevEcoStudio:简单实现网络请求登录案例

使用http或axios实现登录案例 在entry/src/main/ets/pages路径下新建Page9.ets文件: import http from ohos.net.http import router from ohos.router Entry Component struct Page9 {State message: string Hello WorldState username: string State password:…

数据结构(十二)----查找

目录 一.查找的概念 二.查找算法 1.顺序查找 顺序查找的查找效率: 顺序查找的优化: •有序表的优化(缩短查找失败的平均查找长度) •被查概率不相等的表的优化(缩短查找成功的平均查找长度) 2.折半…

2024年钉钉群直播回放怎么保存

钉钉群直播回放下载插件我已经打包好了,有需要的自己下载一下 小白钉钉工具打包链接:百度网盘 请输入提取码 提取码:1234 --来自百度网盘超级会员V10的分享 1.首先解压好我给大家准备好的压缩包 2.再把逍遥一仙下载器解压出来&#xff0…

CentOS 重启网络失败service network restart

命令 service network restart 提示 Job for network.service failed because the control process exited with error code. See “systemctl status network.service” and “journalctl -xe” for details. 原因分析 使用journalctl -xe命令查看日志后的具体错误 -- Un…

Baidu Comate——让软件研发更高效、更智能

个人名片: 😊作者简介:一名大二在校生 🤡 个人主页:坠入暮云间x 🐼座右铭:给自己一个梦想,给世界一个惊喜。 🎅**学习目标: 坚持每一次的学习打卡 文章目录 一、Baidu Co…

LLM——大语言模型完整微调策略指南

1、 概述 GPT-4、LaMDA、PaLM等大型语言模型(LLMs)以其在广泛主题上的深入理解和生成高度类人文本的能力而闻名遐迩,它们在全球范围内引起了广泛关注。这些模型的预训练过程涉及对来自互联网、书籍和其他来源的数十亿词汇的海量数据集进行学…

杰理-701-单线灯-ws2812-驱动

杰理-701-单线灯-ws2812-驱动 LED_gradual_open(); //调用后 呼吸灯 set_led_colour(R,G,B);//具体颜色 spi_dma_set_addr_for_isr //spi 配置dma 后灯才亮 #define LED_H 0x7c #define LED_L 0x40 发送高位和地位的字节,具体…

2024.5.12 机器学习周报

引言 Abstract 文献阅读 1、题目 Deep High-Resolution Representation Learning for Human Pose Estimation 2、引言 在本文中,我们感兴趣的是人类姿态估计问题,重点是学习可靠的高分辨率表示。大多数现有的方法从由高到低分辨率网络产生的低分辨…

YOLOv5改进(二)BiFPN替换Neck网络

前言 针对红绿灯轻量化检测,上一节使用MobileNetv3替换了主干网络,本篇将在使用BiFPN替换Neck的方式优化算法~ 往期回顾 YOLOv5改进(一)MobileNetv3替换主干网络 目录 一、BiFPN简介二、改进方法一第一步:在common.…

LeetCode509:斐波那契数(使用动态规划)

题目描述 斐波那契数 (通常用 F(n) 表示)形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始,后面的每一项数字都是前面两项数字的和。也就是: F(0) 0,F(1) 1 F(n) F(n - 1) F(n - 2),其中 n > 1…

D3CTF2024

文章目录 前言notewrite_flag_where【复现】D3BabyEscapePwnShell 前言 本次比赛笔者就做出两道简单题,但队里师傅太快了,所以也没我啥事。然后 WebPwn 那题命令行通了,但是浏览器不会调试,然后就简单记录一下。 note 只开了 N…

封装Springboot基础框架功能-03

在些模块中汇总了一些web开发常用的配置和功能。 模块源码结构 Restful API常用定义 QueryParam请求参数 Data public class QueryParam {private String key;private String value; }RestfulController实现 RestfulController.java,主要汇总一些常用的restful的…

CV每日论文--2024.4.29

1、Make-it-Real: Unleashing Large Multimodal Models Ability for Painting 3D Objects with Realistic Materials 中文标题:实现高仿真3D物体绘制:释放大型多模态模型的能力 简介:物理材料对于增强不同应用场景和光照条件下的3D资产的逼真感至关重要…

4.26.7具有超级令牌采样功能的 Vision Transformer

Vision Transformer在捕获浅层的局部特征时可能会受到高冗余的影响。 在神经网络的早期阶段获得高效且有效的全局上下文建模: ①从超像素的设计中汲取灵感,减少了后续处理中图像基元的数量,并将超级令牌引入到Vision Transformer中。 超像素…

应用软件安全保证措施方案书

系统安全保证措施方案—word原件 软件全套资料进主页获取或者本文末个人名片直接获取。

html的标签

基础标签 标签描述<h1>-<h6>定义标题&#xff0c;h1最大&#xff0c;h6最小<font>定义文本的字体&#xff0c;字体尺寸&#xff0c;字体颜色<b>定义粗体文本<i>定义斜体文本<u>定义文本下划线<center>定义文本居中<p>定义段落…

嘎嘎好用的虚拟键盘第二弹之中文输入法

之前还在为不用研究输入中文而暗自窃喜 这不新需求就来了&#xff08;新需求不会迟到 它只是在路上飞一会儿&#xff09; 找到了个博主分享的代码 是好使的 前端-xyq 已经和原作者申请转载了 感谢~~ 原作者地址&#xff1a;https://www.cnblogs.com/linjiangxian/p/16223681.h…