音频数据集大全(1)-语音识别篇

1、Llama3 中文化数据集

简介:Llama3 中文化数据集是为了提高Llama3模型在中文语境下的表现而专门设计和准备的数据集。数据集被处理成firefly格式,这意味着它们可以直接用于firefly框架的训练过程。数据集包含了清洗处理后的合并文件,如sft_zh_with_all.jsonl,它包含了约169万条过滤后的问答数据提供了多种下载方法,包括使用SDK和GIT克隆。SDK方法允许用户通过几行代码快速下载所需的数据集,而GIT方法则适用于希望直接从源代码仓库克隆数据集的用户

下载链接:https://github.com/CrazyBoyM/llama3-Chinese-chat

2、中文语音识别Aishell-1学术数据集

简介:希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz,用于制作AISHELL-ASR0009-OS1。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在95%以上。分为训练集、开发集、测试集。

下载链接:openslr.org

3、MagicData-RAMC :180小时中文对话式语音数据集

简介:Magic Data 联合中科院声学研究所、上海交通大学和西北工业大学共同开源的中文对话式语音数据集。MagicData-RAMC 数据集包含了180小时的对话式语音数据,这些数据由普通话母语者通过移动电话录制,采样率为16 kHz。

  • 对话内容:数据集包含351组多轮普通话对话,每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。
  • 说话人信息:数据集中共有663位说话人参与,其中男性368人、女性295人,来自中国不同地区,以确保性别和地域分布的均衡性。
  • 话题多样性:对话内容覆盖了15个不同的领域,话题丰富多样,从科学技术到日常生活等。
  • 数据收集环境:所有录音均在室内环境中进行,声学环境为不足20平米的房间,混响时间(RT60)小于0.4秒,环境噪音水平低于40dB(A)
  • 数据标注:转录文本由专业人员手动标注并校对,标注信息非常丰富,包括非语言信息如笑声、音乐声、噪声等,以及犹豫、重复等语言不流畅现象。
  • 数据集划分:数据集被划分为150小时的训练集、10小时的开发集和20小时的测试集,以支持不同的研究和开发需求。

下载链接:ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus - MagicHub

4、Common Voice

简介:Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400 小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。数据集中的每一条都包含了一组独立 MP3 录音及相应的文本文件。数据集所记录的 26,119 小时的录音中 ,有许多条数据同时包含了年龄、性别、口音等人口统计元数据 ,能够训练语音识别 引擎提升其准确性。

下载链接:Common Voice

5、CMU Wilderness Multilingual Speech Dataset

简介:CMU野外多语言语音数据集是一个包含700多种不同语言的数据集 ,提供音频、对齐文本和 单词发音。平均每种语言提供大约20小时的句子长度转录。

下载链接:Wilderness Multilingual Speech Dataset

6、KeSpeech

简介:该数据集涉及中国34个城市的27237名发言者记录的1542小时语音信号 ,语音包括标准普通话及其8个方言。

  • 数据集提供了多个标签 ,包括内容转录、说话人身份和子标签 ,因此支持多种语音处理任务 ,如语音识别、说话人识别和子标签识别 ,以及其他高级技术 ,如多任务学习和条件学习。
  • 一些文本样本是用标准普通话和特定的子词典并行记录的,允许新的应用,如子词典风格转换。
  • 演讲者的数量比其他开源数据集大得多 ,这使得它适合于需要大量演讲者提供训练数据的任务。
  • 语音信号被分为两个阶段记录 ,这为研究人 类语音的时变特性提供了机会。

下载链接:https://github.com/KeSpeech/KeSpeech

7、GigaSpeech

简介:GigaSpeech是一个不断发展的多域英语语音识别语料库 ,具有10000小时的高质量标记音频 ,适合于监督训练 ,40000小时的总音频 ,适合半监督和无监督训练。首先从有声读物、播客和 YouTube上收集了约40000小时的转录音频 ,涵盖阅读和自发说话风格 ,以及各种主题 ,如艺术、 科学、体育等 ,并过滤出具有低质量转录的片段。

下载链接:https://github.com/SpeechColab/GigaSpeech

8、Free ST Chinese Mandarin Corpus

简介:这个语料库是用手机在室内安静的环境中录制的。 它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对保证转录精度。语料库包含: 1音频文件;2转录;3元数据

下载链接:http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/7927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器人系统ros2-开发实践07-将机器人的状态广播到 tf2(Python)

上个教程将静态坐标系广播到 tf2,基于这个基础原理这个教程将演示机器人的点位状态发布到tf2 1. 写入广播节点 我们首先创建源文件。转到learning_tf2_py我们在上一教程中创建的包。在src/learning_tf2_py/learning_tf2_py目录中输入以下命令来下载示例广播示例代码…

双ISP住宅IP有何优势?

双ISP住宅IP在当前的互联网环境中具有显著的优势,这些优势主要体现在网络连接的稳定性、安全性、速度以及业务适用范围等方面。以下是对双ISP住宅IP优势的详细分析: 第一点网络连接的稳定性,双ISP住宅IP使用两个不同的互联网服务提供商&…

CompletableFuture使用案例

优化代码时,除了Async注解,项目中如何使用多线程异步调用? 举个例子,去餐厅吃饭的时候。先点餐,厨师做菜,在厨师做菜的时候打游戏,然后根据厨师做的菜的口味去买矿泉水还是可乐。这样&#xff0…

区块链 | NFT 相关论文:Preventing Content Cloning in NFT Collections(三)

🐶原文: Preventing Content Cloning in NFT Collections 🐶写在前面: 这是一篇 2023 年的 CCF-C 类,本博客只记录其中提出的方法。 F C o l l N F T \mathbf{F_{CollNFT}} FCollNFT​ and Blockchains with Native S…

SpringBoot2 仿B站高性能前端+后端项目(wanjie)

SpringBoot2 仿B站高性能前端后端项目(完结) Spring Boot 2 仿B站高性能前端后端项目:打造高效、稳定、可扩展的应用 在当今的互联网时期,网站的性能、稳定性和可扩展性成为了权衡一个项目胜利与否的关键要素。本文将引见如何运用 Spring Boot 2 构建一…

智启算力平台基本操作

智启算力平台 智启算力平台路径搭载数据集搭载镜像配置 智启算力平台 开发文档 帮助文档 - OpenI - 启智AI开源社区 路径搭载 OpenIOSSG/promote: 启智AI协作平台首页推荐组织及推荐项目申请。 - notice/Other_notes/SDKGetPath.md at master - promote - OpenI - 启智AI开…

数据结构-线性表-应用题-2.2-11

1)算法的基本设计思想&#xff1a; 分别求两个升序序列的中位数a,b 若ab&#xff0c;则a或b即为所求中位数 若a<b&#xff0c;则舍弃A中较小的一半&#xff08;中位数偏小&#xff0c;往后面找&#xff09;&#xff0c;同时舍弃序列B中较大的一半&#xff0c;两次舍弃长度…

【Leetcode每日一题】 穷举vs暴搜vs深搜vs回溯vs剪枝_全排列 - 子集(解法2)(难度⭐⭐)(72)

1. 题目解析 题目链接&#xff1a;78. 子集 这个问题的理解其实相当简单&#xff0c;只需看一下示例&#xff0c;基本就能明白其含义了。 2.算法原理 为了生成一个给定数组 nums 的所有子集&#xff0c;我们可以利用一种称为回溯&#xff08;backtracking&#xff09;的算法…

pytest(二):关于pytest自动化脚本编写中,初始化方式setup_class与fixture的对比

一、自动化脚本实例对比 下面是一条用例,使用pytest框架,放在一个类中,两种实现方式: 1.1 setup_class初始化方式 1. 优点: 代码结构清晰,setup_class 和 teardown_class 看起来像传统的类级别的 setup 和 teardown 方法。2. 缺点: 使用 autouse=True 的 fixture 作为…

Mac 链接 HP 136w 打印机步骤

打开 WI-FI 【1】打开打印机左下角Wi-Fi网络设计【或者点击…按钮进入WI-FI菜单】&#xff0c;找到NetWork选项OK进入&#xff1b; 【2】设置WI-FI选项&#xff1a;在菜单内找到Wi-Fi选项OK进入&#xff1b; 【3】在菜单内找到Wi-Fi Direct选项OK进入&#xff1b; 【4】在菜单…

java:File类概述和构造方法

一、File类概述和构造方法 1.File类的概述 File&#xff1a;它是文件和目录路径名的抽象表示 文件和目录是可以通过File封装成对象的对File而言&#xff0c;其封装并不是一个真正存在的文件&#xff0c;仅仅是一个路径名而已。它可以是存在的&#xff0c;也可以是不存在的。…

瑞友天翼应用虚拟化系统SQL注入致远程代码执行漏洞复现

0x01 产品简介 瑞友天翼应用虚拟化系统是西安瑞友信息技术资讯有限公司研发的具有自主知识产权,基于服务器计算架构的应用虚拟化平台。它将用户各种应用软件集中部署在瑞友天翼服务器(群)上,客户端通过WEB即可快速安全的访问经服务器上授权的应用软件,实现集中应用、远程接…

人工智能-2024期中考试

前言 人工智能期中考试&#xff0c;认真准备了但是没考好&#xff0c;结果中游偏下水平。 第4题没拿分 &#xff08;遗传算法&#xff1a;知识点在课堂上一笔带过没有细讲&#xff0c;轮盘赌算法在书本上没有提到&#xff0c;考试的时候也没讲清楚&#xff0c;只能靠猜&…

Python网络协议socket

01 协议基础 01 网络协议 协议&#xff1a;一种规则 网络协议&#xff1a;网络规则&#xff0c;一种在网络通信中的数据包的数据规则 02 TCP/IP协议 osi模型 tcp/ip协议 03 tcp协议 TCP协议提供了一种端到端的、基于连接的、可靠的通信服务。 三次握手 创建连接 四次挥手…

华为:三层交换机与路由器连通上网实验

三层交换机是一种网络交换机&#xff0c;可以实现基于IP地址的高效数据转发和路由功能&#xff0c;通常用于大型企业、数据中心和校园网络等场景。此外&#xff0c;三层交换机还支持多种路由协议&#xff08;如OSPF、BGP等&#xff09;&#xff0c;以实现更为复杂的网络拓扑结构…

深度学习之基于Matlab卷积神经网络验证码识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 随着互联网的发展&#xff0c;验证码作为一种常用的安全验证手段&#xff0c;被广泛应用于各种网站和…

W801学习笔记二十一:英语背单词学习应用——上

英语背单词是比较常见的学习APP&#xff0c;参考唐诗宋词应用&#xff0c;本章做一个类似的应用。 一、单词数据清洗及格式转换 诗词数据的获取渠道很多&#xff0c;一般可以按照年级来分文件。如一到九年级&#xff0c;四六级&#xff0c;雅思等等。 1、先从网上某某地方下载…

python+flask+ldap3搭建简易版IDaaS系统(前端站点)

Python工具开源专栏 Py0006 pythonflaskldap3搭建简易版IDaaS系统&#xff08;前端站点&#xff09; Python工具开源专栏前言目录结构前端网站的部分演示首页查询数据数据同步数据关联查询系统日志 完整代码已在GitHub上开源 前言 pythonflaskldap3搭建简易版IDaaS系统的前端站…

redis分片java实践、redis哨兵机制实现、redis集群搭建

redis分片java实践 linux安装redishttps://mp.csdn.net/mp_blog/creation/editor/134864302复制redis.conf配置文件成redis1.conf、redis2.conf、redis3.conf 修改redis的端口信息和存pid文件的路径。存pid文件的路径只要不同就行了&#xff0c;没什么特别要求。 指定配置文件…

《Fundamentals of Power Electronics》——示例:Buck-Boost转换器模型变为正则形式

为了说明正则电路模型推导的步骤&#xff0c;让我们将buck-boost转换器的等效电路操作成规范形式。buck-boost转换器的一个小信号交流等效电路如下图所示。 为了将上图所示网络转换成正则形式&#xff0c;需要将所有独立源d(t)转换到左侧&#xff0c;而将所有电感转换到右侧与变…