音频数据集1--LJSpeech单人语音

LJ Speech Dataset

版本号: 1.1 , 文件大小: 2.6GB

1.简介

1. 1 内容简介

LJS是一个语音数据集,包含 13,100 个音频片段,内容为Linda Johnson(欧美女性)朗读的 7 本书籍段落(非小说类)。每个片段都提供文本转录,片段长度从 1 到 10 秒不等,总长度约为 24 小时。

  • 7本书籍内容

发表于 1884 年至 1964 年之间,内容如下:

1. 莫里斯,威廉等人。《艺术与手工艺论文集》。1893 年。2.格里菲思,亚瑟。《纽盖特编年史》,第 2 卷。1884 年。3.罗斯福,富兰克林·D。《富兰克林·德拉诺·罗斯福的炉边闲谈》。1933-42 年。4.哈兰德,马里恩。《马里恩·哈兰德的初学者烹饪》。1893 年。5.罗尔特-惠勒,弗朗西斯。《科学 - 宇宙历史》,第 5 卷:生物学。1910 年。6.班克斯,埃德加·J。《古代世界七大奇迹》。1916 年。7.总统肯尼迪总统遇刺事件委员会。总统肯尼迪总统遇刺事件委员会报告。1964 年。
  • 数据集参数
总片段数-Total Clips:  13,100不同单词数-Distinct Words: 13,821总单词数-Total Words:	225,715  # 单词总数量,重复出现也统计总字符数-Total Characters:	1,308,678总时长-Total Duration:	23:55:17平均片段时长-Mean Clip Duration:	6.57 sec最短片段时长-Min Clip Duration: 	1.11 sec最长片段时长-Max Clip Duration:	10.10 sec每片段的平均单词数-Mean Words per Clip:	17.23

1.2 制作简介

  • 静音分段

通过录音中的静音部分自动分段

  • 文本匹配语音内容

通过质量保证检查 (Quality Assurance Pass)来保证文本的准确性。

  • 比特率:128kbps

数据来原LibriVox的格式为MP3,数据有伪影

伪影 (artifacts) 是指在音频文件的压缩和解压缩过程中,由于丢失特征造成的音频失真或不自然效果

  • 脉冲编码调制(Pulse Code Modulation,PCM):

用于模拟信号转换为数字信号

采样率: 每秒钟采样的次数(例如44.1 kHz)。
位深度: 每个样本使用的比特数(例如16位)。
声道数: 音频的声道数(例如立体声是2个声道)。

比特率 (bps)=采样率×位深度×声道数

对于CD质量的音频(44.1 kHz, 16位, 立体声):

44 , 100 H z × 16 b i t s × 2 c h a n n e l s = 1 , 411 , 200 b p s = 1 , 411.2 k b p s 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps

由于MP3是有损压缩格式,通过去除部分音频信息以压缩数据达到较低的比特率,即本数据的128 kbps。

2.音频文件

  • 音频片段位于 wavs文件夹

单个音频文件命名从 LJ001-0001 到 LJ050-0278

代表有50个段落(章节),每个章节有约 200-300个片段

例如,050章有278个片段

  • 音频可视化

050章的前30个片段可视化:

分别是 时域、频域、频谱(y轴log)、mel谱

在这里插入图片描述

3.标注文件

  • 文本标注位于 metadata.csv 文件。

其中 19 个转录本包含非 ASCII 字符(例如,LJ016-0257 包含“raison d’être”)

样例如下:


第一段音频 LJ001-0001 (10s):> Printing in the only sense with which we are at present concerned differs from most if not from all the arts and crafts represented in the Exhibition第二段音频 LJ001-0002 (2s):> in being comparatively modern.|in being comparatively modern.第三段音频 LJ001-0003 (9s):> For although the Chinese took impressions from wood blocks engraved in relief for centuries before the woodcutters of the Netherlands  by a similar process
  • 2次标注

音频的标注文本有2个版本,第1个数字是用阿拉伯字符标记,第2个数字是用英文单词标记,2个标注文本通过字符 ‘|’ 分割。

举几个言例:


LJ001-0008|has never been surpassed.|has never been surpassed.LJ001-0045|1469, 1470;|fourteen sixty-nine, fourteen seventy;LJ002-0035|8. The press yard.|eight. The press yard.
  • 缩写

部分标注单词为缩写(Abbreviation), 其展开(Expansion)后对照如下:

Mr.	Mister
Mrs.	Misess (*)
Dr.	Doctor
No.	Number
St.	Saint
Co.	Company
Jr.	Junior
Maj.	Major
Gen.	General
Drs.	Doctors
Rev.	Reverend
Lt.	Lieutenant
Hon.	Honorable
Sgt.	Sergeant
Capt.	Captain
Esq.	Esquire
Ltd.	Limited
Col.	Colonel
Ft.	Fort

4. Pytorch处理

HiFiGAN中处理如下

将文本标注**“metadata.csv“**的文件转为txt格式,并拆分为:

  • 训练集标注”training.txt”

12950个判断

  • 验证集标注”validation.txt”

150个片段

Reference

  • 文中图片代码

  • https://keithito.com/LJ-Speech-Dataset/

  • https://github.com/keithito/tacotron

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32506.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

八大排序之希尔排序

一、概念及其介绍 希尔排序(Shell Sort)是插入排序的一种,它是针对直接插入排序算法的改进。 希尔排序又称缩小增量排序,因 DL.Shell 于 1959 年提出而得名。 它通过比较相距一定间隔的元素来进行,各趟比较所用的距离随着算法的进行而减小…

什么是微分和导数?

文章目录 设立问题微分特性指数特性线性特性常数特性 多项式微分导数 在机器学习领域,有多种解决最优化问题的方法,其中之一就是使用微分。 通过微分,可以得知函数在某个点的斜率,也可以了解函数在瞬间的变化。 设立问题 请想象一…

HTML 教程

HTML 教程 HTML(HyperText Markup Language)是一种用于创建网页的标准标记语言。它描述了一个网站的结构骨架,使得浏览器能够展示具有特定格式的文本、链接、图片和其他内容。本教程将带你深入了解HTML的基础知识,包括其语法、常用标签以及如何构建一个基本的网页结构。 …

Tortoise 删除文件

1、右击需要删除的文件,选择Delete 2、提交

【查看显卡信息】——Ubuntu和windows

1、VMware虚拟机 VMware虚拟机上不能使用CUDA/CUDNN,也安装不了显卡驱动 查看显卡信息: lspci | grep -i vga 不会显示显卡信息,只会输出VMware SVGA II Adapter,表示这是一个虚拟机,无法安装和使用显卡驱动 使用上…

GitHub 标星 6

美国网友对这个大全给予了很高的评价:这份清单中列出的开源软件,不仅解决了硅谷大厂前员工的难处,也能为其他所有码农解除困惑。 在这套大全的指导下,任何一个工程师,都能获得类似在谷歌内部写代码的体验。xg2xg 上线…

fot循环语句

概念: 循环是一种重复执行一段代码的结构,只要满足循环的条件,会一种执行这个代码。 循环条件:在一定范围内,按照指定的次数来执行循环 循环体:在指定的次数内,执行的命令序列。只要条件满足…

骑马与砍杀-战团mod制作-基础篇-武器模型入骑砍(二)

骑马与砍杀战团mod制作-基础-武器模型入骑砍笔记(二) 资料来源 学习的资料来源: b站【三啸解说】手把手教你做【骑砍】MOD,基础篇,链接为: https://www.bilibili.com/video/BV19x411Q7No?p4&vd_sour…

模型计算量估计,训练时间预测 Scaling Laws for Neural Language Models

一、模型计算量 C ≈ 6N*D 其中C表示训练语言模型所需的总计算量,N表示模型参数量,D表示用于训练的语料总量,6表示每训练一个token所需的浮点计算量约为6N,其中前向计算2N,反向计算4N。 注意:这里的6是针…

前端小白指南:前端生成唯一设备标识的那些事儿

最近,我在使用javascript开发一个基于Chrome的插件,遇到了一个有意思的需求。插件需要生成一个授权码(code),但为了确保安全性,这个code必须与设备绑定,防止被不同的设备使用,限制一…

Python vs MATLAB: 易于学习和代码可理解性的对比

Python vs MATLAB Python vs MATLAB: 易于学习和代码可理解性**Python的易用性与代码理解****MATLAB的易用性与代码理解****哪个更易上手?****结论** Python vs MATLAB: 易于学习和代码可理解性 在科学计算、工程模拟和数据分析领域,Python和MATLAB是两…

使用 C++11 Lambda 表达式在 Qt 中连接信号与槽

在 Qt 使用 C11 引入的 lambda 表达式来简化信号与槽的连接已经成为一种不错的选择。本文将通过一个简单的例子来展示如何使用 lambda 表达式来连接 QAction 的信号与槽。 传统的连接方式 首先,看看传统的连接方式: QAction* action foo->addActi…

腾讯视频通话接口

简要描述 获取登录IM账号及签名请求URL /videocall/getImUserInfo?account=1234&appName=tv请求方式 GET参数 参数名必选类型说明account是string通话双方统一账号appName是string应用名称,区分不同类型应用如:TV,MINI返回示例 {"code": 200,"status"…

kafka 管理节点 Controller 角色分析

kafka 管理节点 Controller 角色分析 kafka controller 如何管理分区的创建、状态监测、故障切换、内容复制、如何管控分区副本的状态检测故障切换、数据同步、learder 选举?Kafka Controller 是 Kafka 集群中的一个关键组件,负责管理分区的创建、状态监测、故障切换、内容 …

document.write()方法总结

document.write()方法总结 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!document.write()方法是JavaScript中用于向HTML文档写入内容的方法之一。它允许我们在…

【团队成长】2024-25周周报-业务介绍内容创作

大家好!我们是IndustryOR 团队,致力于分享业界落地的算法技术。欢迎关注微信公众号/知乎/CSDN【运筹匠心】 。 记录人:张哲铭,某互联网大厂算法专家 【团队成长/个人成长】系列的推文会以 【工作周报】 的方式记录IndustryOR团队及…

【SpringCloud-Seata源码分析2】

文章目录 分支事务注册-客户端分支事务服务端的执行 分支事务注册-客户端 第一篇我们将全局事务启动,以及开启源码分析完成了,现在我们需要看一下分支事务注册。 我们分支事务的开始需要从PreparedStatementProxy#executeUpdate中去看。 public class…

智能物流系统堪比帝王宠信妃子,我给你类比说明一下……

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》人俱乐部 让我们将智能物流系统种涉及出库入库作业完整链条的“货到人”拣选系统的工作流程与古代帝王宠信翻牌妃子的过程进行一个有趣的类比&…

【vue3|第13期】深入了解Vue3生命周期:管理组件的诞生、成长与消亡

日期:2024年6月22日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

神经科学原理精解【1】

文章目录 神经系统组成神经系统两类细胞脑组织基本结构参考资料 神经系统组成 神经系统由中驱神经系统和外围神经系统组成。中驱神经系统包括脑和脊髓。脑的主要功能是大脑、小脑和脑干。外围神经系统由位于脑和脊髓之外的神经和神经细胞组成。 神经系统两类细胞 神经元 感知…