音频数据集1--LJSpeech单人语音

LJ Speech Dataset

版本号: 1.1 , 文件大小: 2.6GB

1.简介

1. 1 内容简介

LJS是一个语音数据集,包含 13,100 个音频片段,内容为Linda Johnson(欧美女性)朗读的 7 本书籍段落(非小说类)。每个片段都提供文本转录,片段长度从 1 到 10 秒不等,总长度约为 24 小时。

  • 7本书籍内容

发表于 1884 年至 1964 年之间,内容如下:

1. 莫里斯,威廉等人。《艺术与手工艺论文集》。1893 年。2.格里菲思,亚瑟。《纽盖特编年史》,第 2 卷。1884 年。3.罗斯福,富兰克林·D。《富兰克林·德拉诺·罗斯福的炉边闲谈》。1933-42 年。4.哈兰德,马里恩。《马里恩·哈兰德的初学者烹饪》。1893 年。5.罗尔特-惠勒,弗朗西斯。《科学 - 宇宙历史》,第 5 卷:生物学。1910 年。6.班克斯,埃德加·J。《古代世界七大奇迹》。1916 年。7.总统肯尼迪总统遇刺事件委员会。总统肯尼迪总统遇刺事件委员会报告。1964 年。
  • 数据集参数
总片段数-Total Clips:  13,100不同单词数-Distinct Words: 13,821总单词数-Total Words:	225,715  # 单词总数量,重复出现也统计总字符数-Total Characters:	1,308,678总时长-Total Duration:	23:55:17平均片段时长-Mean Clip Duration:	6.57 sec最短片段时长-Min Clip Duration: 	1.11 sec最长片段时长-Max Clip Duration:	10.10 sec每片段的平均单词数-Mean Words per Clip:	17.23

1.2 制作简介

  • 静音分段

通过录音中的静音部分自动分段

  • 文本匹配语音内容

通过质量保证检查 (Quality Assurance Pass)来保证文本的准确性。

  • 比特率:128kbps

数据来原LibriVox的格式为MP3,数据有伪影

伪影 (artifacts) 是指在音频文件的压缩和解压缩过程中,由于丢失特征造成的音频失真或不自然效果

  • 脉冲编码调制(Pulse Code Modulation,PCM):

用于模拟信号转换为数字信号

采样率: 每秒钟采样的次数(例如44.1 kHz)。
位深度: 每个样本使用的比特数(例如16位)。
声道数: 音频的声道数(例如立体声是2个声道)。

比特率 (bps)=采样率×位深度×声道数

对于CD质量的音频(44.1 kHz, 16位, 立体声):

44 , 100 H z × 16 b i t s × 2 c h a n n e l s = 1 , 411 , 200 b p s = 1 , 411.2 k b p s 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps

由于MP3是有损压缩格式,通过去除部分音频信息以压缩数据达到较低的比特率,即本数据的128 kbps。

2.音频文件

  • 音频片段位于 wavs文件夹

单个音频文件命名从 LJ001-0001 到 LJ050-0278

代表有50个段落(章节),每个章节有约 200-300个片段

例如,050章有278个片段

  • 音频可视化

050章的前30个片段可视化:

分别是 时域、频域、频谱(y轴log)、mel谱

在这里插入图片描述

3.标注文件

  • 文本标注位于 metadata.csv 文件。

其中 19 个转录本包含非 ASCII 字符(例如,LJ016-0257 包含“raison d’être”)

样例如下:


第一段音频 LJ001-0001 (10s):> Printing in the only sense with which we are at present concerned differs from most if not from all the arts and crafts represented in the Exhibition第二段音频 LJ001-0002 (2s):> in being comparatively modern.|in being comparatively modern.第三段音频 LJ001-0003 (9s):> For although the Chinese took impressions from wood blocks engraved in relief for centuries before the woodcutters of the Netherlands  by a similar process
  • 2次标注

音频的标注文本有2个版本,第1个数字是用阿拉伯字符标记,第2个数字是用英文单词标记,2个标注文本通过字符 ‘|’ 分割。

举几个言例:


LJ001-0008|has never been surpassed.|has never been surpassed.LJ001-0045|1469, 1470;|fourteen sixty-nine, fourteen seventy;LJ002-0035|8. The press yard.|eight. The press yard.
  • 缩写

部分标注单词为缩写(Abbreviation), 其展开(Expansion)后对照如下:

Mr.	Mister
Mrs.	Misess (*)
Dr.	Doctor
No.	Number
St.	Saint
Co.	Company
Jr.	Junior
Maj.	Major
Gen.	General
Drs.	Doctors
Rev.	Reverend
Lt.	Lieutenant
Hon.	Honorable
Sgt.	Sergeant
Capt.	Captain
Esq.	Esquire
Ltd.	Limited
Col.	Colonel
Ft.	Fort

4. Pytorch处理

HiFiGAN中处理如下

将文本标注**“metadata.csv“**的文件转为txt格式,并拆分为:

  • 训练集标注”training.txt”

12950个判断

  • 验证集标注”validation.txt”

150个片段

Reference

  • 文中图片代码

  • https://keithito.com/LJ-Speech-Dataset/

  • https://github.com/keithito/tacotron

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32506.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

八大排序之希尔排序

一、概念及其介绍 希尔排序(Shell Sort)是插入排序的一种,它是针对直接插入排序算法的改进。 希尔排序又称缩小增量排序,因 DL.Shell 于 1959 年提出而得名。 它通过比较相距一定间隔的元素来进行,各趟比较所用的距离随着算法的进行而减小…

什么是微分和导数?

文章目录 设立问题微分特性指数特性线性特性常数特性 多项式微分导数 在机器学习领域,有多种解决最优化问题的方法,其中之一就是使用微分。 通过微分,可以得知函数在某个点的斜率,也可以了解函数在瞬间的变化。 设立问题 请想象一…

Tortoise 删除文件

1、右击需要删除的文件,选择Delete 2、提交

【查看显卡信息】——Ubuntu和windows

1、VMware虚拟机 VMware虚拟机上不能使用CUDA/CUDNN,也安装不了显卡驱动 查看显卡信息: lspci | grep -i vga 不会显示显卡信息,只会输出VMware SVGA II Adapter,表示这是一个虚拟机,无法安装和使用显卡驱动 使用上…

GitHub 标星 6

美国网友对这个大全给予了很高的评价:这份清单中列出的开源软件,不仅解决了硅谷大厂前员工的难处,也能为其他所有码农解除困惑。 在这套大全的指导下,任何一个工程师,都能获得类似在谷歌内部写代码的体验。xg2xg 上线…

fot循环语句

概念: 循环是一种重复执行一段代码的结构,只要满足循环的条件,会一种执行这个代码。 循环条件:在一定范围内,按照指定的次数来执行循环 循环体:在指定的次数内,执行的命令序列。只要条件满足…

骑马与砍杀-战团mod制作-基础篇-武器模型入骑砍(二)

骑马与砍杀战团mod制作-基础-武器模型入骑砍笔记(二) 资料来源 学习的资料来源: b站【三啸解说】手把手教你做【骑砍】MOD,基础篇,链接为: https://www.bilibili.com/video/BV19x411Q7No?p4&vd_sour…

【SpringCloud-Seata源码分析2】

文章目录 分支事务注册-客户端分支事务服务端的执行 分支事务注册-客户端 第一篇我们将全局事务启动,以及开启源码分析完成了,现在我们需要看一下分支事务注册。 我们分支事务的开始需要从PreparedStatementProxy#executeUpdate中去看。 public class…

智能物流系统堪比帝王宠信妃子,我给你类比说明一下……

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》人俱乐部 让我们将智能物流系统种涉及出库入库作业完整链条的“货到人”拣选系统的工作流程与古代帝王宠信翻牌妃子的过程进行一个有趣的类比&…

【vue3|第13期】深入了解Vue3生命周期:管理组件的诞生、成长与消亡

日期:2024年6月22日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

【SSM】医疗健康平台-管理端-检查组管理

技能目标 掌握新增检查组功能的实现 掌握查询检查组功能的实现 掌握编辑检查组功能的实现 掌握删除检查组功能的实现 体检的检查项种类繁多,为了方便管理和快速筛选出类别相同的检查项,医疗健康将类别相同的检查项放到同一个检查组中进行管理&#…

【CV炼丹师勇闯力扣训练营 Day8】

CV炼丹师勇闯力扣训练营 代码随想录算法训练营第8天 ● 344.反转字符串 ● 541. 反转字符串II ● 卡码网:54.替换数字 一、344 反转字符串 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额…

# Kafka_深入探秘者(1):初识 kafka

Kafka_深入探秘者(1):初识 kafka 一、kafka 特性 1、Kafka :最初是由 Linkedln 公司采用 Scala 语言开发的一个多分区、多副本并且基于 ZooKeeper 协调的分布式消息系统,现在已经捐献给了 Apache 基金会。目前 Kafka…

如何使用kimi智能助手:您的智能生活小助手

Kimi智能助手是一款功能强大的AI工具,旨在帮助用户提高工作效率和生活品质。下面小编将详细介绍如何使用Kimi智能助手,涵盖其主要功能以及一些实用技巧。 一、Kimi智能助手的主要功能 多语言对话能力:Kimi擅长中文和英文的对话,可…

探索计算机视觉(人工智能重要分支)的发展与应用

引言 在当今快速发展的科技时代,计算机视觉作为人工智能领域的重要分支,正日益成为各行各业不可或缺的关键技术。从简单的图像处理到复杂的智能系统,计算机视觉的发展不仅改变了我们看待世界的方式,也深刻影响着工业、医疗、交通等…

Windows安装配置jdk和maven

他妈的远程连接不上公司电脑,只能在家重新配置一遍,在此记录一下后端环境全部配置 Windows安装配置JDK 1.8一、下载 JDK 1.8二、配置环境变量三、验证安装 Windows安装配置Maven 3.8.8一、下载安装 Maven并配置环境变量二、设置仓库镜像及本地仓库三、测…

2024最新版Python 3.12.4安装使用指南

2024最新版Python 3.12.4安装使用指南 2024最新版Python 3.12.4安装使用指南0. Python的受欢迎程度1. 安装最新版Python 3.12.42. 验证Python 3.12.4版本3. 验证Python功能4. 使用IDLE交互式开发模式5. 安装Python扩展库相关阅读: By Jackson 2024最新版Python 3.12…

java基于ssm+jsp 汽车在线销售系统

1 前台功能模块 网站首页 网页首页汽车在线销售系统模块如下:首页、汽车信息、新闻资讯、留言反馈、我的收藏管理等功能图1 图1网页首页 网页前台车辆信息效果图如图2所示 图2 车辆信息界面图 2 管理员功能模块 管理员输入个人的账号、密码登录系统&#xff0c…

压力测试

1.什么是压力测试 压力测试考察当前软硬件环境下系统所能承受的最大负荷并帮助找出系统瓶颈所在。压测都是为了系统在线上的处理能力和稳定性维持在一个标准范围内,做到心中有数 使用压力测试,我们有希望找到很多种用其他测试方法更难发现的错误&#…

基于matlab的K-means聚类图像分割

1 原理 K-means聚类算法在图像分割中的应用是基于一种无监督的学习方法,它将图像中的像素点或特征区域划分为K个不同的簇或类别。以下是K-means聚类算法用于图像分割的原理,包括步骤和公式: 1.1 原理概述 选择簇的数量(K): 首先…