语音数据集2-VCTK多人音频

VCTK

VCTK全称是Centre for Speech Technology Voice Cloning Toolkit (CSTR’s VCTK Corpus),即语音克隆工具包。

1. 简介

数据是109 位英语母语人士(不同口音)。每位朗读大约 400 句子

大部分句子都是从《先驱报》(格拉斯哥)选出,外加一段彩虹段落和一段方言识别段落。报纸部分,每人朗读不同句子,句子是用贪婪算法选择,最大限度地覆盖上下文和语音。彩虹段落和引出段落对所有发言人来说都是相同的。

1.1 《彩虹段落》(The Rainbow Passage)

语音语言学的经典文本段落,广泛用于语音研究、语言治疗、语音合成和语音识别等。该文本具有多样的语音特征和语言内容。

  • 音素 - 包含了英语中广泛的音素(即语音的最小单位),包括元音、辅音以及它们的各种组合。

  • 发音变化 - 句子结构和内容设计使说话者需要不同的发音模式,展现语音多样性。

  • 语法: 段落包含了复杂的句法结构,如复合句和从句,有助于研究语音在不同语法环境下的表现。

  • 词汇: 涵盖了多种词汇和表达,适合测试语言的流畅性和准确性。

  • 内容: 涵盖彩虹相关自然现象、文化传说,历史解释、隐喻等。

段落原文:

When the sunlight strikes raindrops in the air, they act as a prism and form a rainbow. The rainbow is a division of white light into many beautiful colors.  These take the shape of a long round arch, with its path high above, and its two ends apparently beyond the horizon. There is , according to legend, a boiling pot of gold at one end. People look, but no one ever finds it.  When a man looks for something beyond his reach, his friends say he is looking for the pot of gold at the end of the rainbow.Throughout the centuries people have explained the rainbow in various ways. Some have accepted it as a miracle without physical explanation. To the Hebrews it was a token that there would be no more universal floods. The Greeks used to imagine that it was a sign from the gods to foretell war or heavy rain. The Norsemen considered
the rainbow as a bridge over which the gods passed from earth to their home in the sky.  Others have tried to explain the phenomenon physically. Aristotle thought that the rainbow was caused by reflection of the sun's rays by the rain. Since then physicists have found that it is not reflection, but refraction by the raindrops which causes the rainbows. Many complicated ideas about the rainbow have been formed.The difference in the rainbow depends considerably upon the size of the drops, and the width of the colored band increases as the size of the drops increases. The actual primary rainbow observed is said to be the effect of super-imposition of a number of bows. If the red of the second bow falls upon the green of the first, the result is to give
a bow with an abnormally wide yellow band, since red and green light when mixed form yellow. This is a very common type of bow, one showing mainly red and yellow, with little or no green or blue.

1.2 方言识别段落(Elicitation Paragraph)

语音语言学家设计用于检测和分析说话者口音方言特征的文本段落。

一个典型方言识别段落包括:

  • 特定的词汇、缩写,具有标志性的方言特征发音。

  • 音调和重音的变化,反映出特定方言的特征

  • 特定的语法结构、短语和非正式用语,以评估口音或方言在不同语境中的表现。

段落原文:

Please call Stella. Ask her to bring these things with her from the store: 
six spoons of fresh snow peas, five thick slabs of blue cheese, and maybe a snack for her brother Bob. We also need a small plastic snake and a big toy frog for the kids. 
She can scoop these things into three red bags, and we will go meet her Wednesday at the train station.

2. 数据细节

2.1 数据格式

  • 录音

    • 使用一支全向麦克风(DPA 4035)和一支宽带宽小振膜电容麦克风(Sennheiser MKH 800)。

    • 录音的采样频率是96 kHz,24位深度,并在爱丁堡大学的半消声室中进行。

    • 异常情况: 有两名说话者(p280 和 p315)在使用MKH 800录音时出现了技术问题。

  • 转换

    • 所有录音都被转换为16位,并降采样至48 kHz。

    • 手动对录音进行了端点处理(即去掉了录音开始和结束的静音部分)。

  • 文本标注

    • 110个录音中的109个提供了对应的文本文件(转录文件),存储在’/txt’文件夹中。

    • 异常情况: 由于硬盘错误,‘p315’的文本丢失。

2.2 衍生版本

  • 原版VCTK (2019-11-13)

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

version 0.92: 10.94 GB

  • Device Recorded VCTK (Small subset version, 2018-03-06)

这个版本使用便宜的消费设备录制,而不是专业录音设备。

在普通的办公环境中,引入了设备和环境的影响,例如背景噪声、回声和设备自身的录音质量。

DR-VCTK , 1.671 GB

  • Noisy Reverberant Speech Database (2017-09-14)

用于噪声抑制和去混响及文本到语音(TTS)的数据集。

通过将干净的语音数据变得“混响和嘈杂”:


1. 将干净的语音信号与一个房间脉冲响应(Room Impulse Response, RIR)进行卷积。模拟语音在一个特定房间内的传播和反射,导致混响效应。2. 将干净的语音信号与一个RIR进行卷积,模拟噪声在房间内的传播和混响。3. 将经过混响处理的语音信号与经过混响处理的噪声信号相加,产生最终的“嘈杂和混响”的语音信号。
  • Noisy speech database

    干净和带杂声平行的数据集

  • Reverberant speech database

    专门用于去混响的数据集

  • 96kHz version of the CSTR VCTK Corpus

    高采样率

Reference

https://datashare.ed.ac.uk/handle/10283/3443

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RIP动态路由配置

1、搭建网络 搭建拓扑、规划IP地址、划分网段、设置端口 2、配置交换机,路由器 三层交换机配置 Switch>enable Switch#conf t Enter configuration commands, one per line. End with CNTL/Z. Switch(config)#hostname S3560S3560(config)#vlan 10 S3560(con…

ComfyUI 和 WebUI

概述 ComfyUI:像拼积木一样,你可以用各种“模块”搭建出一个复杂的图像生成“机器”。适合那些喜欢自己动手折腾、希望精确控制每个步骤的人。WebUI:更像是一个智能“图像生成器”,你只需要输入文字描述,它就能生成图…

【Excel经验】字符串处理方法

概览-公式汇总 序号公式功能公式公式示例公式说明1把多列内容拼接在一起,作为新的一列的内容CONCATENATE (text1,text2,…)CONCATENATE(A2,“#”,B2,“”,C2)用于根据多个列的内容拼成我们指定格式的内容,拼接的内容通常来源于原始数据,同时…

深度学习论文: Depth Anything V2

深度学习论文: Depth Anything V2 Depth Anything V2 PDF: https://arxiv.org/pdf/2406.09414v1 代码:https://depth-anything-v2.github.io/ PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks …

51单片机定时器中断配置

测试环境 单片机型号:STC8G1K08-38I-TSSOP20,其他型号请自行测试; IDE:Keil C51; 定时器配置及主要代码 以定时器T0为例,查看手册,有4种工作模式:模式0(16位自动重装载…

MSPM0G3507——GPIO例程讲解1——input_capture

函数: 参数: 返回值: 主函数代码: #include "ti_msp_dl_config.h"extern volatile uint32_t interruptVectors[];int main(void) {SYSCFG_DL_init(); //把所有的LED灯和按键初始化了一…

设计模式——设计模式介绍

设计模式 设计模式介绍 设计模式: 系统服务设计中针对场景的一种解决方案,可以解决功能逻辑开发中的共性问题,并非所有问题一种开发思想,每个设计模式都有解决某一类问题的概念模型,不要拘束于一种的固定的代码格式…

LangChain:如何高效管理 LLM 聊天历史记录?

LangChain 团队发布了一篇关于使用 Dragonfly DB 来有效管理 LangChain 应用程序聊天历史记录的教程。 该教程旨在解决用户在使用 LangChain 应用程序时普遍遇到的一个问题:如何高效地管理聊天历史记录。 LangChain 团队在推文中强调了 Dragonfly DB 在管理聊天历…

Spring (59)如何在Spring中实现异步处理

在Spring中实现异步处理通常涉及到Async注解。这个注解允许你以异步的方式执行方法,即方法的调用将立即返回,而实际的执行将在不同的线程上异步进行。 使用Async的步骤: 启用异步支持:在配置类上使用EnableAsync注解&#xff0c…

【vue3|第12期】Vue3的Props详解:组件通信

日期:2024年6月19日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

【Redis】黑马点评短信登录

https://blog.csdn.net/qq_33888850/article/details/129770077 https://blog.csdn.net/weixin_51515308/article/details/128010464 https://www.bilibili.com/video/BV1cr4y1671t?p24 导入数据库 https://github.com/MagicToDo/hm-dianping sql文件在 hm-dianping-init\src…

【线性代数】【一】1.6 矩阵的可逆性与线性方程组的解

文章目录 前言一、求解逆矩阵二、线性方程组的解的存在性总结 前言 前文我们引入了逆矩阵的概念,紧接着我们就需要讨论一个矩阵逆的存在性以及如何求解这个逆矩阵。最后再回归上最初的线性方程组的解,分析其中的联系。 一、求解逆矩阵 我们先回想一下在…

计算机网络:运输层 - TCP首部格式 连接的创建与释放

计算机网络:运输层 - TCP首部格式 & 连接的创建与释放 TCP首部格式源端口 目的端口序号确认号数据偏移保留控制位窗口检验和紧急指针 TCP连接创建 - 三次握手TCP传输过程TCP连接释放 - 四次挥手 TCP首部格式 TCP的首部如下: 首部的前20 byte是固定的…

如何验证证书的合法性

在当今的互联网世界中,证书验证是确保信息安全的关键环节。证书,特别是数字证书,用于确认实体的身份以及信息的完整性和真实性。然而,验证证书的合法性并非一蹴而就,它涉及多个技术难点、面试官的关注点、回答吸引力以…

【物联网】室内定位技术及定位方式简介

目录 一、概述 二、常用的室内定位技术 2.1 WIFI技术 2.2 UWB超宽带 2.3 蓝牙BLE 2.4 ZigBee技术 2.5 RFID技术 三、常用的室内定位方式 3.1 信号到达时间 3.2 信号到达时间差 3.3 信号到达角 3.4 接收信号强度 一、概述 GPS是目前应用最广泛的定位技术&#xff0…

一种基于稀疏学习的旋转机械故障诊断方法(MATLAB)

稀疏表示方法是一种利用最少原子在过完备字典上表示或逼近信号的方法,该方法具有信号表示的高分辨率、稀疏性、强抗干扰能力和自适应性等优点。稀疏表示聚焦于设计合适的稀疏表示字典和挖掘有用的稀疏先验信息,其核心思想是将故障特征信息近似表示为字典…

深入理解C++红黑树

目录 一、引言 二、红黑树的基本概念 三、红黑树的性质 四、红黑树的实现 结构 插入 五、红黑树的应用 一、引言 红黑树(Red-Black Tree)是一种自平衡的二叉搜索树,它可以在插入、删除和查找操作中保持相对高效的性能。由于其独特的性…

Linux下VSCode的安装和基本使用

应用场景:嵌入式开发。 基本只需要良好的编辑环境,能支持文件搜索和跳转,就挺OK的。 之所以要在Linux下安装,是因为在WIN11上安装后,搜索功能基本废了,咋弄都弄不好,又不方便重装win系统&#x…

LLM功能应用的测试艺术:策略与实践

在人工智能技术日新月异的今天,大规模语言模型(LLMs)凭借其强大的自然语言处理能力,正逐渐成为众多应用和服务的核心驱动力。从智能客服到创作辅助,从信息检索到个性化推荐,LLMs的广泛应用对测试策略提出了全新的挑战。本文旨在探讨针对拥有LLM功能的应用或软件,如何制定…

韩顺平0基础学java——第29天

p592-599 线程 用户线程和守护线程 1.用户线程:也叫工作线程,当线程的任务执行完或通知方式结束 2守护线程:一般是为工作线程服务的,当所有的用户线选束,守护线程自动结束 3.常见的守护线程:垃圾回收机制 当我们希望当main线程结束后&…