本节主要对”音乐”和”人声“等概念初步整理,并过度到AI模型的讲解,本节后续会有补充或修改。
1. 名词概念
1.1 音频类
- 基频(f0)
复杂声音(例如人声、乐器音)通常由多个频率成分组成。基频是最低的频率成分,是整个声音波形的周期性重复的基础。其他的频率成分是基频的整数倍,称为谐波(harmonics)或泛音。
- Pitch(Tone) 音高/音调
Pitch: 音高是 音频”频率“的主观感知,有高低的区别。Tone: 音调, 即声调 是 音高的变化规律,即声高的局部周期性。
对于乐器音符,基频越高,音高越高。
对于人声,男生基频低,女生基频高。
- Timbre 音色
在任意时刻,声波振动产生的基频与谐波(基频的倍数),其频率数值和波的成分比例决定了声音的音色。
1.人声:当人说话或唱歌时,声带振动产生的主要频率就是基频(f0)。男声的基频通常在 85 Hz 到 180 Hz 之间,女声的基频通常在 165 Hz 到 255 Hz 之间。2.乐器:乐器的声音也是由基频和谐波组成。3.钢琴-弹奏音符中央C(C4)时,不仅会听到C4的基频,还会隐约听到其谐波,不同钢琴的音色是丰富和复杂的,每个音符包含了基频率及其谐波。每个音符频率基于十二平均律调音,即相邻音符的频率比是固定的 \sqrt[12]{2}(约1.05946)。同时:-钢琴中央C(C4)的基频约:261.63 Hz-二阶谐波:523.26 Hz(1个八度上,即C5)-三阶谐波:784.89 Hz(接近G5,因与纯音频率有少许偏差)-四阶谐波:1046.52 Hz(两个八度上,即C6)-五阶谐波:1307.15 Hz(接近E6)-六阶谐波:1569.78 Hz(接近G6)4.吉他- 弦在振动时,产生的基频是 440 Hz(即 A4 音),同时还会有 880 Hz、1320 Hz 等谐波。
1.2 语音类
首先要分清: 语音、语言、语义
- 语音
语言的外部形式,是人的发音器官震动发出的声波。
- 语言
是 人类 交流的表达方式,也是文化的载体,可以表达 思想 和感情等。
- 语义
即 “语言的意义” 包含
- 思想, 即“理性意义”,“逻辑意义”。
- 情感,即“非理性意义”,包括主观情绪、态度及语体风格等
.
- Phoneme 音素
1.Vowels(元音音素):通过声带振动从声道发出的声音,发音时口腔内没有明显的气流阻碍。
不同的元音主要通过舌头的位置(高低、前后)和嘴唇的形状来区分。
例如,英语中的元音 /i/(如 "see" 中的音)与 /u/(如 "food" 中的音)就是通过舌头和嘴唇的位置差异来区分的。
2.Consonants(辅音音素):辅音是通过在声道中产生气流阻碍来发出声音。这种阻碍可以是完全的阻塞(如 /t/)或者部分的(如 /f/)。
辅音音素分类通常基于三个主要的特征:发音位置(如双唇、齿龈等)、发音方式(如爆破音、摩擦音等)和声带振动情况(清音和浊音)。
- Syllable 音节
音节(Syllable)是语音中可感知的最小单位,一个音节由一个或多个音素(phonemes)组成。音节决定语言节奏和韵律。音节是词汇构建,在诗歌、歌曲和朗读中,音节的数目和分布对韵律和节奏有很大影响。
* 最小的发音单位:通常包含一个元音(vowel)或元音音素作为核心,这个核心被称为音节核(syllable nucleus)。在一些语言中,音节还可以包含一个或多个辅音(consonants)作为音节的边界(syllable margins)。* 组成:* 声母(Onset):音节的开头部分,通常是一个或多个辅音。* 韵母(Rhyme):音节的后半部分,由音节核和音节尾组成。* 音节核(Nucleus):通常是一个元音,是音节的最重要部分,决定了音节的响亮度。* 音节尾(Coda):紧随音节核的部分,通常是一个或多个辅音。
在一些语言中,音节可以没有声母(如英语中的单词 “eye”),或者没有音节尾(如 “go”)。
* 音节的种类:* 开放音节(Open Syllable):以元音结束,如 "no"。* 闭合音节(Closed Syllable):以辅音结束,如 "cat"。* 简单音节(Simple Syllable):只有一个元音或辅音和元音的组合,如 "me"。* 复杂音节(Complex Syllable):包含多个辅音和元音的组合,如 "strength"。
- Prosody 韵律
韵律涵盖语言的节奏、音高、强度、语调和音长等超音段(suprasegmental features)音质特征。包括音节和音素的组合,及更长的语音结构。用于分析表达情感、意义和语法结构。
韵律的组成:
1.节奏(Rhythm):* 节奏是指语言中音节或词汇的时长和间隔的模式。节奏可以通过语音中重读和非重读音节的排列以及音节的时长来体现。* 英语是一个重音时间语言(stress-timed language),即重读音节之间的时间间隔大致相等。而西班牙语则是一个音节时间语言(syllable-timed language),即每个音节的时间间隔大致相等。2.重音(Stress):* 重音是指在某个音节或词汇上加重发音。重音可以改变单词或句子的意义(如“record”作为名词和动词在英语中的重音位置不同)。* 重音在不同语言中的分布和功能有所不同。例如,法语的重音通常出现在词的最后一个音节,而英语的重音可以出现在词的任何位置。3.语调(Intonation):* 语调是指在句子层面上音高(Pitch)的整体变化模式。语调可以表示疑问、陈述、命令等语气,还可以用来区分句子结构(如在英语中,升调通常用于是非疑问句,降调用于陈述句)。* 语调还可以用来表达情感,如高昂的语调可能表示兴奋或惊讶,而平稳的语调可能表示平静或冷静。* 汉语是一种声调语言,每个音节的音高模式(声调)直接决定词义。例如,“妈(mā)”、“麻(má)”、“马(mǎ)”和“骂(mà)”因声调不同而表示不同的意思。4.音长(Duration):* 音长是指音素或音节的发音时长。音长的变化可以影响语言的节奏和韵律,有时还可以改变词汇的意义(如在日语中,音长变化可以区分词义)。
.
- 音韵(Phonology)
音韵关注音素及其组合和变化规律,是语言的音段层面(segmental level)的特征。关注音素及其组合规则、音位变体、音节结构、音韵模式等。它揭示了语言中如何利用声音来传达意义的深层次结构,并与韵律(Prosody)等超音段特征紧密相关。
1.3 人声类
- 辅音
发音时声带不振动的辅音,辅音的产生主要依靠气流在口腔或喉部的阻碍或摩擦。辅音可以分为清辅音(Voiceless consonant )和浊辅音两大类。
清辅音是指在发音时声带不振动的辅音
浊辅音则是指在发音时声带振动的辅音,振动为浊音提供了音色和共振。
1. 清辅音的例子:* /p/:如 "pin"* /t/:如 "top"* /k/:如 "cat"* /s/:如 "sit"* /ʃ/:如 "ship"* /f/:如 "fine"
2. 浊辅音的例子:* /b/:如 "bat"* /d/:如 "dog"* /g/:如 "go"* /z/:如 "zip"* /v/:如 "vet"* /ð/:如 "this"
3. 发音区别:
清辅音与浊辅音的发音方式相似,区别在于声带的振动状态。例如,/p/ 和 /b/ 在舌位和唇音的制约下发音的过程相似,但/b/ 是浊辅音,其振动声带,而/p/ 是清辅音,不声带振动。
- 语言中的应用:
英语中清辅音和浊辅音之间可区分词义,例如 “pin” 和 “bin” 的区别就在于/p/ 和/b/ 的区别。
- 齿音
主要是: zhi-chi-shi
上下牙齿较近时,发音气流过长造成的刺耳声音
发音快速过度 或 上下牙齿保持距离
2. 主流任务
2.1 文本生成语音(TTS)
-
concatenative TTS
从单个说话者那里录制一个非常大的简短语音片段数据库,然后重新组合拼接成完整的话语。
-
parametric TTS
生成数据所需的所有信息都存储在模型的参数中(声码器),语音的内容和特征可以通过模型的输入进行控制。如隐马尔可夫模型(HMM-based Speech Synthesis),深度神经网络等。
2.2 语音转换(VC)
-
VC(Voice Conversion)即变声,从一个人的声音,转换到另一个人
-
SVC(Singing Voice Conversion), VC子任务,即歌声转换
3. 模型结构
3.1 结构总览
当前模型结构都可以归纳为自编码器结构(auto-encoder),即【编码器-解码器】结构,部分模型只有编码器,或只有解码器。
-
编码器提取或压缩特征
-
解码器根据低维特征,生成目标内容
输入语音│ ▼
─────
特征提取 (降维-下采样得到低纬度特征,如潜空间向量、梅儿谱等)│ ▼ 【编码器-特征提取 模型】
─────
特征对齐 (输入特征 和 目标特征对齐, 是 输入特征 和 目标特征 融合的 关键)【融合-对齐 模型】
───── │ 【解码器-声码器-生成模型】▼
特征表征 (将融合的特征 升维-上采样,输出目标语音)
─────│ ▼
输出语音
3.2 主流模型
主流TTS和VC模型都是自编码器结构
TTS 模型重点在编码器,该编码器提取声音的语义特征,以匹配文本
VC模型重点在解码器,也叫生码器,用于生成转换后的变声语音
-
So-VITS-SVC 和 RVC
包含 Hubert 编码器 和 VITs变声模型, 以及HifiGAN
-
Shallow Diffusion Mechanism (DiffSinger)
包含 隐空间扩散模型增强的HifiGAN
-
Neural Source Filter (NSF-HiFiGAN)
> 包含 NSF的HifiGAN
Reference
- https://medium.com/qosmo-lab/state-of-the-art-singing-voice-conversion-methods-12f01b35405b
后续内容可以关注公众号 “迪AI”