(undone) 学习语音学中关于 i-vector 和 x-vector

来源:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8461375 (这是一篇跟 X-vector 有关的论文)
这里有更适合初学者的两个资料:
1.https://www.youtube.com/watch?v=R3rzN6JYm38 (MIT教授的youtube视频)
2.https://people.csail.mit.edu/sshum/talks/ivector_tutorial_interspeech_27Aug2011.pdf (MIT教授的slides)


我们来看 MIT 教授的 slides 吧,感觉这玩意儿专注于解释语音学的基本概念
1-10
在这里插入图片描述
这个 slides 的目标是提供 现代低维度语音表示 的理论,以及它们在自动语音识别、情绪识别、语言识别上的应用

一些预先知识包括:
– 语音信号的子空间表示
– 联合因子分析和总体变异性建模的算法
– 子空间表示在自动说话人和语言识别系统中的应用

我觉得我们没必要着急去看预先知识,先看后边的内容,卡住了再考虑这些预先知识

在这里插入图片描述
Just 目录,nothing special

在这里插入图片描述
可从语音提取的信息有:单词、语言种类(英语 or 中文)、说话者的名字(王思聪的声音有辨识度)、情绪状态

在这里插入图片描述
基于能从语音提取的信息,我们能做一些应用:识别。比如识别一段语音是谁说的
这是一个 one-to-many mapping
通常这个问题是一个 “封闭集合识别”,也就是假设 unknown voice 的说话者必然在我们查找的集合里

在这里插入图片描述
语音也可以用于 验证/身份验证/检测
也就是,确认一个 unknown speacker 是否是一个特定的 speaker
这是 one-to-one mapping 问题
这里的 unknown speech 可以来自于相当大量的 unknown speech,也就是,这是一个 “开放集合” 验证
我们可以通过给 “封闭集合” 加上一个 “除这些之外的其它选择”元素,来让 “封闭集合” 识别变成 “开放集合”识别

在这里插入图片描述
还有一种应用是语音分割。应用有:

  • 识别一段声波中,speaker 什么时候改变。
  • 在一段声波中,把属于同一个 speaker 的声波片段组合起来
  • 之前的 speaker 信息此时不一定可获得

在这里插入图片描述
这似乎是在讲语音识别应用,分为有文本和没文本

在这里插入图片描述
如上图,是一个 说话者/语言 识别系统。介绍了训练阶段和识别阶段两个阶段。
其中很多人会忽略的是 特征提取。

11-20
在这里插入图片描述
一段语音,是一个随时间变化的信号,这个信号通常带有多层信息,包括:单词、说话人、语言、情绪

这些信息通常能在信号的时域和频域被观察

在这里插入图片描述
通常来说,为了捕捉信号里的信息,我们需要提取时间序列特征。
典型的方法是使用滑动窗口提取一些频谱特征(spectra)
上图是一个 STFT 短时傅里叶变换,即,使用滑动窗口做傅里叶变换
这样能看到信号各频率强度随时间的变化

TODO: here


首先是摘要
在这里插入图片描述
在本文中,我们使用数据增强来提高深度神经网络(DNN)嵌入矢量在说话人识别中的性能。DNN经过训练以区分不同的说话人,将可变长度的语音片段映射为我们称之为x-vectors的固定维度嵌入(有点类似于 NLP 中的嵌入矢量)。先前的研究发现,嵌入在利用大规模训练数据集方面比i-vectors表现更佳。然而,收集大量标记数据进行训练可能具有挑战性。我们使用数据增强,包括添加噪声和混响,作为一种廉价的方法来增加训练数据量并提高鲁棒性。我们在“野外说话人”数据集和NIST SRE 2016粤语数据集上将x-vectors与i-vector基准进行了比较。结果发现,虽然数据增强对PLDA分类器有益,但对i-vector提取器并没有帮助。然而,x-vector DNN由于其监督训练,能够有效利用数据增强。因此,x-vectors在评估数据集上取得了更优的性能。

看完摘要,初步判断这是比较 x-vector 和 i-vector 的文章,我们来直接跳到第二节 SPEAKER RECOGNITION SYSTEMS,也是类似于其它文章的 BACKROUND


在这里插入图片描述
本节描述了为本研究开发的说话人识别系统,包括两个i-vector基准和DNN x-vector系统。所有系统均使用Kaldi语音识别工具包构建。

在这里插入图片描述
基于文献[11]中描述的GMM-UBM方法的传统i-vector系统作为我们的声学特征基准系统。特征为20个MFCC,帧长度为25毫秒,在最长为3秒的滑动窗口内进行均值归一化。增添了Delta和加速度,形成60维特征向量。基于能量的语音活动检测(SAD)系统选择与语音帧对应的特征。UBM为2048个成分的全协方差GMM。该系统使用600维的i-vector提取器,并采用PLDA进行评分(见第2.4节)。
(感觉似乎并没有讲述 i-vector 是个啥)

TODO: here

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/53294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 基础(一)mkdir、ls、vi、ifconfig

1、linux简介 linux是一个操作系统(os: operating system) 中国有没有自己的操作系统(华为鸿蒙HarmonyOS,阿里龙蜥(Anolis) OS 8、百度DuerOS都有) 计算机组的组成:硬件软件 硬件:运算器&am…

数据结构和算法之树形结构(1)

文章出处: 数据结构和算法之树形结构(1) 关注码农爱刷题,看更多技术文章!! 树形结构是数据结构四种逻辑结构之一,也是被广泛使用的一种逻辑结构,它描述的是数据元素之间一对多的逻辑关系。树是一种非线性的数据结构&a…

初识模版!!

初识模版 1.泛型编程1.1 如何实现一个交换函数呢(使得所有数据都可以交换)?1.2 那可以不可以让编译器根据不同的类型利用该模子来生成代码呢? 2.模版类型2.1 模版概念2.2 函数模版的原理2.3 函数模板的实例化2.4 模板参数的匹配原…

如何优化前端页面的 AJAX 请求性能并避免冲突

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119@qq.com] 📱个人微信:15279484656 🌐个人导航网站:www.forff.top 💡座右铭:总有人要赢。为什么不能是我呢? 专栏导…

开源 AI 智能名片 S2B2C 商城小程序与正能量融入对社群归属感的影响

摘要:本文探讨了开源 AI 智能名片 S2B2C 商城小程序在社群运营中的作用,以及融入正能量对提高社群归属感的关键意义。通过分析正能量的精神感染力和对社群氛围的积极影响,阐述了在开源 AI 智能名片 S2B2C 商城小程序的各类活动中融入正能量的…

flask项目初始化

1、初始环境 python3.8 2、flask文档地址:https://flask.palletsprojects.com/en/latest/installation/#install-flask 3、初始化项目 $ mkdir myproject $ cd myproject $ python3 -m venv .venv $ . .venv/bin/activate $ pip install Flask4、打开项目mypr…

Ansible——Playbook基本功能???

文章目录 一、Ansible Playbook介绍1、Playbook的简单组成1)“play”2)“task”3)“playbook” 2、Playbook与ad-hoc简单对比区别联系 3、YAML文件语法:---以及多个---??使用 include 指令 1. 基本结构2. 数…

java后端字节一面

1. 我现在和你进行视频通话,这个是怎么做的? 视频通话通常基于实时通信技术(RTC),如WebRTC。它利用现代浏览器的API来实现视频、音频和数据的直接P2P(点对点)通信,或通过服务器中转。…

【JavaEE】IP协议 应用层协议

🔥个人主页: 中草药 🔥专栏:【Java】登神长阶 史诗般的Java成神之路 🕶️一.IP地址 IP协议(Internet Protocol)是TCP/IP协议族中最核心的协议之一,它定义了数据包在网络中传输的标准…

应用层协议HTTP介绍

一、HTTP协议介绍 HTTP(HyperText Transfer Protocol,超文本传输协议)是一个至关重要的协议。它定义了客户端(如浏览器)与服务器之间如何通信,以交换或传输超文本。 超文本:视频,音…

24年蓝桥杯及攻防世界赛题-MISC-1

2 What-is-this AZADI TOWER 3 Avatar 题目 一个恐怖份子上传了这张照片到社交网络。里面藏了什么信息?隐藏内容即flag 解题 ┌──(holyeyes㉿kali2023)-[~/Misc/tool-misc/outguess] └─$ outguess -r 035bfaa85410429495786d8ea6ecd296.jpg flag1.txt Reading 035bf…

如何使用命令行快速下载Google Drive/OneDrive大文件

OneDrive OneDrive使用wget下载会出现403 forbidden,可通过下面方法下载。 浏览器右键进入检查界面,选择netowork,搜索download.aspx,然后在待下载文件处点击下载,即可出现下载链接,复制为cURL即可下载。…

日志收集工具 Fluentd vs Fluent Bit 的区别

参考链接: FluentdFluentd BitFluentd & Fluent Bit | Fluent Bit: Official Manual Fluentd 与 Fluent Bit 两者都是生产级遥测生态系统! 遥测数据处理可能很复杂,尤其是在大规模处理时。这就是创建 Fluentd 的原因。 Fluentd 不仅仅是…

jenkins声明式流水线语法详解

最基本的语法包含 pipeline:所有有效的声明式流水线必须包含在一个 pipeline 块中stages:包含一系列一个或多个stage指令stage:stage包含在stages中进行,比如某个阶段steps:在阶段中具体得执行操作,一个或…

React js Router 路由 2, (把写过的几个 app 组合起来)

完整的项目,我已经上传了,资源链接. 起因, 目的: 每次都是新建一个 react 项目,有点繁琐。 刚刚学了路由,不如写一个 大一点的 app ,把前面写过的几个 app, 都包含进去。 这部分感觉就像是, …

[ IDE ] SEGGER Embedded Studio for RISC-V

一、FILE 二、Edit 三、View 四、Search 五、Navigate 六、Project 七、Build 7.1 编译 先选择一个目标类型,再选择编译。 八、Debug 九、Target 十、Tools 10.1 自定义快捷键 点击菜单项,通过Tools –> Options –> Keyboard,实现自…

Java | Leetcode Java题解之第413题等差数列划分

题目: 题解: class Solution {public int numberOfArithmeticSlices(int[] nums) {int n nums.length;if (n 1) {return 0;}int d nums[0] - nums[1], t 0;int ans 0;// 因为等差数列的长度至少为 3,所以可以从 i2 开始枚举for (int i …

安卓13设置动态显示隐藏第一页的某一项 动态显示隐藏无障碍 android13设置动态显示隐藏第一页的某一项

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改4.1修改方法14.2修改方法25.编译6.彩蛋1.前言 有时候,我们的设置里面显示的信息,需要根据不同的情况显示不同的信息,例如,动态的显示或者隐藏 “无障碍” 这一项。 2.问题分析 像这个问题…

英集芯IP5902:集成电压可调异步升压转换充电管理功能的8位MCU芯片

英集芯IP5902是一款集成了9V异步升压转换、锂电池充电管理及负端NMOS管的8-bit MCU芯片,外壳采用了SOP16封装形式,高集成度和丰富的功能使其在应用时只需很少的外围器件,就能有效减小整体方案的尺寸,降低BOM成本,为小型…

Day69补 前后端分离思想

ajax前后端分离 前后端分离处理:前端------(数据)-----服务端----(数据)-----前端-----动态改变页面的内容 1.json 1、JSON:由于JSON易读以及纯文本格式的特性,可以非常容易地与其他程序进行沟通…