Chapter5_Speaker_Verification

文章目录

  • 1 Task Introduction
  • 2 模型架构
  • 3 模型介绍
    • 3.1 i-vector
    • 3.2 d-vector
    • 3.3 x-vector
    • 3.4 more
  • 4 End to End

本文为李弘毅老师【Speaker Verification】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。

文章索引:

上篇 - 4-2 More than Tacotron

下篇 - 6 Vocoder

总目录

1 Task Introduction

在之前的课程当中已经讲过了语音转文字,文字转语音,语音转语音这几个,这次要来讲一下语音转类别。也就是给语音分类。
ch5-1

与语音转类别相关的任务有情感识别,语音事件检测,自闭识别,关键词识别等等,这些技术都是大同小异,今天主要来讲一下【语者验证】。
ch5-2

语者验证指的就是输入两段语音,输出这两段语音是同一个人说出来的概率。有一个应用场景就是【银行客服】。当我们第一次打电话给银行或者去银行的时候,客服会把我们的声音记录下来,然后当我们下一次再打电话给银行的时候,银行就可以比对以下这次的声音和之前的声音是否都是我们说出的,如果不是的话,就需要额外的验证手续了。在判断是否为同一个语者发出的声音时,会人为设置一个threshold,大于该值则为同一个人说的,否则不是。threshold的大小可以根据场景需求设置。
ch5-3
不难想象,只要我们的threshold取的不同,模型的正确率也就会不同。那么,我们如何来评价这个模型的好坏呢?有一个指标叫做Equal Error Rate(EER),EER指的就是下图中,橙色斜线与蓝色曲折线的交点值大小。橙色的线就是一条斜率为1的直线,蓝色的线是我们在取不同大小的threshold时,代表模型结果的FP和FN的值的位置。FP指的是不同语者被判断成同一个语者的概率,FN指的是同一语者被判断成不同语者的概率。如果蓝色的线和橙色的线的交点值越小,那么模型越好。
ch5-4

2 模型架构

整个模型从框架上来说,其实并不复杂。模型就是一个可以抽取语音中语者信息的网络,然后输入一段语音之后,就可以吐出这段语音对应的语者信息向量,也成为speaker embedding。整个过程可以分为三个阶段:

  • 训练模型:
    找一个有多个人说话的数据集,然后把这些语音放到模型里去训练,得到一个得以抽取说话人语者信息的模型。用来训练的数据集一般会比较大。谷歌的非公开数据集有18000个语者说的3600万条语音。这个真的是非常大了,我们没法得到这样的数据集。目前的公开数据集,可以使用VoxCeleb或者VoxCeleb2。这些公开的数据集,就比谷歌的数据集要小很多啦。
  • 录入模板音
    把说话人第一次说话的声音录入下来,输入模型中,讲吐出的语者信息向量作为模板存放起来
  • 对比声音
    把新加入的声音输入模型当中,得到语者信息向量,将其与之前存放起来的模板进行相似度的计算,判断是否是同一人说的
    ch5-5

3 模型介绍

3.1 i-vector

i-vector不是深度学习的模型。李老师说,这个模型可以说是语音界最后一个被深度学习打败的模型,在16年左右,还是比深度学习的模型效果好的。这个模型这里不做介绍,它就是一个不管输入多长的语音,都可以吐出一个400维的向量的模型。
ch5-6

3.2 d-vector

d-vector是14年提出的一个和i-vector效果差不多的深度学习模型。差不多就是说还没有i-vector好。它的思想很简单,在训练的时候,就是截取语音中的一小段之后,把这段放到DNN里去训练,最后输出这段话是哪个人说的。训练结束之后,倒数第二层的feature就是我们要的speaker embedding了。
ch5-8
在实际预测的时候,我们的输入语音是不等长的,因此d-vector会把语音截成多段,然后取这几段特征的平均值作为最后的speaker embedding。
ch5-7

3.3 x-vector

x-vector是d-vector的升级版,它在训练的时候,就考虑了整段声音信号的信息。它会把每一小段的声音信号输出的特征,算一个mean和variance,然后concat起来,再放进一个DNN里去来判断是哪个说话人说的。其他的部分和d-vector一致。
ch5-9

当然,今天我们再来看的时候,会把DNN直接换成RNN就可以了。

3.4 more

除了以上讲到的这几种方法之外,还有很多其他的方法,比如加入了attention的,又比如NetNLAD等等。这里不细讲这些方法,这些方法的框架都是一样的,只不过模型内部有所改变。想了解的同学可以直接看文献。
ch5-10

4 End to End

以上说到的方法,都是train一个speaker recognition的模型,然后拿它的特征来做相似度的计算。其实相似度计算这部分,也可以直接放进模型里去训练,做成一个end-to-end的模型。我们的数据集还是和之前的一样,有一堆多个speaker说的话,我们知道每句话是哪个speaker说的。在end-to-end训练的时候,我们会把k段同一个人A说的话放进模型里,得到一个平均之后的特征,然后再从数据集中抽取一段A说的话,作为正样本,抽取一段非A说的话,作为负样本,然后也输入模型得到一个特征。两个特征做相似度的计算,希望正样本下的score越高越好,负样本下的score越低越好。
ch5-11
这种做法也可以分为text-dependent和text-independent。text-dependent就是输入的语音所说的话是固定,知道的。text-independent就是输入的话是随机的。在text-independent的时候,我们可以在抽出来的特征这里加一个discriminator用来做语音转文字。我们的模型就是要试图去骗过这个discriminator,两者共同进步。这个也是很多地方都用到的一个方法。
ch5-12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/470651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python如何读取字典的关键字_python提取字典key列表的方法

python提取字典key列表的方法 更新时间:2015年07月11日 12:04:48 作者:企鹅不笨 这篇文章主要介绍了python提取字典key列表的方法,涉及Python中keys方法的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了python提取字典key列表的方法…

使用express搭建服务器获取MySQL数据库数据

一、原始的mysql查询方法 先安装mysql cnpm install mysql --save 引入这个db.js之后,才能对数据库进行查询 进行查询 查询结果如下: 二、ORM 介绍 ORM 全拼Object-Relation Mapping. 中文意为 对象-关系映射. 主要实现模型对象到关系数据库…

Chapter6_Vocoder

文章目录1 Introduction2 WaveNet2.1 WaveNet的架构2.2 Softmax Distribution2.3 Causal Convolution和Dilated Convolution2.4 Gated Activation Unit2.5 小结3 FFTNet4 WaveRNN4.1 Dual Softmax Layer4.2 Model Coarse4.3 Model Fine4.4 小结5 WaveGlow本文为李弘毅老师【Voc…

show一下自己的文档编写功底

以我为例,我绝对相信,“才华”和颜值成反比。“才华”二字加了引号了,自知跟优秀有孙大圣一个筋斗云的距离,不过某些细节方面表现得被认为还不错,这里我要秀一下我的文档编写能力。在我这十年的工作生涯里,…

Chapter7-1_Overview of NLP Tasks

文章目录1 Introduction2 Part-of-Speech(POS) Tagging3 Word Segmentation4 Parsing5 Coreference Resolution6 Summarization7 Machine Translation8 Grammar Error Correction9 Sentiment classification10 Stance Detection11 Natural Language Inference(NLI)12 Search En…

python制作文本编辑器_Python小实战:制作文本编辑器

学了半年了,该施展一下了🍺 做什么呢?做一个简单的文本编辑器吧 来,开始 知识点: 1)做窗体的知识 2)文件操作 窗体用的是tkinter简单模块,系统自带模块 有人说了:“哇&am…

OGNL 详解

Struts2 OGNL详解 1.概念: OGNL是Object-Graph Navigation Language的缩写,全称为对象图导航语言,是一种功能强大的表达式语言,它通过简单一致的语法,可以任意存取对象的属性或者调用对象的方法,能够遍历整…

完善获取数据库数据的写法

上一篇:使用express搭建服务器获取MySQL数据库数据 一、完善获取数据库数据的写法 asyncawait版本: const express require(express) const db require(./db/nodejs-orm/index.js)const app express()app.get("/get_data", (req, res) …

Chapter7-2_BERT and its family - Introduction and Fine-tune

文章目录1 What is pre-train model2 How to fine-tune2.1 Input2.2 Output2.3 Fine-tune2.4 Weighted Features3 Why fine-tune本文为李弘毅老师【BERT and its family - Introduction and Fine-tune】的课程笔记,课程视频youtube地址,点这里&#x1f4…

【BZOJ-2435】道路修建 (树形DP?)DFS

2435: [Noi2011]道路修建 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 3115 Solved: 1002[Submit][Status][Discuss]Description 在 W 星球上有 n 个国家。为了各自国家的经济发展,他们决定在各个国家之间建设双向道路使得国家之间连通。但是每个国家的国王都…

CSRF跨站请求伪造

一、CSRF跨站请求伪造 CSRF全拼为Cross Site Request Forgery,译为跨站请求伪造。 CSRF指攻击者盗用了你的身份,以你的名义发送恶意请求。 包括:以你名义发送邮件,发消息,盗取你的账号,甚至于购买商品&a…

升级 ubuntu_Ubuntu 19.04 已经到期!现有用户必须升级到 Ubuntu 19.10

Ubuntu 19.04 已在 2020 年 1 月 23 日到期,这意味着运行 Ubuntu 19.04 的系统将不再会接收到安全和维护更新,因此将使其容易受到攻击。-- Abhishek Prakash(作者)Ubuntu 19.04 发布于 2019 年 4 月 18 日。由于它不是长期支持(LTS)版本,因此…

Chapter7-3_BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more

文章目录1 How to pre-train2 Predict next token3 Mask Input4 seq2seq的pre-train model5 ELECTRA6 Sentence Embedding本文为李弘毅老师【BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more】的课程笔记,课程视频youtube地址…

python中split函数_python strip()函数和Split函数的用法总结

strip函数原型 声明:s为字符串,rm为要删除的字符序列. 只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。 s.strip(rm) 删除s字符串中开头、结尾处,位于 rm删除序列的字符 s.lstrip(rm) 删除s字符串中开头处&#xff0c…

express项目搭建 初始化详细步骤

案例 一、对每一个POST请求都设置CSRF防护 实际上,不仅仅转账需要CSRF防护,每一个post请求都需要做csrf的防护措施。 webA项目中的app.js: const router express.Router();router.all("/register",(res,req)>{.... })funct…

Chapter7-4_來自獵人暗黑大陸的模型 GPT-3

文章目录1 为何来自暗黑大陆2 GPT-3的野心3 GPT-3的效果4 Beyond GPT-3本文为李弘毅老师【來自獵人暗黑大陸的模型 GPT-3】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。 下文中用到的图片均来自于李宏毅老师的PPT,若有侵权…

二、PHP框架Laravel学习笔记——路由的定义和控制器

一.路由的定义 什么是路由?路由就是提供接受 HTTP 请求的路径,并和程序交互的功能; 简单点理解,就是为了提供访问程序的 URL 地址,所做的一些设置工作; phpstorm 支持 cmd 操作,左…

Chapter7-5_Multilingual BERT

文章目录1 什么是Multilingual BERT2 Zero-shot Reading Comprehension3 Cross-lingual Alignment4 How alignment happens本文为李弘毅老师【Multilingual BERT】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。 下文中用到的图片均来自…

deepin tim(wine)无法安装_浅析国产操作系统深度deepin

经过两天的努力,终于实现了win10下跟deepin 的双系统,经过我实际操作,发现win7环境下装双系统还是有问题的。虽然deepin系统也能安装成功,但是win系统却是无法顺利启动,一直卡在系统初始界面无限循环。而更换win10之后…

三、PHP框架Laravel学习笔记——路由参数、重定向、视图

一.路由参数 我们已经学习了部分路由参数的功能,比如动态传递{id};那么,有时这个参数需要进行约束,我们可以使用正则来限定必须是数字; Route::get(task/read/{id}, TaskControllerread) ->where(id, …