【GPT-SOVITS-05】SOVITS 模块-残差量化解析

说明:该系列文章从本人知乎账号迁入,主要原因是知乎图片附件过于模糊。

知乎专栏地址:
语音生成专栏

系列文章地址:
【GPT-SOVITS-01】源码梳理
【GPT-SOVITS-02】GPT模块解析
【GPT-SOVITS-03】SOVITS 模块-生成模型解析
【GPT-SOVITS-04】SOVITS 模块-鉴别模型解析
【GPT-SOVITS-05】SOVITS 模块-残差量化解析
【GPT-SOVITS-06】特征工程-HuBert原理

1.概述

在 GPT-SOVITS 实现中,残差量化层是一个相对核心的改动。如前文所述,在 AR模块训练时,其semantic特征是基于预训练生成模型中残差量化层的输出。残差量化层的核心代码如下:

在这里插入图片描述

  • ResidualVectorQuantizer 是残差量化编码器的封装,在生成模型中构建
  • ResidualVectorQuantization 是残差量化编码器的具体实现,其默认包含8个量化编码器
  • VectorQuantization。层与层之间用的是输入值和量化值的残差。
  • VectorQuantization 是具体某一层的量化编码,将输入数据进行量化编码
  • VectorQuantization 在进行量化编码时,其编码字典的实现为
    Euclideanbook。其将输入数据做k均值聚类实现一个编码器,将k均值的中心点,作为量化字典。

2、EuclideanCodebook 实现

2.1、原理

在这里插入图片描述

  • 输入数据大小为【num_sample,dim】,前者为输入数据数量,后者为每个数据的向量维度 基于k均值聚类,codebook_size
  • 参数为聚类K的中心点数量,即字典大小,kmeans_iters为迭代次数
  • 完成k均值聚类后,原始数据各值与中心点计算欧式距离,以就近原则选择中心点作为量化的替代值

2.2、调试代码参考

book = EuclideanCodebook(dim=30,codebook_size=1024,kmeans_init=True,kmeans_iters=50,decay=0.99,epsilon=1e-5,threshold_ema_dead_code=2)quantize, embed_ind = book.forward(sample_data)

3、ResidualVectorQuantizer 实现

3.1、原理

在这里插入图片描述

  • 残差量化编码器有默认8个独立的量化器构成
  • 在每一层的输出时输出三个值
        all_losses    = []all_indices   = []out_quantized = []n_q = n_q or len(self.layers)for i, layer in enumerate(self.layers[:n_q]):# quantized: 量化后的特征向量# indices:  量化后的特征向量所对应的索引# loss   :  量化后的特征向量和原始特征的损失quantized, indices, loss = layer(residual)   # 进入下一层的输入是残差residual = residual - quantized              # 残差quantized_out = quantized_out + quantized    # 基于量化输出的总体累加输出all_indices.append(indices)all_losses.append(loss)if layers and i in layers:out_quantized.append(quantized)out_losses, out_indices = map(torch.stack, (all_losses, all_indices))return quantized_out, out_indices, out_losses, out_quantized

3.2、调试代码参考

rvq = ResidualVectorQuantization(dim=30,codebook_size=1024,num_quantizers=8,decay=0.99,kmeans_init=True,kmeans_iters=50,threshold_ema_dead_code=2)sample_data_1 = torch.rand(1,30, 1000)rvq.forward(sample_data_1, layers=[0])codes   = rvq.forward(sample_data_1)indices = rvq.encode(sample_data_1)print(rvq.decode(indices))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/752432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++程序函数的重载和函数模板

在C中,函数也可以重载。C允许在同一作用域中用同一函数名定义多个函数,这些函数的参数个数和参数类型不相同,这些同名的函数用来实现不同的功能,这就是函数的重载。 函数的重载的函数体是完全相同的,只是形参和类型不同…

嵌入式学习之Linux系统编程篇笔记——系统编程初探

配套视频学习链接:https://www.bilibili.com/video/BV1zV411e7Cy?p2&vd_sourced488bc722b90657aaa06a1e8647eddfc 目录 Linux系统编程的基本认识 什么是Linux系统编程? 什么是系统编程 系统编程的作用 怎么学习Linux系统编程? Linux系统编程基本程序框…

[EFI]Lenovo Ideapad 530S-14IKB电脑 Hackintosh 黑苹果efi引导文件

硬件型号驱动情况主板 Lenovo Ideapad 530S-14IKB 处理器Intel i5 8250U✅已驱动内存8 GB DDR4 2400 MHz✅已驱动硬盘250 GB SSD M.2 PCI-E✅已驱动显卡Intel UHD Graphics 620✅已驱动声卡暂无更多详细信息✅已驱动网卡Realtek RTL8111✅已驱动无线网卡蓝牙DW1560 (BCM94352Z)…

LINUX环境下如何安装python和pycharm软件

LINUX环境下安装python和pycharm: 一、安装python: sudo apt-get update sudo apt-get install python3 验证是否安装成功:终端窗口录入: XXX$: python --version 二、安装pycharm 1、下载:wget https://download.jetbrains.com/python/pych…

读者交流群

自开设公众号以来,收到众多读者的关注,所以我很高兴在这里向大家推荐加入我的技术交流群。如果你对Java和Go语言有兴趣,想要与其他同好分享经验和知识,那么这个读者群将是一个理想的选择。 在这个读者群中,我们有机会与…

知识积累(五):Transformer 家族的学习笔记

文章目录 1. RNN1.1 缺点 2. Transformer2.1 组成2.2 Encoder2.2.1 Input Embedding(嵌入层)2.2.2 位置编码2.2.3 多头注意力2.2.4 Add & Norm 2.3 Decoder2.3.1 概览2.3.2 Masked multi-head attention 2.4 Transformer 模型的训练和推理2.4.1 训练…

Redis实战——优惠券秒杀:超卖问题一人一单问题

目录 优惠券秒杀Redis实现全局唯一ID业务场景代码实现: 添加优惠券业务场景新增普通券新增秒杀券测试添加秒杀券 实现秒杀下单业务分析流程代码编写 超卖问题超买场景分析解决方案使用乐观锁 一人一单业务场景解决步骤 集群环境下的并发问题 优惠券秒杀 Redis实现全…

06.Web APIs中正则表达式的使用

一、正则表达式 正则表达式(Regular Expression)是一种字符串匹配的模式(规则) 使用场景: 例如验证表单:手机号表单要求用户只能输入11位的数字 (匹配)过滤掉页面内容中的一些敏感词(替换),或…

15届蓝桥杯第三期模拟赛所有题目解析

文章目录 🧡🧡t1_奇数次数🧡🧡思路代码 🧡🧡t2_台阶方案🧡🧡思路代码 🧡🧡t3_约数个数🧡🧡思路代码 🧡🧡t4_最…

AI基础知识(2)--决策树,神经网络

1.什么是决策树? 决策树是一类常见的机器学习方法,决策树是基于树的结构来进行决策。决策过程中提出的每一个问题都是对于属性的“测试”,决策的最终结论对应了我们希望的判定结果。一个决策树包含一个根节点,若干个内部节点和若…

无设备树platform设备驱动实验:platform驱动注册代码框架测试

一. 简介 前面两篇文章中,一篇实现 platform设备注册代码实现,文章如下: 无设备树platform设备驱动实验:platform设备注册代码实现-CSDN博客 一篇文章实现了 platform驱动注册代码框架,文章如下: 无设…

基于Python长时间序列遥感数据处理及在全球变化、物候提取、植被变绿与固碳分析、生物量估算与趋势分析等领域中的应用

植被是陆地生态系统中最重要的组分之一,也是对气候变化最敏感的组分,其在全球变化过程中起着重要作用,能够指示自然环境中的大气、水、土壤等成分的变化,其年际和季节性变化可以作为地球气候变化的重要指标。此外,由于…

Java推荐算法——特征加权推荐算法(以申请学校为例)

加权推荐算法 文章目录 加权推荐算法1.推荐算法的简单介绍2.加权推荐算法详细介绍3.代码实现4.总结 1.推荐算法的简单介绍 众所周知,推荐算法有很多种,例如: 1.加权推荐:分为简单的特征加权,以及复杂的混合加权。主要…

如何让intellij idea支持一个目录多个springtboot或maven项目

一、背景 有的时候,我们希望intellij idea 能像 eclipse 一样有workspace的概念,能在一个workspace目录里面引入多个项目,如: 我们有项目a、项目b,现在的项目几乎都是springboot项目(即maven项目&#xf…

MapReduce面试重点

文章目录 1. 简述MapReduce整个流程 1. 简述MapReduce整个流程 数据划分(Input Splitting):开始时,输入数据被分割成逻辑上的小块,每个块被称为Input Split。 映射(Map):每个Input Split 由一个或多个Map任务处理,这些…

论文阅读——RSGPT

RSGPT: A Remote Sensing Vision Language Model and Benchmark 贡献:构建了一个高质量的遥感图像描述数据集(RSICap)和一个名为RSIEval的基准评估数据集,并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练…

云计算基础(一)

云计算是什么?云:采用看得见摸不着的含义,计算:即处理任务。所以,在看的见摸不着的计算机上进行任务的处理即为云计算。云计算具备了较多的一些特性,比如:代价低、稳定性高、灵活性强、资源使用率高。计算机…

Python学习01 python开发的准备工作 1.Python解释器的下载 2.Pycharm集成开发环境的安装

0.按照步骤,快速进行python的开发准备工作 1. Python解释器的下载 下载地址 https://www.python.org/ 选择对应你的系统的安装包 2.记得勾选这里将python加入你的路径中 3.有如下四个程序表明安装成功 4.点击上图中的第二个程序打开窗口检查解释器能否正常工作 输…

基于OrangePi的智能垃圾桶(全程可实现)

目录 一、阿里云平台垃圾分类接入 二、用C语言调用阿里云Python的接口 1.首先将阿里云自启动 2.封装函数,方便C语言调用 3、用C语言调用 三、香橙派调用摄像头 1) 首先将 USB 摄像头插入到 Orange Pi 开发板的 USB 接口中 2) 然后通过 lsmod 命令可以看到内核自动加载了…

【学习笔记】云原生初步

一、云原生的概念 云原生(Cloud Native)是一种基于分布部署和统一运管的分布式云,以容器、微服务、DevOps等技术为基础建立的一套云技术产品体系。它是一种新型技术体系,是云计算未来的发展方向。云原生应用程序是针对云平台设计…