LauraGPT

LauraGPT

news/2025/10/16 10:10:16/文章来源:https://blog.csdn.net/qq_40168949/article/details/135383171

git：https://github.com/alibaba-damo-academy/FunCodec

文章目录

- model arch
- AudioTokenizer
- model init

model arch

在这里插入图片描述

text-embedding 用千问的模型参数初始化；AudioEncoder用asr-conformer的参数初始化；所有的参数都参与更新，除了CodecVocoder；
输入（连续特征）：【input embedding, taskID】
输出（离散特征）：【output tokens】,task token在输入和输出矩阵中都有；(N + M + L) × D的结果，N-text_token；M：audio_token;L:task_token
计算loss的时候，mask output token中的input token & task token；

AudioTokenizer

16khz的音频通过卷积压缩为25hz(40ms）；conv:[8, 5, 4, 2, 2],
更多的RVQ改善语音质量，并且shallow quantizers中有更多的信息；
AudioTokenizer = encoder+1st quantizer，1st quantizer的输出是audio token，audio token只作为GPT的输出使用，输入是连续的embedding；剩余的量化器&decoder只在训练阶段使用；

model init

- text-embedding 用千问的模型参数初始化；AudioEncoder用asr-conformer的参数初始化；所有的参数都参与更新，除了CodecVocoder；
初始化是否真的有用处？
- 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果，发现ASR/S2TT初始化有明显提升，SE任务初始化效果区别不大；
- 使用的是NLP-LLM初始化，更多有助于文本生成任务；对于音频生成任务，可能用audio token训练过的会更有效；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/602215.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

实时语义分割模型PP-LiteSeg论文解读

实时语义分割模型PP-LiteSeg论文解读

paper：PP-LiteSeg: A Superior Real-Time Semantic Segmentation Model official implementation：https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.8/paddleseg/models/pp_liteseg.py 本文的创新点提出了一种灵活的轻量级解码器&#xf…

阅读更多...

Maven pom.xml 添加本地jar包依赖以及打包方法

Maven pom.xml 添加本地jar包依赖以及打包方法

1. 安装到本地仓库 mvn install:install-file -DfileD:\XX.jar -DgroupIdXX -DartifactIdXX -Dversion1.11 -Production -Dpackagingjar 2.dependency中指定scope"system"和本地jar包路径 （1）配置本地jar包依赖（systemPath指向本…

阅读更多...

SpringBoot+Vue轻松实现考试管理系统

SpringBoot+Vue轻松实现考试管理系统

简介本系统基于 Spring Boot 搭建的方便易用、高颜值的教学管理平台，提供多租户、权限管理、考试、练习、在线学习等功能。主要功能为在线考试、练习、刷题，在线学习。课程内容支持图文、视频，考试类型支持考试、练习、问卷。源码下载网…

阅读更多...

Linux|服务器|简单记录备忘VMware虚拟机开启桌面失败报错：VMware: No 3D enabled (0, Success).的解决

Linux|服务器|简单记录备忘VMware虚拟机开启桌面失败报错：VMware: No 3D enabled (0, Success).的解决

一， VMware虚拟机 Linux操作系统，centos7版本，安装完桌面后，执行startx 命令后 ，报错：VMware: No 3D enabled (0, Success). 桌面没有启动成功完整日志输出如下： [rootnode4 ~]# startx x…

阅读更多...

上传自己的依赖到maven仓库 -- 保姆级复盘

上传自己的依赖到maven仓库 -- 保姆级复盘

上传自己的依赖到maven仓库 -- 保姆级复盘 1、准备工作1.1、安装Git1.2、将需要上传的代码先上传到Gitee中1.2.1、上传步骤1.2.2、如果出现以下错误（主要原因是gitee中README.md文件和本地不一致，或者不在本地代码目录中） 2、sonatype注册登录…

阅读更多...

文件批量重命名：高效整理文件的技巧，随机汉字重命名文件

文件批量重命名：高效整理文件的技巧，随机汉字重命名文件

在数字化时代，每天都要处理大量的文件，无论是文档、图片还是音频、视频。随着时间的推移，文件库可能会变得混乱不堪，难以找到想要的文件，可见文件名有着重要的作用。现在一起来看云炫文件管理器高效的文件整理方法&…

阅读更多...

【IC前端虚拟项目】MVU FS文档编写与注意事项

【IC前端虚拟项目】MVU FS文档编写与注意事项

【IC前端虚拟项目】数据搬运指令处理模块前端实现虚拟项目说明-CSDN博客 FS文档即模块特性说明文档： FS - Functional Specification（功能规格）："FS" 表示功能规格，它是芯片设计和开发的早期阶段的一个文档。功能规格详细描述了芯片的功能、性能和特性，以及各…

阅读更多...

网络调试 TCP，开发板用静态地址-入门7

网络调试 TCP，开发板用静态地址-入门7

用两台电脑（无线网络）做实验 1.1, 在电脑A上设置为Server如下： 选择TCP Server后，直接跳出用本机IP做为“本地主机地址” 1.2在电脑B上设置为Client, 远程主机地址设置为Server的 IP 1.3, 在A, B两台电脑上能够互相发送数据用…

阅读更多...

构建自己的私人GPT

构建自己的私人GPT

创作不易，请大家多鼓励支持。在现实生活中，很多人的资料是不愿意公布在互联网上的，但是我们又要使用人工智能的能力帮我们处理文件、做决策、执行命令那怎么办呢？于是我们构建自己或公司的私人GPT变得非常重要。一、本地部署…

阅读更多...

面试指南：指针

面试指南：指针

目录前言指针基础指针实战数组与指针比较 sizeof、strlen与指针指针函数传递指针的时候是副本指针要分配给足够的空间指针定义描述 this指针前言在我的博客C高质量编程-CSDN博客内存管理章节里面讲了一些内存的基础知识，内存管理涉及最多的就是…

阅读更多...

每天一杯羊奶，让身体更健康

每天一杯羊奶，让身体更健康

每天一杯羊奶，让身体更健康羊奶作为一种天然的健康饮品，越来越受到人们的关注和喜爱。它不仅口感醇厚，营养丰富，而且具有独特的保健功效。今天，小编羊大师带大家详细介绍一下每天喝一杯羊奶对身体的好处。羊奶中的…

阅读更多...

Python基础知识总结3-面向对象进阶知识

Python基础知识总结3-面向对象进阶知识

面向对象三大特征介绍继承子类扩展父类语法格式关于构造函数：类成员的继承和重写查看类的继承层次结构 object根类dir() 查看对象属性重写 __str__() 方法多重继承MRO方法解析顺序super()获得父类定义多态特殊方法和运算符重载特殊属性对象的浅拷贝和深拷贝组合_…

阅读更多...

如何利用MiniTab的命令行来提高数据建模效率

如何利用MiniTab的命令行来提高数据建模效率

使用MiniTab进行数据建模时，如果涉及到需要多次更改数据、多次查看模型，感兴趣的同学可以尝试一下，把命令行显示出来，通过命令行的形式来执行，避免在繁多的菜单中到处查找。操作方式如下图： 点击菜单“查…

阅读更多...

junit单元测试：使用@ParameterizedTest 和 @CsvSource注解简化单元测试方法

junit单元测试：使用@ParameterizedTest 和 @CsvSource注解简化单元测试方法

在平常的开发工作中，我们经常需要写单元测试。比如，我们有一个校验接口，可能会返回多种错误信息。我们可以针对这个接口，写多个单元测试方法，然后将其场景覆盖全。那么，怎么才能写一个测试方法，…

阅读更多...

业务项目中Echarts图表组件的封装实践方案

业务项目中Echarts图表组件的封装实践方案

背景：如果我们的项目是一个可视化类/营销看板类/大屏展示类业务项目，不可避免的会使用到各种图表展示。那在一个项目中如何封装一个图表组件既能够快速复用、UI统一，又可以灵活扩充Echarts的各种复杂配置项配置就变得极为重要。封装目标符…

阅读更多...

算法第十二天-矩形区域不超过K的最大数值和

算法第十二天-矩形区域不超过K的最大数值和

矩形区域不超过K的最大数值和题目要求解题思路来自[宫水三叶] 从题面来看显然是一道[二维前缀和]的题目。本题预处理前缀和的复杂度为O(m* n) 搜索所有子矩阵需要枚举[矩形左上角]和[矩形右下角]，复杂度是 O ( m 2 ∗ n 2 ) O(m^2 * n^2) O(m2∗n2)&#xff0c…

阅读更多...

【数据库原理】（5）关系数据库的关系数据结构

【数据库原理】（5）关系数据库的关系数据结构

关系及相关概念在关系模型中,无论是实体还是实体之间的联系均由关系(二维表)来表示。 1.域（Domain） 定义：域是一组具有相同数据类型的值的集合。例子：实数集合、整数集合、英文字母集合等。 2.笛卡儿积（Cartesian…

阅读更多...

Spring之事务

Spring之事务

当我们在某个方法上加了Transactional注解后，就表示该方法在调用时会开启Spring事务，而这个方法所在的类所对应的Bean对象会是该类的代理对象。 Spring事务的代理对象执行某个方法时的步骤： 1. 判断当前执行的方法是否存在Transactional注解…

阅读更多...

mysql进阶-不同的count()性能

mysql进阶-不同的count()性能

目录一.count() 的含义二.性能比较三.结论统计数据的四种count()方式包括：count(1) 、count(*)、count(id)、count(字段)。假设数据库的存储引擎是InnoDB,如果是MyISAM,则表的总行数是已经存储的(没有where条件的情况下)，可以直接返回。一.cou…

阅读更多...

YOLOv5改进 | 卷积篇 | SAConv轻量化的可切换空洞卷积（附修改后的C3+Bottleneck）

YOLOv5改进 | 卷积篇 | SAConv轻量化的可切换空洞卷积（附修改后的C3+Bottleneck）

一、本文介绍本文给大家带来的改进机制是可切换的空洞卷积（Switchable Atrous Convolution, SAC）是一种创新的卷积网络机制，专为增强物体检测和分割任务中的特征提取而设计。SAC的核心思想是在相同的输入特征上应用不同的空洞率进行卷积，并通过特别设计的开关函数来融合这…

阅读更多...

最新文章