语音合成(TTS) 声音生成(TTA)最新技术 - 2024- 附论文地址和代码地址

文章目录

      • 1. 我们的模型
      • 2. 声音生成模型:AudioLDM
      • 3. 语音合成模型:VoiceLDM

生成式 AI 是最近一年最受关注的课题,可以应用于游戏、虚拟现实等智能交互场景。

1. 我们的模型

由中国科学院计算所和东芝中国研发中心联合发表于AAAI 2024
论文题目:Audio Generation with Multiple Conditional Diffusion Model
论文地址:https://arxiv.org/pdf/2308.11940.pdf

在 AudioLDM 模型的基础上增加三种 Condition (时间、声调、能量)控制,引入了新的训练数据和评价指标,通过实验验证了方法的有效性。

基于文本的音频生成模型存在局限性,因为它们无法包含音频中的所有信息,导致仅依赖文本时的可控性受到限制。 为了解决这个问题,我们提出了一种新颖的模型,通过纳入包括内容(时间戳)和风格(音高轮廓和能量轮廓)在内的附加条件作为文本的补充,增强现有预训练文本到音频模型的可控性。 这种方法实现了对生成音频的时间顺序、音调和能量的细粒度控制。 为了保持生成的多样性,我们采用了可训练的控制条件编码器,该编码器通过大型语言模型和可训练的 Fusion-Net 进行了增强,以编码和融合附加条件,同时保持预训练的文本到音频模型的权重冻结。 由于缺乏合适的数据集和评估指标,我们将现有数据集合并成一个包含音频和相应条件的新数据集,并使用一系列评估指标来评估可控性性能。 实验结果表明,我们的模型成功实现了细粒度控制,实现了可控音频生成。 音频样本和我们的数据集是公开可用的。


2. 声音生成模型:AudioLDM

由萨里大学视觉、语音和信号处理中心 (CVSSP)于2023年发布
题目:AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
论文地址:https://arxiv.org/pdf/2301.12503.pdf
项目地址:https://github.com/haoheliu/AudioLDM

文本转音频(TTA)系统最近因其基于文本描述合成通用音频的能力而受到关注。 然而,之前的 TTA 研究由于计算成本较高而限制了生成质量。 在本研究中,我们提出了 AudioLDM,这是一种建立在潜在空间上的 TTA 系统,用于从对比语言音频预训练 (CLAP) 潜在空间中学习连续音频表示。 预训练的 CLAP 模型使我们能够训练具有音频嵌入的潜在扩散模型 (LDM),同时在采样期间提供文本嵌入作为条件。 通过学习音频信号及其成分的潜在表示而不对跨模态关系进行建模,AudioLDM 在生成质量和计算效率方面都具有优势。 AudioLDM 使用单个 GPU 在 AudioCaps 上进行训练,实现了通过客观和主观指标(例如弗雷切距离)衡量的最先进的 TTA 性能。 此外,AudioLDM 是第一个能够以零镜头方式实现各种文本引导音频操作(例如风格转换)的 TTA 系统。

笔记
AudioLDM 生成文本条件音效、人类语音和音乐。
LDM 在单个 GPU 上进行训练,没有文本监督。
AudioLDM 支持零镜头文本引导音频风格转换、修复和超分辨率。


3. 语音合成模型:VoiceLDM

由韩国科学技术院于2023年发布
论文题目:VOICELDM: TEXT-TO-SPEECH WITH ENVIRONMENTAL CONTEXT
论文地址:https://arxiv.org/pdf/2309.13664.pdf
项目地址:https://github.com/glory20h/VoiceLDM

论文提出了 VoiceLDM,这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型:描述提示和内容提示。 前者提供有关音频整体环境背景的信息,而后者则传达语言内容。 为了实现这一目标,我们采用基于diffusion model的文本到音频(TTA)模型,并扩展其功能以纳入额外的内容提示作为条件输入。 通过利用预训练对比语言音频预训练 (CLAP) 和 Whisper,VoiceLDM 可以在大量真实世界音频上进行训练,而无需手动注释或转录。 此外,采用双分类器免费引导来进一步增强 VoiceLDM 的可控性。 实验结果表明,VoiceLDM 能够生成与两种输入条件均吻合的可信音频,甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。 此外,还探索了 VoiceLDM 的文本转语音 (TTS) 和零样本文本转音频功能,并表明它取得了有竞争力的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/736951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud GateWay整合熔断器实现限流

其实网关是很强大,能做的事情很多,包含很多过滤器包括限流,具体的网关可以参考我的另外一篇博文Spring Cloud GateWay-过滤器 今天我们来说下网关如何限流,主要两种方案: Spring Cloud GateWay整合hystrx environme…

PCBA方案设计充气泵设计

随着科技的不断进步,充气泵在户外活动、露营和旅行中变得越来越常见。而充气泵的性能和稳定性主要依赖于其控制系统,其中芯片的设计和开发是充气泵方案的关键。SIC8833芯片是一款专门为充气泵设计的芯片,接下来我们来讲下充气泵方案芯片SIC88…

计网Lesson19 - 应用层之WWW

文章目录 1. 应用层概念1.1 应用层协议的定义 2. 应用层体系结构2.1 客户/服务器模式2.2 P2P模式(点对点方式) 3. 万维网3.1 概述3.2 统一资源定位符3.3 万维文档HTMLCSSJavaScript 1. 应用层概念 应用层是计算机网络体系结构的最顶层,是设计…

面试官:Spring Boot 是否可以使用 XML 配置?如果可以的话怎么配置

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Spring Boot 是否可以使用 XML 配置?如果可以的话怎么配置 Spring Boot 主要推崇使用注解驱动的 Java 配置方式,尤其是通过 @Configuration、@C…

USACO 2023 December, SilverProblem 1. Bovine Acrobatics题解

有n件物品,m组叠罗汉,相邻罗汉差值至少为k。 第i件物品的重量和数量 由于m最大范围为1e9,开辟m组罗汉槽存储罗汉值,内存空间不够。 分析样例: 3 5 2 9 4 7 65 5 一开始我想的是层数,但是一层中存在数据…

初学Vue——Vue路由

0 什么是Vue路由 类似于Html中的超链接(<a>)一样&#xff0c;可以跳转页面的一种方式。 前端路由&#xff1a;URL中hash(#号之后的内容)与组件之间的对应关系&#xff0c;如下图&#xff1a; 当我们点击左侧导航栏时&#xff0c;浏览器的地址栏会发生变化&#xff0c;路…

python的数据容器--元组

元组的定义 #元组的定义 t1 (1,"hello",True) t2() t3tuple() t4("hello",) print(f"t4的数据类型{type(t4)},t4的内容是{t4}")#元组的嵌套使用 t5((1,2,3),(4,5,6)) print(f"t5的类型是{type(t5)}")#元组的元素提取 print(f"{t…

【Prometheus】k8s集群部署node-exporter

​ 目录 一、概述 1.1 prometheus简介 1.2 prometheus架构图 1.3 Exporter介绍 1.4 监控指标 1.5 参数定义 1.6 默认启用的参数 1.7 prometheus如何收集k8s/服务的–三种方式收集 二、安装node-exporter组件 【Prometheus】概念和工作原理介绍-CSDN博客 【云原生】ku…

借助 Terraform 功能协调部署 CI/CD 流水线-Part2

在第一部分的文章中&#xff0c;我们介绍了3个步骤&#xff0c;完成了教程的基础配置&#xff1a; 使用 Terraform 创建 AWS EKS Infra在 EKS 集群上部署 ArgoCD 及其依赖项设置 Bitbucket Pipeline并部署到 ECR Repo 本文将继续完成剩余的步骤&#xff0c;以实现 Terraform 编…

windows下pytorch的dataloader多进程(num_workers)问题,为何num_workers的值只能为0?

问题背景介绍 本人是windows系统&#xff0c;在使用torch.utils.data.Dataloader加载torchvision中的数据集时&#xff0c;将其中的形参num_workers设置为了大于0的数&#xff0c;然后出现以下错误。 原因 在 Windows 系统下&#xff0c;num_workers 参数在使用 PyTorch 的 t…

做58代运营到底有没有效果?

58同城代运营有没有效果&#xff0c;其实还是取决于你的产品、预算和想要达到的效果。比如&#xff0c;你是希望通过代运营做出品牌效应&#xff0c;还是希望提升销量&#xff1f;代运营能够带来的效果&#xff0c;主要是咨询和品牌推广&#xff0c;这两个都可以量化&#xff0…

解决Iterm2升级后遇到“Stashed changes“的问题

&#xff1c;&#xff1c;&#xff1c;&#xff1c;&#xff1c;&#xff1c;&#xff1c; Updated upstream ...... &#xff1e;&#xff1e;&#xff1e;&#xff1e;&#xff1e;&#xff1e;&#xff1e; Stashed changes冲突标记符的代码如题&#xff0c;最近有升级Item2…

终于搞懂lSTM的原理了

LSTM简介 一个目前很火的特殊的RNN结构&#xff0c; 有效解决了RNN的梯度爆炸和长序列记忆问题 优势 LSTM 通过引入遗忘门、输入门、输出门&#xff0c; 来实现对特殊特征的记忆和遗忘&#xff0c;来达到更好的对序列数据的处理和记忆效果。 原理图&#xff1a; 总结公式…

校园小情书微信小程序源码 | 社区小程序前后端开源 | 校园表白墙交友小程序

项目描述&#xff1a; 校园小情书微信小程序源码 | 社区小程序前后端开源 | 校园表白墙交友小程序 功能介绍&#xff1a; 表白墙 卖舍友 步数旅行 步数排行榜 情侣脸 漫画脸 个人主页 私信 站内消息 今日话题 评论点赞收藏 服务器环境要求&#xff1a;PHP7.0 MySQL5.7 效果…

Java设计模式-策略模式

策略模式1 概述2 结构3 案例实现4 优缺点5 使用场景6 JDK源码解析 策略模式 1 概述 先看下面的图片&#xff0c;我们去旅游选择出行模式有很多种&#xff0c;可以骑自行车、可以坐汽车、可以坐火车、可以坐飞机。 作为一个程序猿&#xff0c;开发需要选择一款开发工具&#x…

CircuitBreaker断路器(服务熔断,服务降级)

分布式系统面临的问题: 复杂分布式体系结构中的应用程序有数十个依赖关系&#xff0c;每个依赖关系在某些时候将不可避免地失败。 1.服务雪崩 多个微服务之间调用的时候&#xff0c;假设微服务A调用微服务B和微服务C&#xff0c;微服务B和微服务C又调用其它的微服务&#xff…

PyCharm无代码提示解决

PyCharm无代码提示解决方法 在使用PyCharm工具时&#xff0c;调用方法却无法进行提示&#xff0c;针对PyCharm无代码提示整理下解决方案 1、Python内置语法无智能提示 复现&#xff1a;我这里以urllib库读取网页内容为例&#xff0c;在通过urlopen(&#xff09;之后调用getur…

Tomcat Web 开发项目构建教程

1下载Tomcat安装包&#xff0c;下载链接&#xff1a;Apache Tomcat - Welcome!&#xff0c;我电脑环境为JDK8,所以下载Tomcat9.0 2、下载完压缩包后&#xff0c;解压到指定位置 3.在intelij中新建一个项目 4.选中创建的项目&#xff0c;双击shift&#xff0c;输入add frame...然…

C语言实现贪吃蛇

前言&#xff1a;今天给大家详细介绍一下小游戏贪吃蛇的代码。 目录 一 .贪吃蛇实现的功能 二.贪吃蛇游戏设计与分析 1.贪吃蛇以及贪吃蛇所需要维护的数据 &#xff08;1&#xff09;贪吃蛇蛇体 &#xff08;2&#xff09;数据维护 2.地图设计 &#xff08;1&#x…

three.js 按键W前进、S退后、A左转、D右转运动

效果&#xff1a;W 键 前进&#xff1b;S 键后退&#xff1b;A 键左转&#xff1b;D 键右转&#xff1b;使用了 tween.js 动画库&#xff1b; 代码&#xff1a; <template><div><el-container><el-main><div class"box-card-left">&…