上海AI实验室等开源,音频、音乐统一开发工具包Amphion

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。

Amphion包含了数据处理、通用模块、优化算法等基础设施。同时针对文本到语音、歌声转换、文本到音频生成等任务,提供了特定的框架、模型和开发说明,还内置了各类神经语音编解码器和评价指标。

尤其是对于那些刚接触生成式AI开发的新手来说,Amphion非常容易上手。

开源地址:https://github.com/open-mmlab/Amphion

论文地址:https://arxiv.org/abs/2312.09911

图片

以下是Amphion包含的各种模型

文本到语音合成

Amphion内置的文本到语音合成模型,涵盖从传统到当前最先进的技术。例如,FastSpeech 2使用前馈式Transformer架构实现快速语音合成;

VITS融合了条件变分自编码器,可实现端到端的语音合成;Vall-E使用神经编解码器语言模型一键实现零资源的语音合成;NaturalSpeech 2利用潜在扩散模型合成高质量语音。

图片

开发者可根据业务需求,选择使用不同的模型进行语音合成。

歌声转换

Amphion提供了提取说话人无关表示的各类基于内容的特征,例如,来自WeNet、Whisper和ContentVec的预训练语音特征。

同时实现了多种声学解码器架构,比如基于扩散模型、变压器和变分自编码器的方法。

图片

此外,借助内置的神经语音编解码器合成声波输出,开发者可以灵活配置不同模块,进行不同歌声风格转换。

文本到音频生成

Amphion使用了主流的潜在扩散生成模型。该模型包含一个将频谱映射到潜空间的变分自动编码器,一个接受文本并输出条件的T5编码器,以及一个扩散网络生成最终音频。

用户只需给出音频描述文本,就可以生成语义一致的背景音效。

神经语音编解码器

Amphion提供了丰富的编解码器算法选项,涵盖主流的自动回归模型、流模型、对抗生成模型、扩散模型等。

图片

例如,WaveNet使用膨胀卷积实现高质量语音合成;HiFi-GAN应用多尺度判别器实现高保真的语音重构等,可满足不同业务场景的需求。

性能评估模块

为了帮助开发者全面评估生成语音的质量和性能,Amphion提供了丰富的评估模块。

评估基频建模、能量建模、频谱失真、可懂度等语音维度,可帮助开发者简单直观地比较不同模型的性能。

图片

开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。

本文素材来源Amphion论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/618520.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯AcWing学习笔记 8-1数论的学习(上)

蓝桥杯 我的AcWing 题目及图片来自蓝桥杯C AB组辅导课 数论(上) 蓝桥杯省赛中考的数论不是很多,这里讲几个蓝桥杯常考的知识点。 欧几里得算法——辗转相除法 欧几里得算法代码: import java.util.Scanner ;public class Main…

现代火箭发展的一个重要方向是无人火箭技术

现代火箭发展的一个重要方向是无人火箭技术。无人火箭指的是不需要人员操控的火箭系统,可以自主进行发射、飞行、返回和着陆等任务。 在无人火箭发展方面,有以下重要形态和应用: 空间探测:无人火箭可以被用于太空探测任务&#x…

无人驾驶技术在交通领域逐渐成熟

随着技术的不断发展,无人驾驶技术在交通领域逐渐成熟,对于无人站台、无人公交车和无人公交车综合系统的发展也变得越来越重要。以下是这些系统的重要发展形势: 无人站台:无人站台可以提供自动售票、乘客导航和安全监控等功能&…

Gradle的安装及换源详解

Gradle是一种自动化构建工具,基于Apache Ant和Apache Maven的概念。以下是Gradle的安装步骤和换源方法: 下载安装包:可以从官网下载Gradle的安装包。为了避免官网下载速度慢,也可以通过腾讯的镜像地址进行下载。例如,…

解决Android Studio Unexpected tokens (use ; to separate expressions on the same line)

[TOC](Unexpected tokens (use ; to separate expressions on the same line)) 问题描述:Unexpected tokens (use ; to separate expressions on the same line) 原因:Android Studio 更新到最新的版本之后,gradle工程目录结构发生改变 问…

【华为鸿蒙】HarmonyOS概述:技术特性

来源:HarmnyOS 官网 https://developer.harmonyos.com/cn/docs/documentation/doc-guides/harmonyos-features-0000000000011907 技术特性 硬件互助,资源共享 多种设备之间能够实现硬件互助、资源共享,依赖的关键技术包括分布式软总线、分布…

Vant-ui图片懒加载

核心代码 在你的全局顶部引入和初始化 Vue.use(vant.Lazyload, {loading: /StaticFile/img/jiazai.jpg,error: /StaticFile/img/jiazai.jpg,lazyComponent: false, });//图片懒加载 <img v-lazy"https://img-blog.csdnimg.cn/direct/3d2c8a7e2c0040488a8128c3e381d58…

CenOS系统软件依赖包安装常见命令

sudo yum --excludekernel* --excludecentos-release* -y update 这个命令的含义是使用sudo权限运行yum命令&#xff0c;通过更新软件包来升级系统。 具体选项的解释如下&#xff1a; --excludekernel*&#xff1a;排除以"kernel"开头的所有软件包&#xff0c;即不…

8.云原生存储之Ceph集群

1. 私有云实战之基础环境搭建 2. 云原生实战之kubesphere搭建 3.云原生之kubesphere运维 4. 云原生之kubesphere基础服务搭建 5.云原生安全之kubesphere应用网关配置域名TLS证书 6.云原生之DevOps和CICD 7.云原生之jenkins集成SonarQube 8.云原生存储之Ceph集群 文章目录 为什么…

DynastyPersist:一款功能强大的Linux持久化安全审计与测试工具

关于DynastyPersist DynastyPersist是一款专为红队研究人员和CTF玩家设计的Linux安全测试工具&#xff0c;该工具可以适用于各种安全评估任务和安全测试场景。 DynastyPersist本质上是一个Linux持久化脚本&#xff0c;并提供了大量的安全测试功能&#xff0c;可以为我们展示在…

Java多线程并发篇----第十一篇

系列文章目录 文章目录 系列文章目录前言一、什么是悲观锁二、什么是自旋锁三、Synchronized 同步锁前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 一、什么是悲观…

【大数据架构】日志采集方案对比

整体架构 日志采集端 Flume Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent&#xff0c;Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员&#xff0c;内部有三个组件&#xff1a; source: 采集源&…

json类型转换对象含有泛型

接受数据的对象1 public class Student<T> {/*** 学号*/private String studentNumber;public String getStudentNumber() {return studentNumber;}public void setStudentNumber(String studentNumber) {this.studentNumber studentNumber;}public String getStudentN…

Unity中URP下实现深度贴花(雾效支持和BRP适配)

文章目录 前言一、让我们的贴画支持雾效1、我们舍弃内部的MixFog方法2、使用 雾效混合因子 对最后输出颜色进行线性插值相乘 二、在Shader中&#xff0c;限制贴花纹理的采样方式1、申明 纹理 和 限制采样方式的采样器2、在片元着色器进行纹理采样 三、BRP适配1、C#脚本中&#…

贪心算法的“左最优“与“右最优“及其对应的堆处理和预处理方法

1 答疑 1.1 什么是贪心算法的"左最优"与"右最优" "左最优"和"右最优"是贪心算法中的两种策略&#xff1a; 左最优 (Leftmost Greedy): 在每一步选择中&#xff0c;总是选择最左边&#xff08;最早出现的&#xff09;可行的选项。 右…

仿真验证方法(3)——物理验证

目录 一、物理验证的分类 二、DRC 2.1 设计规则 2.2 规则示例 2.3 线宽违例 2.4 间距违例 2.5 交叠违例 三、金属覆盖图形密度检查 四、天线比率检查 4.1 起因 4.2 计算 4.3 改进 五、LVS检查 六、物理验证常用的EDA工具 七、总结 一、物理验证的分类 对于物理验…

专业课145+合肥工业大学833信号分析与处理考研经验合工大电子信息通信

今年专业课145也是考研科目中最满意的一门&#xff0c;其他基本相对平平&#xff0c;所以这里我总结一下自己的专业课合肥工业大学833信号分析与处理的复习经验。 我所用的教材是郑君里的《信号与系统》&#xff08;第三版&#xff09;和高西全、丁玉美的《数字信号处理》&…

java方法的定义和使用

方法 今日目标&#xff1a; 能够知道方法的好处 能够根据两个明确分析方法的参数和返回值 能够编写方法完成授课案例&#xff0c;并在主方法中完成方法的调用 能够知道方法重载及其特点 1&#xff1a;方法的定义和使用 1.1 方法概述 方法(method)&#xff1a;就是完成特…

Java常用的加密技术

项目结构&#xff1a; 总体代码&#xff1a; package VirtualUtils; import javax.crypto.Cipher; import javax.crypto.SecretKey; import javax.crypto.spec.SecretKeySpec; import java.io.UnsupportedEncodingException; import java.security.*; import java.security.sp…

深入浅出线程原理

Linux 中的线程本质 线程接口由 Native POSIX Thread Library 提供&#xff0c;即&#xff1a;NPTL 库函数 线程被称为轻量级进程 (Light Weight Process) 每一个线程在内核中都对应一个调度实体&#xff0c;拥有独立的结构体 (task_struct) 内核设计&#xff1a;一个进程对…