内含教程丨音色克隆模型 GPT-SoVITS，5 秒语音就能克隆出相似度 95% 的声音

内含教程丨音色克隆模型 GPT-SoVITS，5 秒语音就能克隆出相似度 95% 的声音

news/2025/4/17 0:35:01/文章来源:https://blog.csdn.net/HyperAI/article/details/136484145

「语音」是人类接触 AI 的「早教技术」，同时也是最早一批走出实验室，走进千家万户的 AI 技术。最初，人们针对智能语音的研究主要集中在语音识别上，即让机器听懂人类语言。

最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey，能够识别 10 个英文数字。1988 年，李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年，世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年，微软在 Windows 7 操作系统中集成了语音功能。

2011 年，里程碑式产品 iPhone 4S 发布，Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年，谷歌宣布将在其内部测试开始 Google 搜索，并在未来的日子里将在 Google.com 上推出语音搜索。

从听到说的跃迁，也是人机交互繁荣发展的重要奠基石。如今，从智能家居到智能驾驶，再到机器人，语音交互在 AI 的不断升级下也变得更加流畅，各类应用百花齐放。在技术端，各大云计算厂商已经以 API 的形式开源了其 AI 语音能力，开发者能够基于此进一步搭建应用。

近年来，随着大模型持续火爆，直接在模型层面的能力开源得到了越来越多的关注，开发者能够通过对模型进行训练、微调，进一步提升模型与其所开发的应用之间的部署效果。

不久前，RVC (Retrieval based Voice Conversion) 创始人（GitHub 账号：RVC-Boss）开源了一款音色克隆项目 GPT-SoVITS，上线后便获得极高热度，不少博主、开发者用当下流行的影视角色、动漫人物的音色，花样定制各类帆船台词，抓马的效果与易操作的体验，也令一批网友闻风而来，再一次为其热度添柴。据各大博主测试，仅需提供 5 秒语音样本，便可收获相似度达到 80%~95% 的克隆语音。

目前，该模型部署教程已上线 HyperAI超神经官网，点击开始克隆：

https://hyper.ai/tutorials/29812

小编让原神角色派蒙客串了一下甄嬛传里的皇后，派蒙秒变乌拉那拉氏皇后。

 B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下：

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c

手把手教程如下，准备好 5 秒语音就能开始训练你的声音克隆模型啦！

数据准备

目前该教程内已预设多款经典角色音色供大家体验，如想克隆其它音色，则需要准备一段该音色 MP3 格式的音频文件，最好为单独人声（30s 左右即可)，高质量的音频文件可以提升克隆声音的逼真程度。

1. 点击「在线运行此教程」，跳转至 OpenBayes 平台。

2. 点击「克隆」，复刻该模型。（此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色）

3. 如果想自定义克隆音色，需要创建全新的数据集。通过左侧菜单栏中的「数据集」后，点击「创建新数据集」。

4. 按照要求填写好「数据集名称」和「数据集描述后」，点击「创建数据集」。

5. 创建完成后，点击右上角「上传新版本」，将想要克隆的音频文件上传。

Demo 运行

1. 数据准备完成后，在左侧菜单栏「公共教程」中，打开「GPT-SoVITS 音频合成在线 Demo」，回到该教程页面，再点击右上角「克隆」，将教程克隆至自己的容器中。

2. 目前，demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满，可以删除不需要的音频数据后添加自己创建的数据集。

3. 添加完成后，点击「审核并执行」。

4. 跳转页面后，点击「继续执行」。推荐使用 RTX 4090。

小编为大家争取到了新用户福利！新用户使用下方邀请链接注册，即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。

HyperAI超神经专属邀请链接（直接复制到浏览器打开即可注册）：

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. 稍等片刻，待状态会变为「运行中」后，点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟，如超过 10 分钟仍处于「正在分配资源」状态，可尝试停止并重启容器；如重启仍无法解决，请在官网联系平台客服。

6. 打开工作空间后，点击左侧「run.ipynb」，通过菜单栏中的「运行」按钮，点击「运行所有单元格」。

7. 找到「Running on public URL」，打开该链接。

8. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址，选择音频数据类型后，点击「开始训练」，待输出结果显示为「模型正在开启预测，请稍后」，回到「run.ipynb」，即可看到显示「GPT 训练完成」。

9. 打开右侧「API 地址」，请注意，用户需在实名认证后才能使用 API 地址访问功能。

效果展示

1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型，然后在「Inference text」中输入文本，点击「Start inference」后，稍等片刻，就能愉快地玩耍啦！

目前，HyperAI超神经官网已上线了数百个精选的机器学习相关教程，并整理成 Jupyter 记事本的形式。

点击链接即可搜索相关教程及数据集：

https://hyper.ai/tutorials

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/721527.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

c++的队列的用法

c++的队列的用法

基本介绍 c的队列就是std::queue。需要包含的头文件： #include<queue>queue就是先进先出队列 queue,就是队列，队列是一种容器适配器，专门设计用于在FIFO上下文中操作(先进先出)，其中将元素插入容器的一端并从另一端提…

阅读更多...

CSS常用选择器用法

CSS常用选择器用法

1.标签选择器 <style> div { border: 5px solid blue;width: 500px;height: 200px;color: burlywood; } <div class"font32">我是⼀个div, class为font32</div> 所有的div标签都会被设置成上述设置的式样 2.class选择器 <style>.font32 …

阅读更多...

基于“xxx” Androidx平台的驱动及系统开发之触摸板篇

基于“xxx” Androidx平台的驱动及系统开发之触摸板篇

目录一、基于全志 A133 Android10平台，适配1366x768 - ilitek2511触摸1、原理图分析2、驱动移植与适配3、补丁和资源文件二、基于瑞芯微 RK3566 Android11平台，适配GT9XX触摸1、原理图分析2、补丁及资源文件三、遇到的问题与解决1、基于amlogic Andro…

阅读更多...

【c++】 string类的模拟实现

【c++】 string类的模拟实现

1.浅拷贝浅拷贝：也称位拷贝，编译器只是将对象中的值拷贝过来。如果对象中管理资源，最后就会导致多个对象共享同一份资源，当一个对象销毁时就会将该资源释放掉，而此时另一些对象不知道该资源已经被释放，以…

阅读更多...

NLP_文本特征处理_4（代码示例）

NLP_文本特征处理_4（代码示例）

目标了解文本特征处理的作用. 掌握实现常见的文本特征处理的具体方法. 文本特征处理的作用: 文本特征处理包括为语料添加具有普适性的文本特征, 如:n-gram特征, 以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范. 这些特征处理工作能够有效的将重要的文本特征加入…

阅读更多...

【C++基础】STL容器面试题分享||上篇

【C++基础】STL容器面试题分享||上篇

🌈欢迎来到C基础专栏 🙋🏾‍♀️作者介绍：前PLA队员目前是一名普通本科大三的软件工程专业学生 🌏IP坐标：湖北武汉 🍉 目前技术栈：C/C STL 1.请说说 STL 的基本组成部分2.详细的说&…

阅读更多...

xss.haozi.me：0x03及04

xss.haozi.me：0x03及04

这里有一个正则所以（）要用到实体编码 <a href"javascript:alert1">cc</a> 03 04都一样

阅读更多...

密码安全：保护你的数据不被入侵的重要性

密码安全：保护你的数据不被入侵的重要性

title: 密码安全：保护你的数据不被入侵的重要性 date: 2024/3/5 17:54:56 updated: 2024/3/5 17:54:56 tags: 密码安全个人隐私保护身份盗窃防护金融损失防范弱密码危害安全密码创建双因素认证在数字时代，密码安全是保护个人和机构数据的关键。然而&am…

阅读更多...

如何做代币分析：以 INJ 币为例

如何做代币分析：以 INJ 币为例

如何做代币分析：以 INJ 币为例作者： lesleyfootprint.network 编译：cicifootprint.network 数据源：INJ 代币仪表板 （仅包括以太坊数据） 在加密货币和数字资产领域，代币分析起着至关重要的作…

阅读更多...

Linux——自写一个简易的shell

Linux——自写一个简易的shell

目录前言一、打印提示信息二、分割字符串三、替换程序前言之前学习了很多进程相关的知识，包括环境变量、进程的创建与退出、进程等待、进程替换。现在可以用所学的作一个小总结，手撕一个shell解释器，大致的思路是先通过环境变量获…

阅读更多...

【牛客】SQL140 未完成率较高的50%用户近三个月答卷情况-窗口函数

【牛客】SQL140 未完成率较高的50%用户近三个月答卷情况-窗口函数

描述现有用户信息表user_info（uid用户ID，nick_name昵称, achievement成就值, level等级, job职业方向, register_time注册时间）： iduidnick_nameachievementleveljobregister_time11001牛客1号32007算法2020-01-01 10:00:00210…

阅读更多...

(vue)适合后台管理系统开发的前端框架

(vue)适合后台管理系统开发的前端框架

(vue)适合后台管理系统开发的前端框架 1、D2admin 开源地址：https://github.com/d2-projects/d2-admin 文档地址：https://d2.pub/zh/doc/d2-admin/ 效果预览：https://d2.pub/d2-admin/preview/#/index 开源协议：MIT 2、vue-el…

阅读更多...

服务器上部署WEb服务方法

服务器上部署WEb服务方法

部署Web服务在服务器上是一个比较复杂的过程。这不仅仅涉及到配置环境、选择软件和设置端口，更有众多其它因素需要考虑。以下是在服务器上部署WEb服务的步骤： 1. 选择服务器：根据项目规模和预期访问量，选择合适的服务器类型和配置…

阅读更多...

Linux 进程间通信

Linux 进程间通信

目录管道匿名管道（pipe） 有名管道（fifo） 小结共享内存消息队列信号量 System V IPC的结构设计 Posix与System V的关系管道匿名管道（pipe） 我们知道，在Linux中通过fork创建的子…

阅读更多...

OpenDDS之QosXml库编译(Windows + VS2019)

OpenDDS之QosXml库编译(Windows + VS2019)

目录 1、需求背景2、基础环境3、编译xercesc3.1、下载xercesc3.2、编译xercesc 4、编译ACE_XML_Utils4.1、生成XML_Utils解决方案4.2、编译XML_Utils 5、编译QOS_XML_XSC_Handlerd5.1、生成QOS_XML_XSC_Handlerd解决方案5.2、编译QOS_XML_XSC_Handlerd 6、测试例子6.1、生成dum…

阅读更多...

抖音小店简洁版运营流程，帮助新手商家快速学习！

抖音小店简洁版运营流程，帮助新手商家快速学习！

大家好，我是电商糖果一个做了7年电商的90后，从2020年开始做抖音小店，现在已经经营了多家小店。这篇文章从开店到选品，出体验分，找达人合作，对接厂家等全部给分享出来。一、准备材料 1. 个体户营业执…

阅读更多...

光影交织：汽车穿越隧道的视觉盛宴

光影交织：汽车穿越隧道的视觉盛宴

在繁忙的城市中，隧道成为了连接两端的重要通道。而对于汽车来说，穿越隧道不仅是一次简单的空间转移，更是一场融合了视觉、技术与安全的独特体验。当汽车缓缓驶入隧道，外界的光线逐渐减弱，隧道内部的光线开始发挥作用。…

阅读更多...

运营微信公众号的四大关键步骤

运营微信公众号的四大关键步骤

1. 明确运营目的首先，我们需要明确运营微信公众号的目的。不同行业和企业可能有不同的目标，但总体来说，都是为了获得相关利益。对于企业来说，建立口碑，树立形象是非常重要的。通过用户的口碑传播，可以提高…

阅读更多...

Ubuntu下anaconda迁移到另外的目录

Ubuntu下anaconda迁移到另外的目录

文章目录前言一、原因二、迁移1.复制到指定迁移目录2. 修改复制后的anaconda3 内容3. 修改对应搭建的每个环境的pip4.修改系统配置文件，使得设置生效三、实际测试四、总结前言好记性不如烂笔头，简单的记录下在ubantu18.04下迁移anaconda的目录一、…

阅读更多...

2024年软考重大改革

2024年软考重大改革

中国计算机技术职业资格网考试日期考试级别考试资格名称 5月25日至28日高级系统分析师系统架构设计师信息系统项目管理师中级软件设计师网络工程师软件评测师电子商务设计师嵌入式系统设计师数据库系统工程师信息系统管理工程师初级程序员 …

阅读更多...

最新文章