内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音

「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。


最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。


2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。


从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能家居到智能驾驶,再到机器人,语音交互在 AI 的不断升级下也变得更加流畅,各类应用百花齐放。在技术端,各大云计算厂商已经以 API 的形式开源了其 AI 语音能力,开发者能够基于此进一步搭建应用。


近年来,随着大模型持续火爆,直接在模型层面的能力开源得到了越来越多的关注,开发者能够通过对模型进行训练、微调,进一步提升模型与其所开发的应用之间的部署效果。


不久前,RVC (Retrieval based Voice Conversion) 创始人(GitHub 账号:RVC-Boss)开源了一款音色克隆项目 GPT-SoVITS,上线后便获得极高热度,不少博主、开发者用当下流行的影视角色、动漫人物的音色,花样定制各类帆船台词,抓马的效果与易操作的体验,也令一批网友闻风而来,再一次为其热度添柴。据各大博主测试,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。


目前,该模型部署教程已上线 HyperAI超神经官网,点击开始克隆:

https://hyper.ai/tutorials/29812


小编让原神角色派蒙客串了一下甄嬛传里的皇后,派蒙秒变乌拉那拉氏皇后。


 B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下:

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c


手把手教程如下,准备好 5 秒语音就能开始训练你的声音克隆模型啦!


数据准备


目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。


1. 点击「在线运行此教程」,跳转至 OpenBayes 平台。


fd994cef152779db1d8c08986d534098.jpeg


2. 点击「克隆」,复刻该模型。(此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色)


b1bbbf305713370eb3947c4e5bb007d7.jpeg


3. 如果想自定义克隆音色,需要创建全新的数据集。通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。


37269817ae92801f1a1b2e1f9259cef9.jpeg


4. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。


7b65a26ef5f912e6245a940b632d4358.jpeg


5. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。


9b7523fe6ef66a23fbe1150c7c25a9b3.jpeg


Demo 运行


1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,回到该教程页面,再点击右上角「克隆」,将教程克隆至自己的容器中。


5619daec28856c0cec4dd0b17956c40b.jpeg


5d0a6fa3d0709bc89ce6b0246b7bc9bf.jpeg


2. 目前,demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。


b7369ee380785b9761b06ba17d5d6d13.jpeg


3. 添加完成后,点击「审核并执行」。


4. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090。


小编为大家争取到了新用户福利!新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。


HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):

https://openbayes.com/console/signup?r=Ada0322_QZy7


0a6c3fedd8e60918abeba2166d78fdc8.jpeg


5. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。


ab4b54ad9a542eaddd1ab5048d5dd421.jpeg


6. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。


699334a71a4b66d4316aae35b2b9e116.jpeg


7. 找到「Running on public URL」,打开该链接。


2aa6e979b642de9e83f33563ffb98f0d.jpeg


8. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。


46ac756821c4186e7b03deb9bc42e4d1.jpeg


ec045fe5851e8750af2c25d0615b5e18.jpeg


18e186d6fb95d9d8ba64b679aaa083db.jpeg


127e3231ed444e90a92df5d7181d8175.jpeg


9. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。


bc7c0b33d1e4acb11df839e065979b44.jpeg


效果展示


1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就能愉快地玩耍啦!


c185feb99e2d99d9e47ef3e9757f0069.jpeg


目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter 记事本的形式。


点击链接即可搜索相关教程及数据集:

https://hyper.ai/tutorials

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++的队列的用法

基本介绍 c的队列就是std::queue。 需要包含的头文件&#xff1a; #include<queue>queue就是先进先出队列 queue,就是队列&#xff0c;队列是一种容器适配器&#xff0c;专门设计用于在FIFO上下文中操作(先进先出)&#xff0c;其中将元素插入容器的一端并从另一端提…

基于“xxx” Androidx平台的驱动及系统开发 之 触摸板篇

目录 一、基于全志 A133 Android10平台&#xff0c;适配1366x768 - ilitek2511触摸1、原理图分析2、驱动移植与适配3、补丁和资源文件 二、基于瑞芯微 RK3566 Android11平台&#xff0c;适配GT9XX触摸1、原理图分析2、补丁及资源文件 三、遇到的问题与解决1、基于amlogic Andro…

【c++】 string类的模拟实现

1.浅拷贝 浅拷贝&#xff1a;也称位拷贝&#xff0c;编译器只是将对象中的值拷贝过来。如果对象中管理资源&#xff0c;最后就会导致多个对象共享同一份资源&#xff0c;当一个对象销毁时就会将该资源释放掉&#xff0c;而此时另一些对象不知道该资源已经被释放&#xff0c;以…

【C++基础】STL容器面试题分享||上篇

&#x1f308;欢迎来到C基础专栏 &#x1f64b;&#x1f3fe;‍♀️作者介绍&#xff1a;前PLA队员 目前是一名普通本科大三的软件工程专业学生 &#x1f30f;IP坐标&#xff1a;湖北武汉 &#x1f349; 目前技术栈&#xff1a;C/C STL 1.请说说 STL 的基本组成部分2.详细的说&…

xss.haozi.me:0x03及04

这里有一个正则所以&#xff08;&#xff09;要用到实体编码 <a href"javascript:alert1">cc</a> 03 04都一样

密码安全:保护你的数据不被入侵的重要性

title: 密码安全&#xff1a;保护你的数据不被入侵的重要性 date: 2024/3/5 17:54:56 updated: 2024/3/5 17:54:56 tags: 密码安全个人隐私保护身份盗窃防护金融损失防范弱密码危害安全密码创建双因素认证 在数字时代&#xff0c;密码安全是保护个人和机构数据的关键。然而&am…

如何做代币分析:以 INJ 币为例

如何做代币分析&#xff1a;以 INJ 币为例 作者&#xff1a; lesleyfootprint.network 编译&#xff1a;cicifootprint.network 数据源&#xff1a;INJ 代币仪表板 &#xff08;仅包括以太坊数据&#xff09; 在加密货币和数字资产领域&#xff0c;代币分析起着至关重要的作…

Linux——自写一个简易的shell

目录 前言 一、打印提示信息 二、分割字符串 三、替换程序 前言 之前学习了很多进程相关的知识&#xff0c;包括环境变量、进程的创建与退出、进程等待、进程替换。现在可以用所学的作一个小总结&#xff0c;手撕一个shell解释器&#xff0c;大致的思路是先通过环境变量获…

(vue)适合后台管理系统开发的前端框架

(vue)适合后台管理系统开发的前端框架 1、D2admin 开源地址&#xff1a;https://github.com/d2-projects/d2-admin 文档地址&#xff1a;https://d2.pub/zh/doc/d2-admin/ 效果预览&#xff1a;https://d2.pub/d2-admin/preview/#/index 开源协议&#xff1a;MIT 2、vue-el…

服务器上部署WEb服务方法

部署Web服务在服务器上是一个比较复杂的过程。这不仅仅涉及到配置环境、选择软件和设置端口&#xff0c;更有众多其它因素需要考虑。以下是在服务器上部署WEb服务的步骤&#xff1a; 1. 选择服务器&#xff1a;根据项目规模和预期访问量&#xff0c;选择合适的服务器类型和配置…

Linux 进程间通信

目录 管道 匿名管道&#xff08;pipe&#xff09; 有名管道&#xff08;fifo&#xff09; 小结 共享内存 消息队列 信号量 System V IPC的结构设计 Posix与System V的关系 管道 匿名管道&#xff08;pipe&#xff09; 我们知道&#xff0c;在Linux中通过fork创建的子…

OpenDDS之QosXml库编译(Windows + VS2019)

目录 1、需求背景2、基础环境3、编译xercesc3.1、下载xercesc3.2、编译xercesc 4、编译ACE_XML_Utils4.1、生成XML_Utils解决方案4.2、编译XML_Utils 5、编译QOS_XML_XSC_Handlerd5.1、生成QOS_XML_XSC_Handlerd解决方案5.2、编译QOS_XML_XSC_Handlerd 6、测试例子6.1、生成dum…

光影交织:汽车穿越隧道的视觉盛宴

在繁忙的城市中&#xff0c;隧道成为了连接两端的重要通道。而对于汽车来说&#xff0c;穿越隧道不仅是一次简单的空间转移&#xff0c;更是一场融合了视觉、技术与安全的独特体验。 当汽车缓缓驶入隧道&#xff0c;外界的光线逐渐减弱&#xff0c;隧道内部的光线开始发挥作用。…

Ubuntu下anaconda迁移到另外的目录

文章目录 前言一、原因二、迁移1.复制到指定迁移目录2. 修改复制后的anaconda3 内容3. 修改对应搭建的每个环境的pip4.修改系统配置文件&#xff0c;使得设置生效 三、实际测试四、总结 前言 好记性不如烂笔头&#xff0c;简单的记录下在ubantu18.04下迁移anaconda的目录 一、…

2024年软考重大改革

中国计算机技术职业资格网 考试日期 考试级别 考试资格名称 5月25日至28日 高级 系统分析师 系统架构设计师 信息系统项目管理师 中级 软件设计师 网络工程师 软件评测师 电子商务设计师 嵌入式系统设计师 数据库系统工程师 信息系统管理工程师 初级 程序员 …

DiffusionMat:Alpha Matting as sequential refinement learning

1.introduction DiffusionMat的基本思想是未知区域的抠图可以逐步改进&#xff0c;并从每一次的迭代的反馈中受益&#xff0c;纠正和细化结果。 2.related works Segdiff、BitDiffusion、DiffusionDet、 3.Approach 通过一种新颖的校正策略将trimap引导转化为精确的alpha m…

2024-简单点-picamera2除了文档还有哪里可以学习实例?

picamera2学习例子 去github的picamera2库&#xff0c;找app和examples目录&#xff0c;然后学习

自动化测试基础——allure下载安装及配置及pytest + allure-pytest插件生成allure企业级测试报告及企业级定制

文章目录 前言一、allure下载二、allure安装三、allure目录介绍四、allure环境变量配置五、pytest allure-pytest插件生成allure企业级测试报告六、allure企业级报告的log定制七、allure企业级报告功能内容定制1.功能左边层级定制2.功能右边优先级定制3.功能右边测试用例描述定…

Qt绘制动态罗盘

介绍&#xff1a;罗盘指针以30角旋转巡逻&#xff0c;扫描航海范围内的点位&#xff0c;并绘制点云。字段信息在表格中显示&#xff0c;该数据都存储在数据库中。选择不同的范围&#xff0c;显示该范围内的点位。 #include "mainwindow.h" #include "ui_mainwi…

魔行观察-每日品牌监测-书亦烧仙草-开店趋势

今日监测对象&#xff1a;书亦烧仙草&#xff0c;监测时间段&#xff1a;2014年9月至2023年12月&#xff0c;发布时间&#xff1a;2024-03-05 数据获取地址&#xff1a;魔查查https://www.moxingdata.com/品牌基础信息 现有门店人均消费覆盖省份经营模式投资金额837918.431特…