「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。
最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。
2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。
从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能家居到智能驾驶,再到机器人,语音交互在 AI 的不断升级下也变得更加流畅,各类应用百花齐放。在技术端,各大云计算厂商已经以 API 的形式开源了其 AI 语音能力,开发者能够基于此进一步搭建应用。
近年来,随着大模型持续火爆,直接在模型层面的能力开源得到了越来越多的关注,开发者能够通过对模型进行训练、微调,进一步提升模型与其所开发的应用之间的部署效果。
不久前,RVC (Retrieval based Voice Conversion) 创始人(GitHub 账号:RVC-Boss)开源了一款音色克隆项目 GPT-SoVITS,上线后便获得极高热度,不少博主、开发者用当下流行的影视角色、动漫人物的音色,花样定制各类帆船台词,抓马的效果与易操作的体验,也令一批网友闻风而来,再一次为其热度添柴。据各大博主测试,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。
目前,该模型部署教程已上线 HyperAI超神经官网,点击开始克隆:
https://hyper.ai/tutorials/29812
小编让原神角色派蒙客串了一下甄嬛传里的皇后,派蒙秒变乌拉那拉氏皇后。
B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下:
https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c
手把手教程如下,准备好 5 秒语音就能开始训练你的声音克隆模型啦!
数据准备
目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。
1. 点击「在线运行此教程」,跳转至 OpenBayes 平台。
2. 点击「克隆」,复刻该模型。(此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色)
3. 如果想自定义克隆音色,需要创建全新的数据集。通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。
4. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。
5. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。
Demo 运行
1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,回到该教程页面,再点击右上角「克隆」,将教程克隆至自己的容器中。
2. 目前,demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。
3. 添加完成后,点击「审核并执行」。
4. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090。
小编为大家争取到了新用户福利!新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。
HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):
https://openbayes.com/console/signup?r=Ada0322_QZy7
5. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。
6. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。
7. 找到「Running on public URL」,打开该链接。
8. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。
9. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。
效果展示
1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就能愉快地玩耍啦!
目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter 记事本的形式。
点击链接即可搜索相关教程及数据集:
https://hyper.ai/tutorials