仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

我的用词一直都挺克制的,基本不会用到“最强”这个字眼。

但是这一次的这个AI应用,是我认为在TTS(文字转音频)这个领域,当之无愧的“最强”。

ElevenLabs,简称11Labs。

仅需30秒到5分钟左右的极少的数据集,就可以直接克隆任何一个人的声音,完美复刻他的说话方式、他的音色,甚至连他的情绪都复刻过来。

最牛逼的是,你不需要再额外做任何操作,就可以直接用同样的声音,说出29国的语言。那个流畅度,那个口语表达。。。我在AI面前宛如一个废物。

11Labs网址在此(上不去就开魔法):

https://elevenlabs.io/

尽管很多的大厂的语音TTS能力已经很强大了,比如微软的TTS、比如国庆期间刷爆全网的GPT的语音TTS,但是这些大厂有一个问题,就是公司体量实在太大了,在商业化上的舆论影响和被监管风险也极大,所以这种超低成本的语音克隆TTS,他们至今也没有向大众公开,毕竟很容易受到全社会的伦理指责。

至于那些开源的TTS,说实话,效果都挺差强人意,比如Tortoise奇慢无比,比如bark下限和稳定性太差,都难堪大用。

大厂们公开的语音产品中,也没有一项能达到11Labs如此便宜且如此便捷的了。要知道,像微软的声音克隆成本高的可怕,数小时的数据集、几千几万块钱。而11Labs,只需要30秒到5分钟的音频,1个月只需要5美刀就可以畅快的使用了。效果还出奇的好

毕竟在现在这个AI时代,AI语音已经成了最为重要的环节之一。内容全球化翻译、智能配音、数字人与机器人等,都有超强的应用。换句话说,没有强TTS在背后支持,那些视频和数字人,各个都是恐怖谷效应拉满假到不行的哑巴。

而11Lbas的使用上,更是突出一个简单和有手就行。

先准备30秒到5分钟的音频文件,不需要超过5分钟,对质量几乎没有任何意义了。你可以多个音频文件,但是每个不要超过10M。这块一定要注意,数据集的质量跟你后面生成的质量息息相关,里面不要有任何杂音,越干净、越纯粹越好

上面那个例子,我就去B站扒了点特朗普的演讲视频,然后剪映剪了下,准备了大概4分钟的特朗普的干声数据集,切成了11段。

然后进入11Labs的主页,登录后进入这个VoiceLab的页面。这个页面就可以去做声音的克隆了。那个大大的加号就是新建一个声音。

在弹窗中,第二个选项就是声音克隆。

不过这个功能是付费功能,正常付个费就可以用了。首月优惠1美刀,基本就是白给,可以直接绑定中国境内的VISA就可以支付,比ChatGPT的付费方便多了。

在打开的弹窗上随便输个姓名,把数据集拖进去就行。标签和描述啥的不用填。然后确认。记得一定不要开任何翻译,比如google翻译啥的,要不然会报错。

大概只需要二十几秒钟吧,模型就OK了,速度出奇的快。你就可以直接点Use去使用。

这里再推荐大家几个TTS的小技巧,善用标点符号去引导情绪

比如这句话:I am Trump . my other name is "Chuan Jian guo".

把my other name is "Chuan Jian guo"这句话,变成my other name... is "Chuan Jian guo"后,你就能明显听出小停顿的情绪,

如果再把I am Trump后面加三个感叹号,变成I am Trump!!!的话:

这情绪一下就激动了起来。。。

11Labs对这些标点符号的引导非常到位,善用标点符号,能给这段文字带来完整的情绪感受。

在最后,说一下目前AI声音的几种技术和场景吧。

SVC,类似于变声器。将一段音频转换成另一种特定的音色,音频to音频,我也写过一篇教程:用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程 ,成本挺高的,数十分钟的干声数据集,训练几个小时起步,但是对情绪和音调的还原最好,适合用在剧集配音、歌声转换等场景。不过这块11Labs已经明确要进军了,做语音转换,不知道后面用户的使用成本会拉低到什么地步。

TTS - 声音克隆。将特定的人声训练成模型,然后文字转音频。用于需要特定某个人声的场景、或同声翻译等等,数字人应用的很广泛。成本低,但是对于情绪的变化肯定没有SVC那么强,毕竟几分钟数据集+几乎为0的等待时间,11Labs是典型的王者。

普通TTS。用平台已经训练好的声音做配音,不可自定义,在有声书和视频配音里已经被广泛应用。这块的产品就非常多了,国外的微软TTS、11Labs,国内的魔音工坊等等。

基本就这三种了,SVC和TTS我也写过好多教程了,大家可以根据自己的场景,各取所需。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/207141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习-分类问题

前言 《机器学习-回归问题》知道了回归问题的处理方式,分类问题才是机器学习的重点.从数据角度讲,回归问题可以转换为分类问题的微分 逻辑回归 逻辑回归(Logistics Regression),逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。但只可…

极大提升GPT-4等模型推理效率,微软、清华开源全新框架

随着用户需求的增多,GPT-4、Claude等模型在文本生成、理解、总结等方面的能力越来越优秀。但推理的效率并不高,因为,多数主流模型采用的是“顺序生成词”方法,会导致GPU利用率很低并带来高延迟。 为了解决这一难题,清…

基于jsp+servlet的图书管理系统

基于jspservlet的图书管理系统演示地址为 图书馆后台管理系统 用户名:mr ,密码:123 图书馆管理系统主要的目的是实现图书馆的信息化管理。图书馆的主要业务就是新书的借阅和归还, 因此系统最核心的功能便是实现图书的借阅和归还。此外,还需要提供图书…

Stable Diffusion XL on diffusers

Stable Diffusion XL on diffusers 翻译自:https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻译 Stable Diffusion XL (SDXL) 是一个强大的图像生成模型,其在上一代 Stable Diffusion 的基础上主要做了如下优化:…

生产上线需要注意的安全漏洞

一、关闭swagger 1、关闭swagger v3 # 需同时设置auto-startupfalse,否则/v3/api-docs等接口仍能继续访问 springfox:documentation:enabled: falseauto-startup: falseswagger-ui:enabled: false 2、关闭swagger v2 # 只要不是true就不启用 swagger:enable: fa…

代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

大家好,我是白鲸开源的联合创始人代立冬,同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache Foundation 的成员和孵化器导师,我积极参与推动多个开源项目的发展,帮助它们通过孵化器成长为 Apache …

某度旋转验证码v2 逆向分析

v2主要依据是核心 JS 文件mkd_v2.js 版本,如下图所示: 第一次 https://passport.baidu.com/cap/init 接口,请求的 ak 是固定值,当然不同场景不同网站是不一样的,_ 时间戳,ver1,返回值 as、tk 都…

android项目实战之使用框架 集成多图片、视频的上传

效果图 实现方式,本功能使用PictureSelector 第三方库 。作者项目地址:https://github.com/LuckSiege/PictureSelector 1. builder.gradle 增加 implementation io.github.lucksiege:pictureselector:v3.11.1implementation com.tbruyelle.rxpermissio…

线性回归实战

3.1 使用正规方程进行求解 3.1.1 简单线性回归 公式 : y w x b y wx b ywxb 一元一次方程,在机器学习中一元表示一个特征,b表示截距,y表示目标值。 使用代码进行实现: 导入包 import numpy as np import matp…

中缀表达式转后缀表达式与后缀表达式计算(详解)

**中缀表达式转后缀表达式的一般步骤如下: 1:创建一个空的栈和一个空的输出列表。 2:从左到右扫描中缀表达式的每个字符。 3:如果当前字符是操作数,则直接将其加入到输出列表中。 4:如果当前字符是运算符&a…

Linux 常用命令汇总

1 linux定时任务 查看定时任务:crontab -l 每晚一点半执行定时任务: 30 1 * * * sh /var/lib/pgsql/pg_db_backup.sh >> /var/lib/pgsql/pg_db_backup.log 2>&1 配置定时任务:crontab -e 2 linux 内核版本查询 cat /etc/r…

我有才打造私域流量的知识付费小程序平台

在当今数字化时代,知识付费市场正在迅速崛起,而私域流量的概念也日益受到重视。私域流量指的是企业通过自有渠道获取的、能够自由支配的流量,这种流量具有更高的用户粘性和转化率。因此,打造一个基于私域流量的知识付费小程序平台…

实现:切换页面切换标题,扩展 vue-router 的类型

布局容器-页面标题 网址:https://router.vuejs.org/zh/guide/advanced/meta 给每一个路由添加 元信息 数据 router/index.ts const router createRouter({history: createWebHistory(import.meta.env.BASE_URL),routes: [{ path: /login, component: () > im…

第一启富金:新添澳大利亚(ASIC)牌照

第一启富金:澳大利亞證券及投資委員會(ASIC) GOLDWELL GLOBAL PTY LTD 是 WHOLESALE INVESTOR SERVICES PTY LTD(CAR 編號 001304943)的企業授權代表開發澳大利亞客戶,WHOLESALE INVESTOR SERVICES PTY LT…

XML是什么

XML是是什么? XML(Extensible Markup Language),中文是可扩展标记语言,是标准通用标记语言的子集。它是一种标记语言,用于标记电子文档,使其结构化。 XML可以用来标记数据,定义数据…

【软件推荐】文本转语音,语音转wav,导入ue5

文字转语音 在线免费文字转语音 - TTSMaker官网 | 马克配音https://ttsmaker.cn/ 文件转换器 语音转wav Convertio — 文件转换器https://convertio.co/zh/

HarmonyOS应用程序框架——UIAbility实操

UIAbility概述 UIAbility是一种包含用户界面的应用组件,主要用于和用户进行交互。UIAbility也是系统调度的单元,为应用提供窗口在其中绘制界面。 每一个UIAbility实例,都对应于一个最近任务列表中的任务。 一个应用可以有一个UIAbility&…

Leetcode—901.股票价格跨度【中等】

2023每日刷题&#xff08;五十二&#xff09; Leetcode—901.股票价格跨度 算法思想 实现代码 class StockSpanner { public:stack<pair<int, int>> st;int curday -1;StockSpanner() {st.emplace(-1, INT_MAX);}int next(int price) {while(price > st.top(…

油猴(Tampermonkey)浏览器插件简单自定义脚本开发

介绍 浏览器插件&#xff0c;包括油猴插件和其他插件&#xff0c;通过它们可以实现浏览器网页的定制化与功能增强。 其他插件一般只有某种具体的功能&#xff0c;且已经写死而不能更改&#xff0c;比如Adblock插件只用于去广告。 油猴插件是一款用于管理用户脚本的插件&…

使用Rust 构建C 组件

协议解析&#xff0c;这不就很快了&#xff0c;而且原生的标准库红黑树和avl 树支持&#xff0c;异步tokio 这些库&#xff0c;编写应用组件就很快了 rust 标准库不支持 unix 的消息队列&#xff0c;但是支持 shm 和 uds&#xff0c;后者从多方面考虑都比&#xff0c;消息队列更…