适合企业的TTS文本转语音接口:微软TTS最新模型,发布9种更真实的AI语音

微软对Azure Al语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。

Microsoft Azure官网:

还要给大家说的是,目前微软Azure是免费的,但是,试用额度很快就会用完,而且后续企业付费用是没办法开国内合规发票的。

企业如何获取Azure AI语音服务

目前企业需要通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

参考链接:
Azure AI 服务 OpenAI 4.0 开通申请

另外有需要可以关注【全云在线】gz号,进OpenAI技术开发交流裙

更新体验:

https://ai.azure.com/explore/speech

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在9种语言及其变种中传达内容的能力:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural
  • De-DE-SeraphinaMultilingualNeural
  • Fr-FR-RemyMultilingualNeural
  • Fr-FR-VivienneMultilingualNeural
  • zh-CN-XiaoxiaoMultilingualNeural

特 点

  • 无论在创建基于语音的聊天机器人、语音助手还是对话代理,这些新语音都将确保交互更加逼真、栩栩如生和引人入胜。
  • 针对对话优化的语音在阅读对话和非正式文本时听起来更加自然和引人入胜。
  • 包括像笑声和填充停顿等感叹词,为虚拟对话增添了人性化的气息。

应用场景

1.语音助手:创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。2.游戏:为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝目愉悦的体验,无论他们位于何处。3.媒体和娱乐:为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。4.语音翻译:打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行

使用教程

第一步:注册账号进入官网:

https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech

点击“免费试用文本转语音”,新用户可获得一年的免费使用额度:

点击“免费开始使用”,这里需要使用微软账号进行登录。

然后进入添加个人信息资料的界面。

手机号验证勾选“其他电话号码”,地区选择中国,然后输入自己的手机号接收验证码即可:

填写完资料后,点击下一步进入信用卡验证,信用卡不会扣费,但要保证里面有1美金才能验证成功。

验证成功后会跳转到Azure主页,点击“转到Azure门户”进入Azure控制台:

第二步:部署语音服务展开左上角菜单栏,打开所有服务:

在所有服务下找到“AI+机器学习”类别,选择语音服务并创建:

创建界面的名称可以随便填,定价层选择“Free F0”,然后点击“审阅并创建”:

继续点击“创建”:

稍等十秒左右语音服务就部署完成了。

第三步:创建语音点击“转到资源”:

继续点击“转到Speech Studio”:

Speech Studio里有很多语音服务,比如“语音转文本”、“语音转字幕”等等,都可以直接使用。

下滑找到文本转语音服务的语音库,点击进入:

在这里我们就可以看到不同国家的各种声音模型,之后Microsoft Azure上新语音模型也会更新到这里。

每个声音模型也都配置了不同的对话场景和情绪,甚至还有各种方言,可以说是目前市面上最全的AI语音库了。

随便点击一个试听一下效果:



,时长00:22

 

效果虽然没法和开头展示的语音效果相媲美,但是已经非常接近真人声音了。

选择好想用的声音模型,点击转到有声内容创作。

把文本内容粘贴到文本框,点击播放按钮就可以进行语音合成。

右侧操作栏可以设置语言、声音模型和说话风格以及气口停顿等等功能,非常齐全。

语音制作完毕之后,点击保存并导出为本地文件,一份文本转语音文件就制作好了。

之后再制作有声读物、小说推文或者是其他有声内容时就可以直接使用Microsoft Azure。无论是声音模型的丰富度还是功能的易用性,Microsoft Azure基本上就相当于语音合成领域的OpenAI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/30202.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

视频监控管理平台智能边缘分析一体机安防监控平台离岗检测算法

在工业自动化和智能制造的背景下,智能边缘分析一体机的应用日益广泛。这些设备通常在关键岗位上执行监控、分析和数据处理任务。然而,设备的稳定运行至关重要,一旦发生故障或离岗,可能会导致生产线停滞甚至安全事故。因此&#xf…

llama-factory微调chatglm3

一、定义 案例/多卡 二、实现 案例 1. 下载chatglm3-6b-32k模型 2. 配置数据集微调指令 CUDA_VISIBLE_DEVICES0,1 llamafactory-cli train \--stage sft \--do_train True \--model_name_or_path /home/chatglm3-6b-32k \--finetuning_type lora \--template chatglm3 \--d…

LeetCode 算法:回文链表 c++

原题链接🔗:回文链表 难度:简单⭐️ 题目 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:head…

1:25万基础电子地图(重庆版)

我们为你分享过四川版、江西版和贵州版的1:25万基础电子地图,现在再为你分享重庆版的电子地图。 现在我们再为你分享重庆的1:25万基础电子地图,你可以在文末查看该数据的领取方法。 基础电子地图重庆版 下载后可以看到该数据由14个压缩包所…

Windows11电脑在使用GPU的时候有时候会卡顿

原来我一直以为是电脑的某些组件可能坏掉了 但是后来发现通过更新gpu的驱动可以让它变好: NVIDIA GeForce 驱动程序 - N 卡驱动 | NVIDIA 下载好以后,然后安装最新的驱动就可以了,感觉可能是因为win11和某些需要显卡的驱动不支持的原因吧 …

Flash基础知识

1、Flash发展历程 存储器通常分为两类型,即随机存取的RAM(内存)与只读的ROM(外存)。 RAM,也称随机存取存储器,数据可以被读取和修改。它主要用于存储正在运行的程序和临时数据,是计…

CarService的构成和初始化分析

以下分析,基于安卓13的AAOS。 代码构成 packages/services/Car CarService相关代码,主要是在这个目录下 frameworks/opt/car/services 主要是carservice启动相关。 其它目录:audio_policy_configuration.xml和car_audio_configuration.xm…

人生的乐趣,在于对真知的追求

子曰:朝闻道,夕死可矣! 孔子说:早上听到关于世界的真理,哪怕晚上就die了都可以。 这句话很有力量而经常被人引用,表达出我们如何看待沉重的肉身和精神世界。 我们的生活目的:道。 —— 要了解…

探究 IP 地址被网站封禁的原因

在我们登录各种网站、APP浏览时,可能会遇到 IP 地址被某些网站封禁的情况。很多人奇怪这是为什么呢? 首先,违反网站的使用规则是比较常见的原因之一。比如,频繁发送垃圾邮件、恶意评论、进行网络攻击或试图破解网站的安全机制等不…

数据链路层知识分享【计算机网络】【以太网帧 | MTU的影响 | ARP技术】

博客主页:花果山~程序猿-CSDN博客 文章分栏:Linux_花果山~程序猿的博客-CSDN博客 关注我一起学习,一起进步,一起探索编程的无限可能吧!让我们一起努力,一起成长! 目录 前文 一, 以…

【操作系统】操作系统课后作业-聊天程序

无名管道与有名管道的区别 无名管道: 它是半双工的,具有固定的读端和写端。 只能用于具有亲缘关系的进程之间的通信(也是父子进程或者兄弟进程之间)。 不是普通的文件,不属于其他任何文件系统,并且只存…

Electron+Vue开源软件:洛雪音乐助手V2.8畅享海量免费歌曲

洛雪音乐助手是一款功能全面且完全免费的开源音乐软件,支持在Windows、Android和iOS平台上使用。 平台支持: 桌面版:采用Electron Vue技术栈开发,支持Windows 7及以上版本、Mac OS和Linux,具有广泛的用户群体覆盖。 …

深信服终端安全管理系统EDR版本升级过程

EDR当前版本为3.7.12,具体参考版本详情参数。需要升级到6.0.2R1版本,该版本更改了产品名称,叫做“统一端点安全管理系统aES” 当前版本详情 版本基础信息 软件版本:3.7.12.3829 病毒库版本:20240618174426 漏洞规则库&…

定制化物联网设备:开启智能生活新篇章

随着科技的进步,物联网(IoT)已成为我们日常生活和工作中不可或缺的一部分。从智能家居到工业自动化,物联网设备以其独特的功能和特性,极大地提高了我们的生活质量和工作效率。然而,在众多的物联网设备中&am…

Window常用的脚本有哪些?快来看看有哪些是你正在用的!(欢迎评论补充~)

前言 在日常开发中,如果能熟练掌握以下这些使用频率很高的脚本,那工作起来真的是手拿把攥,事半功倍,接下来给大家介绍一些我们日常使用率很高的一些脚本! 常用脚本(Batchfile & VBScript) 1.一键启动.bat 一次…

每年1-1.2万人毕业,男女比例约3:1,测绘工程的就业率如何

测绘工程,一个让人闻风丧胆的理科专业,虎扑评分4.2: 干过测绘的,苦不苦只有大家心里知道,带大家来感受一下,兄弟们的精神状态都十分美妙: 测绘专业到底是什么情况? PS.测绘分为本科…

mongodb-java apispringboot整合mongodb

mongodb入门mongodb-java api的使用springboot整合mongodb评论 一 MongoDB 1.1 MongoDB简介 ​ MongoDB是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 ​ MongoDB是一个介于关系数据库和非关系数据库之间的产品&…

等保2.0对于物联网设备的漏洞管理还有哪些规定?

等保2.0针对物联网设备的漏洞管理,主要规定了以下几个方面: 1. 漏洞发现与识别:要求定期进行漏洞扫描和评估,利用专业的漏洞扫描工具和安全服务,及时发现物联网设备及其软件中的安全漏洞。这包括但不限于操作系统、应…

文献解读-流行病学-第十期|《SARS-CoV-2 德尔塔和奥密克戎合并感染和重组的证据》

关键词:基因组变异检测;全基因组测序;流行病学; 文献简介 标题(英文):Evidence for SARS-CoV-2 Delta and Omicron co-infections and recombination标题(中文)&#xf…

手持风扇哪个品牌好?五大手持风扇品牌推荐!

随着炎热夏季的到来,手持风扇已成为人们出行的必备清凉神器。然而,面对市场上众多品牌的手持风扇,如何选择一款既时尚又高效的产品成为了许多消费者的难题。为了解决这个困扰,我们精心挑选了五大手持风扇品牌进行推荐。这些品牌不…