英伟达推新AI语音识别模型Parakeet 号称优于Whisper

领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

image.png

NVIDIA 宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64,000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性,推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快,识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强,推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快,识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段(包括音乐和静音)具有抗干扰能力,有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的,注重用户友好性和灵活性。预训练的检查点可供直接使用,将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调,NeMo 都提供了一个强大而直观的框架,充分发挥模型的潜力。

image.png

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现,并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型,能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建,可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布,模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性,加上 NeMo 提供的灵活性和易用性,使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信,无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b,并在 Gradio 演示中使用。要在本地访问模型并探索工具包,请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/615009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jenkins相关问题及答案(2024)

1、什么是Jenkins? Jenkins 是一个开源的自动化服务器,它可以被用作持续集成和持续交付(CI/CD)的工具。CI/CD 是一种软件开发实践,目的是帮助团队更快地实现软件构建、测试和发布。Jenkins 提供了自动化的框架&#x…

WCF REST消息格式(JSON/XML)选择

可以说WebHttpBinding和WebHttpBehavior是整个Web HTTP编程模型最为核心的两个类型,前者主要解决消息编码问题,而余下的工作基本上落在了终结点行为WebHttpBehavior上。WebHttpBehavior属性HelpEnabled和AutomaticFormatSelectionEnabled是“帮助页面”与…

这些代码对比工具,你都知道吗?屎山别怕

在程序开发的过程中,程序员会经常对源代码以及库文件进行代码对比,在这篇文章里我们向大家介绍六款程序员常用的代码比较工具 WinMerge WinMerge是一款运行于Windows系统下的文件比较和合并工具,使用它可以非常方便地比较多个文档内容&#…

Hadoop分布式文件系统(三)

目录 一、Hadoop 1、MapReduce 1.1、理解MapReduce思想 1.2、分布式计算概念 1.3、MapReduce介绍 1.4、MapReduce特点 1.5、MapReduce局限性 1.6、MapReduce实例进程 1.7、MapReduce阶段组成 1.8、MapReduce数据类型 1.9、MapReduce官方示例 2、YARN 一、Hadoop 1…

上海亚商投顾:创业板指放量涨近2% 全市场超4400只个股上涨

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 沪指昨日震荡反弹,创业板指午后涨超2%。华为概念股爆发,鸿蒙方向领涨,创识…

原创 | 一文读懂ChatGPT中的强化学习

原文:原创 | 一文读懂ChatGPT中的强化学习 ChatGPT基于OpenAI的GPT-3.5创造,是InstructGPT的衍生产品,它引入了一种新的方法,将人类反馈纳入训练过程中,使模型的输出与用户的意图更好地结合。在OpenAI的2022年论文《通…

多汗症如何诊断?

多汗症的诊断需要综合考虑多个因素,包括患者的症状、病史、体格检查以及相关实验室检查等。 首先,医生会详细询问患者的症状,了解出汗的部位、时间、严重程度等,以便做出初步的诊断。同时,医生还会询问患者的家族史和…

【Docker】Docker安装入门教程及基本使用

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《Docker实战》。🎯🎯 &…

【K8S 云原生】Kurbernets集群的调度策略

目录 一、Kubernetes的list-watch机制 1、List-watch 2、创建pod的过程: 二、scheduler调度的过程和策略: 1、简介 2、预算策略:predicate 3、优先策略: 3.1、leastrequestedpriority: 3.2、balanceresourceal…

Mysql——索引相关的数据结构

索引 引入 我们知道,数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快,因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找(linear search),这种复杂度为…

【C++】sizeof()、strlen()、length()、size()详解和区别

sizeof()、strlen()、length()、size()均用于获取字符串长度 length(): C中,length()只用于获取字符串的长度。例如: String str"abcdefg"; str.length()7 size(): 除了与length一样可以获取字符串的长度,还可以获取vetor类型的长…

springboot基于java的小区物业管理系统(保安巡逻绿化消防)设计+jsp

小区物业管理系统采用的是JAVA语言开发,利用MySQL为数据库, 使用IDEA平台来编写代码,框架方面选择的是springbootweb框架,采用B/S结构实现系统。本系统的设计与开发过程中严格遵守软件工程的规范,运用软件设计模式&…

leecode1143 | 最长公共子序列

给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 ,返回 0 。 一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不…

JAVA常见面试题——后端--集合篇

2.1. 在平常工作中常用的集合有哪些 ArrayList: 基于动态数组实现,支持动态增长,适用于查找和遍历操作频繁的场景。 LinkedList: 基于链表实现,支持高效的插入和删除操作,适用于频繁插入和删除元素的场景。…

香港Web3:Web3的新热土

相关推荐点击查看TechubNews 随着区块链技术的快速发展,Web3的概念逐渐在全球范围内受到关注。作为亚洲的金融中心,香港在Web3领域也展现出了极大的热情和潜力。本文将探讨香港在Web3领域的发展现状、机遇与挑战。 一、香港Web3的发展现状 香港在Web3…

合并 K 个升序链表[困难]

一、题目 给你一个链表数组,每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中,返回合并后的链表。 示例 1: 输入:lists [[1,4,5],[1,3,4],[2,6]] 输出:[1,1,2,3,4,4,5,6] 解释:链表数组如…

AI智能分析网关V4:太阳能+4G智慧水库远程可视化智能监管方案

一、背景需求分析 由于水库位置分散的原因,水库视频监控建设在立杆、布线等方面都存在一定的难度,且需要人力、物力的前期投入和后期维护。目前水库的监管存在一定的问题,管理人员工作强度大但管理质量并不高,人为巡检无法实时发…

GBASE南大通用 访问其他数据库服务器

通过限定数据库对象(表、视图、同义词或例程)的名称,您可访问外部数据库中的任何 表或例程。 当外部表与当前数据库位于同一数据库服务器上时,您必须以数据库名称和冒号限定对象 名称。例如,要引用不是本地数据库的数据…

【React源码 - Fiber架构之Reconciler】

前言 React16架构可以分为三层也是最核心的三个功能分别是: Scheduler(调度器)—调度任务的优先级,高优任务优先进入Reconciler(16新增)Reconciler(协调器)—负责找出变化的组件Renderer(渲染…

青龙面板教程

docker安装青龙面板 1.青龙面板 ### 切换到想要安装的目录,执行下面的命令 docker run -dit \ --name ql \--hostname ql \--restart always \-p 5700:5700 \-v $PWD/ql/config:/ql/config \-v $PWD/ql/log:/ql/log \-v $PWD/ql/db…