OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

53778be550c960ff9613deffb1f0f522.png

来源:AI科技评论

作者:黄楠

编辑:陈彩娴

9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。

「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。

训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。

此前有不同研究表明,虽然无监督预训练可以显著提高音频编码器的质量,但由于缺乏同等高质量的预训练解码器,以及特定于数据集中的微调协议,因此在一定程度上限制了模型的有效性和鲁棒性;而在部分有监督的方式预训练语音识别系统中,其表现会比单一源训练的模型呈现出更高的鲁棒性。

对此,在「Whisper 」中,OpenAI 在新数据集比现有高质量数据集总和大几倍的基础上,将弱监督语音识别的数量级扩展至68万小时;同时,研究团队还演示了在这种规模下,所训练模型在转移现有数据集的零射击表现,可消除任何特定于数据集微调的影响,以实现高质量结果。

88ed962cdc4b5fba47ffea86f698e967.jpeg

图注:方法概述

在许多不同的语音处理任务中训练一个序列到序列的转换器模型,包括多语言语音识别、语音翻译、口头语言识别和语音活动检测;所有任务都表示为要由解码器预测的标记序列,允许单一模型取代传统语音处理管道的不同阶段;多任务训练格式使用一组特殊的标记,作为任务指定者或分类目标

Whisper 架构采用一种简单的端到端方法,通过编码器-解码器 Transformer 来实现:输入音频被分成30秒的块,转换成 log-Mel 频谱图后传递到编码器。解码器可预测相应的文本标题,并与特殊标记混合,由这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

a63e654e207be6641c213fa5db5d9f3f.jpeg

图注:Whisper 架构

值得一提的是,由于「Whisper 」是在一个庞大且多样的数据集上进行,没有针对任何特定的数据集进行微调,因此它不会击败专门研究 LibriSpeech 性能的模型。

此外研究团队还发现,当在许多不同的数据集上测量「Whisper 」的零样本性能时,「Whisper 」相比其他模型表现更加稳健,错误率降低了 50%。

除了足够大的数据集规模外,「Whisper 」还支持多种语言的转录,以及将这些语言翻译成英语。

当前在68万小时音频中,共11.7万个小时覆盖了96中其他语言,还包括12.5万个小时的转录和翻译数据,即大约有三分之一是非英语的。

「Whisper 」会交替执行以原始语言转录或翻译成英语的任务,对此研究团队发现,这种方法在学习语音到文本的翻译方面特别有效,并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。

目前,「Whisper 」已开源,可用于对语音识别方面的进一步研究。

OpenAI 创始人 Ilya Sutskever 对此表示,“终于有一个能理解我说话的可靠的语音识别系统。”

1162ace69b14fc5bd7e38526e1b3e790.jpeg

前特斯拉人工智能和自动驾驶部门负责人 Andrej Karpathy 也转发了这一消息称“OpenAI 正处于最好的状态中”。

1e52c90044f7c6ae0503219430ee02c6.jpeg

但对使用 Whisper 上,有不少用户也还存在疑虑。

网友 Vincent Lordier 提出,“此前在 GTP-3 和 Dalle-2 中出现对相关言论禁止行为,是否在使用 Whisper 时也会有, 是否会出现 Whisper 编辑/删除用户语音的情况?”

c7456bfa2c15d163dd42400a40913159.jpeg

那么大家怎么看?

参考链接:https://openai.com/blog/whisper/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

95caf8b112b72e52160f0c54eccc990e.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481595.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境(上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源:智源社区整理:戴一鸣导读:机器人领域已经发展了三四十年,但应用方面的进展较慢。这是因为,机器人建立在这样一个假设上:工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境(如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中,同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源:学习时报作者简介蒲慕明,1948年出生,中国科学院院士,美国科学院外籍院士,现任中国科学院脑科学与智能技术卓越创新中心学术主任,上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…

论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)

文章目录Introduction2. 相关工作3. 本文的model3.1 Preliminaries3.2建立问题3.3闲鱼图上的异构卷积网络3.3.1Aggregation Sub-layer3.3.2 Time-related Sampling3.3.4将图形网络与文本分类模型相结合。3.4 GCN-based反垃圾邮件模式4.实验Introduction ppt 任务:…

新型AI芯片 其能效或是替代品的两倍

DAVID BAILLOT/UNIVERSITY OF CALIFORNIA SAN DIEGO来源:IEEE电气电子工程师在软件和硅中复制人脑是人工智能(AI)研究的长期目标。虽然神经形态芯片在能够同时运行多个计算方面取得了重大进展,并且既能计算也能存储数据&#xff0…

论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录abstract1.introduction2. our approach2.2 微调fine tuning3.Model3.1QA Model3.2QG modelabstract 本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation, QG)的任务是根据输入的答案生成相应的自然语言问题,而问答(ques…

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源:FUTURE远见选编:FUTURE | 远见 闵青云 2022年9月22日,科学突破奖基金会宣布了2023科学突破奖(Breakthrough Prize)的获奖名单。科学突破奖有「科学界的奥斯卡」之称,它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究-语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语:…

费曼:任何伟大的科学成就,都源于思想自由

来源:群学书院理查德菲利普斯费曼(Richard Phillips Feynman,1918-1988),美籍犹太裔物理学家,加州理工学院物理学教授,1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…

nlp5-n-gram/语言模型(数据平滑方法

文章目录1.句子的先验概率1.1 n-gram2. 参数估计3. 数据平滑3.1 数据平滑度方法3.1.1加1法3.1.2减1.句子的先验概率 这个联合概率太小了 窗口越大,共现的可能性越小参数多 解决:等价类 不看所有的历史信息只看部分历史信息,但看所有的历史等价…

《科学》:3.8亿年前的心脏,揭示生命演化历史

来源:学术经纬编辑 :药明康德内容微信团队一颗3.8亿年前的心脏,可以告诉我们什么?在一篇近期的《科学》论文中,由澳大利亚科廷大学领导的研究团队借助最新的研究工具,从一枚有颌鱼化石中揭示了清晰的心脏、…

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录1.Introduction2 model2.1 LSTM2.2BI-LSTMBPTT2.3 CRF2.4 LSTM-CRF参考文献本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。1.Introduction 序列标…

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源:ScienceAI编辑:白菜叶一立方毫米听起来并不多。但在人脑中,这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据,他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源:AI科技评论作者:李梅、黄楠编辑:陈彩娴AI 作画很牛,但它并不理解图像背后的世界。自从 DALL-E 2 问世以来,很多人都认为,能够绘制逼真图像的 AI 是迈向通用人工智能(AGI)的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源:智能研究院【新智元导读】今天,脑科学计划宣布启动的「细胞图谱网络项目」,目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心,堪比当年的人类基因组计划。今天,美国国立卫生研究院(NIH&#xff09…

HMM总结

文章目录4.HMM-->CRF4.1 HMM--是个序列4.1.1 推断问题(evaluate)4.1.2 viterbi decoding解码4.1.3 学习,参数估计4.1.4计算实例4.1.5 EM(baum-welch算法)的上溢出和下溢出概率图模型code4.HMM–>CRF 4.1 HMM–是个序列 x-观测到的条件…

南科大本科生在《物理评论快报》发文,实现由不定因果序驱动的量子冰箱

来源:FUTURE远见选编:FUTURE | 远见 闵青云 近日,南方科技大学物理系师生在实验中实现了由不定因果序驱动的量子冰箱。相关成果以「Experimental realization of a quantum refrigerator driven by indefinite causal orders」为题发表在《物…