微软公司开发了一种新的神经编解码语言模型 Vall-E,在自然度、语音鲁棒性和说话者相似性方面都超越了以前的成果。它是同类产品中第一个在两个流行基准测试中达到人类同等水平的产品,而且显然非常逼真,以至于微软不打算向公众开放。
VALL-E 2 是神经编解码器语言模型的最新进展,它标志着零镜头文本到语音合成 (TTS) 的里程碑,首次实现了与人类平等。在其前身 VALL-E 所奠定的基础上,新的迭代版本引入了两项重大增强功能,以提高其性能: 重复感知采样(Repetition Aware Sampling)通过考虑解码历史中的标记重复,改进了原始的核采样过程。它不仅能稳定解码,还能避免在 VALL-E 中遇到的无限循环问题。分组编码建模将编解码器编码组织成组,有效缩短了序列长度,不仅提高了推理速度,还解决了长序列建模的难题。我们在 LibriSpeech 和 VCTK 数据集上进行的实验表明,VALL-E 2 在语音鲁棒性、自然度和说话人相似度方面都超过了以前的零镜头 TTS 系统。在这些基准测试中,VALL-E 2 是第一个达到人类同等水平的系统。此外,VALL-E 2 还能始终如一地合成高质量语音,即使是传统上因句子复杂或短语重复而具有挑战性的句子也不例外。
分组编码建模不仅能通过减少序列长度来加快推理速度,还能通过缓解长上下文建模问题来提高性能。基于解码历史中的标记重复,重复感知采样增强了解码过程的稳定性,避免了 VALL-E 中遇到的无限循环问题。
VALL-E 2 首次实现了人类平价零镜头 TTS 性能。在这种情况下,人类平价表示 VALL-E 2 的鲁棒性、自然度和相似度指标都超过了地面实况样本(WER(GroundTruth) - WER(VALL-E 2) >0,CMOS(VALL-E 2) - CMOS(GroundTruth) >0,SMOS(VALL-E 2) - SMOS(GroundTruth)> 0),这意味着 VALL-E 2 可以生成准确、自然、与原说话人声音完全一致的语音,其性能可与人类相媲美。值得注意的是,这一结论完全来自 LibriSpeech 和 VCTK 数据集的实验结果。
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!