ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

视听语音识别(Audio-visual speech recognition, AVSR)是指结合音频和视频信息对语音进行识别的技术。当前,语音识别(ASR)系统在准确性在某些场景下已经达到与人类相媲美的水平。然而在复杂声学环境或远场拾音场景,如多人会议中,ASR系统的性能可能会受到背景噪音、混响和多人说话的重叠的干扰而严重下降。基于视频的视觉语音识别(VSR)系统通常不会受到声学环境的干扰。因此,越来越多的研究人员开始关注将视觉信息引入ASR中。在视听语音识别模型中,如何高效地融合音视频信息长期以来都是提升性能的关键。目前主流的融合方法有两种,一是对原始音视频数据进行融合,二是对建模后的音视频特征进行融合。前者更注重音视频在数据层面的高效融合,强调不同模态信息的越早融合对最终AVSR系统性能越有利,我们通常称之为融合 (early fusion);而后者则是对建模后的音视频特征,一般情况下是音/视频编码器的输出进行融合,我们通常称其融合 (late fusion)。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和理想汽车合作论文“MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition”被语音研究顶级会议ICASSP2024接收。该论文提出了一种基于多层交叉注意力机制的视听语音识别方案,通过在音频和视频编码器的不同层中植入交叉注意力模块,建模音视频信息的同时同步进行音视频模态融合,我们称其为中融合 (middle fusion)。实验结果表明,MLCA-AVSR方案在MISP2022-AVSR数据集上的效果超过了MISP2022挑战赛AVSR赛道的第一名。现对该论文进行简要的解读和分享。

论文题目:MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition

合作单位:理想汽车

作者列表:王贺、郭鹏程、周盼、谢磊

论文原文:https://arxiv.org/abs/2401.03424

论文截图

背景动机

目前大量关于视听语音识别 (AVSR) 的研究表明,将视觉信息整合到语音识别 (ASR) 模型中可以显著增强识别系统在复杂声学环境中的鲁棒性。Ma等人[1]提出了一种端到端的双编码器混合CTC/Attention AVSR方案,其中包括基于ResNet的视觉编码器、基于Conformer的音频编码器和一个多层感知模块 (MLP) 来融合不同的模态特征。与MLP的融合策略相比,Sterpu等人[2]首次引入了基于注意力的融合机制,并发现学习不同模态特征之间的对齐信息是提高性能的关键。随后,一些研究[3, 4]采用了交叉注意力模块来捕捉建模后的音视频特征之间的对齐和互补信息。此外,利用来自音频和视觉编码器不同层特征可以提升AVSR系统的性能也得到了许多研究的证实[5, 6]。

近期,基于多模信息的语音处理(MISP)挑战系列[7, 8],旨在探索远场多麦克风信号处理任务(如关键词检测和语音识别)中如何合理使用音视频双模信息,如图1所示。在MISP2022挑战赛的音视频语音分离和识别 (AVDR) 赛道中,参赛者们使用多通道音频数据和唇读视频数据来构建在家庭电视场景中的鲁棒远场语音识别系统。在比赛期间,我们提出了一种基于单层交叉注意力融合的AVSR系统 (SLCA-AVSR) [9],并取得了第二名的优异成绩。该系统使用交叉注意力模块来组合不同模态的特征。然而,这种方法是基于建模后的音视频特征进行模态融合,没有考虑在特征建模期间的上下文信息。尽管Li等人[10]探讨了多层级模态特征的融合,但基于连接的融合方法未能有效捕捉模态间的对齐信息。

图1 MISP竞赛的录制场景[7,8]

在本文中,我们提出了一种基于多层交叉注意力融合的视听语音识别(MLCA-AVSR)方案。具体而言,我们基于先前的SLCA融合模块,将其集成到音/视频编码器的不同中间层。通过在编码器不同层进行音视频特征融合,实现了从粗粒度建模特征到细粒度特征,一个模态从另一模态中学习建模时的上下文信息并对自身进行补充。此外,我们还采用了Inter-CTC损失[11]来引导每个交叉注意力模块的学习过程。据我们所知,这是第一次将交叉注意力模块集成到模态编码器的中间层,并在表示学习过程中同时进行模态融合的尝试。MISP2022-AVSR挑战数据集[7]上的实验结果表明,MLCA-AVSR方案超越了MISP2022挑战赛AVDR赛道的第一名,在此数据集上取得了新的最好结果。

MLCA-AVSR方案

交叉注意力

图2 交叉注意力模块示意图

多层交叉注意力融合

图3展示了MLCA-AVSR视听语音识别系统的结构,其包括四个主要组成部分,分别是音频和视觉前端、音频和视觉编码器、融合模块和解码器。我们采用了2层卷积下采样网络作为音频前端,ResNet3D网络作为视频前端,最近提出的E-Branchformer [12]作为音频和视觉编码器。同时,在音频和视觉编码器内引入了两个交叉注意力模块。这样一来,通过有效地利用编码器中不同层级的音视频特征,实现更好的多模态融合。

图3 MLCA-AVSR系统结构示意图

实验

数据处理

数据集 所有的模型训练和测试实验均在大规模的中文对话音视频语料库MISP2022-AVSR[7]上进行。该数据集由34个装有电视的家庭房间中的远/中/近麦克风和远/中摄像机收集而成,包含141小时的音视频数据。经由说话人日志时间戳切分后,训练、验证,测试集分别包含106.09小时、3.09小时和3.13小时的对话音视频数据。

音频处理 首先使用WPE和GSS算法对中远数据进行预处理,以有效提取每个说话者增强后的干净信号。随后,使用增强后的数据与原始的近场数据相结合,并进行0.9、1.0和1.1的速度扰动。为了模拟真实的声学环境,我们使用MUSAN [13]语料库和开源的pyroomacoustics工具包生成真实的背景噪声和房间脉冲响应(RIRs)。经过上述处理后,最终用于训练的音频数据总量约1300小时,包括预处理增强和模拟的数据。

视频处理 对于视频数据,我们裁剪与说话人嘴唇对应的区域(ROIs),并修改将其尺寸到112  112。在训练过程中,采用随机旋转、水平翻转和颜色抖动等策略来动态增强视频数据。

说话人日志 为了和MISP2022挑战赛参赛方案对比,我们使用了与参赛时一样的说话人日志 (SD)模型[14]来切分验证集 (  )和测试集 (  ),切分后的数据集分别表示为  和  。

实验设置

所有系统,包括 ASR、VSR 和 AVSR,均使用ESPnet工具包进行构建。对于音频ASR模型,我们使用了一个包含 24 层的 E-Branchformer 作为编码器,每层有 256 维、4 个注意力头和 1024 维的前馈内部线性投影。此外,解码器包含 6 个 Transformer 层,每层有 4 个注意力头和 2048 维的前馈。编码器和解码器的dropout都设置为 0.2。对于基于视频的 VSR 模型,视觉前端是一个包含 5 层的 ResNet3D 模块,通道数为 32、64、64、128、256,核大小为 3,视觉编码器是一个包含 9 层的 E-Branchformer,其他与 ASR 系统相同。为了验证 E-Branchformer 编码器的优越性能,我们还训练了与 E-Branchformer 相似模型大小的 Conformer 和 Branchformer ASR 和 VSR 模型。对于音频-视觉语音识别模型,交叉注意力模块使用了 4 个注意力头,每个头有 256 个注意力维度。在训练开始时,音频和视觉编码器分别使用预训练好的 ASR 和 VSR 模型进行初始化。

实验结果及分析

单模态 ASR 和 VSR 模型

如表1所示,我们对Conformer、Branchformer和E-Branchformer编码器在ASR和VSR模型中进行性能比较。对于Conformer和Branchformer编码器,我们通过增加编码器层数或特征维度来扩展ASR和VSR系统的模型大小,确保比较的公平性。在MISP2022-AVSR数据集上的结果表明,E-Branchformer编码器在性能上优于Conformer和Branchformer编码器。具体而言,与Branchformer模型相比,E-Branchformer ASR和VSR模型在Eval集的CER上分别实现了0.8%和2.2%的相对下降,与Conformer模型相比,分别实现了1.3%和3.8%的相对下降。

表1 不同编码器的ASR、VSR模型在Dev和Eval集上的CER(%)结果以及在   集上的cpCER(%)结果

与常见模态融合方法对比

为了更好地展示多层交叉注意力融合方法的优势,我们实现了两种常见的融合方法进行比较:(1)简单地将音频和视觉编码器的输出相加以及(2)在沿特征维度连接输出后通过MLP进行融合。MLP模块包括两层线性投影,分别为2048维和256维。为了公平比较,在Add和MLP融合实验中,我们将音频和视觉编码器的E-Branchformer编码器层数分别从24增加到27和从9增加到12。表2呈现了利用不同融合策略的音视频语音识别系统的实验结果。显然,我们提出的多层交叉注意力(MLCA)融合方法优于Add和MLP,分别在Eval集上实现了高达2.4%和2.5%的相对CER改善。

表2 采用不同融合方法的视听语音识别系统效果

消融实验

表3 针对MLCA-AVSR中的3个交叉注意力模块的消融实验结果

与MISP2022挑战赛Top3系统对比

表4 针对MLCA-AVSR与MISP2022挑战赛AVSR赛道Top3系统对比结果

参考文献

[1] Pingchuan Ma, Stavros Petridis, and Maja Pantic, “End-to-end audio-visual speech recognition with conformers,” in Proc. ICASSP. IEEE, 2021, pp. 7613–7617.

[2] George Sterpu, Christian Saam, and Naomi Harte, “Attentionbased audio-visual fusion for robust automatic speech recognition,” in Proc. MI. ACM, 2018, pp. 111–115.

[3] Yifei Wu, Chenda Li, Song Yang, Zhongqin Wu, and Yanmin Qian, “Audio-visual multi-Talker speech recognition in a cocktail party,” in Proc. Interspeech. ISCA, 2021, pp. 3021–3025.

[4] Ao Zhang, He Wang, Pengcheng Guo, Yihui Fu, Lei Xie, Yingying Gao, Shilei Zhang, and Junlan Feng, “VE-KWS: Visual modality enhanced end-to-end keyword spotting,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.

[5] Ming Cheng, Haoxu Wang, Yechen Wang, and Ming Li, “The DKU audio-visual wake word spotting system for the 2021 MISP challenge,” in Proc. ICASSP. IEEE, 2022, pp. 92569260.

[6] Tao Li, Haodong Zhou, Jie Wang, Qingyang Hong, and Lin Li, “The XMU system for audio-visual diarization and recognition in MISP challenge 2022,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[7] Hang Chen, Jun Du, Yusheng Dai, Chin Hui Lee, Sabato Marco Siniscalchi, Shinji Watanabe, Odette Scharenborg, Jingdong Chen, et al., “Audio-visual speech recognition in misp2021 challenge: Dataset release and deep analysis,” in Proc. Interspeech. ISCA, 2022, pp. 1766–1770.

[8] Zhe Wang, Shilong Wu, Hang Chen, Mao-Kui He, Jun Du, Chin-Hui Lee, Jingdong Chen, Shinji Watanabe, et al., “The multimodal information based speech processing (MISP) 2022 challenge: Audio-visual diarization and recognition,” in Proc. ICASSP. IEEE, 2023, pp. 1–5

[9] Pengcheng Guo, He Wang, Bingshen Mu, Ao Zhang, and Peikun Chen, “The NPU-ASLP system for audio-visual speech recognition in MISP 2022 challenge,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[10] Tao Li, Haodong Zhou, Jie Wang, Qingyang Hong, and Lin Li, “The XMU system for audio-visual diarization and recognition in MISP challenge 2022,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[11] Jaesong Lee and Shinji Watanabe, “Intermediate loss regularization for CTC-based speech recognition,” in Proc. ICASSP. IEEE, 2021, pp. 6224–6228.

[12] Kwangyoun Kim, Felix Wu, Yifan Peng, Jing Pan, Prashant Sridhar, Kyu J Han, and Shinji Watanabe, “E-branchformer: Branchformer with enhanced merging for speech recognition,” in Proc. SLT. IEEE, 2023, pp. 84–91.

[13] David Snyder, Guoguo Chen, and Daniel Povey, “Musan: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484, 2015.

[14] Bowen Pang, Huan Zhao, Gaosheng Zhang, Xiaoyue Yang, et al., “Tsup speaker diarization system for conversational short-phrase speaker diarization challenge,” in Proc. ISCSLP. IEEE, 2022, pp. 502–506.

[15] Gaopeng Xu, Xianliang Wang, Sang Wang, Junfeng Yuan, Wei Guo, Wei Li, and Jie Gao, “The NIO System for audio-visual diarization and recognition in MISP challenge 2022,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[16] Jonathan G Fiscus, “A post-processing system to yield reduced word error rates: Recognizer output voting error reduction (ROVER),” in Proc. ASRU. IEEE, 1997, pp. 347–354.

文章来源于音频语音与语言处理研究组 ,作者王贺

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/705473.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大语言模型推理加速技术:计算加速篇

原文:大语言模型推理加速技术:计算加速篇 - 知乎 目录 简介 Transformer和Attention 瓶颈 优化目标 计算加速 计算侧优化 KVCache Kernel优化和算子融合 分布式推理 内存IO优化 Flash Attention Flash Decoding Continuous Batching Page…

Go Run - Go 语言中的简洁指令

原文:breadchris - 2024.02.21 也许听起来有些傻,但go run是我最喜欢的 Go 语言特性。想要运行你的代码?只需go run main.go。它是如此简单,我可以告诉母亲这个命令,她会立即理解。就像 Go 语言的大部分功能一样&…

微调实操四:直接偏好优化方法-DPO

在《微调实操三:人类反馈对语言模型进行强化学习(RLHF)》中提到过第三阶段有2个方法,一种是是RLHF, 另外一种就是今天的DPO方法, DPO通过直接优化语言模型来实现对其行为的精确控制,而无需使用复杂的强化学习,也可以有效学习到人类偏好,DPO相…

python中的类与对象(2)

目录 一. 类的基本语法 二. 类属性的应用场景 三. 类与类之间的依赖关系 (1)依赖关系 (2)关联关系 (3)组合关系 四. 类的继承 一. 类的基本语法 先看一段最简单的代码: class Dog():d_…

智慧公厕的目的和意义是什么?

智慧公厕是近年来城市建设中的一项重要举措,其目的在于实现公共厕所的智慧化管理,为市民群众提供更好的服务体验,助力智慧城市和数字环卫的发展,提升社会公共卫生服务水平。 与此同时,智能公厕也具有重要的意义&#x…

springboot+vue实现微信公众号扫码登录

通常在个人网站中,都会有各种第三方登录,其中微信登录需要认证才能使用,导致个人开发者不能进行使用此功能,但是我们可以使用微信公众号回复特定验证码来进行登录操作。 微信关键词处理 微信公众号关键词自动回复,具体…

60kW 可编程直流回馈负载箱的优势和特点

60kW可编程直流回馈负载箱是一种先进的电力设备,主要用于模拟电网中的负载,为电力系统提供稳定的负载环境。它具有许多优势和特点,使其在电力系统中得到了广泛的应用。 60kW可编程直流回馈负载箱具有高效的能源转换效率,能够将电能…

人机界面和三菱PLC之间以太网通信

本文主要描述人机界面WinCC如何与三菱Q系列PLC进行以太网通讯,主要介绍了CPU自带以太网口和扩展以太网模块两种情况以及分别使用TCP、UDP两种协议进行通讯组态步骤及其注意事项。 一、 说明 WinCC从V7.0 SP2版本开始增加了三菱以太网驱动程序,支持和三…

Windows常用协议

LLMNR 1. LLMNR 简介 链路本地多播名称解析(LLMNR)是一个基于域名系统(DNS)数据包格式的协议,可用于解析局域网中本地链路上的主机名称。它可以很好地支持IPv4和IPv6,是仅次于DNS 解析的名称解析协议。 2.LLMNR 解析过程 当本地hosts 和 DNS解析 当本地hosts 和 …

docker 常用指令(启动,关闭,查看运行状态)

文章目录 docker 常用指令启动 docker关闭 docker查看 docker的运行状态 docker 常用指令 启动 docker systemctl start docker关闭 docker systemctl stop docker查看 docker的运行状态 systemctl status docker如下图所示: 表示docker正在运行中

集合框架体系和使用1(Collection)

Map的不同实现类单独再搞一章讲 目录 数组的特点、弊端与集合框架体系介绍 数组 特点 弊端 Java集合框架体系(java.util包下) java.util.Collection:存储一个一个的数据(主要讲两个子接口) java.util.Map:存储一对一对的数据…

基于uniapp大学生社团活动管理系统python+java+node.js+php微信小程序

uni-app框架:使用Vue.js开发跨平台应用的前端框架,编写一套代码,可编译到Android、小程序等平台。 语言:pythonjavanode.jsphp均支持 框架支持:springboot/Ssm/thinkphp/django/flask/express均支持 运行软件:idea/eclipse/vscod…

递归和迭代【Py/Java/C++三种语言详解】LeetCode每日一题240218【树DFS】LeetCode 589、 N 叉树的前序遍历

有LeetCode算法/华为OD考试扣扣交流群可加 948025485 可上全网独家的 欧弟OJ系统 练习华子OD、大厂真题 绿色聊天软件戳 od1336了解算法冲刺训练 文章目录 题目描述解题思路代码方法一:递归法PythonJavaC时空复杂度 方法二:迭代法PythonJavaC时空复杂度 …

面试redis篇-08数据淘汰策略

原理 当Redis中的内存不够用时,此时在向Redis中添加新的key,那么Redis就会按照某一种规则将内存中的数据删除掉,这种数据的删除规则被称之为内存的淘汰策略。 Redis支持8种不同策略来选择要删除的key: noeviction: 不淘汰任何key,但是内存满时不允许写入新数据,默认就是…

JetBrains系列工具,配置PlantUML绘图

PlantUML是一个很强大的绘图工具,各种图都可以绘制,具体的可以去官网看看,或者百度。 PlantUML简述 https://plantuml.com/zh/ PlantUML语言参考指引 https://plantuml.com/zh/guide PlantUML语言是依赖Graphviz进行解析的。Graphviz是开源…

[设计模式Java实现附plantuml源码~行为型] 撤销功能的实现——备忘录模式

前言: 为什么之前写过Golang 版的设计模式,还在重新写Java 版? 答:因为对于我而言,当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言,更适合用于学习设计模式。 为什么类图要附上uml 因为很…

2024程序员容器化上云之旅-第6集-Ubuntu-WSL2-Windows11版:艰难复活

故事梗概 Java程序员马意浓在互联网公司维护老旧电商后台系统。 渴望学习新技术的他在工作中无缘Docker和K8s。 他开始自学Vue3并使用SpringBoot3完成了一个前后端分离的Web应用系统,并打算将其用Docker容器化后用K8s上云。 8 复活重生 周末终于有点属于自己的…

【书籍分享 • 第三期】虚拟化与容器技术

文章目录 一、本书内容二、读者对象三、编辑推荐四、前言4.1 云计算技术的发展4.2 KVM、Docker4.3 本书内容简介4.4 作者简介 五、粉丝福利 一、本书内容 《虚拟化与容器技术》通过深入浅出的方式介绍KVM虚拟化技术与Docker容器技术的概念、原理及实现方法,内容包括…

Linux之安装Nginx、前后端分离项目部署

目录 一、安装Nginx 1.1先一键安装4个依赖 1.2下载并解压安装包 1.3安装nginx,一般我们在nginx都是要安装ssl证书的 1.4 启动nginx服务 1.5开放80端口 1.6配置nginx自启动 1.7修改/etc/rc.d/rc/local的权限 二、多个tomcat负载加后端部署 2.1创建多个tomca…

Windows已经安装了QT 6.3.0,如何再安装一个QT 5.12

要在Windows上安装Qt 5.12,您可以按照以下步骤操作: 下载Qt 5.12:访问Qt官方网站或其他可信赖的来源,下载Qt 5.12的安装包。 下载安装地址 下载安装详细教程 安装问题点 qt安装时“Error during installation process(qt.tools…