视觉语音识别挑战赛 CNVSRC 2024

CNVSRC 2024由NCMMSC 2024组委会发起，清华大学、北京邮电大学、海天瑞声、语音之家共同主办。竞赛的目标是通过口唇动作来推断发音内容，进一步推动视觉语音识别技术的发展。视觉语音识别（也称为读唇技术）是一种通过观察唇部动作推断发音内容的技术，广泛应用于公共安全、辅助老年人和残疾人以及假视频检测等领域。

当前，读唇研究仍处于初级阶段，无法满足实际应用需求。尽管在短语识别上取得了显著进展，但在大规模连续识别方面仍面临巨大挑战，尤其是中文的研究进展因缺乏相关数据资源而受到很大限制。

1、挑战任务

单说话人视觉语音识别 (Single-speaker VSR, T1)：专注于对特定说话人大规模调整的性能。

固定赛道只允许使用组委会允许的数据和其他资源。
开放赛道可以使用任何资源，但不能使用评估集。

多说话人视觉语音识别 (Multi-speaker VSR, T2)：专注于系统对非特定说话人的基本性能。

固定赛道只允许使用组委会允许的数据和其他资源。
开放赛道可以使用任何资源，但不能使用评估集。

2、挑战数据集

CN-CVS：2023年，清华大学的CSLT（Center for Speech and Language Technologies）发布了CN-CVS数据集，包含超过2557名说话者的视觉语音数据，超过300小时，涵盖新闻广播和公共演讲场景，是目前最大的开源中文视觉语音数据集，为推动大规模连续视觉语音识别（LVCVSR）提供了可能性。
CNVSRC-Single：单说话者数据，包含来自互联网媒体的音频和视频数据，超过100小时。
CNVSRC-Multi：多说话者数据，包含43名说话者的音频和视频数据，每人近1小时。
CN-CVS2-P1：开放式赛道的额外数据源，提供超过16万句话语，总时长约200小时。

3、评估指标

CNVSRC 2024使用字符错误率（Character Error Rate, CER）作为主要评价指标。

CER主要由三种类型的错误组成：插入（Insertion）、替代（Substitution）和删除（Deletion），Nins、Nsubs、Ndel代表三种类型的错误数量，Ntotal代表错误总数量。

插入错误发生在正确的字符之间不应该有任何字符，但实际上却出现了一个额外的字符。
替代错误是指正确的字符被错误地替换为另一个字符。
删除错误发生在一个字符应该存在的地方，但是却没有该字符。
4、基线系统性能

基线系统旨在提供一个合理的性能基准，使用与固定赛道（Fixed Track）允许的数据资源相同的数据集构建。基线系统采用Conformer结构作为主要的构建块。Conformer是一种流行的神经网络架构，结合了卷积神经网络（CNN）和循环神经网络（RNN）的优点，常用于语音识别任务。

基线系统的性能通过字符错误率（CER）来衡量，这是评估视觉语音识别系统的主要指标。

在固定赛道的单说话者视觉语音识别（VSR）任务上，基线系统在开发集（Dev Set）上的CER为41.22%，在评估集（Eval Set）上的CER为39.66%。
在多说话者视觉语音识别任务上，基线系统在开发集上的CER为52.42%，在评估集上的CER为52.20%。

5、如何降低字符错误率(CER)并提高视觉语音识别(VSR)的准确率

改进特征提取：利用更有效的视觉特征提取技术，如3D卷积、自注意力机制等，以获取更丰富的时空信息。
增加训练数据量：利用数据增强技术如裁剪、旋转、缩放等来扩展训练数据集，同时收集更多高质量的训练数据。
引入语言模型：使用N-gram或RNN语言模型，以约束解码器输出合理的单词序列。
使用预训练模型：在固定赛道中，可以利用预训练的声学模型和语言模型作为特征提取器。
改进解码器：尝试使用集束搜索或基于注意力机制的解码器，以提高解码质量。
模型融合：使用集成学习技术，如模型平均或堆叠，以提高整体性能。
数据清洗和增强：对训练数据进行清洗，去除质量较差的样本，并进行增强以提高模型的泛化能力。
微调和调优：在测试集上进行模型调优，找到最优的模型参数配置。
研究注意力机制：设计新的注意力机制，以使模型更关注关键信息，如嘴唇区域。
使用端到端训练：通过端到端训练，使模型各部分能更好地协同工作。

6、关键日期

2024.05.08	注册开始
2024.05.08	数据集发布
2024.05.08	基线系统发布
2024.07.01	递交系统开放
2024.08.01	结果递交截止
2024.08.15	NCMMSC 2024 研讨会