视觉语音识别挑战赛 CNVSRC 2024

       CNVSRC 2024由NCMMSC 2024组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办竞赛的目标是通过口唇动作来推断发音内容,进一步推动视觉语音识别技术的发展。视觉语音识别(也称为读唇技术)是一种通过观察唇部动作推断发音内容的技术,广泛应用于公共安全、辅助老年人和残疾人以及假视频检测等领域。

     当前,读唇研究仍处于初级阶段,无法满足实际应用需求。尽管在短语识别上取得了显著进展,但在大规模连续识别方面仍面临巨大挑战,尤其是中文的研究进展因缺乏相关数据资源而受到很大限制。

1、挑战任务

单说话人视觉语音识别 (Single-speaker VSR, T1):专注于对特定说话人大规模调整的性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

多说话人视觉语音识别 (Multi-speaker VSR, T2):专注于系统对非特定说话人的基本性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

2、挑战数据集

  • CN-CVS:2023年,清华大学的CSLT(Center for Speech and Language Technologies)发布了CN-CVS数据集,包含超过2557名说话者的视觉语音数据,超过300小时,涵盖新闻广播和公共演讲场景,是目前最大的开源中文视觉语音数据集,为推动大规模连续视觉语音识别(LVCVSR)提供了可能性
  • CNVSRC-Single:单说话者数据,包含来自互联网媒体的音频和视频数据,超过100小时。
  • CNVSRC-Multi:多说话者数据,包含43名说话者的音频和视频数据,每人近1小时。
  • CN-CVS2-P1:开放式赛道的额外数据源,提供超过16万句话语,总时长约200小时。

3、评估指标

CNVSRC 2024使用字符错误率(Character Error Rate, CER)作为主要评价指标。

CER主要由三种类型的错误组成:插入(Insertion)、替代(Substitution)和删除(Deletion),Nins、Nsubs、Ndel代表三种类型的错误数量,Ntotal代表错误总数量。

  • 插入错误发生在正确的字符之间不应该有任何字符,但实际上却出现了一个额外的字符。
  • 替代错误是指正确的字符被错误地替换为另一个字符。
  • 删除错误发生在一个字符应该存在的地方,但是却没有该字符。
  • 4、基线系统性能

基线系统旨在提供一个合理的性能基准,使用与固定赛道(Fixed Track)允许的数据资源相同的数据集构建。基线系统采用Conformer结构作为主要的构建块。Conformer是一种流行的神经网络架构,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,常用于语音识别任务。

基线系统的性能通过字符错误率(CER)来衡量,这是评估视觉语音识别系统的主要指标。

  • 在固定赛道的单说话者视觉语音识别(VSR)任务上,基线系统在开发集(Dev Set)上的CER为41.22%,在评估集(Eval Set)上的CER为39.66%。
  • 在多说话者视觉语音识别任务上,基线系统在开发集上的CER为52.42%,在评估集上的CER为52.20%。

5、如何降低字符错误率(CER)并提高视觉语音识别(VSR)的准确率

  • 改进特征提取:利用更有效的视觉特征提取技术,如3D卷积、自注意力机制等,以获取更丰富的时空信息。
  • 增加训练数据量:利用数据增强技术如裁剪、旋转、缩放等来扩展训练数据集,同时收集更多高质量的训练数据。
  • 引入语言模型:使用N-gram或RNN语言模型,以约束解码器输出合理的单词序列。
  • 使用预训练模型:在固定赛道中,可以利用预训练的声学模型和语言模型作为特征提取器。
  • 改进解码器:尝试使用集束搜索或基于注意力机制的解码器,以提高解码质量。
  • 模型融合:使用集成学习技术,如模型平均或堆叠,以提高整体性能。
  • 数据清洗和增强:对训练数据进行清洗,去除质量较差的样本,并进行增强以提高模型的泛化能力。
  • 微调和调优:在测试集上进行模型调优,找到最优的模型参数配置。
  • 研究注意力机制:设计新的注意力机制,以使模型更关注关键信息,如嘴唇区域。
  • 使用端到端训练:通过端到端训练,使模型各部分能更好地协同工作。

6、关键日期

2024.05.08

注册开始

2024.05.08

数据集发布

2024.05.08

基线系统发布

2024.07.01

递交系统开放

2024.08.01

结果递交截止

2024.08.15

NCMMSC 2024 研讨会

7、相关资源

官网:http://cnceleb.org/competition#registration

基线系统源代码:Files · cncvs · Lantian Li / Sunine · GitLab。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/18505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二叉树顺序结构实现【堆的实现】【详细图解】

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 目录 1、二叉树的顺序结构2、堆的概念3、堆的实现3.1 堆实现的前提3.1.1 向上调整3.1.2 向下调…

采用java语言+B/S架构+后端SpringBoot前端Vue开发的ADR药品不良反应智能监测系统源码

采用java语言+B/S架构+后端SpringBoot前端Vue开发的ADR药品不良反应智能监测系统源码 ADR监测引擎每日主动获取检验数据、病历内容(可拓展)、以及其他临床数据,根据知识库内容自动判定患者是否有不良反应迹象&#xf…

【iOS】UI学习(一)

UI学习(一) UILabelUIButtonUIButton事件 UIViewUIView对象的隐藏UIView的层级关系 UIWindowUIViewController定时器与视图对象 UISwitch UILabel UILabel是一种可以显示在屏幕上,显示文字的一种UI。 下面使用代码来演示UILabel的功能&#…

做好开源快速开发平台研发创新 助力行业高效发展!

随着信息化时代的到来,科技的力量无处不在。为了提高办公效率,很多大中型企业倾向于使用更为先进的软件平台来助力企业降本增效。在众多助力神器之中,开源快速开发平台低代码技术平台深得广大新老客户朋友的喜爱,它与生俱来的优势…

Java数据类型

一、每种数据都定义了 明确的数据类型,在内存中分配了不同大小的 内存空间(字节)。 二、Java数据类型分为两种: 基本数据类型: 数值型: 整数类型,存放整数(byte[1] , short[2] , int[4] , long[8]) 浮点类型&#xff0…

UE5 读取本地图片并转换为base64字符串

调试网址&#xff1a;在线图像转Base64 - 码工具 (matools.com) 注意要加&#xff08;data:image/png;base64,&#xff09; FString UBasicFuncLib::LoadImageToBase64(const FString& ImagePath) {TArray<uint8> ImageData;// Step 1: 读取图片文件到字节数组if (!…

【蓝桥杯】第十四届蓝桥杯大赛软件赛国赛C/C++ 大学 B 组

答题结果页 - 蓝桥云课 (lanqiao.cn) 0子2023 - 蓝桥云课 (lanqiao.cn)&#xff08;暴力枚举 #include<bits/stdc.h> using lllong long; using ullunsigned long long; #define fir first #define sec second //#define int llconst int N1e510; const int mod1e97;int…

HT46R002 贴片 SOP8 经济型AD型OTP MCU单片机芯片

HT46R002在智能家居中的具体应用案例可以包括以下几个方面&#xff1a; 1. 智能照明控制&#xff1a;可以用于控制LED灯的亮度和色温&#xff0c;甚至可以通过手机APP远程控制开关和调节灯光效果。 2. 环境监测&#xff1a;用于监测室内温度、湿度、空气质量等&#xff0c;当检…

httpJVM

目录 HTTPS如何保证安全 1&#xff09;引入非对称加密 2&#xff09;引入非对称加密 3.中间人攻击 4.解决中间人攻击 JVM 1.JVM内存划分 2.JVM类加载过程 八股内容 3.JVM中的垃圾回收机制 释放垃圾的策略 1.标记-清除 2.复制算法 3.标记-整理 分代回收 HTTPS如何…

Android Graphics图形栈SurfaceFlinger之间各种Layer以及对应Buffer之间的关系

Android Graphics图形栈SurfaceFlinger之间各种Layer以及对应Buffer之间的关系 SurfaceFlinger layer之间的对应关系

MyBatis学习笔记(周五前学完)

MyBatis-Plus是一个MyBatis的增强工具。在MyBatis的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 通过MyBatis-Plus来进行数据插入时&#xff0c;它默认会 使用雪花算法来生成id&#xff0c;长度比较长 增删改的返回值都是统一的&#xff0c;影响的只有行数。…

给pdf加水印,python实现

from PyPDF2 import PdfReader, PdfWriterdef add_watermark(pdf_file_in, pdf_file_mark, pdf_file_out):"""把水印添加到pdf中"""pdf_output PdfWriter()input_stream open(pdf_file_in, rb)pdf_input PdfReader(input_stream, strictFalse…

基于魔搭开源推理引擎 DashInfer实现CPU服务器大模型推理--理论篇

前言 在人工智能技术飞速发展的今天&#xff0c;如何高效地在CPU上运行大规模的预训练语言模型&#xff08;LLM&#xff09;成为了加速生成式AI应用广泛落地的核心问题。阿里巴巴达摩院模型开源社区ModelScope近期推出了一款名为DashInfer的推理引擎&#xff0c;旨在解决这一挑…

机器学习补充学习

1、Adaboost算法 Adaboost算法是一种集成学习方法&#xff0c;通过结合多个弱学习器来构建一个强大的预测模型。核心思想&#xff1a;如果一个简单的分类器在训练数据上犯错误&#xff0c;那么它在测试数据上也可能犯错误。 Adaboost通过迭代地训练一系列的分类器&#xff0c…

QT-demo:0轴分布图表

版本&#xff1a;5.9 第一种: 使用 PyQt5 和 Matplotlib 库 安装所需的库&#xff1a; pip install PyQt5 matplotlib创建和显示图表&#xff1a; import sys import numpy as np import matplotlib.pyplot as plt from PyQt5.QtWidgets import QApplication, QMainWindow f…

【busybox记录】【shell指令】ln

目录 内容来源&#xff1a; 【GUN】【ln】指令介绍 【busybox】【ln】指令介绍 【linux】【ln】指令介绍 使用示例&#xff1a; 创建链接文件 - 链接文件&#xff08;默认 - 硬链接&#xff09; 创建链接文件 - 链接文件&#xff08;软链接&#xff09; 创建链接文件 -…

JeeSite 4.x and 5.x快速开发平台前端技术探索与实践

一、引言 随着企业信息化建设的不断推进&#xff0c;对于快速、高效、安全的企业级应用需求日益增长。JeeSite作为一款企业级快速开发平台&#xff0c;以其强大的后端功能和灵活的前端架构&#xff0c;为开发者提供了强大的支持。本文旨在探讨JeeSite快速开发平台在前端技术方…

新零售收银解决方案:传统门店超市的数字化-亿发

在数字化浪潮的推动下&#xff0c;零售行业正经历着前所未有的变革。阿里巴巴提出的“新零售”概念&#xff0c;不仅仅是一个商业口号&#xff0c;它代表了一种全新的商业模式和运营理念。随着时代的进步和消费需求的不断升级&#xff0c;新零售的兴起已成为行业发展的必然趋势…

学习笔记之——2D Gaussian Splatting(2DGS)

3DGS在辐射场重建中取得了巨大的成就&#xff0c;实现高质量的新视图合成和快速渲染。最近新出了3DGS的升级版本&#xff0c;2DGS。写下本博文记录本人学习及测试2DGS的过程&#xff0c;本博文仅为本人学习记录用~ Project WebsiteGithub CodeOriginal paper 目录 原理解读 …

企业级OV SSL证书的应用场景和加密手段

为了保护数据传输的安全性与用户隐私&#xff0c;企业级OVSSL&#xff08;Organization Validation SSL&#xff09;证书成为众多企业的首选安全解决方案。本文将深入探讨OVSSL证书的应用场景及其实现数据加密的核心手段&#xff0c;为企业构建坚不可摧的在线信任桥梁提供指南。…