用于目标说话人提取的统一视听线索

第二章 目标说话人提取之《Unified Audio Visual Cues for Target Speaker Extraction



前言

语音新手入门,学习读懂论文。
本文作者机构是
在这里插入图片描述


一、任务

提出了一个统一的TSE网络,称为Uni-Net,它采用分而治之的策略将音频和嘴唇线索融合到不同的网络中,利用每个线索的独特信息。从各种线索中提取的语音作为先验信息,通过后处理网络进一步细化。

二、动机

语音注册的方法会面临一些问题,如年龄和情绪会改变说话人的声音特征。此外,由于混合物中相似的语音特性,性能也会下降。

三、挑战

音频线索反映了说话者独特的声音属性,而视觉线索与目标语音在时间上是同步的。此外,音频线索是时不变的,而视觉线索是时变的,导致两者之间的差异。因此,在混合语音的共享网络中集成音频和视觉线索并不是最佳选择。这些线索会相互干扰,严重阻碍了性能的提高。

四、方法

1.总体架构

在这里插入图片描述
提出的框架由三个部分组成:基于音频线索的提取子网(ACENet)、基于视觉线索的提取子网(VCENet)和后处理网络(PPNet)。

2.tes网络

在这里插入图片描述
对于视觉提取器,我们使用了一个3D卷积层,然后是一个18层的ResNet和一个时间卷积网络(TCN)。音频提取器采用长短期记忆(LSTM)单元和线性层的组合。
TCN包含一个卷积层、一个Relu激活层和一个层归一化层。
TF-GridNet开发了ACENet和VCENet,它们代表了最先进的语音分离性能。TF-GridNet在STFT域内训练,使用二维卷积和层归一化对复频谱进行编码。每个TF-Grid块包括三个主要模块:帧内频谱模块、子带时间模块和全带自注意模块。
帧内频谱模块将输入R (D×T ×F)解释为T个不同的序列在T上做,并部署BLSTM来捕获每帧的全频带和频谱信息。
子带时间模块将输入R D×T ×F视为F个单独的序列,利用BLSTM捕获每个频率内的时间动态。
全频带自注意模块中,输入被重塑为大小为T × (F × D)的表示,其中多头自注意被用于建模全局依赖关系。

3. 融合网络

在这里插入图片描述
实现了 in-place 卷积作为后处理网络,该架构包括三个主要组件:Inplace Encoder、Frequency-wise LSTM 和 Inplace Decoder。Inplace Encoder 和 Inplace Decoder 都采用了六层 in-place 卷积操作。in-place 卷积采用步幅为 1,从而保留了频谱细节,并促进了对通道间相关性的分析。

4.损失函数

在这里插入图片描述
使用尺度不变的信噪比(硅信噪比)[23]作为损失函数

五、实验评价

1.数据集

VoxCeleb2数据集,选择了48,000个包含800个说话者的话语进行训练,并从118个不同的说话者中选择了36,237个话语进行测试,确保两个集之间没有说话者重叠。 干扰语音与目标语音合并,使用随机的信噪比(SNR)在-10dB到10db之间变化。

2.消融实验

在这里插入图片描述

3.客观评价

作者 提出的框架显著优于SpeakerBeam,在SISNRi、SDRi、PESQ和STOI方面分别提高了1.72 dB、1.63 dB、0.46 dB和3.3%。
在这里插入图片描述
视觉线索被遮挡时,作者进一步评估了提出的框架和基线的鲁棒性。
在这里插入图片描述
不同遮挡程度下的对比。

在这里插入图片描述

4.主观评价


六、结论

作者提出了一个统一的目标说话人提取框架,以克服音频和视觉线索之间的冲突。具体来说,作者利用分而治之的方法,将音频和视觉线索集成到不同的子网中,以利用每个线索提供的独特信息。还引入了一种后处理网络,进一步提取目标语音并抑制干扰。实验证明,作者的网络架构与其他具有竞争力的基线相比,该方法具有优越的性能。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/51487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

93.WEB渗透测试-信息收集-Google语法(7)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:92.WEB渗透测试-信息收集-Google语法(6) • intext • intext 的作…

[数据集][目标检测]电力场景输电线导线散股检测数据集VOC+YOLO格式3890张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3890 标注数量(xml文件个数):3890 标注数量(txt文件个数):3890 标注…

亲测好用,吐血整理 ChatGPT 3.5/4.0 新手使用手册~ 【2024年9月 更新】

废话不多说,直接分享正文~ 以下是小编为大家搜集到的最新的ChatGPT国内站,各有优缺点。 1、AI Plus(稳定使用) 推荐指数:⭐⭐⭐⭐⭐ yixiaai.com 该网站已经稳定运营了1年多了。2023年3月份第一批上线的网…

网络udp及ipc内存共享

大字符串找小字符串 调试 1. 信号处理函数注册:•一旦使用 signal 函数注册了信号处理函数,该函数就会一直有效,直到程序结束或者显式地取消注册。2. 注册多次的影响:•如果多次注册同一信号的处理函数,最后一次注册的…

PHP软件下载-安装-环境配置

.1.下载 下载地址如下 windows.php.net - /downloads/releases/ 安装包如下. .2.安装 可以在D盘或者E盘的根目录创建一个自定义目录。注意文件夹目录中不能包含中文,不能包含空格等特殊字符。 版本说明: (1)ts表示非线程安全版本。这个安装包还指明了…

Spring security 密码加密使用

一、密码加密 2011年12月21日,有人在网络上公开了一个包含600万个CSDN 用户资料的数据库,数据全部为明文储存,包含用户名、密码以及注册邮箱。事件发生后CSDN 在微博、官方网站等渠道发出了声明、解释说此数据库系2009 年备份所用&#xff0c…

Adobe After Effects的插件--------CC Ball Action

CC Ball Action是粒子效果器,其将2D图层变为一个个由3D小球构成的图层。它是AE内置的3D插件。 使用条件 使用该插件的图层需是2D图层。 我们以一张图片素材为例: 给图片图层添加CC Ball Action效果控件,然后新建一个摄像机(利用摄像机旋转、平移、推拉工具,方便在各个角…

OpenCV几何图像变换(6)计算反转仿射变换函数invertAffineTransform()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 反转一个仿射变换。 该函数计算由 23 矩阵 M 表示的逆仿射变换: [ a 11 a 12 b 1 a 21 a 22 b 2 ] \begin{bmatrix} a_{11} & a…

OpenCV绘图函数(2)绘制圆形函数circle()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 绘制一个圆。 cv::circle 函数用于绘制一个给定中心和半径的简单圆或填充圆。 函数原型 void cv::circle (InputOutputArray img,Point cen…

【JVM】垃圾回收算法(一)

垃圾回收算法 Java程序在运行过程中会产生大量的对象,但是内存大小是有限的,如果光用而不释放,那内存迟早被耗尽。如C/C程序,需要程序员手动释放内存,Java则不需要,是由垃圾回收期去自动回收。垃圾回收器回…

基于x86 平台opencv的图像采集和seetaface6的眼睛状态检测(睁眼,闭眼)功能

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境三、开发流程3.1 编写测试3.2 配置资源文件3.3 验证功能一、概述 本文档是针对x86 平台opencv的图像采集和seetaface6的眼睛状态检测(睁眼,闭眼)功能,opencv通过摄像头采集视频图像,将采集的视频图像送给seetaface6的眼睛…

挑选适合的项目协同软件?看看这10款

文章主要介绍了以下10款项目协同进度软件:1.PingCode;2.Worktile;3.万户OA;4.小步外勤;5.智办事;6.万里牛;7.轻流;8.Toggl Track;9.Trello;10.Todoist。 在如…

PHP概述-特点-应用领域-如何学习

老师建议注册使用百度文心一言;讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞;Kimi.ai - 帮你看更大的世界 等人工智能工具软件的一个到两个,也可下载文心一言、讯飞星火、kimi等APP软件使用,对于我们在读的大二学生来说有什么…

哪款麦克风音质效果好?一文看懂无线领夹麦克风什么品牌好

说到无线领夹麦克风麦克风,可能有些朋友对这个名字感觉很陌生,但是对于自媒体创作者以及短视频up主而言,应该会更熟悉一些。因为一款好的麦克风是提升音质的关键,而无线领夹麦克风作为一种小巧方便的收音设备,近些年更…

Citrix ADC Release 13.1 Build 54.29 (nCore, VPX, SDX, CPX, BLX) - 混合多云应用交付控制器

Citrix ADC Release 13.1 Build 54.29 (nCore, VPX, SDX, CPX, BLX) - 混合多云应用交付控制器 Citrix ADC - 混合多云应用交付控制器 请访问原文链接:https://sysin.org/blog/citrix-adc-13/,查看最新版。原创作品,转载请保留出处。 作者…

spring boot(学习笔记第十九课)

spring boot(学习笔记第十九课) Spring boot的batch框架,以及Swagger3(OpenAPI)整合 学习内容: Spring boot的batch框架Spring boot的Swagger3(OpenAPI)整合 1. Spring boot batch框架 Spring Batch是什么 Spring Batch 是一个…

行为识别实战第二天——Yolov5+SlowFast+deepsort: Action Detection(PytorchVideo)

Yolov5SlowFastdeepsort 一、简介 YoloV5SlowFastDeepSort 是一个结合了目标检测、动作识别和目标跟踪技术的视频处理框架。这一集成系统利用了各自领域中的先进技术,为视频监控、体育分析、人机交互等应用提供了一种强大的解决方案。 1. 组件说明: Y…

51单片机最快能生成多高频率的方波?

前言 在嵌入式系统开发中,51 单片机作为一种非常非常非常经典,贯穿上下几十年的微控制器,被广泛应用于各种电子项目中。其中,生成特定频率的方波信号是一项常见的需求。 那么,51 单片机究竟能以多快的速度生成方波呢&…

26 colorchooser组件

Tkinter colorchooser 组件使用指南 Tkinter 的 colorchooser 组件提供了一个图形界面,用于选择颜色。它允许用户通过标准的颜色选择对话框来选择颜色,非常适合需要颜色选择功能的GUI应用程序。以下是对 colorchooser 组件的详细说明和一个使用案例。 …

UNI-APP 打包构建 APK

UNI-APP 打包构建 APK 前言一、WINDOWS(在线 - 纯命令版)依赖其他前置准备实现原理操作步骤 二、WINDOWS(离线 - Android Studio 版)依赖(首次构建需要联网安装依赖)其他前置准备实现原理操作步骤 三、WIND…