Partially Spoofed Audio Detection论文介绍(ICASSP 2024)

An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection

论文翻译名:一种基于部分欺骗音频检测的基于临时深度伪造位置方法的高效嵌入

摘要:

  • 部分伪造音频检测是一项具有挑战性的任务,在于需要在帧级别上准确地定位音频的真实性。
  • 时间性深度伪造定位( TDL ),可以有效地捕获特征和位置信息。
  • 我们的方法包括两个新颖的部分:嵌入相似性模块和时间卷积操作。
  • 为了有效地集中位置信息,提出了时间卷积操作来计算相邻帧之间的帧特异性相似度,并动态地选择信息丰富的邻居进行卷积。

结论:TDL在19PS数据集上取得了最好的性能,并且在跨数据集场景下也表现良好。

背景:

  • 在大多数数据集和挑战中,一个重要的场景被忽略,即一个真实的语音语句被合成的语音片段污染,导致部分欺骗(PS)。
  • 在整个PS发展领域,先有了两个数据集(一个叫PartialSpoof),使用SELCNN网络增强语音的准确性,之后是有人使用Wav2Vec2作为前端,ECAPA-TDNN作为后端,在ADD 2022 Track 2中取得了第一名。
  • 上面方法并不能精确地定位特定的片段,有人将之前的语音级PS数据集标签扩展到帧级,并提出了相应的基于W2V2的对抗策略来增强帧级检测能力。
  • TDL——Wav2Vec2作为前端,后端集中于细腻地定位虚假语音片段:第一次使用嵌入相似度模块(嵌入空间并得到高质量的嵌入相似度向量);然后,我们提出了时间卷积操作来从嵌入向量中定位区域。从嵌入中计算每个时间位置的局部相似性。获得一个特定于帧的权重来指导卷积进行时间敏感的计算。

内容成果:

1.使用Wav2Vec - XLS - R从原始音频中提取帧级特征;

2. 设计了一个嵌入相似度模块来在嵌入空间中分离真实帧和合成帧,在嵌入层面增强真假区分的识别;

3.为了捕获位置信息,采用时间卷积操作,通过关注相邻帧之间特定帧的相似性;

4.使用1D卷积层和全连接层对帧级标签进行下采样,以计算二进制交叉熵;

一、W2V2 前端

过在掩码特征编码器上解决对比任务进行训练,

首先,不同长度的语音信号通过由七个卷积神经网络( CNN )层组成的特征提取器。

随后,使用包含24层、16个注意力头、嵌入大小为1024的Transformer网络获得上下文表示。

二、嵌入相似度模块(ESM)

  • 嵌入向量是L2 -规范化的;
  • 利用余弦相似度来度量两个嵌入向量的相似度:

  • 为了增加嵌入空间中真假帧之间的距离,提高泛化能力,我们计算了真帧之间、假帧之间以及真假帧之间的余弦相似度;
  • 确保来自不同位置的真实帧表现出相似性,来自不同位置的虚假帧表现出相似性,而真实帧和虚假帧彼此不相似性;
  • 使得不同位置的真实帧和虚假帧相似:

理解:τsame 是同一类别帧的相似度阈值,⌊ . . . ⌋+ 表示零下限幅,...

  • 虽然知道帧级真实性标签的位置,但W2V2-XLS-R特征的时间维度并不与这些帧级标签内在地保持一致。
  • 分离真假帧:

τdiff为相似度阈值,用于约束真假帧之间的距离;

  • 最后嵌入相似度模块采用LESM进行优化:

三、时间卷积操作

为了有效地捕获位置信息,使用嵌入向量作为局部注意力掩码来执行时间卷积操作;

理解:其中fmt为输出特征向量的第m个通道的值,⌊· · ·⌋表示向下取整操作,[ · · ·]表示矩阵的切片,( · )表示内积。X是经过近邻相似度计算处理的调制特征。

其中矩阵a∈Rk × T是一个相似矩阵,计算每个时间位置的局部相似性,a[ i , t]表示第t个特征向量和它的k个邻居之间的相似性。在实际操作中,邻居设置为1,a[ i , t]、a[ i , t-1 ]、a[ i , t + 1]之间进行相似度计算。

在实际操作中,我们根据ESM模块生成的嵌入向量来确定动态核权重。我们对两个序列1D - CNN上的W2V2特征进行时间卷积操作,其中输入通道和输出通道都保持不变,以保持时间维度上的一致性。

四、总损失

使用1D-CNN,全连接层和sigmoid激活函数来计算BCE(Binary Cross-Entropy)损失。

五、实验结果分析

所有的度量都是基于部分欺骗音频的帧级真实性标签计算的。

使用了基于点的二分类准确率,召回率和Sklearn的F1分数。在任何评估之前,根据特征的实际长度消除零填充。

实验测试表明使用real 1fake 0标签的效果更好,而且提出的模型复杂度更低。

贡献点:

  • 提出TDL方法,一种适用于PS场景的高效的ADD方法,该方法结合了嵌入相似性模块和时间卷积操作,可以有效地捕获特征和位置信息。
  • 提出的方法在ASV spoof 2019PS数据集上优于基线模型,即使在跨数据集实验中也表现出优越的性能。

注:科研新手总结的论文,后续会出一篇结合代码的分析文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/23451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NSSCTF-Web题目6

目录 [NISACTF 2022]checkin 1、题目 2、知识点 3、思路 [NISACTF 2022]babyupload 1、题目 2、知识点 3、思路 [SWPUCTF 2022 新生赛]1z_unserialize 1、题目 2、知识点 3、思路 [NISACTF 2022]checkin 1、题目 2、知识点 010编辑器的使用、url编码 3、思路 打…

基于NANO 9K 开发板加载PICORV32软核,并建立交叉编译环境

目录 0. 环境准备 1. 安装交叉编译器 2. 理解makefile工作机理 3. 熟悉示例程序的代码结构,理解软核代码的底层驱动原理 4. 熟悉烧录环节的工作机理, 建立下载环境 5. 编写例子blink, printf等, 加载运行 6. 后续任务 0.…

2024年华为OD机试真题-多段线数据压缩-C++-OD统一考试(C卷D卷)

2024年OD统一考试(D卷)完整题库:华为OD机试2024年最新题库(Python、JAVA、C++合集)​ 题目描述: 下图中,每个方块代表一个像素,每个像素用其行号和列号表示。 为简化处理,多段线的走向只能是水平、竖直、斜向45度。 上图中的多段线可以用下面的坐标串表示:(2, 8), (3…

Modbus TCP转CanOpen网关携手FANUC机器人助力新能源汽车

Modbus TCP转CanOpen网关与FANUC机器手臂的现场应用可以实现FANUC机器手臂与其他设备之间的数据交换和通信。CANopen是一种常见的网络协议,用于处理机器和设备之间的通信,并广泛应用于自动化领域。而Modbus TCP是一种基于TCP/IP协议的通信协议&#xff0…

智慧互联网医院系统开发指南:从源码到在线问诊APP

近期,互联网医院系统的热度非常高,很多人跟小编提问如何开发,今天小编将从零开始为大家详解互联网医院系统源码,以及在线问诊APP开发技术。 一、需求分析与系统设计 1.1 需求分析 用户管理 预约挂号 在线问诊 电子病历 药品…

定个小目标之每天刷LeetCode热题(11)

这是道简单题,只想到了暴力解法,就是用集合存储起来,然后找出其中的众数,看了一下题解,发现有多种解法,我觉得Boyer-Moore 投票算法是最优解,看了官方对这个算法的解释,我是这样理解…

手把手教你用Spring Boot搭建AI原生应用

作者 | 文心智能体平台 导读 本文以快速开发一个 AI 原生应用为目的,介绍了 Spring AI 的包括对话模型、提示词模板、Function Calling、结构化输出、图片生成、向量化、向量数据库等全部核心功能,并介绍了检索增强生成的技术。依赖 Spring AI 提供的功能…

进阶之格式化qDebug()输出

创作灵感 刚刚在看qt帮助手册时&#xff0c;无意间在<QtGlobal>中看见了这个函数void qSetMessagePattern(const QString &pattern)&#xff0c;该函数的精华在于&#xff0c;你可以直接重定义qDebug()的输出结果格式。以往打印调试内容&#xff0c;调试内容所在的行…

00-macOS和Linux安装和管理多个Python版本

在 Mac 上安装多个 Python 版本可通过几种不同方法实现。 1 Homebrew 1.1 安装 Homebrew 若安装过&#xff0c;跳过该步。 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" 1.2 安装 Python 如安装 Python …

计算机毕业设计 | SSM 校园线上订餐系统 外卖购物网站(附源码)

1&#xff0c; 概述 1.1 项目背景 传统的外卖方式就是打电话预定&#xff0c;然而&#xff0c;在这种方式中&#xff0c;顾客往往通过餐厅散发的传单来获取餐厅的相关信息&#xff0c;通过电话来传达自己的订单信息&#xff0c;餐厅方面通过电话接受订单后&#xff0c;一般通…

纷享销客集成平台(IPaaS)解决方案

针对传统对接方式中的痛点&#xff0c;集成平台提炼了一套成熟的解决方案和配套工具。 痛点&#xff11;&#xff1a;编码工作量大。 每个功能点&#xff0c;和众多的容错分支&#xff0c;都需要逐行编码实现。日志打少了影响问题排查&#xff0c;打多了浪费大量存储。 集成…

Django里的ModelForm组件

ModelForm组件 自动生成HTML标签 自动读取关联数据表单验证 错误提示数据库进行&#xff1a;新建&#xff0c;修改 步骤如下&#xff1a; 创建类 # 在 views.py 文件里# 创建一个类 class AssetModelForm(forms.ModelForm):class Meta:model models.AssetSet #fields [n…

k8s 对外服务之 Ingress(HTTPS/HTTP 代理访问 以及Nginx 进行 BasicAuth )

目录 一 Ingress HTTP 代理访问虚拟主机 &#xff08;一&#xff09;原理 &#xff08;二&#xff09;实验 1&#xff0c;准备 2&#xff0c;创建虚拟主机1资源 3&#xff0c;创建虚拟主机2资源 4&#xff0c;创建ingress资源 5&#xff0c;查看相关参数 6&#xff0…

【文末附gpt升级秘笈】埃隆·马斯克芯片调配策略对特斯拉股价的影响分析

埃隆马斯克芯片调配策略对特斯拉股价的影响分析 一、引言 在现代商业环境中&#xff0c;企业间的资源调配与策略布局往往对其股价产生深远影响。据外媒CNBC报道&#xff0c;埃隆马斯克在芯片资源分配上的决策引起了业界的广泛关注。他秘密要求英伟达将原本预留给特斯拉的高端…

如何为律师制作专业的商务名片?含电子名片二维码

律师关注细节&#xff0c;律师名片也不例外。它们不仅仅是身份的象征&#xff0c;更是律师专业形象的代表&#xff0c;传递专业知识和信任。今天就来和我们一起来看看制作律师商务名片的注意事项&#xff0c;以及如何制作商务名片上的电子名片二维码&#xff1f; 一、名片的主…

【Text2SQL】评估 LLM 的 Text2SQL 能力

论文&#xff1a;Evaluating the Text-to-SQL Capabilities of Large Language Models ⭐⭐⭐⭐ arXiv:2204.00498 一、论文速读 本论文尝试了多种 prompt 结构&#xff0c;并且评估了他们在 Codex 和 GPT-3 上的表现。下面介绍这些 prompt 结构&#xff1a; 二、不同的 prom…

优思学院|谈汽车零部件企业生产精益及现场管理

精益生产&#xff08;Lean Production&#xff09;和现场管理作为现代制造企业的核心管理理念&#xff0c;正在越来越多的企业中得到应用。尤其是在中国&#xff0c;许多汽车零部件企业通过精益管理和六西格玛方法&#xff0c;显著提高了生产效率&#xff0c;降低了生产成本&am…

大数据之CDH对Hdfs做Balance数据均衡/数据平衡/数据倾斜

问题的来源: 由于在hive工具运行sql,出现sql卡顿的情况,去cdh上查看yarn资源的分布情况,发现了整个cdh平台中hdfs和yarn资源分布不均匀,大量的爆红显示: 以下 DataNode 数据目录 位于小于其可用空间 10.0 吉字节 的文件系统中。 /data1/dfs/dn&#xff08;可用&#xff1a;7.2 …

C++的类和new和delete和菱形继承机制

文章目录 参考虚函数使用虚函数的class结构相关实现源码IDA反编译子类虚表和父类虚表调用函数菱形继承 参考 https://showlinkroom.me/2017/08/21/C-%E9%80%86%E5%90%91%E5%88%86%E6%9E%90/ https://www.cnblogs.com/bonelee/p/17299985.html https://xz.aliyun.com/t/5242?t…

hadoop疑难问题解决_NoClassDefFoundError: org/apache/hadoop/fs/adl/AdlFileSystem

1、问题描述 impala执行查询&#xff1a;select * from stmta_raw limit 10; 报错信息如下&#xff1a; Query: select * from sfmta_raw limit 10 Query submitted at: 2018-04-11 14:46:29 (Coordinator: http://mrj001:25000) ERROR: AnalysisException: Failed to load …