关键词:音频伪造检测、时间伪造定位、差异特征感知学习
最近,一种新型的音频部分伪造形式对音频取证提出了挑战,这要求采取先进的对策来检测长时间音频中的微妙伪造操作。然而,现有的对策仍然服务于分类目的,未能对部分伪造片段的开始和结束时间戳进行有意义的分析。
现有对策面临的挑战:
- 分类限制:当前的音频伪造检测(PFD)解决方案仍然以分类为目标,即从预测整个语音到帧级结果的范围。然而,在修改后的音频中提供时间伪造区域可以帮助用户更好地理解音频伪造内容的分析结果,这更符合音频取证的实际需求和应用。
- 小伪造片段挑战:如果恶意用户具备语音学知识,他们可以通过操纵元音甚至小于单词级别的辅音来改变原始语义。时间伪造定位(TFL)网络的目标是预测特定的伪造区域,而在长时间音频中定位由单个帧或几个连续帧组成的小伪造片段可能具有挑战性。
- 多个伪造片段挑战:恶意用户可能不仅仅操纵音频中的一个片段,而是故意在多个片段中使用伪造。这种挑战导致随着伪造片段数量的增加,定位性能逐渐减弱。过渡边界可以提供有价值的线索来增强多个伪造片段的检测,因为它指示了诸如语音不一致性和环境噪声不一致性之类的伪影。
新型部分音频伪造及其对策的示意图
为了应对这些挑战,本文引入了一种新颖的两阶段框架,称为粗到细的提议细化框架(CFPRF),用于音频时间伪造检测和定位(TFDL)。与现有的音频PFD方法不同,作者利用第一阶段的帧级检测网络(FDN)来学习鲁棒的表示,以更好地指示大致的伪造区域,并在第二阶段使用提议细化网络(PRN)来产生细粒度的提议。
1 CFPRF框架
CFPRF是一个新颖的从粗到细的提议细化框架,它结合了一个帧级检测网络(FDN)和一个提议细化网络(PRN),用于音频时间伪造的检测和定位。CFPRF的核心思想是通过强迫模型感知不同帧之间微妙的差异,并捕获多个转换边界的上下文信息,来挖掘时间不一致线索。
CFPRF框架
1.1 阶段一:帧级检测网络 (FDN)
学习鲁棒的区分特征,更好地指示伪造区域。
- 差异感知特征学习 (DAFL) 模块: 利用对比学习,通过双注意力层提取频谱和通道信息,并扩大不同帧之间的细微差异,从而更好地区分伪造帧和真实帧。
- 边界感知特征增强 (BAFE) 模块: 通过 MLP 和自注意力机制学习边界特征,并与时间特征进行交叉注意力交互,增强对多个伪造段落的检测能力。
- 输出: 帧级伪造概率得分和特征向量。
1.2 阶段二:提议细化网络 (PRN)
利用 FDN 的输出,产生更精细的伪造段定位提议。
- 粗粒度提议生成: 根据帧级伪造概率得分,将连续的伪造帧合并为粗粒度提议区域。
- 细粒度提议生成: 利用提议区域特征,通过验证头和回归头预测置信分数和回归偏移量,对粗粒度提议进行细化。
- 输出: 精细的伪造段定位提议,包括起始时间戳、持续时间长度和置信分数。
2 实验
2.1 数据集
- LAV-DF: 一个多模态数据集,主要用于音频和视频篡改的检测与定位。包含语音替换和删除操作的部分伪造音频数据集,每个音频片段包含一个或多个伪造区域。
- ASVS2019PS: 包含语音替换、删除和插入操作的部分伪造音频数据集,具有更多的小规模伪造区域,更具挑战性。
- HAD: 包含语音替换和删除操作的部分伪造音频数据集,每个音频片段包含一个伪造区域。
2.2 对比方法
- PFD 方法: PSDL 和 IFBDN,用于评估 CFPRF 的 PFD 性能。
- TFL 方法: BA-TFD、BA-TFD+ 和 UMMAF,用于评估 CFPRF 的 TFL 性能。
- PRN 集成: 将 PRN 与 PSDL 和 IFBDN 集成,以评估 PRN 的有效性。
2.3 评价指标
- PFD: 等误差率 (EER)、曲线下面积 (AUC)、准确率 (Pre)、召回率 (Rec) 和 F1 分数。
- TFL: 平均精度 (AP) 在不同 TIoU 阈值下,不同平均提议数量 (AN) 下的平均召回率 (AR),以及不同 TIoU 阈值下的平均 AP (mAP)。
2.4 实验结果
- PFD 性能: CFPRF 在三个数据集上都取得了最佳的 PFD 性能,EER 和 F1 分数均优于其他方法。
- TFL 性能: CFPRF 在三个数据集上都取得了最佳的 TFL 性能,mAP 和 AR@20 均优于其他方法。
- PRN 集成: PRN 与 PSDL 和 IFBDN 集成后,在 ASVS2019PS 数据集上取得了显著的性能提升,证明了 PRN 的有效性。
- 消融实验: 消融实验表明,FDN 和 PRN 中的各个模块都对性能有重要贡献,并且不同的损失函数可以有效地指导特征学习。
主要参考:
Junyan Wu, Wei Lu,et al. Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization.arXiv preprint arXiv:2407.16554 2024