深度伪造语音检测(Deepfake Speech Detection, DSD)全面概述

     近期,深度学习技术和神经网络在生成型人工智能领域已取得重大突破。如今,关键的通信媒介,如音频、图像、视频和文本,均能实现自动生成,并广泛应用于诸多领域,包括聊天机器人系统(如ChatGPT)、电影制作、代码编写及音频合成等。然而,若AI合成数据被用于不法目的,给社会安全带来极大隐患。

     为了解决这一问题,研究社区提出了检测由基于深度学习的方法生成的合成数据(例如,假数据)的任务,这些任务被称为深度伪造检测。本文专注于人类语音,提供了深度伪造语音检测(DSD)任务全面概述

1 DSD任务挑战赛

深度伪造语音检测(DSD)挑战赛

  • 2015年:首个针对英语语音的挑战(ASVspoof 2015-LA任务)。
  • 2020年:首个针对英语视频深度伪造检测的挑战(DFDC)。
  • 2021年:首个日语数据集、首个韩语数据集、首个中文挑战。
  • 2022年:首个针对歌唱的挑战(SVDD 2024,6种语言)、首个多语言数据集(MLAAD,23种语言)。
  • 2023年:首个针对多语言会话的挑战(MLAAD)、首个针对歌唱的数据集(SVDD)。
  • 2024年:发布了包括MLAAD用于会话语音和SVDD用于歌唱的多语言数据集。

1.1挑战赛的作用和重要性

  • 推动 DSD 技术发展: 挑战赛吸引了大量研究人员参与,促进了 DSD 技术的创新和发展。
  • 促进数据集和技术的共享: 挑战赛通常伴随着新的数据集发布,并鼓励研究人员分享他们的技术和方法。
  • 建立基准: 挑战赛为 DSD 技术提供了客观的评估标准,帮助研究人员比较不同方法的效果。
  • 促进合作: 挑战赛为来自不同机构的研究人员提供了一个合作平台,促进了知识交流和合作研究。

1.2 挑战赛的统计数据和分析

  • 语言多样性: 目前,大多数挑战赛专注于检测英语语音中的深度伪造,缺乏对多语言的支持。
  • 数据类型: 挑战赛主要针对语音数据,但也有一些挑战赛开始探索视频深度伪造检测。
  • 参与度和影响力: 随着深度学习技术的进步,参与 DSD 挑战赛的研究团队数量和规模在近年来显著增加,表明该领域越来越受到重视。

1.3 挑战赛存在的不足

  • 语言多样性不足: 现有的挑战赛主要集中在英语语音,缺乏对其他语言的探索,限制了模型的泛化能力。
  • 数据集不平衡: 一些挑战赛的数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
  • 数据集可用性: 一些挑战赛没有发布数据集,这限制了其他研究人员的研究和比较。
  • 技术局限性: 一些挑战赛的技术要求可能过于严格,限制了模型的实时性和可扩展性。

2 数据集

数据集

年份

语言

说话者(男性/女性)

话语数量(假/真)

假语音生成系统的数量

真实语音资源

话语长度(秒)

评估指标

ASVspoof 2015 (音频)

2015

英语

45/61

16,651/246,500

10

清洁的说话者志愿者

1至2

EER

FoR (音频)

2019

英语

140

-/195,541

7

清洁的Kaggle

2.35

Acc

ASVspoof 2019 (LA任务) (音频)

2019

英语

46/61

12,483/108,978

19

清洁的说话者志愿者

未提供

EER

DFDC (视频)

2020

英语

3,426

128,154/104,500

1

清洁的 & 嘈杂的说话者志愿者

68.8

Pre., Rec.

ASVspoof 2021 (LA任务) (音频)

2021

英语

21/27

18,452/163,114

13

清洁的 & 嘈杂的说话者志愿者

未提供

EER

ASVspoof 2021 (DF任务)(音频)

2021

英语

21/27

22,617/589,212

100+

清洁的 & 嘈杂的说话者志愿者

未提供

EER

WaveFake (音频)

2021

英语、日语

0/2

-/117,985

6

清洁的LJSPEECH , JSUT

6/4.8

EER

KoDF (视频)

2021

韩语

198/205

62,116/175,776

2

清洁的说话者志愿者

90/15(真/假)

Acc, AuC

ADD 2022

2022

中文

40/40

3,012/24,072

2

清洁的AISHELL-3

1至10

EER

FakeAVCeleb (视频)

2022

英语

250/250

570/25,000

2

清洁的 & 嘈杂的Vox-Celeb2

7

AuC

In-the-Wild (视频)

2022

英语

58

19,963/11,816

0

清洁的 & 嘈杂的自收集

4.3

EER

LAV-DF (视频)

2022

英语

153

36,431/99,873

1

清洁的 & 嘈杂的Vox-Celeb2

3至20

AP

Voc.v (音频)

2023

英语

46/61

14,250/41,280

5

清洁的 & 嘈杂的ASVspoof 2019

未提供

EER

PartialSpoof(音频)

2023

英语

46/61

12,483/108,978

19

清洁的 & 嘈杂的ASVspoof 2019

0.2至6.4

EER

LibriSeVoc (音频)

2023

英语

未提供

13,201/79,206

6

清洁的 & 嘈杂的Librispeech

5至34

EER

AV-Deepfake1M [25], (视频)

2023

英语

2,068

286,721/860,039

2

清洁的 & 嘈杂的Voxceleb2

5至35

Acc, AuC

CFAD (音频)

2024

中文

1,023

-/374,000

11

清洁的 & 嘈杂的AISHELL1-3 [44], [45] & Codecs MAGICDATA

未提供

EER

MLAAD (音频)

2024

多语言(23种语言)

未提供

-/76,000

54

清洁的 & 嘈杂的M-AILABS

未提供

Acc

ASVspoof 2024 (音频)

2024

英语

未提供

188,819/815,262

28

清洁的 & 嘈杂的MLS

未提供

EER

SVDD2024 (音频)

2024

多语言(6种语言)

59

12,169/72,235

48

清洁的普通话,日语

未提供

EER

2.1 数据集的作用和重要性

  • 评估模型性能: 数据集用于评估 DSD 模型的性能,包括准确率、召回率、F1 分数和错误接受率 (EER) 等。
  • 比较不同方法: 数据集允许研究人员比较不同 DSD 方法的性能,并选择最佳方法。
  • 促进技术共享: 数据集的发布促进了 DSD 技术的共享和发展。
  • 推动研究进展: 数据集的发布推动了 DSD 研究的进展,并为新的研究方向提供了灵感。

2.2 数据集的统计数据和分析

  • 语言多样性: 目前,大多数数据集主要支持英语,缺乏对其他语言的覆盖。例如,MLAAD 数据集提供了 23 种语言的对话式语音数据,而 SVDD 数据集则专注于六种语言的歌唱语音数据。
  • 数据类型: 大多数数据集包含干净和噪声语音,但也有一些数据集专注于特定类型的语音,例如电话通话、视频会议或公共演讲。
  • 生成方法: 数据集通常使用不同的深度伪造语音生成系统生成假语音,例如文本到语音 (TTS)、语音转换 (VC) 和对抗攻击 (AT)。
  • 数据规模: 数据集的大小不一,一些数据集包含数万个样本,而另一些数据集则包含数百万个样本。
  • 数据来源: 数据集可以使用志愿者语音或现有语音数据集构建。志愿者语音可以提供更好的控制,但需要时间和成本,并且可能无法扩展。现有语音数据集则更容易获取,但可能存在偏差。

2.3 数据集存在的不足

  • 语言多样性不足: 大多数数据集缺乏对其他语言的覆盖,限制了模型的泛化能力。
  • 数据不平衡: 一些数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
  • 数据集可用性: 一些数据集没有公开发布,限制了其他研究人员的研究和比较。
  • 数据质量: 一些数据集可能存在数据质量的问题,例如噪声、回声或其他干扰。
  • 伦理和法律问题: 使用志愿者语音数据集需要考虑伦理和法律问题,例如隐私保护和知情同意。

3 深度伪造语音检测(DSD)系统架构

  • 离线数据增强:在训练过程之前,对原始音频话语进行压缩和解压缩算法处理,以生成数据的变体,从而增加数据集的大小并提高模型的鲁棒性和泛化能力。
  • 特征提取:将原始音频话语转换为时频特征,如梅尔频谱图(Mel-spectrogram)、线性频谱图(Linear spectrogram)或其他类型的频谱图。这些特征图代表了音频信号的时频特性。
  • 分类模型:使用深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)、或它们的组合(CRNN),来分析特征图并学习区分真实和伪造语音的能力。
  • 损失函数和训练策略:定义损失函数来评估模型预测与真实标签之间的差异,并使用这些信息来更新和优化模型的权重。训练策略包括如何选择训练数据、如何配置模型的学习率和优化器等。

3.1 离线数据增强

增加训练数据集的大小,以提高模型的鲁棒性和泛化能力。

3.1.1 方法

  • 压缩: 使用音频编解码器 (codec) 对原始语音信号进行压缩和解压缩,例如 MP3、AAC 和 WAV。
  • 扭曲: 通过添加噪声、回声或改变语音的音调、音量和节奏等来修改原始语音信号。

3.1.2 挑战

需要评估不同数据增强方法的效果,并选择最合适的组合。

3.2 特征提取

将原始语音信号转换为可用于分类的特征表示。

3.2.1 方法

3.2.1.1 非参数方法

  • 时频特征: 使用短时傅里叶变换 (STFT)、梅尔频率倒谱系数 (MFCC) 和线性频率倒谱系数 (LFCC) 等方法将原始语音信号转换为时频特征。
  • 基于听觉滤波器的特征: 使用梅尔滤波器、线性滤波器和伽马滤波器等听觉滤波器来提取与人类听觉感知相关的特征。
  • 基于统计的特征: 使用语音声学统计方法,例如梅尔倒谱系数 (PLP) 和线性预测系数 (LPC) 来提取语音信号的统计特征。
  • 基于预训练模型的特征: 使用预训练的语音表示模型,例如 XLSR、Hubert 和 WavLM,来提取语音嵌入特征。

3.2.1.2 可训练参数方法

使用可训练的神经网络层,例如 SincNet 和 LEAF 层,来直接从原始语音信号中学习特征。

3.2.2 挑战

需要评估不同特征提取方法的效果,并选择最合适的特征组合。

3.3 分类模型

根据提取的特征对语音信号进行分类,判断其是否为深度伪造语音。

3.3.1 方法

3.3.1.1 机器学习模型

使用机器学习算法,例如支持向量机 (SVM) 和 K 近邻 (KNN) 来进行分类。

3.3.1.2 深度学习模型

  • 卷积神经网络 (CNN): 使用 CNN 来提取语音信号的局部特征,例如 ResNet 和 LCNN。
  • 循环神经网络 (RNN): 使用 RNN 来提取语音信号的时序特征,例如 LSTM 和 TDNN。
  • 混合网络架构: 结合 CNN 和 RNN 的优点,例如 CRNN。
  • 编码器-解码器网络架构: 使用编码器-解码器网络架构,例如 Transformer,来提取语音信号的深层次特征。
  • 集成模型: 结合多个模型或特征来提高模型的鲁棒性和泛化能力。

3.3.2 挑战

需要评估不同分类模型的效果,并选择最合适的模型。

3.4 损失函数和训练策略

指导模型的训练过程,使其能够更好地学习真实语音和伪造语音之间的差异。

3.4.1 方法

  • 损失函数: 选择合适的损失函数,例如交叉熵损失 (CE) 和 Softmax 损失,来衡量预测结果和真实标签之间的差异。
  • 训练策略: 使用不同的训练策略,例如数据增强、迁移学习和微调,来提高模型的性能和泛化能力。

3.4.2 挑战

需要评估不同损失函数和训练策略的效果,并选择最合适的组合。

4 新DSD集成系统

4.1 目标

  • 评估离线数据增强(编解码器)和在线数据增强(Mixup 和 SpecAugment)的效果。
  • 评估不同输入特征和网络架构的优劣。
  • 评估模型在真实世界场景中的鲁棒性和泛化能力。
  • 提出一个具有竞争力的 DSD 集成系统。

4.2 数据集和评估指标

  • 使用 ASVspoof 2019 (LA Task) 数据集进行评估。
  • 主要评估指标为 Equal Error Rate (ERR)。
  • 补充指标包括 Accuracy、F1 score 和 AUC score。

4.3 系统设计

4.3.1 数据增强

  • 离线数据增强:使用 MP3、OPUS、OGG、GSM、G722 和 M4A 六种编解码器进行压缩和解压缩。
  • 在线数据增强:使用 Mixup 和 SpecAugment 对 Mel spectrogram 进行处理。

4.3.2 输入特征

  • 原始音频
  • 六种不同的 spectrogram:STFT、CQT、WT、Mel、LF、Gammatone

4.3.3 分类模型

  • 端到端深度学习模型:CNN、SinC-CNN、RNN、C-RNN
  • 传输学习模型:ResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、ShuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASnet、RegNet
  • 音频嵌入深度学习模型:Whisper、Seamless、Speechbrain、Pyanote + MLP

4.3.4 集成方法

使用 MEAN 模型融合技术将多个模型的结果进行融合。

4.4 实验结果

4.4.1 数据增强

  • 离线数据增强(编解码器)和在线数据增强(Mixup 和 SpecAugment)都有效。
  • 组合两种数据增强方法没有提升性能。

4.4.2 输入特征

STFT 和 Linear Filter (LF) 组合在 CNN 模型中表现最佳。

4.4.3 深度学习方法

  • CNN 模型优于 RNN 或 C-RNN 模型。
  • Finetuning 的 Convnext-Tiny 模型表现最佳。
  • 音频嵌入模型(Whisper + MLP)表现优于 Finetuning 模型。

4.4.4 集成模型

  • CQT、STFT & LF、STFT & GAM 的组合表现最佳。
  • CNN + ConvNeXt-Tiny 组合表现最佳。
  • Whisper + MLP + ConvNeXt-Tiny 组合表现最佳。

不同的输入特征和网络架构对 DSD 任务有显著影响。

集成模型可以显著提升 DSD 任务性能。

音频嵌入模型和 Finetuning 模型在 DSD 任务中具有潜力。

需要进一步探索轻量级模型和实时 DSD 系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/53769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kettle9连接mysql8.0.36失败处理

一、问题描述 kettle作为数据转换同步的工具,使用java开发,连接数据库使用jar的驱动包,比如oracle连接使用ojdbc8.jar,mysql连接使用mysql-connect-java-8.0.*,但是截止目前mysql8.0.33到8.0.36在官网是没有mysql驱动包的&#x…

IPD如何解决产品开发的典型问题

IPD(Integrated Product Development,集成产品开发)是一种领先的、成熟的产品开发的管理思想和管理模式。它是根据大量成功的产品开发管理实践总结出来的,并被大量实践证明的高效的产品开发模式。从汉捷咨询二十多年来为五百多家企…

18724 二叉树的遍历运算

### 思路 1. **递归构建树**: - 先序遍历的第一个节点是根节点。 - 在中序遍历中找到根节点的位置,左边部分是左子树,右边部分是右子树。 - 递归构建左子树和右子树。 2. **递归生成后序遍历**: - 递归生成左子树的…

飞睿智能实时雷达活体探测传感器模块,智能家居静止检测实时感知人员有无

随着科技的飞速发展,我们的生活正在经历着未有的创新。在这个创新的浪潮中,实时雷达活体探测传感器模块的技术正逐渐崭露头角,以其独特的优势为我们的生活带来安全与便捷。今天,我们就来详细探讨一下这项技术,看看它是…

【DP解密多重背包问题】:优化策略与实现

文章目录 什么是多重背包问题?多重背包问题的数学模型 例题多重背包问题Ⅰ多重背包问题Ⅱ 总结 什么是多重背包问题? 多重背包问题是一个经典的组合优化问题。与标准背包问题不同,在多重背包问题中,每种物品可以选择多个&#xf…

蓝桥杯15届C/C++B组省赛题目

问题描述 小蓝组织了一场算法交流会议,总共有 5050 人参加了本次会议。在会议上,大家进行了握手交流。按照惯例他们每个人都要与除自己以外的其他所有人进行一次握手 (且仅有一次)。但有 77 个人,这 77 人彼此之间没有进行握手 (但这 77 人与…

langchain v0.3更新了什么?

版本改动 这是具体改动的链接 官方blog首先说明了: 所有软件包已在内部从 Pydantic 1 升级到 Pydantic 2。 所有软件包都完全支持在用户代码中使用 Pydantic 2,而无需使用 langchain_core.pydantic_v1 或 pydantic.v1 等桥接程序。 由于 Pydantic 1 已…

【HTTP】请求“报头”(Host、Content-Length/Content-Type、User-Agent(简称 UA))

Host 表示服务器主机的地址和端口号 URL 里面不是已经有 Host 了吗,为什么还要写一次? 这里的 Host 和 URL 中的 IP 地址、端口什么的,绝大部分情况下是一样的,少数情况下可能不同当前我们经过某个代理进行转发。过程中&#xf…

2024年项目经理不能错过的开源项目管理系统大盘点:全面指南

在2024年,随着项目管理领域的不断发展,开源项目管理系统成为了项目经理们提升工作效率的利器。本文将全面盘点几款备受推荐的开源项目管理系统,帮助项目经理们找到最佳选择,不容错过。 在项目管理日益复杂的今天,开源项…

腾讯云点播及声音上传

文章目录 1、开通腾讯云点播2、获取腾讯云API密钥3、完成声音上传3.1、引入依赖3.2、参考:接入点地域3.3、参考:任务流设置3.4、首先修改配置:3.4.1、 3.5、TrackInfoApiController --》 uploadTrack()3.6、VodServiceImpl --》 uploadTrack(…

SOLIDWORKS Flow Simulation对几何模型都有哪些要求?

SOLIDWORKS Flow Simulation 是一款集设计与仿真于一体的流体仿真软件(EFD,CFD),以其操作简便、建模快捷和快速收敛等优点,深受广大初学者的喜爱。 在模型建立方面,Flow Simulation 能够直接利用 SOLIDWOR…

项目实战:Qt+OSG爆破动力学仿真三维引擎测试工具v1.1.0(加载.K模型,子弹轨迹模拟动画,支持windows、linux、国产麒麟系统)

若该文为原创文章,转载请注明出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/142454993 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、Op…

数据科学 - 字符文本处理

1. 字符串的基本操作 1.1 结构操作 1.1.1 拼接 • 字符串之间拼接 字符串之间的拼接使用进行字符串的拼接 a World b Hello print(b a) • 列表中的字符串拼接 将以分隔符‘,’为例子 str [apple,banana] print(,.join(str)); • 字符串中选择 通过索引进行切片操…

【网络安全】-访问控制-burp(1~6)

文章目录 前言   1.Lab: Unprotected admin functionality  2.Lab: Unprotected admin functionality with unpredictable URL   3.Lab: User role controlled by request parameter   4.Lab:User role can be modified in user profile  5.Lab: User ID controlled by…

Windows 10 系统安装 FFmpeg 查看、转换、编辑音频文件

1、FFmpeg官网:FFmpeg 点击下载 可以选择下载full版本 下载之后解压到指定目录,在系统环境变量 Path 里面新增环境变量 打开CMD终端运行 ffmpeg -version 查看是否安装成功。 2、基本命令 查看音频基本信息 ffprobe 1.mp3 ##输出 [mp3 000002ab334405…

LLM - 使用 XTuner 指令微调 多模态大语言模型(InternVL2) 教程

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142528967 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 XTuner…

Spark-RDD持久化

一、Spark的三种持久化机制 1、cache 它是persist的一种简化方式,作用是将RDD缓存到内存中,以便后续快速访问,提高计算效率。cache操作是懒执行的,即执行action算子时才会触发。 2、persist 它提供了不同的存储级别&#xff0…

关于神经网络的一个介绍

这篇文章中,我将简单介绍下与神经网络有关的东西,包括它的基本模型,典型的算法以及与深度学习的联系等内容。 一、神经元 神经网络是由许多个神经元组成的,在生物的神经网络中,就是神经元间相互连接,传递…

高校竞赛管理系统的设计与实现

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统高校竞赛管理系统信息管理难度大,容错率低&am…

Ubuntu 开机自启动 .py / .sh 脚本,可通过脚本启动 roslaunch/roscore等

前言 项目中要求上电自启动定位程序,所以摸索了一种 Ubuntu 系统下开机自启动的方法,开机自启动 .sh 脚本,加载 ROS 环境的同时启动 .py 脚本。在 . py 脚本中启动一系列 ROS 节点。 一、 .sh 脚本的编写 #!/bin/bash # gnome-terminal -- …