“FM-CLIP: Flexible Modal CLIP for Face Anti-Spoofing”由澳门科技大学、中国科学院等单位的Ajian Liu、Hui Ma等人撰写。文章提出了一种名为FM-CLIP的新型灵活模态人脸反欺诈(FAS)方法,通过利用文本特征动态调整视觉特征以实现模态独立性,在多模态数据集上取得了优于现有方法的性能。
conference:2024 ACM MM
paper:https://openreview.net/pdf?id=Gl3a5nusJP
code:None
文章目录
- 一、研究背景与问题提出
- (一)人脸反欺诈任务的重要性
- (二)现有方法的局限性
- (三)本文贡献
- 二、研究方法
- (一)整体框架
- (二)跨模态欺骗增强器(CMS-Enhancer)
- 1. 空间提取器(SE)
- 2. 频率提取器(FE)
- 3. 跨模态交互器(CMI)
- (三)视觉 - 语言对齐(Vision-Language Alignment)
- 1. 提示学习(Prompt Learning)
- 2. 语言引导补丁对齐(LGPA)
- 3. 损失计算与模型训练
- 三、实验结果
- (一)数据集与实验设置
- (二)固定模态场景评估
- 1. SURF数据集
- 2. WMCA数据集
- 3. CeFA数据集
- (三)灵活模态场景评估
- (四)消融实验
- 1. FM-CLIP 各组件有效性
- 2. CMS-Enhancer 各组件有效性
- 3. VLA 各组件有效性:
- 4. 模型参数分析
- 5. 可视化分析
- 四、研究结论
一、研究背景与问题提出
(一)人脸反欺诈任务的重要性
人脸反欺诈(FAS)任务旨在保护人脸识别系统免受物理介质(如打印、重放、掩码等)的呈现攻击。随着攻击手段的日益复杂,基于RGB模态的