【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录

    • 【长尾学习】
    • 【人脸防伪】
    • 【图像分割】

【长尾学习】

[2024综述] A Systematic Review on Long-Tailed Learning

论文链接:https://arxiv.org/pdf/2408.00483

长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型,能够高准确度地识别所有类别,特别是少数/尾部类别。这是一个前沿研究方向,在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先,提出了一个新的长尾学习分类法,包括八个不同的维度,如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法,对长尾学习方法进行了系统回顾,讨论了它们的共性和可比较的差异。同时,还分析了不平衡学习和长尾学习方法之间的差异。最后,讨论了这个领域的前景和未来方向。
在这里插入图片描述


【人脸防伪】

[2024] DeCLIP: Decoding CLIP representations for deepfake localization

论文链接:https://arxiv.org/pdf/2409.08849

代码链接:https://github.com/bit-ml/DeCLIP

生成模型可以创建全新的图像,但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像,从大型自监督模型(如CLIP)中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了,当与足够大的卷积解码器结合使用时,预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同,所提方法能够在具有挑战性的扩散模型情况下执行定位,其中整个图像都受到生成器的影响。此外,作者观察到,这种结合了局部语义信息和全局的数据类型,相比其他生成方法类别,提供了更稳定的泛化性能。

在这里插入图片描述


[2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection

论文链接:https://arxiv.org/pdf/2409.09724

逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧,凸显了对鲁棒且可泛化的面部伪造检测(FFD)技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式,但其他模态如细粒度噪音和文本尚未被充分探索,这限制了模型的泛化能力。此外,大多数FFD方法倾向于识别由GAN生成的面部图像,但难以检测未见过的扩散合成图像。为了克服这些局限性,文中旨在利用尖端的基础模型——对比语言-图像预训练(CLIP),实现可泛化的扩散面部伪造检测(DFFD)。本文中提出了一种新颖的多模态细粒度CLIP(MFCLIP)模型,通过语言引导的面部伪造表示学习,挖掘全面的细粒度伪造痕迹,以促进DFFD的发展。具体而言,设计了一种细粒度语言编码器(FLE),从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器(MVE),以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式,并将它们整合起来以挖掘通用的视觉伪造痕迹。此外,构建了一种创新的即插即用样本对注意力(SPA)方法,以强调相关的负样本对并抑制不相关的负样本对,使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明,所提模型在不同设置下(如跨生成器、跨伪造和跨数据集评估)均优于现有技术。

在这里插入图片描述

【图像分割】

[2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

论文链接:https://arxiv.org/pdf/2409.09893

利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值,这些真值具有非重叠的掩码布局和互斥的语义。然而,将它们合并用于多数据集训练会破坏这种和谐,并导致语义不一致。例如,一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳,特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战,作者引入了一种简单而有效的多数据集训练方法,通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时,不受训练数据集之间潜在不一致性的影响。值得注意的是,在四个具有标签空间不一致性的基准数据集上进行推理时,在语义分割上的mIoU提升了1.6%,在全景分割上的PQ提升了9.1%,在实例分割上的AP提升了12.1%,并在新提出的PIQ指标上提升了3.0%。
在这里插入图片描述


[ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation

论文链接:https://arxiv.org/pdf/2409.13325

随着3D和2D数据采集技术的发展,同时获取场景的点云和图像变得容易,这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时,严重依赖于标注训练数据的量与质。然而,大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题,作者提出了一种并行双流网络来处理半监督双模态语义分割任务,称为PD-Net,它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流(分别称为原始流和伪标签预测流)。伪标签预测流预测未标注点云及其对应图像的伪标签。然后,未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中,探索了多个双模态融合模块以融合双模态特征。此外,还探索了一个伪标签优化模块,以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明,所提出的PD-Net不仅优于比较的半监督方法,而且在大多数情况下也达到了一些全监督方法的竞争性能。
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/54574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tomcat服务搭建部署ujcms网站

tomcat服务搭建部署ujcms网站 关闭selinux和防火墙 setenforce 0 && systemctl stop firewalld安装java环境 #卸载原有java8环境 yum remove java*#上传java软件包,并解压缩 tar -xf openjdk-11.0.1_linux-x64_bin.tar.gz && mv jdk-11.0.1 jdk11…

TaskRes: Task Residual for Tuning Vision-Language Models

文章汇总 当前VLMs微调中存在的问题 提示微调的问题 在提示调优中缺乏对先验知识保存的保证(me:即提示微调有可能会丢失预训练模型中的通用知识)。虽然预先训练的文本分支模块(如文本编码器和投影)的权重在提示调优范式中被冻结,但原始的良好学习的分类…

BUUCTF-MISC-荷兰宽带数据泄露

下载附件得到一个二进制文件 通过题目猜测这是一段路由器备份日志,可以使用RouterPassView打开 链接: https://pan.baidu.com/s/1tY5Sdl8GcI5dKQdhPXj5yA?pwdhi9k 下载链接http://pan.baidu.com/s/1tY5Sdl8GcI5dKQdhPXj5yA?pwdhi9k注意,这个软件会报毒…

struts2 S2-057远程执行代码漏洞 靶场攻略

环境 vulhub靶场 /struts2/s2-057 漏洞简介 漏洞产⽣于⽹站配置XML时如果没有设置namespace的值,并且上层动作配置中并没有设置 或使⽤通配符namespace时,可能会导致远程代码执⾏漏洞的发⽣。同样也可能因为url标签没 有设置value和action的值&…

react + antDesign封装图片预览组件(支持多张图片)

需求场景:最近在开发后台系统时经常遇到图片预览问题,如果一个一个的引用antDesign的图片预览组件就有点繁琐了,于是在antDesign图片预览组件的基础上二次封装了一下,避免重复无用代码的出现 效果 公共预览组件代码 import React…

JBoss EJBInvokerServlet CVE-2013-4810 反序列化漏洞

vulhub/jboss/JMXInvokerServlet-deserialization 1. 此漏洞存在于JBoss中 /invoker/JMXInvokerServlet 路径。访问若提示下载 JMXInvokerServlet,则可能存在漏洞: #创建class⽂件 javac -cp .:commons-collections-3.2.1.jar ReverseShellCommonsCol…

Qt 模型视图(四):代理类QAbstractItemDelegate

文章目录 Qt 模型视图(四):代理类QAbstractItemDelegate1.基本概念1.1.使用现有代理1.2.一个简单的代理 2.提供编辑器3.向模型提交数据4.更新编辑器的几何图形5.编辑提示 Qt 模型视图(四):代理类QAbstractItemDelegate ​ 模型/视图结构是一种将数据存储和界面展示分离的编程方…

【C语言零基础入门篇 - 7】:拆解函数的奥秘:定义、声明、变量,传递须知,嵌套玩转,递归惊艳

文章目录 函数函数的定义与声明局部变量和全局变量、静态变量静态变量和动态变量函数的值传递函数参数的地址传值 函数的嵌套使用函数的递归调用 函数 函数的定义与声明 函数的概念:函数是C语言项目的基本组成单位。实现一个功能可以封装一个函数来实现。定义函数的…

DPDK 简易应用开发之路 3:实现ping(ARP ICMP 协议)

本机环境为 Ubuntu20.04 ,dpdk-stable-20.11.10 网卡IP为192.168.131.153 mac地址 00 0c 29 00 04 4d 理论基础 机器A内部没有机器B的物理地址,则 A ping B 的时候需要先发 arp 请求,以获取机器 B 的 MAC 地址。 获取 MAC 地址 如果 A 和 …

python画图1

import matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] ["SimHei"]# 模拟数据 years [2016, 2017, 2018, 2019, 2020, 2021, 2022] market_size [7950, 8931, 9940, 11205, 12305, 13199, 14980] my_color #3e9df5plt.plot(years, market_s…

ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

基本介绍:CVPR, 2023, CCF-A 原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf Abstract 多模态情感识别(MER)旨在通过语言、…

spring-boot-maven-plugin插件打包和java -jar命令执行原理

文章目录 1. Maven生命周期2. jar包结构2.1 不可执jar包结构2.2 可执行jar包结构 3. spring-boot-maven-plugin插件打包4. 执行jar原理 1. Maven生命周期 Maven的生命周期有三种: clean:清除项目构建数据,较为简单,不深入探讨&a…

面试速通宝典——1

1. 内存有哪几种类型? ‌‌‌‌  内存分为五个区,堆(malloc)、栈(如局部变量、函数参数)、程序代码区(存放二进制代码)、全局/静态存储区(全局变量、static变量&#…

Gitlab学习(008 gitlab开发工作流GitFlow)

尚硅谷2024最新Git企业实战教程,全方位学习git与gitlab 总时长 5:42:00 共40P 此文章包含第27p-第p29的内容 文章目录 工作流分类集中式工作流功能开发工作流GitFlow工作流Forking工作流 各个分支的功能模拟工作环境创建分支登录领导(项目管理者&#…

idea插件开发的第五天-今天不写工具

介绍 今天介绍一款插件,可以帮你调用spring容器里面的方法,并且可以执行脚本 Demo说明 本文基于maven项目开发,idea版本为2022.3以上,jdk为1.8本文在Tools插件之上进行开发本次demo将使用idea的一些组件优化 Tools插件说明 Tools插件是一个Idea插件,此插件提供统一Spi规范…

Linux自主学习篇

用户及权限管理 sudo 是 "superuser do" 的缩写,是一个在类 Unix 操作系统(如 Linux 和 macOS)中使用的命令。它允许普通用户以超级用户(root 用户)的身份执行命令,从而获得更高的权限。 useradd…

学生管理系统1.0版本

学生管理系统1.0版本有5个功能,即添加学生、删除学生、修改学生、查看全部学生、退出系统。 里面对添加重复学号、删除和修改不存在的学号等问题都有相应的解决办法。 代码区: Student.java package student;//快捷键Altinsert public class Student …

【中国留学网-注册_登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

来!一起探索 2024 年数据和 AI 的奇妙世界

来!一起探索 2024 年数据和 AI 的奇妙世界 前言2024 年数据和 AI 的奇妙世界 前言 生成式 AI 的问世,让世界正在经历一场前所未有的变革,就像是一把神奇的钥匙,正在开启一扇通往无限可能的大门。数据和 AI 的融合,将为…

微服务注册中⼼1

1. 微服务的注册中⼼ 注册中⼼可以说是微服务架构中的”通讯录“ ,它记录了服务和服务地址的映射关系。在分布式架构中, 服务会注册到这⾥,当服务需要调⽤其它服务时,就这⾥找到服务的地址,进⾏调⽤。 1.1 注册中⼼的…