【论文速看】DL最新进展20241009-图像生成、多模态、医学扩散模型、行人重识别

目录

    • 【图像生成】
    • 【多模态】
    • 【医学扩散模型】
    • 【行人重识别】

【图像生成】

[2024] CAR: Controllable Autoregressive Modeling for Visual Generation

论文链接:https://arxiv.org/pdf/2410.04671

代码链接:https://github.com/MiracleDance/CAR

可控生成能够对生成输出进行细粒度控制,已成为视觉生成模型中的一个重要焦点。目前,在视觉生成领域有两种主要的技术方法:扩散模型和自回归模型。扩散模型,如ControlNet和T2I-Adapter所示,提供了先进的控制机制,而自回归模型尽管展示了令人印象深刻的生成质量和可扩展性,但在可控性和灵活性方面仍然未被充分探索。这项研究引入了可控自回归建模(CAR),这是一个新颖的即插即用框架,将条件控制集成到多尺度潜在变量建模中,使得在预训练的视觉自回归模型内实现高效的控制生成成为可能。CAR逐步精炼并捕捉控制表示,这些表示被注入到预训练模型的每个自回归步骤中,以指导生成过程。所提方法在各种类型的条件上展示了出色的可控性,并且与之前的方法相比,生成的图像质量更高。此外,CAR在显著减少训练资源的情况下实现了稳健的泛化。这是第一个为预训练的自回归视觉生成模型提出的控制框架

在这里插入图片描述


【多模态】

[NeurlPS 2024] OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

论文链接:https://arxiv.org/pdf/2406.19389

代码链接:https://github.com/lxtGH/OMG-Seg

当前的通用分割方法在像素级图像和视频理解方面展现了强大的能力。然而,它们缺乏推理能力,不能通过文本指令进行控制。相比之下,大型视觉-语言多模态模型展示了强大的基于视觉的对话和推理能力,但缺乏像素级理解,并且在灵活的用户交互中难以接受视觉提示。本文提出了OMG-LLaVA,这是一个新颖而优雅的框架,结合了强大的像素级视觉理解与推理能力。它可以接受各种视觉和文本提示,以实现灵活的用户交互。具体来说,使用一种通用分割方法作为视觉编码器,将图像信息、感知先验和视觉提示整合到提供给LLM的视觉token中。LLM负责理解用户的文本指令,并根据视觉信息提供文本响应和像素级分割结果。作者提出了感知先验嵌入,以更好地将感知先验与图像特征集成在一起。OMG-LLaVA在一个单一模型中实现了图像级、对象级和像素级的推理和理解,在多个基准测试上的性能达到或超过了专门方法的表现。作者的研究目标是对一个编码器、一个解码器和一个LLM进行端到端训练,而不是使用LLM连接每个专家模块。

在这里插入图片描述


【医学扩散模型】

[MICCAI 2024] DiffuseReg: Denoising Diffusion Model for Obtaining Deformation Fields in Unsupervised Deformable Image Registration

论文链接:https://arxiv.org/pdf/2410.05234

代码链接:https://github.com/YutaZhuo/DiffuseReg

可变形图像配准旨在精确对齐来自不同模态或时间点的医学图像。传统的深度学习方法虽然有效,但通常缺乏解释性、实时观察性和在配准推断期间的调整能力。去噪扩散模型通过将配准重新定义为迭代图像去噪提供了另一种选择。然而,现有的扩散配准方法并未充分利用这些能力,忽视了关键的采样阶段,该阶段使得在推断过程中能够连续观察。因此,作者引入了DiffuseReg,这是一种创新的基于扩散的方法,通过对变形场进行去噪而不是对图像进行去噪,以改善透明度。还提出了一种基于Swin Transformer的新型去噪网络,它在整个去噪过程中更好地将移动和固定图像与扩散时间步长结合起来。此外,通过新颖的相似性一致性正则化增强了对去噪配准过程的控制。在ACDC数据集上的实验表明,DiffuseReg在Dice分数上比现有的扩散配准方法高出1.32。DiffuseReg中的采样过程实现了实时输出观察和调整,这是以前的深度模型无法比拟的。

在这里插入图片描述

在这里插入图片描述


【行人重识别】

[2024] DenoiseReID: Denoising Model for Representation Learning of Person Re-Identification

论文链接:https://arxiv.org/pdf/2406.08773

本文提出了一种新颖的去噪模型用于表示学习,并以人员再识别(ReID)作为基准任务,命名为DenoiseReID,通过联合特征提取和去噪来提高特征的区分性。在深度学习时代,由级联嵌入层(例如卷积或变换器)组成的主干网络逐渐流行,这些嵌入层逐步提取有用的特征。首先将主干中的每个嵌入层视为一个去噪层,处理级联嵌入层就像我们在逐步递归地去噪特征一样。这统一了特征提取和特征去噪的框架,前者从低层到高层逐步嵌入特征,后者逐步递归地去噪特征。然后,设计了一种新颖的特征提取与特征去噪融合算法(FEFDFA),并在理论上证明了融合前后的等效性。FEFDFA将去噪层的参数合并到现有的嵌入层中,从而使特征去噪计算免费。这是一种无标签的算法,可以逐步改进特征,如果标签可用,还可以补充标签信息。此外,它有两个优点:1)它是一种无需计算和标签的插件,可逐步改善ReID特征;2)如果标签可用,它可以补充标签信息。在各种任务(大规模图像分类、细粒度图像分类、图像检索)和主干(变换器和卷积)上的实验结果表明了所提方法的可扩展性和稳定性。在4个ReID数据集和多种主干上的实验结果也显示了其稳定性和显著改进。还将对所提出的方法扩展到大规模(ImageNet)和细粒度(如CUB200)分类任务,证明了类似的改进效果。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/55915.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

torchvision.transforms.Resize()的用法

今天我在使用torchvision.transforms.Resize()的时候发现,一般Resize中放的是size或者是(size,size)这样的二元数。 这两个里面,torchvision.transforms.Resize((size,size)),大家都很清楚,会将图像的h和w大小都变成size。 但是…

洞察AI趋势:智享AI直播,打造专属你的数字化直播AIGC系统!

洞察AI趋势:智享AI直播,打造专属你的数字化直播AIGC系统! 在当今这个日新月异的数字时代,人工智能(AI)已不再是遥不可及的未来科技,而是正深刻改变着我们生活、工作的每一个角落。其中&#xf…

[ROS2]解决PyQt5和sip的各种报错问题 stderr: qt_gui_cpp

前言 编译ros环境的时候遇到了qt_gui_cpp各种编译问题,但是鉴于网上解决方法基本没有,故记录下来帮助后来者。整篇文章总结下来就是一句话:PyQt5和sip安装过程或安装版本有问题,需要重新安装。 问题与解决方法 如果PyQt5你是正…

DAMA数据管理知识体系(第12章 元数据管理)

课本内容 12.1 引言 图12-1 语境关系图:元数据概念理解 元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型)&#x…

女性议题,正在成为喜综困境?

《脱口秀和Ta的朋友们》(以下简称《脱友》)与《喜剧之王单口季》(以下简称《喜单》)两档喜综的对垒,竟然意外走向了同一个落点:对女性视角的收割。 #杨笠 这是血肉在疯长的声音# #杨笠 不是敢说是不知道这…

react-问卷星项目(4)

项目实战 使用CSS 尽量不要使用内联CSS 内联style代码多&#xff0c;性能差&#xff0c;扩展性差外链css文件可复用代码&#xff0c;可单独缓存文件 元素内联style 和HTMl元素的style相似必须用JS写法&#xff0c;不能是字符串&#xff0c;里面必须是对象 <span style…

洛谷P5648

洛谷P5648 这题花了很长时间&#xff0c;是在线段树题单里找到的&#xff08; &#xff09;。有线段树做法&#xff0c;但是我感觉可能比倍增做法更难看懂。以后有空再看看吧。感觉线段树现在只会板子题&#xff0c;绿稍微难点可能就不会。 花了很久时间之后&#xff0c;就觉得…

【YOLO学习】YOLOv5口罩检测实战

文章目录 1. 环境配置2. 下载代码3. 安装库3.1 安装pytorch3.2 安装其他库 4. 测试5. 数据标注6. 模型训练6.1 一些修改6.2 训练 7. 界面可视化 1. 环境配置 1. 先参考其他文章安装 Anaconda 或者 Miniconda&#xff0c;我安装的是 Miniconda。 2. 更换国内源&#xff0c;以加快…

LLM详解

一 定义 Large Language Model&#xff0c;称大规模语言模型或者大型语言模型&#xff0c;是一种基于大量数据训练的统计语言模型&#xff0c;可用于生成和翻译文本和其他内容&#xff0c;以及执行其他自然语言处理任务&#xff08;NLP&#xff09;&#xff0c;通常基于深度神…

vue 的属性绑定

双大括号不能在 HTML attributes 中使用。想要响应式地绑定一个 attribute&#xff0c;应该使用 v-bind 指令。 <template> <div v-bind:class"boxClass" v-bind:id"boxId"> </div> </template><script> export default{da…

VNC轻松连接远程Linux桌面

Linux配置VNC&#xff08;以RedHat、CentOS为例&#xff09; 说明&#xff1a; Linux平台安装VNCServer Windows平台使用VNC-Viewer 1.在Linux平台安装VNCServer服务端软件包。 yum -y install vnc *vnc-server*2.修改VNCServer主配置文件 vi /etc/sysconfig/vncservers复制…

【Redis】Set类型的常用命令与应用场景

目录 1.命令小结 2.命令解析 3.编码方式与应用场景 1.命令小结 &#xff08;1&#xff09;set的特点 1&#xff09;set中存放的数据也都是String类型 2&#xff09;set集合中的元素是无须的 3&#xff09;set集合中的元素是唯一的&#xff0c;不可重复 &#xff08;2&a…

RISC-V开发 linux下GCC编译自定义指令流程笔记

第一步&#xff1a;利用GCC提供了内嵌汇编的功能可以在C代码中直接内嵌汇编语言 第二步&#xff1a;利用RSIC-V的中的.insn模板进行自定义指令的插入 第三步&#xff1a;RISC-V开发环境的搭建 C语言插入汇编 GCC提供了内嵌汇编的功能可以在C代码中直接内嵌汇编语言语句方便了…

在树莓派上部署安装OAK

OAK设备可以与微型主机&#xff08;例如树莓派&#xff09;进行连接&#xff0c;在树莓派上安装DepthAI, 需要安装相关依赖Dependencies并且可以通过pip安装Depthai Library. DepthAI Library 在PyPi上对树莓派有预构建的 wheels 使用预配置的树莓派OS 镜像 我们提供预安装了D…

期权懂|面对期权下跌该如何操作呢?

本期让我懂 你就懂的期权懂带大家来了解&#xff0c;面对期权下跌该如何操作呢&#xff1f;有兴趣的朋友可以看一下。期权小懂每日分享期权知识&#xff0c;帮助期权新手及时有效地掌握即市趋势与新资讯&#xff01; 面对期权下跌该如何操作呢&#xff1f; 首先我们需要保持冷静…

Zotero插件指南:20个工具让你的学术生活更简单

以下插件排序按照星标量进行排序&#xff0c;常用的插件大概是前20的样子&#xff0c;可以根据自己的需求进行插件的安装。 顺带提一句&#xff0c;插件不是越多越好&#xff0c;装多了可能会出现软件卡顿的情况。 1、Scholaread for Zotero 插件下载&#xff1a;插件下载 …

Linux文件权限与用户管理详解:权限、所属用户组和所有者的变更

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storm…

HTB:Markup[WriteUP]

目录 连接至HTB服务器并启动靶机 1.What version of Apache is running on the targets port 80? 2.What username:password combination logs in successfully? 使用Yakit并使用TOP1000字典对密码进行爆破 3.What is the word at the top of the page that accepts use…

以光塑形:光固化3D打印机原理图文解析

公众号端&#xff1a; 光固化打印机介绍https://mp.weixin.qq.com/s?__bizMzkwMjc0MTE3Mw&mid2247484073&idx1&sn0d0fd026b373b06cd7c340ec8f56a006&chksmc0a1af73f7d62665a632baebbde4e5e00ffb9c6bd31bf547b4a86855d5524535619a6175a428#rd 光固化打印机…

前端面试:项目细节重难点问题分享(17)

更多详情&#xff1a;爱米的前端小笔记&#xff08;csdn~xitujuejin~zhiHu~Baidu~小红shu&#xff09;同步更新&#xff0c;等你来看&#xff01;都是利用下班时间整理的&#xff0c;整理不易&#xff0c;大家多多&#x1f44d;&#x1f49b;➕&#x1f914;哦&#xff01;你们…