CV论文--2024.3.26

1、DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

中文标题:DiffusionMTL:从部分注释的数据中学习多任务去噪扩散模型

简介:最近,人们对于从部分标注数据中学习多个密集场景理解任务的实际问题越来越感兴趣。在这些任务中,每个训练样本仅标记了任务的一个子集,因此在训练过程中存在任务标签的缺失,这导致预测质量下降且存在噪声,这一点在最先进的方法中也可观察到。

为了克服这个问题,我们将部分标记的多任务密集预测重新定义为像素级去噪问题,并提出了一种名为DiffusionMTL的新的多任务去噪扩散框架。该框架设计了一种联合扩散和去噪范式,以模拟任务预测或特征映射中的潜在噪声分布,并为不同任务生成校正输出。为了利用去噪过程中的多任务一致性,我们进一步引入了多任务调节策略,该策略可以隐式地利用任务之间的互补性来帮助学习未标记任务,从而提高不同任务的去噪性能。

通过广泛的定量和定性实验,我们证明了所提出的多任务去噪扩散模型可以显著提高多任务预测映射,并在两个不同的部分标记评估设置下优于三个具有挑战性的多任务基准的最先进方法。我们的代码可在https://prismformore.github.io/diffusionmtl/上获取。

2、LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

中文标题:LLaVA-PruMerge:高效大型多模态模型的自适应令牌缩减

简介:连接视觉编码器和大型语言模型的大型多模型(LMMs)展现了令人瞩目的推理能力。通常,LMMs使用固定数量的视觉令牌作为前缀内容,例如来自CLIP视觉编码器倒数第二层特征。然而,最近的LMMs开始涉及更复杂的视觉输入,如高分辨率图像和视频,这导致视觉令牌的数量显著增加。然而,由于Transformer架构的设计,随着输入令牌数量增加,这些模型的计算成本往往呈二次增长。

为了解决这个问题,我们研究了一种令牌减少机制,并发现与之前的工作相似,许多视觉令牌在空间上是多余的。基于这一发现,我们提出了一种创新的自适应视觉令牌减少方法,名为PruMerge,它可以显著减少视觉令牌的数量,同时保持可比较的模型性能。我们首先根据视觉令牌与类令牌和空间令牌的相似性选择未修剪的视觉令牌。然后,我们根据关键相似性对修剪后的令牌进行聚类,并将聚类后的令牌与未修剪的令牌合并,以补充其信息。

在实验中,当应用于LLaVA-1.5时,我们的方法平均可以将视觉令牌压缩14.4倍,并在各种视觉问答和推理任务中实现可比较的性能。我们的代码和检查点可在https://llava-prumerge.github.io/ 上获取。

3、LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

中文标题:LATTE3D:大规模摊销文本到增强型 3D 合成

简介:最近的文本到三维生成方法展示出令人印象深刻的三维结果,但需要耗费大量时间进行优化,每个提示可能需要长达一个小时的时间。像ATT3D这样的分摊方法可以同时优化多个提示,提高效率,以实现快速的文本到三维合成。然而,这些方法无法捕捉高频几何和纹理细节,并且难以扩展到大型提示集,因此它们的泛化能力较差。

为了解决这些限制,我们引入了LATTE3D,它能够快速、高质量地生成更大规模提示集上的三维合成。我们的方法具有两个关键点:首先,我们构建了可扩展的架构;其次,在优化过程中利用三维数据,通过三维感知扩散先验、形状正则化和模型初始化,实现对多样化和复杂训练提示的鲁棒性。

LATTE3D分摊神经场和纹理表面生成,能够在单个前向传递中生成高度详细的纹理网格。LATTE3D能够在400毫秒内生成3D对象,并且可以通过快速的测试时间优化进一步增强。通过我们的方法,我们能够克服传统方法中的限制,实现快速生成高质量的三维结果,并扩展到更大的提示集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770930.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qt table 简易封装,样式美化,以及 合并表格和颜色的区分 已解决

在需求中&#xff0c; 难免会使用 table 进行渲染窗口&#xff0c;做一个简单的封装。美化表格最终效果&#xff01;&#xff01;&#xff01; 代码部分 // 显示 20行 20列CCendDetailsInfoTableWidget* table new CCendDetailsInfoTableWidget(20,10);for (int i 0; i < …

蓝桥杯2023年第十四届省赛真题-买瓜|DFS+剪枝

题目链接&#xff1a; 0买瓜 - 蓝桥云课 (lanqiao.cn) 蓝桥杯2023年第十四届省赛真题-买瓜 - C语言网 (dotcpp.com) &#xff08;蓝桥官网的数据要求会高一些&#xff09; 说明&#xff1a; 这道题可以分析出&#xff1a;对一个瓜有三种选择&#xff1a; 不拿&#xff0c…

Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错

在使用hbase时出错&#xff0c;错误如下图&#xff1a; 错误原因&#xff1a; 返回去检查启动的Hadoop与zookeeper&#xff0c;发现zookeeper的状态不对&#xff0c;重新启动了一下zookeeper&#xff0c;确保所有机器的zookeeper都启动起来了就可以了。

微服务(基础篇-004-Feign)

目录 http客户端Feign Feign替代RestTemplate&#xff08;1&#xff09; Feign的介绍&#xff08;1.1&#xff09; 使用Feign的步骤&#xff08;1.2&#xff09; 自定义配置&#xff08;2&#xff09; 配置Feign日志的两种方式&#xff08;2.1&#xff09; Feign使用优化…

【C++】哈希应用之位图

&#x1f440;樊梓慕&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 &#x1f31d;每一个不曾起舞的日子&#xff0c;都是对生命的辜负 目录 前言 1.位图的概念 2.位…

解决“Pycharm中Matplotlib图像不弹出独立的显示窗口”问题

matplotlib的绘图的结果默认显示在SciView窗口中, 而不是弹出独立的窗口, 这样看起来就不是很舒服&#xff0c;不习惯。 通过修改设置&#xff0c;改成独立弹出的窗口。 File—>Settings—>Tools—>Python Scientific—>Show plots in toolwindow 将√去掉即可

初识C++(三)构造函数和析构函数

目录 一、构造函数&#xff1a; 1.构造函数的概念&#xff1a; 2.构造函数的特性&#xff1a; 3.构造函数的形式&#xff1a; 4.为什么要引出构造函数这一概念 5.默认构造函数包括&#xff1a; 6.对默认生成的构造函数不处理内置类型的成员这事的解决办法&#xff1a; …

【Python机器学习系列】skearn机器学习模型的保存---pickle法

这是我的第246篇原创文章。 一、引言 pickle是Python 的标准库&#xff0c;用于序列化对象。可以使用 pickle.dump()将模型保存到文件&#xff0c;然后使用 pickle.load()从文件中加载模型。 序列化&#xff1a;指将一个对象转换为字节流&#xff0c;能够存储在文件或网络上&…

计算机网络:现代通信的基石

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

异地两台电脑如何共享文件?

在当前数字化时代&#xff0c;人们对于数据的使用和管理变得越来越便捷。由于工作和生活的需要&#xff0c;我们常常需要在异地的电脑间共享文件。这给我们的工作和生活带来了一定程度的不便。有没有一种便捷的方法可以让异地的电脑实现文件的共享呢&#xff1f;答案是肯定的。…

知识图谱-图数据库-neo4j (1)踩坑记录

1、neo4j 安装 材料 &#xff1a; openjdk11 (neo4j 最低jdk版本要求) neo4j-community-4.4.30 CentOS 7.8 Release Date: 25 January 2024 Neo4j 4.4.30 is a maintenance release with many important improvements and fixes. Neo4j Deployment Center - Graph Database…

【前端面试3+1】01闭包、跨域

一、对闭包的理解 定义&#xff1a; 闭包是指在一个函数内部定义的函数&#xff0c;并且该内部函数可以访问外部函数的变量。闭包使得函数内部的变量在函数执行完后仍然可以被访问和操作。 特点&#xff1a; 闭包可以访问外部函数的变量&#xff0c;即使外部函数已经执行完毕。…

Linux 搭建jenkins docker

jekin docker gitee docker 安装 jenkins docker run -d --restartalways \ --name jenkins -uroot -p 10340:8080 \ -p 10341:50000 \ -v /home/docker/jenkins:/var/jenkins_home \ -v /var/run/docker.sock:/var/run/docker.sock \ -v /usr/bin/docker:/usr/bin/docker je…

QT数据类型和容器用法

Qt库提供了基于通用模板的容器类, 这些类可用于存储指定类型的数据项&#xff0c;Qt中这些容器类的设计比STL容器更轻&#xff0c;更安全且更易于使用。容器类也都是隐式共的&#xff0c;它们是可重入的&#xff0c;并且已针对速度/低内存消耗和最小的内联代码扩展进行了优化&a…

【解析几何】 【多源路径】 【贪心】1520 最多的不重叠子字符串

作者推荐 视频算法专题 本身涉及知识点 解析几何 图论 多源路径 贪心 LeetCode1520. 最多的不重叠子字符串 给你一个只包含小写字母的字符串 s &#xff0c;你需要找到 s 中最多数目的非空子字符串&#xff0c;满足如下条件&#xff1a; 这些字符串之间互不重叠&#xff0…

Wireshark使用实训---分析IP包

1.Wireshark简介和作用 Wireshark是一个开源的网络分析工具&#xff0c;用于捕捉和分析网络数据包。它可以帮助网络管理员和安全专家监控和解决网络问题&#xff0c;同时也可以用于学习和教学网络通信原理。 Wireshark可以在网络中捕获和分析传输的数据包&#xff0c;包括协议…

【Java初阶(五)】类和对象

❣博主主页: 33的博客❣ ▶文章专栏分类: Java从入门到精通◀ &#x1f69a;我的代码仓库: 33的代码仓库&#x1f69a; 目录 1. 前言2.面向对象的认识3.类的认识4. 类的实例化4.1什么是实例化4.2类和对象的说明 5.this引用6.对象初始化6.1 构造方法 7.static关键字8.代码块8.1 …

PTAxt的考研路

xt是我院19级专业第一&#xff0c;但他认为保研并不能展示他全部的实力&#xff0c;所以他在22年初试一结束就加入了23考研的队伍中&#xff0c;并且他为了填补我院近些年来无北大研究生的空白&#xff0c;毅然决然决定扛起19级的大旗&#xff0c;在学校百年华诞之际献上他最诚…

光明源@智慧公厕赋能“厕所革命”主要体现在哪些方面?

当我们提及厕所&#xff0c;不再仅是简单的卫生设施&#xff0c;而是一种对生活品质的关怀与呵护。智慧公厕&#xff0c;作为厕所革命的引领者&#xff0c;以其独特的拟人魅力&#xff0c;彰显着人性化关怀的新风尚。今日&#xff0c;让我们一同探索&#xff0c;智慧公厕是如何…

数据库备份工具(实现数据定时覆盖)

数据库备份工具&#xff08;实现数据定时覆盖&#xff09; 永远热爱&#xff0c;永远执着&#xff01; 工具介绍 自动化测试数据库更新调度程序 这段 Python 脚本自动化了每天定时从生产数据库更新测试数据库的过程。它利用了 schedule 库来安排并执行每天指定时间的更新任务…