CV论文--2024.3.26

1、DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

中文标题:DiffusionMTL:从部分注释的数据中学习多任务去噪扩散模型

简介:最近,人们对于从部分标注数据中学习多个密集场景理解任务的实际问题越来越感兴趣。在这些任务中,每个训练样本仅标记了任务的一个子集,因此在训练过程中存在任务标签的缺失,这导致预测质量下降且存在噪声,这一点在最先进的方法中也可观察到。

为了克服这个问题,我们将部分标记的多任务密集预测重新定义为像素级去噪问题,并提出了一种名为DiffusionMTL的新的多任务去噪扩散框架。该框架设计了一种联合扩散和去噪范式,以模拟任务预测或特征映射中的潜在噪声分布,并为不同任务生成校正输出。为了利用去噪过程中的多任务一致性,我们进一步引入了多任务调节策略,该策略可以隐式地利用任务之间的互补性来帮助学习未标记任务,从而提高不同任务的去噪性能。

通过广泛的定量和定性实验,我们证明了所提出的多任务去噪扩散模型可以显著提高多任务预测映射,并在两个不同的部分标记评估设置下优于三个具有挑战性的多任务基准的最先进方法。我们的代码可在https://prismformore.github.io/diffusionmtl/上获取。

2、LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

中文标题:LLaVA-PruMerge:高效大型多模态模型的自适应令牌缩减

简介:连接视觉编码器和大型语言模型的大型多模型(LMMs)展现了令人瞩目的推理能力。通常,LMMs使用固定数量的视觉令牌作为前缀内容,例如来自CLIP视觉编码器倒数第二层特征。然而,最近的LMMs开始涉及更复杂的视觉输入,如高分辨率图像和视频,这导致视觉令牌的数量显著增加。然而,由于Transformer架构的设计,随着输入令牌数量增加,这些模型的计算成本往往呈二次增长。

为了解决这个问题,我们研究了一种令牌减少机制,并发现与之前的工作相似,许多视觉令牌在空间上是多余的。基于这一发现,我们提出了一种创新的自适应视觉令牌减少方法,名为PruMerge,它可以显著减少视觉令牌的数量,同时保持可比较的模型性能。我们首先根据视觉令牌与类令牌和空间令牌的相似性选择未修剪的视觉令牌。然后,我们根据关键相似性对修剪后的令牌进行聚类,并将聚类后的令牌与未修剪的令牌合并,以补充其信息。

在实验中,当应用于LLaVA-1.5时,我们的方法平均可以将视觉令牌压缩14.4倍,并在各种视觉问答和推理任务中实现可比较的性能。我们的代码和检查点可在https://llava-prumerge.github.io/ 上获取。

3、LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

中文标题:LATTE3D:大规模摊销文本到增强型 3D 合成

简介:最近的文本到三维生成方法展示出令人印象深刻的三维结果,但需要耗费大量时间进行优化,每个提示可能需要长达一个小时的时间。像ATT3D这样的分摊方法可以同时优化多个提示,提高效率,以实现快速的文本到三维合成。然而,这些方法无法捕捉高频几何和纹理细节,并且难以扩展到大型提示集,因此它们的泛化能力较差。

为了解决这些限制,我们引入了LATTE3D,它能够快速、高质量地生成更大规模提示集上的三维合成。我们的方法具有两个关键点:首先,我们构建了可扩展的架构;其次,在优化过程中利用三维数据,通过三维感知扩散先验、形状正则化和模型初始化,实现对多样化和复杂训练提示的鲁棒性。

LATTE3D分摊神经场和纹理表面生成,能够在单个前向传递中生成高度详细的纹理网格。LATTE3D能够在400毫秒内生成3D对象,并且可以通过快速的测试时间优化进一步增强。通过我们的方法,我们能够克服传统方法中的限制,实现快速生成高质量的三维结果,并扩展到更大的提示集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770930.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qt table 简易封装,样式美化,以及 合并表格和颜色的区分 已解决

在需求中&#xff0c; 难免会使用 table 进行渲染窗口&#xff0c;做一个简单的封装。美化表格最终效果&#xff01;&#xff01;&#xff01; 代码部分 // 显示 20行 20列CCendDetailsInfoTableWidget* table new CCendDetailsInfoTableWidget(20,10);for (int i 0; i < …

【AIGC调研系列】DeepSeek模型的优势和劣势

DeepSeek模型的优势主要包括&#xff1a; 多模态能力&#xff1a;DeepSeek-VL能够在不丢失语言能力的情况下融入多模态能力&#xff0c;能够处理包括逻辑图、网页、公式识别、科学文献、自然图像等多种类型的数据&#xff0c;显示出其强大的通用多模式理解能力[1]。高分辨率图…

实现浏览器复制文本原始样式到wps或office

一、概述 本需求是笔者在协助公司前端工程师的一个需求完成的&#xff0c;需求是在Web页面中复制带有样式的文本并期望在WPS或其他富文本编辑器中保持样式&#xff0c;通常需要使用HTML格式进行复制。大多数现代富文本编辑器&#xff0c;包括WPS&#xff0c;都支持从HTML格式的…

蓝桥杯2023年第十四届省赛真题-买瓜|DFS+剪枝

题目链接&#xff1a; 0买瓜 - 蓝桥云课 (lanqiao.cn) 蓝桥杯2023年第十四届省赛真题-买瓜 - C语言网 (dotcpp.com) &#xff08;蓝桥官网的数据要求会高一些&#xff09; 说明&#xff1a; 这道题可以分析出&#xff1a;对一个瓜有三种选择&#xff1a; 不拿&#xff0c…

Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错

在使用hbase时出错&#xff0c;错误如下图&#xff1a; 错误原因&#xff1a; 返回去检查启动的Hadoop与zookeeper&#xff0c;发现zookeeper的状态不对&#xff0c;重新启动了一下zookeeper&#xff0c;确保所有机器的zookeeper都启动起来了就可以了。

微服务(基础篇-004-Feign)

目录 http客户端Feign Feign替代RestTemplate&#xff08;1&#xff09; Feign的介绍&#xff08;1.1&#xff09; 使用Feign的步骤&#xff08;1.2&#xff09; 自定义配置&#xff08;2&#xff09; 配置Feign日志的两种方式&#xff08;2.1&#xff09; Feign使用优化…

【C++】哈希应用之位图

&#x1f440;樊梓慕&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 &#x1f31d;每一个不曾起舞的日子&#xff0c;都是对生命的辜负 目录 前言 1.位图的概念 2.位…

解决“Pycharm中Matplotlib图像不弹出独立的显示窗口”问题

matplotlib的绘图的结果默认显示在SciView窗口中, 而不是弹出独立的窗口, 这样看起来就不是很舒服&#xff0c;不习惯。 通过修改设置&#xff0c;改成独立弹出的窗口。 File—>Settings—>Tools—>Python Scientific—>Show plots in toolwindow 将√去掉即可

初识C++(三)构造函数和析构函数

目录 一、构造函数&#xff1a; 1.构造函数的概念&#xff1a; 2.构造函数的特性&#xff1a; 3.构造函数的形式&#xff1a; 4.为什么要引出构造函数这一概念 5.默认构造函数包括&#xff1a; 6.对默认生成的构造函数不处理内置类型的成员这事的解决办法&#xff1a; …

【Python机器学习系列】skearn机器学习模型的保存---pickle法

这是我的第246篇原创文章。 一、引言 pickle是Python 的标准库&#xff0c;用于序列化对象。可以使用 pickle.dump()将模型保存到文件&#xff0c;然后使用 pickle.load()从文件中加载模型。 序列化&#xff1a;指将一个对象转换为字节流&#xff0c;能够存储在文件或网络上&…

HTML快速入门笔记

一、HTML快速入门 说明&#xff1a;所有加*号内容代表不常用&#xff0c;了解即可。 HTML概述 超文本&#xff1a;Web是一个超文本的集合&#xff1b;超文本是web的基本组成单元&#xff0c;也成为网页或HTML文档&#xff0c;Web页等&#xff0c;通常以.html或.htm为后缀的文件…

Apache SeaTunnel 初识

文章目录 Apache SeaTunnel 初识为什么我们需要SeaTunnel使用场景特点解决的问题工作流连接器输入插件过滤插件输出插件引擎spark 和 flink 引擎SeaTunnel 引擎集群管理核心功能Apach

力扣1----10(更新)

1. 两数之和 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素在答案里不能重复出现。 你可以按…

计算机网络:现代通信的基石

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

「Linux系列」Linux网络通讯/系统管理/系统设置/备份压缩/设备管理命令

文章目录 一、Linux网络通讯命令二、Linux系统管理命令三、Linux系统设置命令四、Linux备份压缩命令五、Linux设备管理命令六、相关链接 一、Linux网络通讯命令 Linux网络通讯命令是Linux系统中用于管理和调试网络功能的一系列工具。这些命令可以帮助用户查看网络状态、测试网…

SNMP学习笔记SNMPWALK命令

SNMPWALK是SNMP的一个工具&#xff0c;它使用SNMP的GETNEXT请求查询指定OID入口的所有OID树信息&#xff0c;并显示给用户。 IT监控系统常用snmpwalk获取支持SNMP的网络设备信息&#xff0c;使用snmpwalk收集交换机、路由器的CPU、内存、端口流量等信息。 使用snmpwalk需要安装…

Matlab实现序贯变分模态分解(SVMD)

大家好&#xff0c;我是带我去滑雪&#xff01; 序贯变分模态分解(SVMD) 是一种信号处理和数据分析方法。它可以将复杂信号分解为一系列模态函数&#xff0c;每个模态函数代表信号中的特定频率分量。 SVMD 的主要目标是提取信号中的不同频率分量并将其重构为原始信号。SVMD的基…

异地两台电脑如何共享文件?

在当前数字化时代&#xff0c;人们对于数据的使用和管理变得越来越便捷。由于工作和生活的需要&#xff0c;我们常常需要在异地的电脑间共享文件。这给我们的工作和生活带来了一定程度的不便。有没有一种便捷的方法可以让异地的电脑实现文件的共享呢&#xff1f;答案是肯定的。…

flutter 父组件调用子组件方法

标题在Flutter中&#xff0c;父组件可以通过GlobalKey来引用子组件&#xff0c;并调用子组件的方法。以下是一个简单的例子&#xff1a; 在这个例子中&#xff0c;ParentComponent 有一个GlobalKey&#xff0c;它被传递给了ChildComponent。当按钮被点击时&#xff0c;通过chi…

06 mybatis </sql>

文章目录 products.sqlpom.xmlmybatis-config.xmlProductsMapper.xmlProductsMapperImpl.javaProducts.javaDButil.javaProductsMapperImplTest.javaMapperTest.java products.sql create table products (product_id int auto_increment comment 产品IDprimary key,prod…