CV每日论文--2024.7.12

1、LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

中文标题:LLaVA-NeXT-Interleave:处理大型多模态模型中的多图像、视频和 3D

简介:视觉指令调整在增强大型多模态模型(LMMs)的能力方面取得了显著进展。然而,现有的开放式LMMs主要集中在单图像任务上,它们在多图像、多帧(视频)、多视角(3D)和多块(单图像)等更复杂的场景中的应用尚未得到充分探索。此外,先前的LMM研究分别处理不同的情境,缺乏将新兴能力跨情境推广的机制。

为了解决这些问题,我们提出了LLaVA-NeXT-Interleave。该模型旨在同时处理LMMs中的多图像、多帧、多视角和多块情境。为了实现这些能力,我们将交错数据格式视为通用模板,并使用1177.6k个样本编译了M4-Instruct数据集,涵盖了4个主要领域、14个任务和41个数据集。我们还策划了LLaVA-Interleave Bench来全面评估LMMs的多图像性能。

通过广泛的实验,LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先的结果,同时保持了单图像任务的性能。此外,我们的模型还展示了几个新兴的能力,例如在不同设置和模态之间转移任务。我们的代码可在https://github.com/LLaVA-VL/LLaVA-NeXT获得。

2、Generative Image as Action Models

中文标题:作为动作模型的生成图像

简介:图像生成扩散模型已经被优化以解锁新的功能,如图像编辑和新颖视角合成。这引发了一个问题:是否可以将这些图像生成模型应用于视觉动作控制?

为了回答这个问题,我们提出了GENIMA,这是一种行为克隆代理。GENIMA通过微调稳定扩散模型在RGB图像上"绘制联合动作"作为目标,将这些图像输入到一个控制器,从而将视觉目标映射到一系列关节位置。

我们在25个RLBench和9个真实世界的操作任务上研究了GENIMA。结果表明,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于最先进的视觉动作方法的策略,特别是在场景扰动的鲁棒性和推广到新颖物体方面。值得注意的是,尽管GENIMA缺乏深度、关键点或运动规划器等先验,但它仍然与3D代理相竞争。

总之,这项工作展示了将图像生成扩散模型应用于视觉动作控制的潜力,并为进一步探索这一方向提供了启示。我们的代码和数据可在https://github.com/GENIMA/GENIMA获得。

3、Controlling Space and Time with Diffusion Models

中文标题:用扩散模型控制空间和时间

简介:我们提出了4DiM,这是一个级联扩散模型,用于基于一个或多个输入图像以及一组相机姿态和时间戳进行4D新视图合成。为了克服4D训练数据有限的挑战,我们提倡在3D(仅含相机姿态)、4D(含姿态和时间)和视频(仅含时间)数据上进行联合训练,并提出了一种新的架构来实现这一点。我们进一步提出使用单目度量深度估计器来校准SfM姿态数据,以实现度量尺度相机控制。

为了对模型进行评估,我们引入了新的指标来补充和克服当前评估方案的不足,并展示了在保真度和姿态控制方面优于现有3D NVS扩散模型的最新结果,同时增加了处理时间动态的能力。4DiM还可用于改进全景拼接、姿态条件视频到视频转换和其他几项任务。更多细节请参见https://4d-diffusion.github.io。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

事务码 BP DYNPRO_NOT_FOUND

事务码 BP DYNPRO_NOT_FOUND 使用事务 BP 时,模块 PBO_START_SUBSCREEN 中 SAPLBUSS 中的转储 DYNPRO_NOT_FOUND 目录 问题 双击查看详细信息时发生错误DYNPRO_NOT_FOUND 解决方案 执行事务码BUSP 重新生成屏幕 参考链接: 1621119

2w才学到的交易策略,Anzo Capital今天免费分享

花费了2w学费才学到的外汇交易策略,Anzo Capital今天免费分享!那就是使用交易价格行动和利润区策略,在实施价格行动利润区策略时,关键步骤一定要严格执行,下面是操作的关键步骤: 1. 定义趋势:首…

获取网页logo图标

怎么获取网页logo图标的URL链接 第一种方法: 最常用的方法(适用于90%的站点)是,直接在访问网址首页链接后加上上/favicon.ico,例如: https://www.baidu.com/favicon.ico 第二种方法: 按F12&…

【逆向基础】十二、工具分享之Process Explorer

一、简介 Process Explorer是一款出色的进程资源管理器。在调试运行window系统中的程序软件时,使用Process Explorer可以通过工整的UI界面,让我们快速了解软件的进程信息,挂载的动态库等;可以帮助我们快速定位分析的方向&#xf…

python如何结束程序运行

方法1:采用sys.exit(0),正常终止程序,从图中可以看到,程序终止后shell运行不受影响。 方法2:采用os._exit(0)关闭整个shell,从图中看到,调用sys._exit(0)后整个shell都重启了(RESTAR…

30.ROM-IP核的调用

(1)ROM IP核简介: ROM是只读存储器,是一种只能读出事先锁存的固态半导体存储器。其特性是一旦存储资料就无法再将之改变或删除,并且资料也不会因为电源关闭而消失。(掉电不丢失) FPGA使用内部RA…

上讯信息 InforCube运维管理审计系统 RepeatSend 前台RCE漏洞复现

0x01 产品简介 上讯信息的InforCube运维管理审计系统(InforCube OMA)是一款新一代运维安全审计产品,旨在全面提升企业IT运维管理水平,通过细粒度授权、全过程操作记录及控制、全方位操作审计等功能,实现运维过程的“事…

USB PD SINK协议取电芯片不同品牌介绍对比-在选择PD SINK 协议芯片时,用户需要综合考虑各方面的因素,包括工作耐压、稳定性、兼容性等

PD SINK协议芯片是现代通信技术中的一项重要技术,它起着连接不同系统的桥梁作用。协议芯片内部集成了各种不同的通信协议,如蓝牙、Wi-Fi、以太网等,使不同设备之间的通信变得更加简单和高效。协议芯片推动了信息通信技术的发展。在过去&#…

Windows下查看某个端口被某个应用占用

1、打开命令窗口(以管理员身份运行) ​​​​​​​​​​ 2、查找所有运行的端口 输入所有命令:当前命令可以查看当前电脑的全部端口使用情况 netstat -ano3、查看被占用端口对应的 PID(这里以8000端口为例) netstat -ano|findstr &qu…

博物馆地图导航系统:高精度地图引擎与AR/VR融合,实现博物馆数字化转型

在人民日益追求精神文化的时代下,博物馆作为传承与展示人类文明的璀璨殿堂,其重要性不言而喻。然而,随着博物馆规模的不断扩大和藏品种类的日益丰富,游客在享受知识盛宴的同时,也面临着“迷路”与“错过”的困扰。博物…

一周涨8K star!RAG技术迎来大升级,速度关注

之前我们聊到过RAG,它是目前非常常用的增强大模型能力的技术,通过检索增强生成(RAG),大型语言模型能够从外部知识源检索信息,从而回答涉及私有或未见文档的问题。 今天我们分享一个开源项目,它…

【MybatisPlus】QueryWapper和LambdaQueryWrapper的区别

【MybatisPlus】QueryWapper和LambdaQueryWrapper的区别 (一)MyBatisPlus的条件查询构造器QueryWrapperLambdaQueryWrapper优缺点使用场景 (二)Lambda的概念(三)QueryWrapper如何进化成LambdaQueryWrapper的…

Python爬虫之路(2):爬天气情况

hello hello~ ,这里是绝命Coding——老白~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页:绝命Coding-CSDN博客 &a…

5G RedCap调查报告

一、5G RedCap技术背景 5G RedCap(Reduced Capability缩写,轻量化5G),是3GPP标准化组织定义下的5G裁剪版本,是5G面向中高速率连接场景的物联网技术,它的能力介于5G NR(含eMBB和uRLLC)和LPWA(如LTE-M和NR-IoT)之间,如图1所示,是5G-A(5G Advanced)的关键技术之一。…

WAV 和 FLAC 哪个音质好?常见音频格式又如何转换?

音频文件的格式种类繁多,每种格式都有其独特的优势和应用场景。其中,WAV 和 FLAC 作为两种常见的无损音频格式,备受音频发烧友和专业人士的青睐。它们不仅能够保留原始录音的全部细节,还为听众提供了近乎 CD 品质的听觉体验。然而…

昇思25天学习打卡营第13天|基于MindNLP+MusicGen生成自己的个性化音乐

关于MindNLP MindNLP是一个依赖昇思MindSpore向上生长的NLP(自然语言处理)框架,旨在利用MindSpore的优势特性,如函数式融合编程、动态图功能、数据处理引擎等,致力于提供高效、易用的NLP解决方案。通过全面拥抱Huggin…

QT实现自定义带有提示信息的透明环形进度条

1. 概述 做界面开发的童鞋可能都会遇到这样的需求,就是有一些界面点击了之后比较耗时的操作,需要界面给出一个环形进度条的进度反馈信息. 如何来实现这样的需求呢,话不多说,上效果 透明进度条 2. 代码实现 waitfeedbackprogressba…

从业务架构到应用架构技术剖析

从业务架构到应用架构 4A架构理论,一个企业级架构框架,将企业架构(EA)划分为四大核心领域,每个领域都聚焦于组织的不同维度。该理论提供了一种结构化的设计和理解企业运作方式的方法,确保技术解决方案能…

用Apipost压力测试接口

用Apipost压力测试接口 1.点击自动化测试 2.选择要测试的接口 3.如果没有接口,就先在api调试中添加要测试的接口 4.根据自己的需求设置相应的参数,这里我压测10次 5.这样就可以压测接口了,非常nice

LayoutLMv1

近年来,预训练技术在各种NLP任务中得到了成功的验证。尽管NLP应用程序广泛使用预训练模型,但它们几乎只关注文本级操作,而忽略了对文档图像理解至关重要的布局和样式信息。在本文中,我们提出了LayoutLM来联合建模文本和布局信息在…