RSUniVLM论文精读

一些收获:
1. 发现这篇文章的table1中,有CDChat ChangeChat Change-Agent等模型,也许用得上。等会看看有没有源代码。


摘要:RSVLMs在遥感图像理解任务中取得了很大的进展。尽管在多模态推理和多轮对话中表现良好,现有模型在像素级理解上存在不足,在处理多图像输入时也面临困难。RSUniVLM有变化检测和变化描述任务。为了增强模型在不同层次捕获视觉信息的能力,同时不增加模型体积,我们设计了一种名为“粒度导向的专家混合”(Granularity-oriented Mixture of Experts)的新架构,模型参数大约10亿。我们还构建了一个大规模的遥感指令跟随数据集,该数据集基于遥感和通用领域的多种现有数据集,涵盖了目标定位、视觉问答和语义分割等多种任务。

引言:随着llms的出现,很多领域显著发展,通过配备视觉编码模块,lvlms(large vlm)将llm的能力扩展到了通用视觉和语言理解,一个突破性的工作是llava,它在多模态对话数据上微调,展示了出色的视觉聊天能力。为了支持广泛的视觉任务,随后的研究工作尝试通过各种方式开发lvlm的潜力,包括利用更大规模的和更高质量的指令微调数据,设计更高效的微调方法(qa-lora),以及采用新的llm架构(moe)。此外,一些研究试图将多模态感知和生成任务统一起来,采用任务特定的头部进行处理。「感知任务:检测 分割 分类定位 问答等。生成任务:图像生成文本(描述) 图生图 文生图。把这两类任务统一起来意味着一个模型。底层共享同一个视觉语言backbone,针对不同的任务(分类 分割 问答)最后加上不同的结构进行任务输出。比如分类的head是softmax分类器,分割head是卷积结构输出pixel-wise label,文本生成是一个语言模型头用来生成文字。」通用lvlm在常规领域表现好,但是在rs领域不行,因为rs图像和自然场景图像差异大。为了弥合这差距,提出了几种大规模rs图像-文本对数据集和指令微调数据集。然而现有的rs领域的lvlm,还是仅限于图像级和区域级,缺乏像素级理解,无法处理语义分割这样的任务。为了解决上述问题,本文提出了一个统一的框架RSUniVLM,是首个支持图像级、区域级和像素级理解与推理任务的rs专用视觉-语言模型,并且具有多图像分析能力。

RSUniVLM在像素级理解多图像分析方面扩展了RS领域的视觉-语言模型。采用Text4Seg方法,把语义分割的mask结果转成一句描述性的文字,让语言模型可以“说出”分割的结果,从而统一所有任务为“文本生成任务”。「语言的形式表示mask:

相关工作 

通用vlm就不说了

RS vlms有很多,包括rsgpt geochat lhrs-bot skyeyeGPT change-agent和changechat等。rsUniVLM是对个统一的遥感视觉-语言模型,能处理 图像级 区域级和像素级 且是端到端的。

moe(mixture of experts) 主要由两个组件组成 专家层和路由器,输入的计算不会全部由一个固定的模型处理,而是通过路由器来选择不同的专家处理不同的输入。在这项工作中,作者提出了一种新的稀疏 Granularity-oriented MoE 架构,旨在 提升多模态理解能力。这种架构在 MoE 基础上进一步创新,专注于不同粒度的任务(例如 图像级区域级 和 像素级):

  • 粒度导向(Granularity-oriented): MoE 专家不再仅仅根据输入类型来分配,而是根据任务的粒度(例如,高层次的图像分类和低层次的像素分割)来选择相应的专家进行处理。

  • 稀疏(Sparse): 这种新架构是稀疏的,即 并非所有专家都参与计算,只有最相关的专家会被激活,从而减少计算量

方法描述

模型设计:该模型遵循常见的llava风格框架的设计范式,主要包含四个关键组件 图像编码器、文本嵌入层、多层投影器(mlp)、大语言模型llm。对于具有多张图像的输入,我们使用共享权重的图像编码器分别提取每张图像的特征,然后直接在嵌入维度上将它们拼接。「就是说 输入多张图像的时候 用同一个image encoder来提取特征,这个图像编码器的权重是共享的。在提取完每张图像的特征向量后,将它们连接在一起,拼成一个大向量。当输入图像数量不同导致拼接后的向量维度不同时,模型会通过填充或池化,将不同向量维度变成相同的。」

统一表示:我们将所有任务都转化为 仅文本生成任务,包括对象定位和分割。视觉定位和指代表示生成的边界框都是标准化为0-100之间的整数,并以文本格式表示[x1, y1, x2, y2]。对于mask生成的任务,用Text4seg方法。

基于粒度的专家混合(g-moe):三个粒度,图像级、区域级、像素级。为了有效整合这些专家,采用了一个无训练的门控机制(gating mechanism)。该机制根据输入数据的特点将输入提示分配给特定的专家,确保模型响应既能考虑上下文又能高效执行。

训练策略:两阶段的从粗到细训练策略:首先进行多任务的预训练阶段,然后通过精细调优阶段进一步提高模型。第一阶段:全参数微调,将遥感领域的知识注入预训练的视觉语言模型中。为了创建一个强大的指令跟随数据集,我们整合了十五个不同的公共数据集,涵盖遥感领域的五个不同任务,并将其转换为结构化的指令跟随集合,使用手工编写的模版。还引入了部分来自rs和通用领域的高质量指令集。这一阶段,g-moe层还没引入到llm中,因此模型重点集中在基础的对齐任务上。第二阶段:我们通过重复三次ffn层(前馈网络feed-forward network 通常是个全连接层)来初始化专门针对不同类型遥感任务的专家。我们根据任务的粒度和多样性,从阶段1的训练集中选取了一小部分遥感特定的指令数据,用于进一步微调g-moe层。      这两个训练阶段的目标是相同的:通过逐步细化模型,增强其对不同任务的理解能力。

实验

 

局限性:

 多轮对话能力较弱(可以更多更高质量多轮对话数据来改进)、无法执行生成任务如超分辨率和去雾。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

低空AI系统的合规化与标准化演进路径

随着AI无人机集群逐步参与城市空域治理、物流服务与公共安全作业,其系统行为不再是“技术封闭域”,而需接受法规监管、责任评估与接口协同的多方审查。如何将AI集群系统推向标准化、可接入、可审计的合规体系,成为未来空中交通演进的关键。本…

【金仓数据库征文】从云计算到区块链:金仓数据库的颠覆性创新之路

目录 一、引言 二、金仓数据库概述 2.1 金仓数据库的背景 2.2 核心技术特点 2.3 行业应用案例 三、金仓数据库的产品优化提案 3.1 性能优化 3.1.1 查询优化 3.1.2 索引优化 3.1.3 缓存优化 3.2 可扩展性优化 3.2.1 水平扩展与分区设计 3.2.2 负载均衡与读写分离 …

致远oa部署

文章目录 环境搭建项目构建 仅供学习使用 环境搭建 准备项目: https://pan.quark.cn/s/04a166575e94 https://pan.xunlei.com/s/VOOc1c9dBdLIuU8KKiqDa68NA1?pwdmybd# 官方文档: https://open.seeyoncloud.com/v5devCTP/ 安装时 mysql 数据库可能出现字符集设置…

移远通信智能模组助力东成“无边界智能割草机器人“闪耀欧美市场

2025年4月21日,移远通信宣布,旗下SC206E-EM智能模组已成功应用于江苏东成电动工具有限公司旗下的DCK TERRAINA无边界智能割草机器人。 这款智能模组高度集成计算、通信、定位等多元能力,以小型化、低功耗、实时性强和低成本等综合优势&#…

100.HTB-Meow

学习成果 在第一层,您将获得网络安全渗透测试领域的基本技能。您将首先学习如何匿名连接到各种服务,例如 FTP、SMB、Telnet、Rsync 和 RDP。接下来,您将发现 Nmap 的强大功能,Nmap 是一个有价值的工具,用于识别目标系统…

大厂面试-redis

前言 本章内容来自B站黑马程序员java大厂面试题和小林coding 博主学习笔记,如果有不对的地方,海涵。 如果这篇文章对你有帮助,可以点点关注,点点赞,谢谢你! 1.redis的使用场景 1.1 缓存 缓存穿透 在布…

【含文档+PPT+源码】基于SpringBoot+vue的疫苗接种系统的设计与实现

项目介绍 本课程演示的是一款 基于SpringBootvue的疫苗接种系统的设计与实现,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系…

【Pandas】pandas DataFrame dot

Pandas2.2 DataFrame Binary operator functions 方法描述DataFrame.add(other)用于执行 DataFrame 与另一个对象(如 DataFrame、Series 或标量)的逐元素加法操作DataFrame.add(other[, axis, level, fill_value])用于执行 DataFrame 与另一个对象&…

Windows上Tomcat 11手动启动startup.bat关闭shutdown.bat

发现tomcat11无法手动双击startup.bat和shutdown.bat进行开启和关闭。双击startup.bat命令窗口一闪而过就是启动失败了,正常启动成功是cmd命令窗口有全副的执行输出且不关闭窗口。 解决方法如下:主要更改一个tomcat安装目录下的/conf/server.xml配置 1.…

7.9 Python+Click实战:5步打造高效的GitHub监控CLI工具

Python+Click实战:5步打造高效的GitHub监控CLI工具 GitHub Sentinel Agent 命令行界面开发实战 关键词:CLI 开发实践、Click 框架、API 集成、命令行参数解析、错误处理机制 1. 命令行界面技术选型与架构设计 GitHub Sentinel 采用 Click + Requests 技术栈构建 CLI 工具,…

安全框架概述

Java中的安全框架通常是指解决Web应用安全问题的框架,如果开发Web应用时没有使用安全框架,开发者需要自行编写代码增加Web应用安全性。自行实现Web应用的安全性并不容易,需要考虑不同的认证和授权机制、网络关键数据传输加密等多方面的问题&a…

配置 C/C++ 语言智能感知(IntelliSense)的 c_cpp_properties.json 文件内容

配置 C/C 语言智能感知(IntelliSense)的 c_cpp_properties.json 文件内容 {"configurations": [{"name": "Linux","includePath": ["${workspaceFolder}/**","/opt/ros/humble/include/**&quo…

【安全扫描器原理】网络扫描算法

【安全扫描器原理】网络扫描算法 1.非顺序扫描2.高速扫描 & 分布式扫描3.服务扫描 & 指纹扫描 1.非顺序扫描 参考已有的扫描器,会发现几乎所有的扫描器都无一例外地使用增序扫描,即对所扫描的端口自小到大依次扫描,殊不知&#xff0…

理解欧拉公式

1. 欧拉公式中的符号 欧拉公式 e i x cos ⁡ x i sin ⁡ x e^{ix}\cos xi\sin x eixcosxisinx当 x π x \pi xπ时 e i π 1 0 / / 欧拉恒等式 e^{i\:\pi}10 //欧拉恒等式 eiπ10//欧拉恒等式 e e e:自然对数的底 i i i:虚数, i 2 − 1 i^2 -1 i2−1 cos…

HTML邮件背景图兼容 Outlook

在 HTML 邮件中设置背景图片时,Outlook(尤其是桌面版的 Outlook for Windows)经常不会正确显示背景图,这是因为outlook 是使用 Word 作为邮件渲染引擎,而不是标准的 HTML/CSS 渲染方式。 推荐的解决方案:使…

杰理ac792开发板按键不起效果

按键想要起效果需要把UI给注释掉,排查了半天

Kubernetes 常用运维命令整理

目录 Kubernetes 常用运维命令整理一、集群管理二、Pod 和容器管理三、Deployment 和应用管理四、Service 和网络管理五、存储管理六、ConfigMap 和 Secret 管理七、资源使用与监控八、调度和容错九、Role 和权限管理十、清理资源 总结 Kubernetes 常用运维命令整理 Kubernete…

在 Debian 12 中恢复被删除的 smb.conf 配置文件

https://forum.ubuntu.com.cn/viewtopic.php?t494763 本文结合ai输出,内容中有些错误,但确实解决了我的问题,我采取保留完整输出的方式摘录。 在 Debian 12 中恢复被删除的 smb.conf 配置文件,需结合 dpkg 和 ucf(Upd…

GB2312/GBK是字符集吗

GB2312/GBK 是字符集吗? 是的,GB2312 和 GBBK 既是字符集(Character Set),也是编码方式(Encoding)。它们不仅定义了可表示的字符范围,还规定了这些字符在计算机中的二进制存储格式。…

BOM与DOM(解疑document window关系)

BOM(浏览器对象模型) 定义与作用 BOM(Browser Object Model)提供与浏览器窗口交互的接口,用于控制导航、窗口尺寸、历史记录等浏览器行为 window:浏览器窗口的顶层对象,包含全局属性和方法&am…