论文阅读--Language-driven Semantic Segmentation

效果很好,文本增加一个词,就能找到对应的分割地方,给出的无用标签也不会去错误分割,而且能理解文本意思,例如dog和pet都能把狗给分割出来

image encoder使用DPT分割模型,大致架构为ViT+decoder,decoder的作用是把bottleneck feature慢慢upscale上去,得到特征图

文本和图片的特征图的C一般为512或768

将两个特征矩阵在C维度上相乘,得到HxWxN的矩阵,N是文本标签个数

将最后的矩阵去和ground truth mask去做交叉熵,而不是像CLIP一样做对比学习的loss,因此它不是一个无监督学习的工作,是有监督的

创新点在于把文本特征通过矩阵相乘融入图像特征中

论文中text encoder沿用了冻结的CLIP text encoder,因为分割任务的数据集还是不够大,fine-tune容易带偏CLIP预训练出的参数

spatial regularization block里是conv或者depthwise conv层,目的是为了多理解理解文本和视觉到底应该怎么去交互,2个block效果最好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/14447.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【个人经历分享】末流本科地信,毕业转码经验

本人24届末流本科,地理信息科学专业。 我们这个专业可以说是 “高不成,低不就”的专业,什么都学但都不精。考研我实在是卷不动同学历的人,我在大三的时候就开始考虑转码。 至于我为什么选择转码,选择了GIS开发&#xf…

element ui 下拉框Select 选择器 上下箭头旋转方向样式错乱——>优化方案

目录 前言1、问题复现2、预期效果3、input框样式修改解析4、修改方案 🚀写在最后 前言 测试A:那啥!抠图仔,样式怎么点着点着就出问题了。 前端:啥?css样式错乱了?你是不是有缓存啊&#xff01…

js常用数组方法

1.arr.push() -末尾添加 该方法可以向数组末尾添加一个或多个元素,并返回数组新的长度可以将要添加的元素作为方法的参数传递,这样这些元素将会自动添加到元素的末尾原数组会发生变化 var arr [ 1, 2, 3, 4 ] arr.push(5) console.log(arr) // [ 1, …

linux命令arp的使用

arp arp 命令用于显示和修改 IP 到 MAC 转换表 补充说明 arp 命令 是 Address Resolution Protocol,地址解析协议,是通过解析网络层地址来找寻数据链路层地址的一个网络协议包中极其重要的网络传输协议。而该命令可以显示和修改 arp 协议解析表中的缓…

Mia for Gmail for Mac:Mac用户的邮件管理首选

对于追求高效工作的Mac用户来说,Mia for Gmail for Mac无疑是邮件管理的首选工具。它以其卓越的性能和丰富的功能,为用户带来了前所未有的高效邮件管理体验。 Mia for Gmail for Mac不仅支持多帐号登录和标签选择功能,还提供了邮件分类、垃圾…

linux 中 fd 申请和释放管理(两级 bitmap)

linux 中 fd 的几点理解_linux fd-CSDN博客 通过上边的文章,我们可以知道,在 linux 中,fd 有以下几点需要了解: (1)fd 表示进程打开的文件,是进程级别的资源,不是系统级别的资源 …

【前端每日一题】day11

一个盒子(DIV)里有若干个小盒子,每个小盒子里还可能有多个小盒子 多层盒子结构。每个盒子都有一个唯一的id和 name 属性。现在给出一个盒子的 id 请找到这个盒子并打开,输出这个盒子内部所有小盒子的id和 name,并继续打开这些小盒子输出id和 …

【Unity】Unity项目转抖音小游戏(四)一些常用方法

1.初始化 SDK会在Unity启动前就初始化好,但是又有Init的接口,所以这里通过 StarkSDK.s_ContainerEnv 判断有没有初始化,没有的话就手动初始化 public override void Init(string code, Action callback){Debug.Log("初始化抖音SDK"…

AIGC全面介绍

AIGC(Artificial Intelligence Generated Content),即生成式人工智能,是人工智能1.0时代进入2.0时代的重要标志。这一技术的出现,标志着人工智能从计算智能、感知智能迈向了认知智能的新阶段。以下是关于AIGC的全面介绍…

基于manifest文件批量将coding的仓库导入gitlab中

文章目录 写在前面的话背景编写manifest文件最终效果 写在前面的话 前面有讲过通过manifest清单导入项目到gitlab中,但是实际的操作是不同gitlab实例之间的操作,然而对于在不同gitlab实例的repo迁移而言,显然direct transfer会更合适。 背景…

民国漫画杂志《时代漫画》第21期.PDF

时代漫画21.PDF: https://url03.ctfile.com/f/1779803-1248634754-017e2b?p9586 (访问密码: 9586) 《时代漫画》的杂志在1934年诞生了,截止1937年6月战争来临被迫停刊共发行了39期。 ps: 资源来源网络!

代码随想录算法训练营Day49 | 123.买卖股票的最佳时机III、188.买卖股票的最佳时机IV | Python | 个人记录向

本文目录 123.买卖股票的最佳时机III做题看文章 188.买卖股票的最佳时机IV做题 以往忽略的知识点小结个人体会 123.买卖股票的最佳时机III 代码随想录:123.买卖股票的最佳时机III Leetcode:123.买卖股票的最佳时机III 做题 无思路。 看文章 确定dp数…

结构型模式之桥接模式

文章目录 概述原理结构图代码示例 小结 概述 桥接模式(bridge pattern) 的定义是:将抽象部分与它的实现部分分离,使它们都可以独立地变化。 桥接模式用一种巧妙的方式处理多层继承存在的问题,用抽象关联来取代传统的多层继承,将类之间的静态继承关系转…

使用位掩码的权限设计

使用位掩码的权限设计 权限系统的设计几乎是每个系统都必需的模块。 下面就聊一聊基本设计的思路。 位掩码(BitMask),是位(Bit)和掩码(Mask)的组合词。 “位”指代着二进制数据当中的二进制位…

基于深度学习OCR文本识别系统源码(带界面)

第一步:概要 基于深度学习OCR文本识别分为两个模块:DBNet和CRNN。 DBNet是基于分割的文本检测算法,算法将可微分二值化模块(Differentiable Binarization)引入了分割模型,使得模型能够通过自适应的阈值图进行二值化,并…

Postgresql 基础学习

一、介绍 PostgreSQL是一个开源的关系型数据库管理系统(RDBMS),它支持SQL语言的所有功能,具有可扩展性、高并发性和可靠性等特点。 以下是一些 PostgreSQL 的特点: 开源:PostgreSQL是一个非常受欢迎的开源…

Python-温故知新

1快速打开.ipynb文件 安装好anaconda后,在需要打开notebook的文件夹中, shift键右键——打开powershell窗口——输入jupyter notebook 即可在该文件夹中打开notebook的页面: 2 快速查看函数用法 光标放在函数上——shift键tab 3...

Docker镜像源自动测试镜像速度,并选择速度最快的镜像

国内执行如下代码 bash <(curl -sSL https://gitee.com/xjxjin/scripts/raw/main/check_docker_registry.sh)国外执行如下代码 bash <(curl -sSL https://github.com/xjxjin/scripts/raw/main/check_docker_registry.sh)如果有老铁有比较不错的镜像源&#xff0c;可以提…

探索Python编程乐趣:制作气泡反弹小游戏

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、引言&#xff1a;Python编程的轻松入门 二、游戏实现原理&#xff1a;气泡反弹的逻辑 …

探索生态农业,守护绿色家园

在繁忙的都市生活中&#xff0c;我们往往忽略了与自然和谐相处的重要性。而生态农业&#xff0c;正是让我们重拾与大自然亲密关系的桥梁。通过采用生态友好的耕作方式&#xff0c;生态农业不仅能够提供健康、营养的农产品&#xff0c;还能够保护生态环境&#xff0c;实现人与自…