HIPT论文阅读

题目《Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning》

论文地址:[2206.02647] Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

项目地址:mahmoodlab/HIPT: Hierarchical Image Pyramid Transformer - CVPR 2022 (Oral)

Abstract:

        视觉变换器(ViTs)及其多尺度和层次变体在捕获图像表示方面取得了成功,但它们通常被研究用于低分辨率图像(例如256×256,384×384)。对于计算病理学中的千兆像素全切片成像(WSI),WSIs的尺寸可以大至150000×150000像素,在20倍放大倍数下,展现出不同分辨率下的视觉标记的层次结构:从16×16的图像捕获单个细胞,到4096×4096的图像表征组织微环境中的相互作用。我们引入了一种新的ViT架构,称为层次图像金字塔变换器(HIPT),它利用WSI中固有的自然层次结构,通过两级自监督学习来学习高分辨率图像表示。HIPT在33种癌症类型上进行了预训练,使用了10,678个千兆像素WSIs、408,218个4096×4096图像和1.04亿个256×256图像。我们在9个幻灯片级别的任务上对HIPT表示进行了基准测试,并证明了:1)具有层次预训练的HIPT在癌症亚型和生存预测方面超越了当前的最先进方法,2)自监督ViTs能够对肿瘤微环境中表型层次结构的重要归纳偏差进行建模。

Introduction:

        在20×目标下扫描WSIs,结果是一个大约每像素0.5微米的固定尺度,允许对视觉元素进行一致的比较,这可能揭示了超出正常参考范围的重要组织形态学特征。此外,WSIs在20×放大倍数下还展现出不同图像分辨率下的视觉标记的层次结构:

16×16的图像包含细胞和其他细粒度特征(基质、肿瘤细胞、淋巴细胞)[23, 37],

256×256的图像捕获细胞间相互作用的局部簇(肿瘤细胞性)[2,8,31,60],

1024×1024-4096×4096的图像进一步表征细胞簇之间的宏观相互作用及其在组织中的组织(描述肿瘤浸润与肿瘤远端淋巴细胞的肿瘤-免疫定位程度)[1, 10],

最后,整个肿瘤内部异质性在WSI的幻灯片级别上描绘[5,36,40,58,65]。本工作测试的假设是,在自监督学习中合理利用这一层次结构可以产生更好的幻灯片级表示。

在HIPT中:

1)我们将学习WSI的良好表示问题分解为通过自监督学习可以学习的层次相关表示;

2)我们使用学生-教师知识蒸馏(DINO[14])在高达4096×4096的区域上对每个聚合层进行预训练。我们将HIPT应用于在20×分辨率下提取的千兆像素组织病理图像的学习表示任务。

Related work:

1、在WSIs中的多重实例学习。 在一般的基于集合的深度学习中,Edwards & Storkey和Zaheer等人提出了第一个在基于集合的数据结构上操作的网络架构,Brendel等人证明了“特征包”能够在ImageNet上达到高精度[11,26,82]。与此同时,在病理学领域,Ilse等人将基于集合的网络架构扩展为组织学感兴趣区域的多重实例学习的方法,Campanella等人后来在千兆像素WSIs上扩展了端到端的弱监督[13,39]。Lu等人证明了通过使用在ImageNet上预训练的ResNet-50编码器进行实例级特征提取,只需要训练一个全局池化操作器就可以用于弱监督的幻灯片级任务[54]。在Lu等人之后,有许多MIL的变体适应了图像预训练技术,如VAE-GANs、SimCLR和MOCO作为实例级特征提取[46,64,86]。最近的MIL变体也发展到扩展聚合层和评分函数[18,66,70,77,79,80,87]。Li等人提出了一个多尺度MIL方法,该方法在20×和5×分辨率下进行斑块切割和自监督实例学习,然后对斑块进行空间解析对齐[46]。在WSIs中整合放大目标的工作也在其他工作中跟进[30,33,57,59],然而,我们注意到跨目标结合视觉标记不会共享相同的尺度。在这项工作中,斑块切割是在单一放大目标下完成的,使用更大的斑块尺寸来捕获宏观形态特征,我们希望这将有助于重新思考WSIs的上下文建模。(红色是核心创新点)

2、视觉变换器和图像金字塔。 Vaswani等人的开创性工作不仅在语言建模方面取得了显著发展,也在通过视觉变换器(ViTs)进行图像表示学习方面取得了进展,其中256×256的图像被构建为[16×16]视觉标记的图像补丁序列[24,71,73]。受多尺度、金字塔式图像处理的启发[12,43,63],最近在ViT架构开发中的进展集中在效率和多尺度信息的整合上(例如- Swin, ViL, TNT, PVT, MViT),以解决视觉标记的不同尺度/纵横比问题[28,32,52,74,83]。与病理学相比,我们强调如果图像尺度在给定放大倍数下是固定的,那么学习尺度不变性可能不是必要的。与我们的工作类似的是NesT和Hierarchical Perciever,它们同样通过Transformer块从非重叠的图像区域分割然后聚合特征[15,85]。一个关键的区别是我们展示了每个阶段的ViT块可以单独预训练,用于高分辨率编码(高达4096×4096)。

Method:

Result:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/890267.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重拾设计模式--状态模式

文章目录 状态模式(State Pattern)概述状态模式UML图作用:状态模式的结构环境(Context)类:抽象状态(State)类:具体状态(Concrete State)类&#x…

[WiFi] WiFi 802.1x介绍及EAP认证流程整理

802.1X Wi-Fi 802.1X 是一种网络访问控制协议,常用于保护无线网络。它提供了一种基于端口的网络访问控制机制,主要用于在用户和网络之间建立安全的连接。以下是 802.1X 的一些关键特点: 认证框架 802.1X 使用 EAP(可扩展认证协议…

服务器数据恢复—V7000存储中多块磁盘出现故障导致业务中断的数据恢复案例

服务器存储数据恢复环境: 一台V7000存储上共12块SAS机械硬盘(其中1块是热备盘),组建了2组Mdisk,创建了一个pool。挂载在小型机上作为逻辑盘使用,小型机上安装的AIXSybase。 服务器存储故障: V7…

网络安全防范

实践内容 学习总结 PDR,$$P^2$$DR安全模型。 防火墙(Firewall): 网络访问控制机制,布置在网际间通信的唯一通道上。 不足:无法防护内部威胁,无法阻止非网络传播形式的病毒,安全策略…

你的第一个博客-第一弹

使用 Flask 开发博客 Flask 是一个轻量级的 Web 框架,适合小型应用和学习项目。我们将通过 Flask 开发一个简单的博客系统,支持用户注册、登录、发布文章等功能。 步骤: 安装 Flask 和其他必要库: 在开发博客之前,首…

LLaMA-Factory(一)环境配置及包下载

LLaMA-Factory(一)环境配置及包下载 本机配置1. git下载2.创建虚拟环境3. 下载官方包内依赖4. 下载bitsandbytes5. 启动项目6. 可能出现问题1:pip install 出现 error: subprocess-exited-with-error 错误7. 可能出现问题2: ModuleNotFoundEr…

clickhouse-题库

1、clickhouse介绍以及架构 clickhouse一个分布式列式存储数据库,主要用于在线分析查询 2、列式存储和行式存储有什么区别? 行式存储: 1)、数据是按行存储的 2)、没有建立索引的查询消耗很大的IO 3)、建…

计算机网络:运输层 —— TCP 的选择确认(SACK)

文章目录 TCP 的选择确认协商与启用工作机制接收方发送方 TCP 的选择确认 在 TCP 传输过程中,由于网络拥塞、链路故障等因素,数据可能会出现丢失或乱序的情况。传统的 TCP 确认机制是累积确认,TCP 接收方只能对按序收到的数据中的最高序号给…

HTML语法规范

HTML语法规则 HTML 标签是由尖括号包围的关键词&#xff0c;标签通常是成对出现的&#xff0c;例如 <html> 和 </html>&#xff0c;称为双标签 。标签对中的第一个标签是开始标签&#xff0c;第二个标签是结束标签单标签比较少&#xff0c;例如<br />&#x…

STL 剖析

STL 六大组件 「STL 六大组件的交互关系」 Container 通过 Allocator 取得数据储存空间Algorithm 通过 Iterator 存取 Container 内容Functor 可以协助 Algorithm 完成不同的策略变化Adapter 可以修饰或套接 Functor、Iterator 配置器(allocator) 配置器&#xff1a;负责空间…

Y3编辑器教程8:资源管理器与存档、防作弊设置

文章目录 一、资源管理器简介1.1 界面介绍1.2 资源商店1.3 AI专区1.3.1 AI文生图1.3.2 AI图生图1.3.3 立绘头像 二、导入导出2.1 文件格式2.2 模型导入2.2.1 模型制作后导出2.2.2 模型文件导入Y3编辑器2.2.3 Y3编辑器角色、装饰物模型要求 2.3 纹理导入2.4 材质贴图2.4.1 材质支…

DL作业11 LSTM

习题6-4 推导LSTM网络中参数的梯度&#xff0c; 并分析其避免梯度消失的效果 LSTM&#xff08;长短期记忆网络&#xff09;是一种特殊的循环神经网络&#xff08;RNN&#xff09;&#xff0c;旨在解决普通 RNN 在处理长序列时遇到的梯度消失和梯度爆炸问题。它通过设计多个门…

面试题整理9----谈谈对k8s的理解1

谈谈对k8s的理解 1. Kubernetes 概念 1.1 Kubernetes是什么 Kubernetes 是一个可移植、可扩展的开源平台&#xff0c;用于管理容器化的工作负载和服务&#xff0c;方便进行声明式配置和自动化。Kubernetes 拥有一个庞大且快速增长的生态系统&#xff0c;其服务、支持和工具的…

解决MySQL安装难题:vcruntime140_1.dll文件丢失修复指南

在安装MySQL的过程中&#xff0c;用户可能会遇到一个常见的问题&#xff1a;“找不到vcruntime140_1.dll&#xff0c;无法继续执行代码”。这个错误提示表明系统缺少一个关键的动态链接库文件&#xff0c;这对于运行依赖于它的应用程序至关重要。本文将详细介绍vcruntime140_1.…

【前后端】HTTP网络传输协议

近期更新完毕&#xff0c;建议关注、收藏&#xff01; http请求 URL 严格意义上应该是URI http or https http不加密不安全&#xff1b;https加密协议&#xff08;公网使用&#xff09; http端口号80 https端口号443GET or POST GET和POST是HTTP请求的两种基本方法. 因为POST需…

多线程 - 自旋锁

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 多线程 - 自旋锁 收录于专栏[Linux学习] 本专栏旨在分享学习Linux的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 概述 原理 优点与…

thinkphp5验证码captcha无法显示

排查思路 是否开启gd2以及gd2排查bom排查代码清除缓存 开启gd/gd2 找到php.ini 开启dg2库 去掉前面的;注释&#xff0c;有的可能会带.dll后缀影响不大 然后通过生成图片验证是否成功 查看是否存在bom 修改为utf-8即可&#xff0c;如果你的代码携带bom也需要排查一下 代码问…

Flutter组件————FloatingActionButton

FloatingActionButton 是Flutter中的一个组件&#xff0c;通常用于显示一个圆形的按钮&#xff0c;它悬浮在内容之上&#xff0c;旨在吸引用户的注意力&#xff0c;并代表屏幕上的主要动作。这种按钮是Material Design的一部分&#xff0c;通常放置在页面的右下角&#xff0c;但…

#{ }和${ } 、参数处理

目录 #{ }和${ } 参数处理 入参-parameterType 使用Map 使用Bean / List<Bean> 使用多参数 Param注解&#xff08;命名参数&#xff09; 出参-resultType 返回Map / List<Map> 返回Map<String,Map> 属性名不一致-resultMap结果映射 #{ }和${ }…

MySQL数据库——门诊管理系统数据库数据表

门诊系统数据库his 使用图形化工具或SQL语句在简明门诊管理系统数据库his中创建数据表&#xff0c;数据表结构见表2-3-9&#xff5e;表2-3-15所示。 表2-3-9 department&#xff08;科室信息表&#xff09; 字段名称 数据类型 长度 是否为空 说明 dep_ID int 否 科室…