文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答

Authors: Long Bai1† , Mobarakol Islam2† , Lalithkumar Seenivasan3 and Hongliang Ren1,3,4∗ , Senior Member, IEEE

Source: 2023 IEEE International Conference on Robotics and Automation (ICRA 2023) May 29 - June 2, 2023. London, UK

Abstract:

尽管有计算机辅助模拟器和录制的外科手术视频,但初级住院医师仍然严重依赖专家来回答他们的问题。然而,专家外科医生往往因临床和学术工作量而超负荷工作,并限制了他们回答问题的时间。为此,开发了一种手术问答系统,以促进机器人辅助手术场景和活动从录制的视频中理解。大多数现有的视觉问答 (VQA) 方法都需要对象检测器和基于区域的特征提取器来提取视觉特征,并将它们与问题的嵌入文本融合以生成答案。然而,(i)由于数据集较小且缺乏边界框注释,手术对象检测模型稀缺;(ii)目前文本和图像等异构模态的融合策略是幼稚的;(iii) 缺少局部应答,这在复杂的手术场景中至关重要。

在本文中,提出了机器人手术中的视觉问题定位-回答(Surgical-VQLA)来定位答案预测过程中的特定手术区域。为了处理异构模态的融合,设计了门控视觉语言嵌入(GVLE)来为语言视觉转换器(LViT)构建输入补丁来预测答案。为了获得定位,将检测头与LViT的预测头并行添加。还集成了广义交集并集 (GIoU) 损失,通过保持问答模型的准确性来提高定位性能。利用来自 EndoVis-17 和 18 的 MICCAI 挑战的公开可用的手术视频对 VQLA 的两个数据集进行注释。验证结果表明,Surgical-VQLA可以更好地理解手术场景,并定位与问答相关的特定区域。GVLE通过展示优于现有基准的性能,提出了一种有效的语言视觉嵌入技术。

主要贡献和优势是:

– 设计并提出了一个外科视觉问题局部化回答 (Surgical-VQLA1) 模型,该模型可以根据给定的输入问题和手术场景预测局部答案。

– 使用新颖的 GVLE 技术为 VQLA 任务提出一种无需检测的 GVLE-LViT 模型,该模型可有效融合异构特征(视觉和文本)。

– 将GIoU损失与交叉熵损失和L1损失相结合,以提高VQLA模型的预测和定位性能。

– 通过广泛的验证,发现 (i) 即使答案与手术相互作用有关,SurgicalVQLA 也可以定位上下文。(ii) 无探测器VQLA通过避免计算昂贵且容易出现错误的检测模块,展示了更好的特征学习,并促进了外科问题本地化回答系统的端到端实时应用。(iii) 拟议的GVLE有效地融合了视觉和文字嵌入的异构模式,并优于现有方法。

图 1.针对传统 VQA 任务,提出的 VQLA pipline概述。方法不需要对象建议,边界框预测可以与分类结果一起输出。

图 2.提出的网络架构。机器人手术图像为预训练的特征提取器提供信息,问题为定制的分词器提供信息。然后,GVLE模块嵌入输入特征,并优化视觉和文字嵌入的组合。融合特征通过预训练的 ViT 模块传播。最后,由带有softmax的分类头和带有FFN的定位头给出答案和边界框预测。

表一 GVLE-LVIT模型与基于VISUALBERT 和VISUALBERT RESMLP 的模型的比较实验。RN 表示 RESNET。

图 3.通过VisualBERT [6]、VisualBERT ResMLP [2]和GVLE-LViT模型生成答案和边界框的几个例子。与基线模型相比,本模型的定位和分类预测结果更准确。边界框颜色的表示如下:红色:Ground-truth,蓝色:VisualBERT [6],绿色:VisualBERT ResMLP [2],黄色:GVLE-LViT (Ours)。

表 II GVLE-LVIT模型在VQLA任务上的K折比较实验,与基于VISUALBERT [6]和VISUALBERT RESMLP [2]的模型。

表 III 基于 VISUALBERT [6] 和 VISUALBERT RESMLP [2] 的模型,在提出的 GVLE-LVIT 模型上具有不同定位损失函数组合的消融研究

表IV 基于GVLE语言-视觉嵌入融合与CONCAT[6]、AFF[13]和IAFF [13]融合策略的比较实验。

本文设计并提出了一个外科视觉问题局部化回答(Surgical-VQLA)模型,该模型可以根据给定的输入问题和手术场景回答“什么”和“在哪里?”,使学生更容易推断“为什么?”。具体来说,提出了一种 GVLE-LViT 模型,该模型使用提出的 GVLE 技术更好地融合异构特征(视觉和文本),该技术在两个外科数据集上的外科-VQLA 任务中优于现有的 SOTA 模型。此外,将GIoU损失与交叉熵损失和L1损失相结合,以提高模型的预测和定位性能。通过广泛的比较、k 倍和消融研究,证明使用提出的损失组合训练的 GVLE-LViT 优于现有的 SOTA 模型。SurgicalVQLA系统可能成为外科培训中的重要辅助工具。虽然所提出的VQLA模型旨在提供可靠的答案预测,但在某种程度上,答案的定位可以帮助量化预测对新数据的可靠性,如果定位远于目标仪器或组织,用户可以推断预测可能是错误的,或者输入数据是分布外数据。因此,使用定位信息来预测预测可靠性可能是未来可能的工作。从应用的角度来看,提出的VQLA模型为医学诊断开辟了新的可能应用。更复杂的数据集和具有挑战性的 QA 对将进一步提高 Surgical-VQLA 系统的前景。

Reference:

[1] Bai, L., Islam, M., Seenivasan, L., & Ren, H. (2023, May). Surgical-vqla: Transformer with gated vision-language embedding for visual question localized-answering in robotic surgery. In 2023 IEEE International Conference on Robotics and Automation (ICRA) (pp. 6859-6865). IEEE.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/771140.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jira 软件缺陷管理 (软件测试)

内容来源:总结黑马课程 1.软件缺陷信息 2.创建缺陷问题 2.1 缺陷模板 2.2 创建缺陷问题模板

CTF题型 Python中pickle反序列化进阶利用例题opache绕过

CTF题型 pickle反序列化进阶&例题&opache绕过 文章目录 CTF题型 pickle反序列化进阶&例题&opache绕过一.基础的pickle反序列化例题1.[HFCTF 2021 Final]easyflask2.[0xgame 2023 Notebook]3.[[HZNUCTF 2023 preliminary\]pickle](https://www.nssctf.cn/proble…

蓝桥杯java---螺旋矩阵

解题思路&#xff1a; int [][] arr new int[n][m];int i 0, j -1, temp 1;while (n * m > 0){for (int p 0; p < m; p)//从左自右arr[i][jj1] temp;n--;if (n * m 0) break;for (int p 0; p < n; p)//从上自下arr[ii1][j] temp;m--;if (n * m 0) break;fo…

分享一个免费查海关(HS)编码的工具

用过海关数据的朋友就会发现&#xff0c;因为现在大部分的海关数据都是国外的进口数据&#xff0c;所以如果要用海关编码去查相关产品的海关交易记录的话&#xff0c;最好的方法就是用当地的海关编码去搜。 各个国家的海关编码是不一样的&#xff0c;比如美国的一般是6-8位&am…

构造函数与析构函数

构造函数 每次创建类的新对象时执行构造函数的名称与类名相同&#xff0c;不带类型&#xff0c;可以有参数也可以没参数构造函数有时给成员函数付初值 析构函数 每次删除所创建的对象时执行析构函数与构造函数类似&#xff0c;前面多个~不带任何参数&#xff0c; #include …

FPGA时钟资源详解(3)——全局时钟资源

FPGA时钟系列文章总览&#xff1a;FPGA原理与结构&#xff08;14&#xff09;——时钟资源https://ztzhang.blog.csdn.net/article/details/132307564 一、概述 全局时钟是 FPGA 中的一种专用互连网络&#xff0c;旨在将时钟信号分配到 FPGA 内各种资源的时钟输入处。这种设计…

免费redis可视化工具windows/mac都可以使用,开源免费

官方地址&#xff1a;RedisInsight | The Best Redis GUI github开源地址&#xff1a;GitHub - RedisInsight/RedisDesktopManager Redis Desktop Manager – Redis可视化管理工具、redis图形化管理工具、redis可视化客户端、redis集群管理工具。 官方下载方式 滚动到页面底…

FPGA时钟资源详解(4)——区域时钟资源

FPGA时钟系列文章总览&#xff1a;FPGA原理与结构&#xff08;14&#xff09;——时钟资源https://ztzhang.blog.csdn.net/article/details/132307564 目录 一、概述 二、Clock-Capable I/O 三、I/O 时钟缓冲器 —— BUFIO 3.1 I/O 时钟缓冲器 3.2 BUFIO原语 四、区域时钟…

High 级别反射型 XSS 攻击演示(附链接)

环境准备 如何搭建 DVWA 靶场保姆级教程&#xff08;附链接&#xff09;https://eclecticism.blog.csdn.net/article/details/135834194?spm1001.2014.3001.5502 测试 打开靶场找到该漏洞页面 先右键检查输入框属性 还是和之前一样的&#xff0c;所以直接输入 HTML 标签提交…

Vue 发送Ajax请求多种方式

1. 发送ajax请求的方式 方案一&#xff1a;jq 的ajax&#xff08;在 vue 中不推荐同时使用&#xff09;方案二&#xff1a;js 原始官方 fetch方法方案三&#xff1a;axios 第三方 2. 方案一 后端视图函数 from rest_framework.viewsets import ViewSet from rest_framework…

云数据库认识

云数据库概述 说明云数据库厂商概述Amazon 云数据库产品Google 的云数据库产品Microsoft 的云数据库产品 云数据库系统架构UMP 系统概述UMP 系统架构MnesiaRabbitMQZooKeeperLVSController 服务器Proxy 服务器Agent 服务器日志分析服务器 UMP 系统功能容灾 读写分离分库分表资源…

刚删除的文件怎么找回?刚删除的文件重新找回方法

电脑是我们办公、生活和娱乐必不可缺少的设备,里面存储着我们很多重要的文件。但是,有时候我们不小心误删了文件,或者是不小心删除了一些重要的数据等,要怎么进行恢复呢?今天,小编就专门给大家讲下刚删除的文件重新找回方法。 方法一: 文件不小心删除了,请立即停止对硬…

JavaParser 手动安装和配置

目录 前言 一、安装 Maven 工具 1.1 Maven 软件的下载 1.2 Maven 软件的安装 1.3 Maven 环境变量配置 1.4 通过命令检查 Maven 版本 二、配置 Maven 仓库 2.1 修改仓库目录 2.2 添加国内镜像 三、从 Github 下载 JavaParser 3.1 下载并解压 JavaParser 3.2 从路径打…

蓝桥杯单片机快速开发笔记——利用定时器计数器设置定时器

一、基本原理 参考本栏http://t.csdnimg.cn/iPHN0 二、具体步骤 三、主要事项 如果使用中断功能记得打开总中断EA 四、示例代码 void Timer0_Isr(void) interrupt 1 { }void Timer0_Init(void) //10毫秒12.000MHz {AUXR & 0x7F; //定时器时钟12T模式TMOD & 0xF0;…

python网络爬虫实战教学——requests的使用(2)

文章目录 专栏导读1、POST请求2、响应3、Cookie设置 专栏导读 ✍ 作者简介&#xff1a;i阿极&#xff0c;CSDN 数据分析领域优质创作者&#xff0c;专注于分享python数据分析领域知识。 ✍ 本文录入于《python网络爬虫实战教学》&#xff0c;本专栏针对大学生、初级数据分析工程…

Typecho 博客文章评论添加显示 UserAgent(UA)的功能

本篇文章实现了为 Typecho 博客文章评论添加显示 UserAgent&#xff08;UA&#xff09;的功能本功能可替代 UserAgent 插件&#xff0c;更美观、简洁且好看 效果显示 大概就是这样了&#xff0c;实际效果请看我的评论&#xff01; 目前可以识别的操作系统以及浏览器 食用方…

Qt教程 — 3.5 深入了解Qt 控件:Display Widgets部件(1)

目录 1 Display Widgets简介 2 如何使用Display Widgets部件 2.1 QLabel组件-显示图像或文本 2.2 QCalendarWidget组件-日历简单的使用 2.3 QLCDNumber组件-控件作时钟的显示 2.4 QProgressBar组件-模拟手机电池充电 2.5 QFrame组件-绘制水平/垂直线 Display Widgets将分…

【C++练级之路】【Lv.16】红黑树(冰与火的碰撞,红与黑的史诗)

快乐的流畅&#xff1a;个人主页 个人专栏&#xff1a;《C语言》《数据结构世界》《进击的C》 远方有一堆篝火&#xff0c;在为久候之人燃烧&#xff01; 文章目录 引言一、红黑树的概念二、红黑树的模拟实现2.1 结点2.2 成员变量2.3 插入情况一&#xff1a;uncle在左&#xff…

【Python】Scrapy整合FastAPI实现爬虫API 附大量示例

文章目录 前言1. 网页分析入门1.1 基本原理1.2 Scrapy 原理 2. 创建项目2.1 创建Scrapy项目2.2.1 创建Scrapy项目2.2.2 创建Spider2.2.3 执行Demo 2.2 引入FastAPI 2. 获取Cookie3. 数据建模3.1 Scrapy 数据建模3.2 SQLAlchemy 创建实体类 3. 分析网页3.1 xpath 分析3.2 css 分…