文献学习-28-Endora: 用于内镜仿真的视频生成模型

Endora : Video Generation Models as  Endoscopy Simulators
Authors: Chenxin Li, Hengyu Liu, Yifan Liu, Brandon Y. Feng, Wuyang Li, Xinyu Liu, Zhen Chen, Jing Shao, Yixuan Yuan
Keywords:  Medical Generative AI · Video Generation · Endoscopy

Abstract

生成模型有望革新医疗教育、机器人辅助手术以及机器学习的数据增强。尽管在生成二维医疗图像方面有了进展,但临床视频生成这个复杂领域很大程度上还未实现突破。本文介绍了Endora,一种创新方法来生成模拟临床内窥镜场景的医学视频。提出了一个新领域的生成模型设计,它将精心设计的空间时间视频Transformer与先进的2D视觉基础模型先验结合起来,明确地在视频生成过程中建模空间时间动态。首次开创了以视频生成模型对内窥镜模拟进行的公开基准测试,并将现有国内外领先方法应用于这一领域。Endora在广泛测试中显示出在生成内窥镜视频中的非凡视觉品质,超过了国内外领先方法。此外,还探索了这个内窥镜模拟器如何支持下游视频分析任务,甚至可以有多视图一致性地生成3D医学场景。总之,Endora在将生成AI技术应用到临床内窥镜研究领域方面标志着一个重要的突破,为医学内容生成领域的继续进步奠定了坚实基础。

肠胃镜检查是研究肠胃疾病诊断、微创手术和机器人外科的前沿领域之一。尽管它在临床中的作用重要,但由于在人体内采集镜头图像本身就很困难,导致肠胃镜研究和训练资源相对短缺。有必要建立一个丰富多样且质量高的临床肠胃镜视频库,这亦提出了医学生成智能的迫切需求。目标是构建一个强大的肠胃镜视频模拟系统,并生成大量高质量的肠胃镜视频资源,以丰富医务工作者的学习资源,并改进外科机器人和 AI 算法的数据训练。这一研究提出以下几个重要问题:

  1. 建立视频基准测试:医学影像和文字数据已有自动生成报告和重构影像等应用作为基准。能否同样将这一成功应用于医疗视频,建立视频模拟质量的评估标准?

  2. 空间时间建模:目前诸如生成对抗网络(GAN)和扩散模型已经很好地生成真实医学 2D 影像,但视频的动态属性和空间时间相关性提出了更大挑战。模型是否能有效模拟真实手术过程的细节?

为解决这些问题,提出一个框架来生成时空连贯且现实可信的肠胃镜视频,模拟临床场景。这超越了传统医学内容生成只针对文本和静态 2D 影像的范围,旨在为医学视频生成定下更全面性的基准。具体来说,设计的 Endora 模型通过预训练的变分自编码器将视频编码到潜变量空间,然后通过变换器块处理特征,同时采用基于 DINO 模型的特征匹配来保证不同视角下的一致性。测试表明 Endora 能生成高真实度的肠胃镜视频,具有很好的效果和潜在应用前景。总体来说,Endora 为医学生成智能在探索复杂高维的外科视频内容生成奠定了基础。

图1。Endora训练概述。扩散模型从噪声输入的视频序列开始,迭代地去除噪声,恢复干净的序列。长期时空动力学是由交错级联的时空变压器块。进一步注入了基于二维视觉基础模型(DINO)来指导特征提取。

Methodology

视频生成的扩散模型
基于去噪扩散概率模型(DDPM)的生成扩散模型专门用于将无序噪声转化为理想样本。这些模型通过逐步从高斯噪声$p(x_T)=N(0,I)$中去除噪声,生成与目标数据分布一致的样本。前向扩散步骤$q(x_t|x_{t-1})$将高斯噪声添加到图像$x_t$中。相应的边际分布可表示为:

$q(x_t|x_0)=N(\sqrt{\alpha_t}x_0,\sigma_t^2I)$

其中$\alpha_t$$\sigma_t$在前向过程结束时设计为收敛到$N(0,I)$。反向扩散过程$p(x_{t-1}|x_t)$被设计为噪声估计器$\epsilon_\theta(x_t,t)$,用于从噪声图像估计噪声。训练过程包括优化加权证据下界(ELBO):

$\mathbb{E}[w(t)||\epsilon_\theta(\sqrt{\alpha_t}x_0+\sigma_t\epsilon;t)-\epsilon||_2^2]$

其中$\epsilon\sim N(0,I)$, 时间步$t$服从均匀采样,而$w(t)=1$是加权函数。

将扩散模型提升到视频会增加计算开销和表示复杂性。潜在扩散模型在编码的潜在空间而非像素空间执行扩散过程,提高了模型效率。另一种策略同时训练视频和图像生成以提高视频生成质量。框架采用了类似策略,但进一步提出了新的创新,详述如下。

时空Transformer
借鉴ViT在捕获空间相关性方面的见解,引入了一个专门从共享相同时间索引的token中提取空间信息的空间转换器。采用patch embedding策略为这个空间转换器指示位置嵌入。

进一步引入了一个时间转换器来捕获视频帧之间的时间信息。使用绝对位置编码策略整合时间位置嵌入,该策略将不同频率的正弦函数相结合。这种策略使得模型能够准确地确定每个帧在视频序列中的确切位置。

特别地,给定一个潜在空间中的视频片段$V\in\mathbb{R}^{F\times H\times W\times C}$,其中$F,H,W,C$分别表示视频帧数、潜在特征图的高度、宽度和通道数。将$V$转换为一序列token$\hat{Z}\in\mathbb{R}^{NF\times N_H\times N_W\times D}$。视频片段潜在空间中总token数为$NF\times N_H\times N_W$,$D$表示每个token的维度。将时空位置嵌入$PE$整合到$\hat{Z}$中,因此$Z=\hat{Z}+PE$作为转换器主干的输入。将$Z$reshape为$Z_S\in\mathbb{R}^{NF\times L\times D}$,作为空间转换器块的输入,用于捕获空间信息。这里$L=N_H\times N_W$表示每个时间索引的token数。然后,包含空间信息的$Z_S$被reshape为$Z_T\in\mathbb{R}^{L\times N_F\times D}$,作为时间转换器块的输入,用于捕获时间信息。通过交替堆叠一系列空间和时间转换器,模型能够全面地建模长程空间相关性和时间动态。

实验

实验设置
数据集和评估指标。在三个公开的内窥镜视频数据集Colonoscopic、Kvasir-Capsule和CholecTriplet上进行了全面的实验。根据常见做法,以特定的采样间隔从这些数据集中提取16帧视频clips,并将每一帧调整到128×128的分辨率用于训练。在定量比较评估中,采用三种评估指标:Fréchet视频距离(FVD)、Fréchet初始距离(FID)和Inception分数(IS)。遵循StyleGAN-V的评估规则,通过分析2048个每个包含16帧的视频clips来计算FVD分数。

实现细节。使用AdamW优化器,学习率为1×10^-4训练所有模型。简单应用了水平翻转的基本数据增强。跟随生成模型的标准做法,使用了指数移动平均(EMA)策略,并报告了EMA模型的最终结果取样性能。直接使用了Stable Diffusion预训练的变分自动编码器。模型由n=28个Transformer块构建,隐藏维度为d=1152,每个块有n=16个多头注意力,遵循ViT结构。

与现有技术的对比
通过在内窥镜视频数据集上复现几种针对一般场景设计的先进视频生成模型,包括StyleGAN-V、MoStGAN-V和LVDM,来进行性能对比。如表1所示,在所有三种指标上,Endora在内窥镜视频生成的视觉保真度方面优于基于GAN的最新方法。此外,Endora还在所有方面超越了先进的基于扩散的LVDM方法,表明Endora能有效地生成内窥镜场景的准确视频表示。图2进一步展示了Endora和之前技术的定性结果。可以观察到,其他技术导致视觉上的违和扭曲(第1行)、内容变化受限(第2和4行)以及帧间过渡不连续(第5行,手术器械的突然闯入)。相比之下,Endora生成的视频帧(第3和6行)避免了视觉违和的扭曲,保留了更多视觉细节,并提供了更优秀的组织表示。

进一步的实证研究
本节阐述了利用Endora生成视频进行几种潜在应用,并对关键策略进行了严格的消融研究。

案例一:Endora作为时间数据扩充器。探索了使用生成视频作为无标签实例进行半监督训练(通过FixMatch)的情况,评估在视频疾病诊断基准PolyDiag上的性能。特别地,使用PolyDiag训练集中随机选择的nl=40个视频作为有标签数据,并分别使用nu=200个从Colonoscopic和CholecTriplet生成的视频作为无标签数据。表2给出了疾病诊断的F1分数,显示了相比仅使用有标签训练实例(Supervised-Only基线)和其他视频生成方法,使用Endora生成的数据能够明显提高下游性能,证实了Endora作为可靠视频数据扩充器用于下游视频分析的有效性。

案例二:Endora作为手术世界模拟器。生成内容中新出现的多视角一致性启发探索生成的手术视频中是否存在类似的几何一致性。特别地,从生成的视频中,取一些帧作为训练数据(训练视角),保留其他帧作为测试数据(新视角)。然后使用COLMAP对训练视角进行预处理,再运行现成的3D重建管线(EndoGaussian)获得重建的3D内窥镜场景。图3给出了在新视角下渲染的RGB图像和深度图的可视化,并标注了图像PSNR和深度全变分(TV)。可以观察到,从生成的视频重建的3D场景展现了逼真连续的几何结构,显示了Endora以多视角一致的方式有效执行手术世界模拟的潜力。

消融研究。表3给出了对Endora提出的关键组件的消融研究。最初,使用一个不带任何提出策略的普通视频扩散模型作为基线。随后,一次添加三种提出的设计策略:修改后的扩散、时空编码和先验引导。可以观察到它们导致了模型性能的稳定进展,确认了设计的策略在提高整体内窥镜视频生成模型的效率和效果方面的关键作用。

Reference

[1] Li, C., Liu, H., Liu, Y., Feng, B. Y., Li, W., Liu, X., ... & Yuan, Y. (2024). Endora: Video Generation Models as Endoscopy Simulators. arXiv preprint arXiv:2403.11050.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在没有备份的情况下从 iPad 恢复照片?

有很多操作都可能导致iPad照片丢失,包括误删除、出厂设置、iPad的iOS更新等。如果没有备份,似乎没有办法找回它们。然而,即使您将备份保留在 iCloud 或iTunes上,这些方式也需要您的 iPad 首先重置,从而用备份内容覆盖当…

职场新变革:AI赋能ICT劳动力联盟的行动与展望

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

基于vue+node.js导师选择分配管理系统

开发语言 node.js 框架:Express 前端:Vue.js 数据库:mysql 数据库工具:Navicat 开发软件:VScode .设计一套导师选择管理系统,帮助学校进行导师选择管理等繁琐又重复的工作,提高工作效率的同时&#xff0c…

C++【适配器模式】

简单介绍 适配器模式是一种结构型设计模式 | 它能使接口不兼容的对象能够相互合作。(是适配各种不同接口的一个中间件) 基础理解 举个例子:当你引用了一个第三方数据分析库,但这个库的接口只能兼容JSON 格式的数据。但你需要它…

2024年阿里云服务器优惠价格表:新购/续费/升级真便宜

阿里云服务器租用价格表2024年最新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元,ECS u1服务器2核4G5M固定带宽199元一年,2核4G4M带宽轻量服务器一年165元12个月,2核…

汽车疲劳测试试验平台技术要求(北重厂家)

汽车疲劳测试试验平台技术要求通常包括以下几个方面: 车辆加载能力:测试平台需要具备足够的承载能力,能够同时测试多种车型和不同重量的车辆。 动力系统:测试平台需要具备稳定可靠的动力系统,能够提供足够的力和速度来…

设计模式之建造者模式:灵活可扩展的对象创建过程

目录 一、什么是建造者模式 二、建造者模式的应用场景 三、建造者模式的优缺点 3.1. 优点 3.2. 缺点 四、建造者模式示例 4.1. 问题描述 4.2. 问题分析 4.3. 代码实现 五、建造者模式的另一种实现方式 六、总结 一、什么是建造者模式 建造者模式(Builder…

C# 分布式自增ID算法snowflake(雪花算法)

文章目录 1. 概述2. 结构3. 代码3.1 IdWorker.cs3.2 IdWorkerTest.cs (测试) 1. 概述 分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长&#xff0c…

vue项目使用element ui

目录 1、创建一个vue项目 2、找到element官网,点击指南,找到安装栏 3、 找到使用包管理器,复制命令 4、在main.js中引入element 5、使用element ui 6、找到App.vue,导入Button.vue文件,保存启动项目 1、创建一个vu…

MySQL复制拓扑1

文章目录 主要内容一.安装MySQL服务器1.MySQL 安装程序和其它文件保存在下发的 mysql8-files.iso 镜像文件中,可以使用虚拟光驱来提取到 Linux 文件系统。代码如下(示例): 2.将 MySQL8.0 程序解压到 /opt 目录,再创建到 MySQL 默认…

闪站侠洗护管理系统,洗衣洗鞋小程序软件定制,干洗连锁店软件系统搭建;

闪站侠洗护管理系统,洗衣洗鞋小程序软件定制,干洗连锁店软件系统搭建; 为了让每一个洗衣洗鞋工厂与门店的连接更加高效便捷,送洗流程更加简单轻松,拽牛科技倾心打造洗衣洗鞋管理软件。我们的目标是通过高效和优质的服务…

双指针(复习)

基本概念 双指针:在区间操作时,利用两个下标同时遍历,进行高效操作 双指针利用区间性质可以把0(n2)时间降低到0(n) 蓝桥532 import os import sys# 请在此输入您的代码 w int(input()) n int(input()) b [] ans 0 for i in range(n):b.append(int(…

复现chatgpt_ros,需要openapi key

1. 前置工作: 现在ubuntu系统是20.04ros1,现在用docker新建并安装ros2: 最简单的,用大佬的一键安装: wget http://fishros.com/install -O fishros && . fishros 其次自己装…

基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 摘要Abstract文献阅读:基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT1、研究背景2、提出方法3、模块详细3.1、什么是HoT3.2、HoT 框架3.3、Token 剪…

应用性能分析工具CPU Profiler

简介 本文档介绍应用性能分析工具CPU Profiler的使用方法,该工具为开发者提供性能采样分析手段,可在不插桩情况下获取调用栈上各层函数的执行时间,并展示在时间轴上。 开发者可通过该工具查看TS/JS代码及NAPI代码执行过程中的时序及耗时情况…

JDK安全剖析之安全处理入门

0.前言 Java 安全包括大量 API、工具以及常用安全算法、机制和协议的实现。Java 安全 API 涵盖了广泛的领域,包括加密、公钥基础设施、安全通信、身份验证和访问控制。Java 安全技术为开发人员提供了编写应用程序的全面安全框架,还为用户或管理员提供了…

以Kotti项目为例使用pytest测试项目

在维护和构建大型项目时,单独一个一个手工测试代码已经不适用了,这时候就要用专门的测试框架进行测试。让我们以Kotti项目为例,用pytest这个测试框架进行实践测试吧。 使用python3.10 Ubuntu 系统 准备工作 下载和安装kotti库 pip install…

Flutter 解决NestedScrollView与TabBar双列表滚动位置同步问题

文章目录 前言一、需要实现的效果如下二、flutter实现代码如下:总结 前言 最近写flutter项目,遇到NestedScrollView与TabBar双列表滚动位置同步问题,下面是解决方案,希望帮助到大家。 一、需要实现的效果如下 1、UI图&#xff1…

代码随想录算法训练营三刷day46 | 动态规划之139.单词拆分

三刷day46 139.单词拆分1.确定dp数组以及下标的含义2.确定递推公式3.dp数组如何初始化4.确定遍历顺序5.举例推导dp[i] 139.单词拆分 题目链接 解题思路:单词就是物品,字符串s就是背包,单词能否组成字符串s,就是问物品能不能把背包…

蓝桥杯-DS18B20温度传感器

一.管脚&芯片&寄存器 1.芯片 2.了解封装以及引脚的用法 3.相关寄存器 报警功能 二,如何使能DS18B20芯片 1.初始化芯片&比赛提供的驱动代码 比赛提供的底层驱动代码 /* # 单总线代码片段说明1. 本文件夹中提供的驱动代码供参赛选手完成程序设计参考…