文献速递:生成对抗网络医学影像中的应用——基于CycleGAN的图像到图像转换,用于逼真的外科手术训练模型

文献速递:生成对抗网络医学影像中的应用——基于CycleGAN的图像到图像转换,用于逼真的外科手术训练模型

本周给大家分享文献的主题是生成对抗网络(Generative adversarial networks, GANs)在医学影像中的应用。文献的研究内容包括同模态影像生成、跨模态影像生成、GAN在分类和分割方面的应用等。生成对抗网络与其他方法相比展示出了优越的数据生成能力,使它们在医学图像应用中广受欢迎。这些特性引起了医学成像领域研究人员的浓厚兴趣,导致这些技术在各种传统和新颖应用中迅速实施,如图像重建、分割、检测、分类和跨模态合成。

01

文献速递介绍

外科手术训练对于发展技能和灵巧性至关重要。为了获得必要的经验,外科医生需要数千小时的实践。在内窥镜微创手术中,任务更加具有挑战性。为了避免仅与真实病人进行训练,外科医生通常在离体器官、虚拟模拟器或物理训练幻影上发展他们的技能。物理训练幻影为缝合和使用真实仪器操作提供了出色的触觉反馈和组织特性,并且易于获得。此外,它们可以为特定病人解剖定制,并为期望的程序进行优化 。在不同的范围内,外科训练幻影甚至可以用于开发额外的外科应用,如自动外科阶段识别。然而,它们缺乏生命力和不现实的外观,并不反映外科场景的复杂环境 。正如 Engelhardt 等人 所提出的,超现实主义是一种新的增强现实范式,旨在通过将手术过程中的域内模式映射到在这些外科模拟器训练期间捕获的视频流上,解决物理幻影中缺乏现实感的问题。通过生成模型,可以实现从一幅图像到另一幅图像的特征映射。这些生成模型存在不同的方法和概念,即应用变分自编码器(VAE)或生成对抗网络(GANs)。近年来,GANs 在图像合成和图像到图像转换 (I2I) 方面表现出了巨大的潜力 。

最近,已经开发了具有不同架构的几种 GAN 模型,这些架构高度依赖于用作输入的信息类型。对于这种每个域的图像都是未配对的特定域适应任务,CycleGAN 模型已显示出有希望的结果。 本工作的目标是从未配对的合成训练幻影图像生成逼真的二尖瓣术中图像。我们旨在使用 CycleGAN 生成模型实现成功的 I2I 转换,并进行以下实验:

  1. 研究最合适的训练损失函数;
  2. 建立训练和图像质量度量标准,以实现客观和定量的结果评估;
  3. 评估输入变异性对模型性能的影响。

Title

题目

CycleGAN-Based Image to Image Translation for Realistic SurgicalTraining Phantoms

基于CycleGAN的图像到图像转换,用于逼真的外科手术训练模型

Abstract

摘要

Training in surgery is essential for surgeons to develop skill and dexterity. Physical training phantoms provide excellent haptic feedback and tissue properties for stitching and operating with authentic instruments and are easily available. However, they lack realistic traits and fail to reflect the complex environment of a surgical scene. Generative Adversarial Networks can be used for image-to-image translation,addressing the lack of realism in physical phantoms, by mapping patterns from the intraoperative domain onto the video stream captured during training with these surgical simulators. This work aims to achieve a successful I2I translation, from intra

operatory mitral valve surgery images onto a surgical simulator,using the CycleGAN model. Different experiments are performed - comparing the Mean Square Error Loss with the Binary Cross Entropy Loss; validating the Fréchet Inception Distance as a training and image quality metric; and studying the impact of input variability on the model performance.Differences between .

MSE and BCE are modest, with MSE being marginally more robust. The FID score proves to be very useful in identifying the best training epochs for the CycleGAN I2I translation architecture. Carefully selecting the input images**can have a great impact in the end results. Using less style variability and input images with good feature details and clearly defined characteristics enables the network to achieve better results.

Clinical Relevance— This work further contributes for the domain of realistic surgical training, successfully generating fake intra operatory images from a surgical simulator of thecardiac mitral valve.

外科手术训练对于外科医生培养技能和灵巧性至关重要。物理训练模型提供了极佳的触感反馈和缝合以及使用真实器械操作的组织特性,并且容易获得。然而,它们缺乏逼真的特质,无法反映外科手术现场的复杂环境。生成对抗网络可用于图像到图像的转换,通过将术中领域的模式映射到在这些外科模拟器训练期间捕获的视频流中,解决物理模型缺乏现实感的问题。这项工作旨在使用CycleGAN模型实现从术中二尖瓣手术图像到外科模拟器的成功I2I(Image-to-Image)转换。进行了不同的实验 - 比较均方误差损失与二元交叉熵损失;验证Fréchet Inception Distance作为训练和图像质量指标;以及研究输入变异性对模型性能的影响。

MSE和BCE之间的差异较小,MSE略微更加稳健。FID得分在确定CycleGAN I2I转换架构的最佳训练时期方面非常有用。仔细选择输入图像可以对最终结果产生很大影响。使用风格变异性较小且输入图像具有良好特征细节和清晰定义的特征可以使网络取得更好的结果。

临床相关性 - 这项工作为逼真的外科手术训练领域做出了进一步的贡献,成功地从心脏二尖瓣的外科模拟器生成了虚假的术中图像。

Methods

方法

A. Image to Image translation using CycleGAN The goal of I2I is to convert an input image from a source domain A to a target domain B. Ideally the extrinsic target style (domain specific features) should be transferred withoutaltering the inherent physical content of the source domain.

A. 使用 CycleGAN 进行图像到图像的转换 图像到图像转换的目标是将输入图像从源域 A 转换到目标域 B。理想情况下,应该转换外在的目标风格(特定于域的特征),而不改变源域的固有物理内容。

Results

结果

Figure 3 displays some of the results obtained with the previously described experiments. Three frames from the validation data set were selected based on the presence of specific attributes, such as surgical instruments in a large area of the image, suture wires with different colors and clear contact points with the phantom and, finally, a frame in which the surgical wires overlap with the surgical instrument. The image shows the best and worst FID results for both MSE and BCE losses, from all training epochs.

The final experiment results, comparing the performance of the GAN with one single surgical style input, are shown in Figure 4. The same frames were used in order to enable a better

comparison with the experiments with 3 surgical styles. Again, the best and worst FID results for both MSE and BCE losses, from all training epochs, are displayed.

图3展示了之前描述实验中获得的一些结果。根据特定属性的存在,从验证数据集中选择了三个帧,例如手术工具占据大面积的图像、不同颜色的缝合线和与幻影明显接触的点,以及手术线与手术工具重叠的一个帧。该图像显示了MSE和BCE损失下的所有训练周期中最佳和最差的FID结果。

最终实验结果,比较了仅使用单一手术风格输入的GAN的性能,在图4中展示。为了更好地与使用3种手术风格的实验进行比较,使用了相同的帧。同样,展示了MSE和BCE损失下的所有训练周期中最佳和最差的FID结果。

Conclusions

结论

MSE Loss is more stable than BCE Loss as, usually, better results are achieved, in a fewer number of epochs. The FID score proves be very useful in identifying the best training epochs for the CycleGAN I2I translation architecture. Carefully selecting the input images can cause a big impact on the end results. Images can be from multiple domains, however using images, with good feature details and clearly defined characteristics, enables the network to achieve better results. Not using sets of images that feature specific instruments, that do not appear in the simulator domain, further potentiates the network performance.

与BCE损失相比,MSE损失更稳定,通常在较少的训练周期内就能达到更好的结果。FID得分在识别CycleGAN图像到图像(I2I)翻译架构的最佳训练周期方面证明非常有用。仔细选择输入图像可以对最终结果产生重大影响。图像可以来自多个领域,但使用具有良好特征细节和清晰定义特性的图像,可以使网络获得更好的结果。不使用特定仪器的图像集,这些仪器在模拟器领域中不出现,进一步增强了网络性能。

Figure

图片

Figure 1 - CycleGAN architecture. The Generator network path is represented in blue and the Discriminator in yellow. Cycle loss is schematized in orange, with a backward flow. The identity loss input is shown in green.

图1 - CycleGAN架构。生成器网络路径用蓝色表示,判别器用黄色表示。循环损失用橙色示意,带有反向流动。身份损失输入用绿色显示。

图片

Figure 2 - Samples of the training dataset. 3 surgical styles are used,numbered 1 to 3 from top to bottom.

图2 - 训练数据集的样本。使用了3种手术风格,从上到下编号为1至3。

图片

Figure 3 - Selection of images to show the obtained results for both losses.Top row: original phantom image. 2nd and 3rd rows: best and worst FIDscores for MSE, respectively. 4th and 5th rows: best and worst FID scores for BCE, respectively.

图3 - 选择图像以显示两种损失所获得的结果。

顶部行:原始幻影图像。第2和第3行:分别为MSE的最佳和最差FID得分。第4和第5行:分别为BCE的最佳和最差FID得分。

图片

Figure 4 - Selection of images to show the obtained results using only surgical style 3 as input. Top row: original phantom image. 2nd and 3rd
rows: best and worst FID scores for MSE, respectively. 4th and 5th rows: best and worst FID scores for BCE, respectively.*

图4 - 选择图像以显示仅使用手术风格3作为输入获得的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/239419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文掌握分布式锁:Mysql/Redis/Zookeeper实现

目录 一、项目准备spring项目数据库 二、传统锁演示超卖现象使用JVM锁解决超卖解决方案JVM失效场景 使用一个SQL解决超卖使用mysql悲观锁解决超卖使用mysql乐观锁解决超卖四种锁比较Redis乐观锁集成Redis超卖现象redis乐观锁解决超卖 三、分布式锁概述四、Redis分布式锁实现方案…

人大金仓Kingbase数据库备份和还原

前言 最近在项目开发过程中,使用了国产数据库人大金仓(即Kingbase数据库),在使用过过程中需要对数据库进行备份与还原,在此对相关的命令进行简单介绍,以备不时之需。 Linux环境下安装人大金仓可参考此篇文…

gnome-control-center 点击喇叭无声(解决过程).

gnome-control-center 点击喇叭无声. ------------------------------------------------------------ author: hjjdebug date: 2023年 12月 22日 星期五 13:38:17 CST descprition: 解决gnome-control-center 点击喇叭无声的问题 -------------------------------------------…

ECMAScript基础入门:猫头虎博主的技术分享

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

Spring中你一定要知道的afterPropertiesSet()

文章目录 功能源码 功能 初始化bean执行的回调方法其一,它不像PostConstruct一样可以有多个,只能调用一次;它执行的时机是在PostConstruct之后,从它的名称也可以看出,他是在属性填充完,也就是bean初始化完…

实力强的大模型都有哪些超能力?

实力强的大模型都有哪些超能力? 前几日,人工智能研究公司OpenAI CEO山姆奥特曼(Sam Altman)在谈及人工智能这项技术的潜力以及人们对它的担忧时,曾表示“AI发展速度快得吓人,就像停不下来的龙卷风。”可见&…

如何使用 NFTScan NFT API 在 Base 网络上开发 Web3 应用

Base 是 Coinbase 使用 OP Stack 开发的最新以太坊第 2 层(L2)网络,用于解决以太坊等主要区块链面临的可扩展性和成本挑战。Coinbase 将其描述为“安全、低成本、对开发人员友好的以太坊 L2,旨在将下一个 10 亿用户带入 Web3”。B…

一个抖店内做几个商品链接比较合适?解答下新手问题,建议收藏

我是王路飞。 一个抖店内的商品链接数量,是多一些比较好还是少一些比较好呢? 可能在大多数人看来,当然是多一些比较好了,商品数量更多,基数增加,也能承载更多的进店流量,增加下单几率。 但真…

【Kotlin】一款专门为 Java 程序员打造的快速掌握 Kotlin 技术博客

目录 初识 Kotlin 历史 工作原理 第一个Hello World! Kotlin 语法 变量 基本数据类型 函数 和 选择控制(if、when) if when 循环语句 类和对象 创建和使用 继承 构造 主构造 次构造 接口 定义 实现 权限修饰符 数据类…

测试基础知识总结

什么是软件测试? 答:软件测试是为了软件的产品特性是否满足用户的需求;因为企业的利益与用户直接关联。 调试和测试的区别 ①目的不同 调试:发现并解决软件中存在的缺陷 测试:发现软件中存在的缺陷 ②人员不同 调试&a…

VBA_MF系列技术资料1-247

MF系列VBA技术资料 为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧,我参考大量的资料,并结合自己的经验总结了这份MF系列VBA技术综合资料,而且开放源码(MF04除外),其中MF01-04属于定…

在线客服系统推荐:优质选择助您提升客户服务体验

大部分企业依靠在线客服系统和客户达成联系,他为客户和企业之间建立了有效的沟通桥梁。市场上这么多的在线客服系统哪个好呢? 1、明确自己的需求。 这一点是最重要的,要先明确公司使用客服系统是想做售前咨询还是售后服务。不同的需求相对应…

鸿蒙开发之hdc命令行

一、简介 hdc(HarmonyOS Device Connector)是HarmonyOS为开发人员提供的用于调试的命令行工具,通过该工具可以在windows/linux/mac系统上与真实设备进行交互。 二、环境准备 hdc工具通过HarmonyOS SDK获取,存放于SDK的toolchai…

自然语言处理阅读第三弹

LLM微调 三种方法 Prefix-Tuning/Prompt-Tuning:在模型的输入或隐层添加k个额外可训练的前缀tokens(这些前缀是连续的伪tokens,不对应真实的tokens),只训练这些前缀参数; Prefix-tuning: 对于每个任务,都有一个特定的前缀被添加到输入序列的开始部分。这些前缀相当于任务特…

JavaScript高级 函数进阶篇

函数进阶 1、函数的定义和调用 函数声明方式function关键字(命名函数);函数表达式(匿名函数);new Function()(此处的Function()是一个构造函数);var fn new Function(参…

六个探索性数据分析(EDA)工具,太实用了!

当进行数据分析时,探索性数据分析(EDA)是一个至关重要的阶段,它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。在本文中,笔者将介绍6个极其实用的探索性数据分析(EDA)工具&#xff0…

和宝贝一起迎接冬日里的浪漫~优雅有气质

闪闪发光的刺绣亮片面料 自带闪光,是低调而浪漫的存在 蓬松拼接多层网纱 自带裙撑效果的网纱裙摆唯美飘逸 仿佛冬日里的小公主 热烈轻快的奔向即将到来的节日庆典

Go和Java实现简单工厂模式

Go和Java实现简单工厂模式 本文通过计算器案例来说明简单工厂模式的使用,使用Go语言和Java语言实现。 1、简单工厂模式 简单工厂模式对对象创建管理方式最为简单,只需要创建一个简单的工厂类然后在里面创建对象,该模式通过向工 厂传递类型…

自媒体人福音,正版实用的视频素材网站~

大家平时在创作视频的时候,有没有苦恼过找不到合适的素材呢?网上能找到的大部分素材都是有版权的,不能随便乱用。今天我就来给大家推荐一些用于视频创作的正版素材网站,快快收藏吧! 1.制片帮素材 链接:stock.zhipianb…

【洛谷】分糖果

分糖果 题目链接 题意 输出你最多能获得多少作为你搬糖果的奖励的糖果数量 思路 我们知道如果糖果总数除以小朋友的数量取商为一的话,那么每个小朋友只能得到一颗糖,那么它的余数就是剩下的糖果,也就是你能获得的奖励。弄清楚n,…