摘要:
本研究探讨眼动追踪技术与SAM的潜力,以设计一个协同的人机交互系统,自动化医学图像分割。提出了GazeSAM系统,使放射科医生能够在图像诊断过程中通过简单地查看感兴趣的区域来收集分割掩模。该系统跟踪放射科医生的眼球运动,并利用眼球注视数据作为SAM的输入提示符,自动实时生成分割掩码。该系统使用眼动追踪技术识别放射科医生感兴趣的roi,然后提示SAM模型根据眼睛注视点对图像进行相应的分割。该系统具有用户友好、准确、快速生成分割结果的特点。值得注意的是,这是首次利用眼动追踪数据和SAM的力量实现医学图像实时分割过程自动化的研究。
贡献点:
1. 本文提出了一种将眼动追踪技术与SAM相结合的人机协作系统GazeSAM,用于放射科医生的实时医学图像分割。
2. GazeSAM系统采用基于屏幕的眼动仪,与Meta虚拟现实团队使用的基于眼镜的眼动仪相比,它为放射科医生提供了更高的准确性和更大的舒适度。此外,大多数眼动数据集是使用基于屏幕的眼动仪收集的,这使得我们的系统更适合于标准的眼动数据集收集。
3.我们的系统具有独特的2D和3D图像操作能力,这通常用于医疗环境。这是第一个为提高放射科医生在日常临床实践中的工作效率而开发的。
4. 该系统既可以用于粗分割掩码的采集,也可以用于眼动跟踪的采集。
方法:
整体框架如下图所示,包括数据收集和图像分割两部分。
数据收集:本研究使用Tobii Pro Nano屏幕眼动仪。它是一款体积小、重量轻、使用方便的眼动仪,长度为170mm,重量为59g,采样率为60Hz。在实验之前,需要对眼动仪进行校准,以确保准确跟踪眼球运动,并使屏幕上的凝视坐标与用户所看的位置保持一致。在这里,在Tobii Pro眼动仪管理器中采用五点校准程序。标定完成后,眼球注视数据以屏幕上位置坐标的形式采集。
提示工程:眼球注视数据可以被认为是一组离散点序列,这些散点与眼球随时间的运动相对应。因此,可以将人眼注视数据转换为一个点或一个点序列,作为SAM的点提示。如下图所示,选择的提示有两种:第一种选择是使用随时间收集的整个眼球注视点序列,这可以提供更全面的用户注视轨迹表示。第二种选择是使用最后一个时间点采集到的眼球注视点作为提示。当需要单个对象的粗分割掩码时,这种方法更合适。
值得注意的是,SAM可能并不总是产生完美的分割掩码,特别是对于边界区域。为了优化生成的掩码,用户需要手动向这些区域添加点,这可能是繁琐和耗时的。在第一个选项中,GazeSAM简化了这个过程,允许用户通过简单地查看所需的区域来添加点。这样,提供了一种更有效的分割掩码细化方法,有可能极大地提升整个流水线的用户体验和速度。通过预先计算的图像嵌入和人眼注视数据转换的提示,SAM可以近乎实时地生成分割掩码,使其成为一种利用眼动追踪技术的交互式分割系统。