目录
- 前言
- 方法
- 标注
- 3D-2D Cross Teaching
- 伪标签选择
- Hard-Soft Confidence Threshold
- Consistent Prediction Fusion
- 结论
论文:3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks
代码:https://github.com/hengcai-nju/3d2dct
前言
问题1:医学图像分割通常需要大量且精确标注的数据集。但是获取像素级标注是一项劳动密集型的任务,需要领域专家付出巨大的努力,这使得在实际临床场景中获取具有挑战性。
可行的方向:稀疏的标注,与传统弱监督标记(比如边界框和乱码)相比具有若干优势,因为它保留了精确的表姐
问题2:监督信号稀缺性
解决方案:提出了使用3D和2D网络交叉教学的框架,鲁棒的从稀疏标注中学习。
具体怎么解决:生成伪标签来增加监督信号。
伪标签怎么生成:看后文
怎么知道生成的伪标签可不可用:伪标签选择
方法:提出两种伪标签选择策略,硬-软置信度阈值和一致标签融合
效果:在MMWHS dataset中优于SOTA的半监督学习方法,与全监督方法的上界相当。
方法
标注
考虑一个3D图像标注一个标签,它的限制:
- 目标必须在标注的切片上可见,如果多分类,大多数情况下目标很难都在一张图片中可见。
- 切片间可能变化大,单个切片的信息不足以训练一个性能很好的分割模型。
要求:1. 目标可见 2. 标注的两个切片之间变化很大,才能获得更多信息。
标注方法:十字标注法。Cross Annotation
3D-2D Cross Teaching
(大家可以忽略,我在锻炼我提出问题的能力)只看这个图,可以提出很多问题:
M 2 D 1 M_{2D_1} M2D1, M 2 D 2 M_{2D_2} M2D2 M 3 D M_{3D} M3D一看就是模型,它们是什么结构,(2D的模型有一个切片标注了,可以用作半监督分割模型或者few-shot中的1-shot,不知道对不对),那么3D那个就是输出和伪标签比较计算loss吗。为什么3D输出的也能监督2D的。这两个怎么权衡?其中的 P a c c P_{acc} Pacc是什么为什么生成2个3D输出,MIX是什么操作?为什么MIX?可能那个2D的猜错了,它是2D和3D相互监督,只有两个Loss。
这个框架包含3个网络,一个3D网络,两个2D网络。 3D和2D网络之间的不同是内在的它们的结构决定的,两个2D网络的不同源自于它们在不同的平面的切片上训练网络。
3D样本直接作为3D网络的输入,在两个方向上切片得到横向切片和冠状切片作为2D网络的输入,它们的预测值为 P P P。选择之后作为伪标签。
为了增加监督信号,我们混合了选择的伪标签和稀疏的真是标签一起监督。
Y ^ = M I X ( Y , P ) \hat{Y}=MIX(Y,P) Y^=MIX(Y,P)
用稀疏的真实标签替换掉伪标签中相应的部分。
因为3D网络比2D网络强大,所以如果3D网络预测结果的置信度大于两个2D的伪标签,这个体素就不应该计算Loss。
使用M去表示体素对损失计算的贡献,如果第i个位置体素的损失不应该被计算就为0,其他对于真实标注就是1,对于伪标签是w,其中w是0-0.1的斜坡函数。
伪标签选择
Hard-Soft Confidence Threshold
因为监督信号有限,所以3D网络预测得到的标签信号噪声大,直接用作2D网络的伪标签,会造成性能的退化。设置一个置信度去选择更有可能准确的体素。
问题:可能会过滤掉置信度低的正确的体素。
想法:如果知道预测的准确度,我们可以设置比准确度低一点的置信度来利用更多有用的体素信息。
问题:不知道3D网络预测和真是真实标签的准确度。
想法:使用伪标签的准确度利用稀疏标签和那一部分的预测值计算准确度。训练的时候实际准确度 R a c c R_{acc} Racc,伪标签的准确度 P a c c P_{acc} Pacc与训练样本是有关联的。
I I I指示函数(是1否0),不太理解我以为是只计算标注的那两个图片上的。yi前面 Y ^ \hat{Y} Y^的元素, p ^ i \hat{p}_i p^i是对第i个体素的one-hot预测。
Soft置信度 t s t_s ts有较低的值,Hard置信度 t h t_h th有较高的值。对于可靠的预测置信度高,用Soft置信度选择伪标签,目的:保留置信度低的体素,筛选掉特别不确定的体素减少错误监督带来的影响。
在不可靠。在不可靠的预测中,只有置信度高于硬阈值的体素才能被选为伪标签。设置硬阈值是为了从不可靠的预测中选择高质量的体素。软硬置信度阈值策略实现了增加监控信号和降低标签噪声之间的平衡。
Consistent Prediction Fusion
用两个2D网络的输出的一致的部分作为3D网络的伪标签。
因为两个2D网络是在不同平面的切片上训练的,它们学习区分不同平面的前景和背景。两个网络输出一致的部分更有可能正确。
结论
在本文中,我们将稀疏注释扩展到交叉注释,以适应更一般的真实临床场景。
我们从两个平面标记切片,这扩大了注释的多样性。
为了更好地利用交叉注释,我们从半监督分割的角度来看待这个问题,我们提出了一种新的交叉教学范式,它对3D和2D网络的预测施加了一致性。
此外,为了实现鲁棒的交叉监督,我们提出了新的策略来选择可信的伪标签,是三维网络的软硬阈值和2D网络的一致预测融合。