基于人工智能的医学影像关联分析:利用潜在空间几何混杂因素校正法|文献速递-深度学习医疗AI最新文献

Title

题目

AI-based association analysis for medical imaging using latent-spacegeometric confounder correction

基于人工智能的医学影像关联分析:利用潜在空间几何混杂因素校正法 

01

文献速递介绍

人工智能(AI)已成为各个领域的强大助力,这在很大程度上归功于它能够在高维数据集中识别出具有判别性的模式。这种能力在医学影像分析领域尤其有用,事实证明,人工智能技术在诊断和预后预测任务中取得了成功(沈等人,2017)。然而,人工智能在基于医学影像的流行病学关联分析中的应用面临着一些挑战。这些挑战包括从人工智能生成的结果中得出具有临床或流行病学重要意义的见解,与传统统计方法相比(穆格利等人,2017;豪等人,2019;罗什丘普金等人,2016b),这项任务已被证明颇具难度(宋和霍珀,2023;达菲等人,2022)。这主要有两个原因:一是人工智能模型中非线性建模的可视化较为复杂,也就是所谓的“黑箱”问题;二是缺乏对混杂变量的控制。这些障碍凸显了在医学应用中需要更具可解释性且无混杂因素的人工智能模型。 1.1 相关工作 1.1.1 混杂因素 混杂因素是在关联分析中同时影响自变量和因变量的变量(彼得斯等人,2017;斯图尔特,2022)。因此,它可能会错误地产生、放大或减弱这些变量之间的关联。例如,在一项研究疾病严重程度(自变量)与患者康复时间(因变量)之间关联的研究中,患者患病前的整体健康状况可能是一个混杂因素,因为疾病严重程度和康复时间都可能受到患者整体健康状况的影响。所以,如果不控制这个混杂因素,预测康复时间的人工智能模型可能会在不经意间将与整体健康状况相关的特征纳入考虑。而这些特征反过来又会混淆结果,掩盖仅由疾病严重程度对康复时间的影响。 人工智能中的偏差通常源于选择偏差或数据不平衡等问题(李等人,2021;金等人,2021;李和瓦斯科塞洛斯,2019)。当用于训练模型的数据不能代表更广泛的人群时,就会出现这种情况,从而导致有偏差的结果和较差的性能。在关于偏差的研究中,研究人员通常假设训练数据有偏差而测试数据无偏差。他们提出了旨在提高对测试数据预测性能的方法;与选择偏差或数据不平衡不同,混杂因素通常存在于现实场景中,无法通过重新选择或重新采样数据轻易消除。因此,在混杂因素的背景下,研究人员通常假设混杂因素同时存在于训练数据和测试数据中。其目的是检测在消除混杂效应后,因变量和自变量之间是否仍然存在关联。 尽管在经典的流行病学研究中,这个混杂问题及其解决方案已经得到了很好的确立(斯图尔特,2022;沃伊诺夫和巴本科,2020;普尔霍辛霍利等人,2012),但人工智能领域在纠正混杂因素方面提供的方法有限。此外,在存在多个混杂因素的情况下,这个问题会更加严重,这使得开发无混杂因素的人工智能模型变得至关重要。 1.1.2 人工智能中的混杂因素控制:医学影像面临的挑战 在人工智能领域,与混杂因素控制相关的主题有不同的称谓,如公平表征学习(范等人,2023;路易佐斯等人,2015;克里格等人,2019;刘等人,2021;萨尔汉等人,2020)、去偏表征学习(李等人,2021;金等人,2021)、通用表征学习(李等人,2021)或不变特征学习(谢等人,2017;阿库扎瓦等人,2020)。这些方法主要侧重于从与特定属性(即学习目标)相关的输入数据中学习表征,同时保持与敏感属性(即混杂因素)无关。特别是当敏感属性指的是不同的领域来源时,这些方法与领域自适应的研究主题有重叠(范等人,2023;李等人,2021;阿库扎瓦等人,2020)。 虽然混杂因素的概念源于流行病学,但人工智能领域中提出的大多数方法通常有不同的任务和目标,因此并不能完全解决医学应用中混杂因素带来的挑战(达菲等人,2022;布鲁克哈特等人,2010)。(1)混杂因素通常是连续变量(如年龄),然而大多数现有方法是为处理单个二元(如性别)或分类(如种族)混杂因素而设计的(范等人,2023;爱德华兹和斯托基,2015;张等人,2018;路易佐斯等人,2015;李等人,2021;阿库扎瓦等人,2020;李等人,2021;金等人,2021;萨尔汉等人,2020;泽梅尔等人,2013;沈等人,2022)。这些方法需要将一批训练样本划分为几个子组(如男性和女性)以消除混杂效应(如性别),这使得它们不适用于更难处理的连续混杂因素;(2)当考虑到医学研究中普遍存在多个混杂因素时,这个问题变得更加突出,而现有的方法中只有少数(陆等人,2021;文托等人,2022)能够减轻多个混杂因素的联合影响;(3)此外,在医学影像分析中,标签(包括学习目标和混杂因素)常常缺失,但在无混杂因素模型中利用带有缺失标签的图像数据进行半监督设置的探索仍然有限;(4)现有方法在设计中忽略了图像特征可视化,这使得在基于图像的关联研究中难以解释或理解研究结果。 认识到这一差距,将注意力转向专门针对这些挑战开发方法至关重要。例如,CF Net(赵等人,2020)是一种基于对抗训练的无混杂因素模型,它用基于统计相关性的对抗损失取代了领域自适应任务中常用的典型交叉熵或均方误差(MSE)对抗损失。这种调整增强了它对连续混杂因素的支持。另一个值得注意的方法是MDN(陆等人,2021;文托等人,2022),它将线性回归与插入神经网络的一个独特层相结合。这个层专门设计用于过滤掉混杂信息,只允许残余信号传递到后续层。由于线性回归的固有特性,这种方法支持多个混杂因素。尽管有这些例子,但截至目前,仍然缺乏针对医学影像中混杂因素带来的挑战的人工智能方法。 1.1.3 无混杂因素人工智能模型中可解释性的挑战 医学影像研究领域中大多数与特征解释相关的技术可以分为两大类(范德韦尔登等人,2022;范等人,2021)。第一类包括梯度和反向传播方法,这些方法通常检查人工智能模型内的梯度或激活情况,创建与输入图像相关的显著图,并突出显示对预测结果影响最大的区域。示例方法包括梯度加权类激活映射(Grad-CAM)(塞尔瓦拉朱等人,2017)、SHAP(伦德伯格和李,2017)、深度泰勒(蒙塔冯等人,2017)和逐层反向传播(巴赫等人,2015)。这些方法可以直接应用于训练好的无混杂因素模型。例如,CF-Net(赵等人,2020)使用Grad-CAM生成显著图,比较有无混杂因素控制时的结果。 第二类方法,如研究中所引用的(刘等人,2021;巴拉克里希南等人,2021;希金斯等人,2016;斯通等人,2017;赵等人,2019),通常涉及定制内置生成模型来操纵潜在空间。这种操纵能够重建一系列显示与目标属性(如年龄)相关的图像变形的图像(赵等人,2019)。典型的例子是β-VAE(希金斯等人,2016)和infoGAN(陈等人,2016)。与显著图不同,这些重建图像提供了更丰富的语义信息(赵等人,2019),从而增强了对已建立关联的理解。然而,这些方法的可解释性是内在的,不能转移到其他模型。 这种局限性需要开发配备有混杂因素控制功能的新生成模型。然而,事实证明这项任务具有挑战性。从潜在空间中去除与混杂因素相关的信息,这是许多无混杂因素模型中的常见方法(爱德华兹和斯托基,2015;谢等人,2017;张等人,2018;赵等人,2020;路易佐斯等人,2015;阿莱米等人,2016;克里格等人,2019;陆等人,2021;文托等人,2022;沈等人,2022),可能会对图像重建质量产生不利影响(刘等人,2021)。这个问题源于两个优化目标之间的矛盾:图像重建旨在在潜在空间中保留尽可能多的信息,例如大脑图像重建中的年龄细节,而混杂因素缓解旨在去除所有与混杂因素相关的信息。在涉及多个混杂因素的情况下,这种矛盾变得更加明显。 1.2 动机和我们提出的方法介绍 为了解决上述挑战,并利用生成模型中语义特征解释的潜力,我们探索了一种不同的混杂因素控制策略,同时不影响图像重建质量。最近关于基于生成对抗网络(GAN)的模型的研究(沃伊诺夫和巴本科,2020)表明,大多数与图像相关的变量(如大脑图像中的年龄)在潜在空间中都有一个主要捕捉其变异性的向量方向。受此启发,我们建议在潜在空间中保留与混杂因素相关的信息,同时探索识别与学习目标相关且独立于多个混杂因素的向量方向。 因此,我们引入了一种新的基于图像的关联分析算法,该算法不仅为纠正多个混杂因素提供了灵活性,还能够进行语义特征解释。我们将自动编码器的潜在空间视为一个向量空间,其中大多数与成像相关的变量(如学习目标 t 和混杂因素 c)都有一个捕捉其变异性的向量方向。然后,通过确定一个与⃗𝑐正交但与⃗𝑡最大程度共线的无混杂因素向量来解决混杂问题(图1a)。为了实现这一点,我们提出了一种新颖的基于相关性的损失函数,它不仅在潜在空间中进行向量搜索,还促使编码器生成与这些变量呈线性相关的潜在表征。之后,我们通过沿着无混杂因素向量对图像进行采样和重建来解释无混杂因素的表征。 1.3 与先前工作的区别 在大多数已提出的方法中,混杂因素的校正通过对抗训练(爱德华兹和斯托基,2015;谢等人,2017;张等人,2018;赵等人,2020;阿库扎瓦等人,2020)、最大平均差异(MMD)(路易佐斯等人,2015;沈等人,2022)或互信息(MI)(阿莱米等人,2016;克里格等人,2019)技术,从学习到的表征中清除与混杂因素相关的信息来实现。一般来说,这些现有技术在实践中都有各自的局限性。例如,MMD度量只能处理二元或分类混杂因素;已知MI的计算过于复杂,无法作为损失项包含在内,通常需要插入额外的神经网络,如MI估计器(贝尔加齐等人,2018)或MI梯度估计器(温等人,2020),作为替代解决方案;对抗训练被认为不稳定,因为很难平衡两个相互竞争的目标。为了避免这些潜在问题,我们的方法采用了一种不同的技术,即向量正交化,来进行混杂因素控制。 尽管如此,仍有一些现有方法与我们的工作高度相关。特别是,VFAE(路易佐斯等人,2015)也使用基于自动编码器的模型架构,并且也在潜在空间中进行混杂因素校正。然而,与大多数现有方法类似,它试图从潜在空间中去除所有与混杂因素相关的信息,这可能会严重影响图像重建质量。相比之下,我们的方法在潜在空间中保留了与混杂因素相关的信息。另一项工作(巴拉克里希南等人,2021)在向量正交化方面可能与我们提出的方法有重叠,但他们的工作与我们的有根本区别。他们的工作基于无监督GAN模型,缺乏输入图像的推理路径,使其不适用于预测任务。在他们的工作中,使用QR分解方法来解决向量正交化问题。这种方法首先估计目标的向量⃗𝑡和混杂因素的向量⃗𝑐,然后基于它们进行向量正交化。然而,我们提出了一个相关性损失项作为向量正交化的新解决方案。联合训练带有这个损失项的编码器对于确保在潜在空间中线性捕捉变量的变异性是必要的(图4)。相比之下,他们基于QR分解的方法无法做到这一点,因为它无法纳入神经网络的训练中。此外,我们基于相关性的损失项可以很容易地应用于存在多个混杂因素的情况,如前所述,这是医学研究中的一个主要挑战。 1.4 贡献总结 本研究在我们之前发表的会议论文(刘等人,2021)的基础上有了显著扩展。总体而言,我们工作的主要贡献总结如下: - 据我们所知,这是首次将混杂因素的几何见解引入自动编码器的潜在空间。随后,受皮尔逊相关性几何解释的启发,我们提出了一个基于相关性的损失函数,作为通过向量正交化进行混杂因素校正的新解决方案; - 受益于几何见解,我们提出的方法(1)能够轻松处理多个分类或连续混杂因素,(2)能够在无混杂因素的预测模型中进行语义特征解释,有助于临床和流行病学研究人员进行深入调查; - 我们在基于人群的研究环境中,通过合成图像或真实医学图像的三个应用展示了所提出方法的性能及其价值。实验结果表明,我们的方法作为一种有前途的工具集,在增强医学影像中的关联分析方面具有潜力。

Abatract

摘要

This study addresses the challenges of confounding effects and interpretability in artificial-intelligence-basedmedical image analysis. Whereas existing literature often resolves confounding by removing confounderrelated information from latent representations, this strategy risks affecting image reconstruction qualityin generative models, thus limiting their applicability in feature visualization. To tackle this, we proposea different strategy that retains confounder-related information in latent representations while finding analternative confounder-free representation of the image data.Our approach views the latent space of an autoencoder as a vector space, where imaging-related variables,such as the learning target (t) and confounder (c), have a vector capturing their variability. The confoundingproblem is addressed by searching a confounder-free vector which is orthogonal to the confounder-relatedvector but maximally collinear to the target-related vector. To achieve this, we introduce a novel correlationbased loss that not only performs vector searching in the latent space, but also encourages the encoderto generate latent representations linearly correlated with the variables. Subsequently, we interpret theconfounder-free representation by sampling and reconstructing images along the confounder-free vector.The efficacy and flexibility of our proposed method are demonstrated across three applications, accommodating multiple confounders and utilizing diverse image modalities. Results affirm the method’s effectivenessin reducing confounder influences, preventing wrong or misleading associations, and offering a unique visualinterpretation for in-depth investigations by clinical and epidemiological researchers.

本研究旨在应对基于人工智能的医学图像分析中混杂效应和可解释性方面的挑战。现有文献通常通过从潜在表征中去除与混杂因素相关的信息来解决混杂问题,但这种策略存在影响生成模型中图像重建质量的风险,进而限制了其在特征可视化中的应用。为了解决这一问题,我们提出了一种不同的策略,即在潜在表征中保留与混杂因素相关的信息,同时寻找图像数据的另一种无混杂因素的表征。 我们的方法将自动编码器的潜在空间视为一个向量空间,其中与成像相关的变量,如学习目标(t)和混杂因素(c),都有一个捕捉其变异性的向量。通过搜索一个与混杂因素相关向量正交,但与目标相关向量最大程度共线的无混杂因素向量来解决混杂问题。为实现这一点,我们引入了一种新颖的基于相关性的损失函数,它不仅在潜在空间中进行向量搜索,还促使编码器生成与这些变量呈线性相关的潜在表征。随后,我们通过沿着无混杂因素向量对图像进行采样和重建来解释无混杂因素的表征。 我们所提出方法的有效性和灵活性在三个应用场景中得到了验证,这些应用场景能够处理多种混杂因素,并使用了不同的图像模态。结果证实了该方法在减少混杂因素影响、避免错误或误导性关联方面的有效性,并且为临床和流行病学研究人员进行深入调查提供了一种独特的可视化解释。

Conclusion

结论

In this study, a novel AI method was proposed for conducting association analysis in medical imaging. Our proposed approach effectivelyaddresses the influence of confounding factors by incorporating themas priors, resulting in confounder-free associations. To enhance theinterpretability of the outcome associations, a semantic feature visualization approach was proposed, allowing us to gain valuable insightsinto the image features underlying the observed associations. Moreover,the proposed method supports semi-supervised learning, enabling useof missing-label image data.The proposed method was applied to two epidemiological association studies. In the second experiment, we analyzed the associationbetween low-moderate prenatal alcohol exposure (PAE) and children’sfacial shape after correction for confounders, the proposed methodremoved facial features related to the confounders (e.g., a narrowcheek or deep-set eyes) and found a remaining correlation of 0.15between facial features and PAE. In contrast, in the third experiment,the analysis of association between brain images and cognitive scores,almost no remaining association (Pearson correlation coefficient 𝑟 =0.03 ± 0.03 in Table 4) was found after the correction of confounders.It turned out that the strong association (𝑟 = 0.48 ± 0.03 in Table 4)between brain imaging and cognitions before the correction was mainlycontributed by the age confounder (Fig. 8). As these two applicationsdemonstrate, confounder correction is essential as it may prevent wrongor misleading association results. This further highlights the importanceof confounder control and model interpretability in AI-based medicalimage analysis.The proposed method supports semi-supervised learning (SSL),which has added value in medical image analysis, as for medicalimage data labels are often missing or may have suboptimal quality.Especially, in cases with only a limited number of labeled samples(say less than 50), SSL improves the image reconstruction quality forfeature interpretation as well as the discriminative capacity of the latentfeatures. Moreover, prior work in segmentation (Chen et al., 2019) andclassification (Gille et al., 2023) supports that SSL by using unlabeleddata with reconstruction loss can generally enhance the performance ofsuch joint tasks. However, applying this SSL approach with confounderfree prediction as a joint task has not been achieved before due to theconflict between reconstruction loss and confounder removal in priormethods (e.g., VFAE Louizos et al., 2015): Confounder removal aimsto remove any confounder-related information from the latent space,while reconstruction loss preserves as much information as possible,leading to opposing objectives. This conflict harms the performance ofconfounder removal when using unlabeled data in SSL. Our methodtakes a different approach, retaining confounder-related information tostrike an optimal balance, thus making this SSL approach possible. Inour experiment results, we only find the improvement of SSL for thefacial data but not the brain MRI data application. The reconstructionquality (𝐿1 -norm and NCC) was similar between the fully supervisedand semi-supervised learning setting. This may be due to the fact thatour fully supervised brain autoencoder was optimized with sufficientlabeled data, and thus, additional missing-label images could notfurther improve the optimization of the brain autoencoder.A limitation of the proposed method is that it requires humanprior knowledge for the identification of confounders. In the future,we will consider integrating techniques from causal inference (Gaoand Ji, 2015) with the proposed method for the automatic identification of potential confounders. In addition, a future direction toexplore is how to incorporate input data with a discrete distribution,since our reconstruction-based feature interpretation technique presumes a continuous latent space. One possible way is using a variationalautoencoders, which enforces a Gaussian distribution in the latentspace.In conclusion, our AI method, complemented by its semi-supervisedvariant, offers a promising toolset for enhancing association analysisin medical imaging. Future research can further refine and extend thismethod, ensuring more robust and interpretable findings in medicalimaging studies.

在这项研究中,我们提出了一种新颖的人工智能方法,用于在医学影像中进行关联分析。我们所提出的方法通过将混杂因素作为先验纳入考量,有效地解决了它们的影响,从而得出了无混杂因素干扰的关联结果。为了增强对所得关联结果的可解释性,我们提出了一种语义特征可视化方法,这使我们能够深入了解在观察到的关联背后的图像特征,获得有价值的见解。此外,所提出的方法支持半监督学习,能够利用带有缺失标签的图像数据。 所提出的方法被应用于两项流行病学关联研究中。在第二项实验里,我们在校正混杂因素后分析了孕期低至中度酒精暴露(PAE)与儿童面部形状之间的关联。该方法去除了与混杂因素相关的面部特征(例如窄脸颊或深陷的眼睛),并发现面部特征与PAE之间仍存在0.15的相关性。相比之下,在第三项实验,即对脑图像与认知分数之间的关联分析中,在校正混杂因素后几乎未发现剩余的关联(表4中的皮尔逊相关系数(r = 0.03 ± 0.03))。事实证明,在校正之前脑成像与认知之间的强关联(表4中的(r = 0.48 ± 0.03))主要是由年龄混杂因素导致的(图8)。正如这两项应用所展示的那样,混杂因素校正至关重要,因为它可以防止出现错误或具有误导性的关联结果。这进一步突显了在基于人工智能的医学影像分析中,控制混杂因素和实现模型可解释性的重要性。 所提出的方法支持半监督学习(SSL),这在医学影像分析中具有额外的价值,因为医学影像数据的标签常常缺失,或者质量可能不太理想。特别是在只有有限数量的标记样本(比如少于50个)的情况下,半监督学习提高了用于特征解释的图像重建质量,以及潜在特征的判别能力。此外,先前在分割领域(陈等人,2019)和分类领域(吉勒等人,2023)的研究都表明,通过使用带有重建损失的未标记数据进行半监督学习,通常可以提升这类联合任务的性能。然而,由于先前方法中(例如,VFAE,路易佐斯等人,2015)重建损失与去除混杂因素之间存在冲突,将这种半监督学习方法与无混杂因素预测作为联合任务来应用此前尚未实现:去除混杂因素旨在从潜在空间中去除任何与混杂因素相关的信息,而重建损失则力求保留尽可能多的信息,这导致了目标相互对立。当在半监督学习中使用未标记数据时,这种冲突会损害去除混杂因素的效果。我们的方法采用了不同的方式,保留了与混杂因素相关的信息,以达到最佳平衡,从而使这种半监督学习方法成为可能。在我们的实验结果中,我们发现半监督学习仅对面部数据有提升效果,而对脑部核磁共振成像(MRI)数据的应用没有提升。在完全监督学习和半监督学习设置下,重建质量((L_1)范数和归一化互相关(NCC))相似。这可能是因为我们的完全监督的脑部自动编码器已经通过足够的标记数据进行了优化,因此,额外的带有缺失标签的图像无法进一步改善脑部自动编码器的优化效果。 所提出方法的一个局限性在于,它需要人类的先验知识来识别混杂因素。未来,我们将考虑把因果推断领域的技术(高和季,2015)与所提出的方法相结合,以实现对潜在混杂因素的自动识别。此外,未来的一个研究方向是探索如何纳入具有离散分布的输入数据,因为我们基于重建的特征解释技术假定潜在空间是连续的。一种可能的方法是使用变分自动编码器,它在潜在空间中强制形成高斯分布。 总之,我们的人工智能方法及其半监督学习的变体,为增强医学影像中的关联分析提供了一套很有前景的工具集。未来的研究可以进一步完善和扩展这一方法,确保在医学影像研究中获得更可靠、更具可解释性的研究结果。

Results

结果

We demonstrate the performance of the proposed approach in threeapplications using 2D synthetic, 3D facial mesh, and 3D brain imagingdata, and showing the use of 2D convolutional autoencoder (Hou et al.,2017), 3D graph convolutional autoencoder (Gong et al., 2019), and3D convolutional autoencoder (Li et al., 2022) within our architectureagnostic framework. In the analysis of 3D brain, we used an autoencoder additionally integrated with a normalized cross-correlation(NCC) as reconstruction loss term. NCC is a widely used metric forevaluating local structural correspondence in medical images due toits robustness against intensity variations (Klein et al., 2009). In ourcase, NCC complements the voxel-wise similarity captured by the 𝐿1norm by emphasizing regional patterns and preserving local anatomicalstructures. Therefore, the model is encouraged to achieve both precisevoxel-wise reconstruction and smooth alignment of local structures,improving the overall reconstruction quality and robustness to intensityinconsistencies.For all three Experiments, we applied 5-fold cross-validation andensured that repeated scans from the same subject were in the sametraining or testing set. In the first fold, the training sample (80%) werefurther split into a training set (70%) and validating set (10%) for thetuning of hyperparameters. Specifically, we prioritize the correlationloss term when adjusting the value of 𝜆 Eq. (5). We suggest a largerbatch size (> 8) since the correlation was computed on a batch levelEq. (3). To successfully mitigate the confounding effect, we suggestan 𝜂 = 2 Eq. (3). An 𝜂 = 0 indicates the proposed method withoutcorrection for confounders. By comparing the results of 𝜂 = 2 and 𝜂 = 0,we compared the difference between with and without correction forconfounders. To better distinguish them, we refer ⃗𝑝 and 𝑧𝑝 to the resultswithout correction for confounders (𝜂 = 0), while referring 𝑝⃗∗ and 𝑧 ∗ 𝑝to those with correction (𝜂 = 2). The latent dimensions was 2, 64 and64 for Experiment 1, 2 and 3. The batch size was 16, 64, and 8 forExperiment 1, 2 and 3. Epochs were 300 for all Experiments.In Experiment 1, we conducted method comparison among thefollowing models:

• Variational autoencoder (VAE): An unsupervised model for 2Dimage reconstruction, serving as a baseline reconstruction methodwithout any confounder restriction on latent feature.

• Ours (NA): Our proposed model implemented in a VAE withoutconfounder control, by setting 𝜂 = 0 in Eq. (3).

• Ours (*): Our proposed model implemented in a VAE with confounder control, by setting 𝜂 = 2 in Eq. (3).

• VFAE-MI (Louizos et al., 2015): A supervised VAE-basedconfounder-free method, which removes confounder-related information from the latent space via a MMD loss. Since the MMDloss is not applicable to continuous confounders, it is replaced bya MI loss (Belghazi et al., 2018).

• CF-Net (Zhao et al., 2020): A supervised confounder-free deeplearning method, which removes confounder-related informationfrom the latent space via adversarial training techniques.

• PMDN (Vento et al., 2022): A supervised deep learning method,which combines linear regression with a unique layer insertedinto neural networks. This layer filters out confounding information, permitting only the confounder-free residual signals tosubsequent layers.In all experiments, we quantified the performance of predictionEq. (6) accuracy by the root mean square error (r-MSE) for continuousvariables, and by the area under the receiver operating characteristiccurve (AUC) for binary variables, the image reconstruction qualityby the mean 𝐿1 -norm between the input and reconstructed images,and the confounding correction by the Pearson’s correlation coefficientbetween the latent image representation (𝑧**𝑝 ) and variables. We alsoincluded mutual information (MI) (Alemi et al., 2016) and squareddistance correlation (dcor2 ) (Wikipedia, 2024) as additional metricsfor the evaluation of confounder removal. These metrics measure bothlinear and non-linear dependency. A lower dcor2 or a lower MI reflectslower dependency.

我们在三个应用中展示了所提出方法的性能,使用了二维合成数据、三维面部网格数据以及三维脑部成像数据,并展示了在我们与架构无关的框架中使用二维卷积自动编码器(侯等人,2017)、三维图卷积自动编码器(龚等人,2019)和三维卷积自动编码器(李等人,2022)的情况。在三维脑部数据的分析中,我们使用了一个额外集成了归一化互相关(NCC)作为重建损失项的自动编码器。由于归一化互相关对强度变化具有鲁棒性,它是医学图像中用于评估局部结构对应关系的一种广泛使用的度量标准(克莱因等人,2009)。在我们的案例中,归一化互相关通过强调区域模式和保留局部解剖结构,补充了由(L_1)范数所捕捉的体素级相似性。因此,该模型被促使既能实现精确的体素级重建,又能实现局部结构的平滑对齐,从而提高了整体重建质量以及对强度不一致情况的鲁棒性。 对于这三个实验,我们都采用了五折交叉验证,并确保来自同一受试者的重复扫描数据处于相同的训练集或测试集中。在第一折中,训练样本(80%)进一步被划分为训练集(70%)和验证集(10%),用于调整超参数。具体来说,在调整公式(5)中(\lambda)的值时,我们优先考虑相关性损失项。由于相关性是在批次层面上计算的(公式(3)),我们建议使用较大的批次大小(大于8)。为了成功减轻混杂效应,我们建议(\eta = 2)(公式(3))。(\eta = 0)表示所提出的方法不进行混杂因素校正。通过比较(\eta = 2)和(\eta = 0)时的结果,我们对比了有无混杂因素校正之间的差异。为了更好地区分它们,我们将(\vec{p})和(z_p)表示为未进行混杂因素校正((\eta = 0))的结果,而将(\vec{p}^)和(z^_p)表示为进行了校正((\eta = 2))的结果。实验1、实验2和实验3的潜在维度分别为2、64和64。实验1、实验2和实验3的批次大小分别为16、64和8。所有实验的训练轮数均为300轮。 在实验1中,我们在以下模型之间进行了方法比较: - 变分自动编码器(VAE):一种用于二维图像重建的无监督模型,作为一种基线重建方法,对潜在特征没有任何混杂因素限制。 - 我们的方法(NA):我们所提出的模型,在变分自动编码器中实现且不进行混杂因素控制,通过在公式(3)中设置(\eta = 0)来实现。 - 我们的方法(*):我们所提出的模型,在变分自动编码器中实现且进行混杂因素控制,通过在公式(3)中设置(\eta = 2)来实现。 - VFAE-MI(路易佐斯等人,2015):一种基于监督的变分自动编码器的无混杂因素方法,它通过最大平均差异(MMD)损失从潜在空间中去除与混杂因素相关的信息。由于最大平均差异损失不适用于连续混杂因素,因此用互信息(MI)损失来替代(贝尔加齐等人,2018)。 - CF-Net(赵等人,2020):一种有监督的无混杂因素深度学习方法,它通过对抗训练技术从潜在空间中去除与混杂因素相关的信息。 - PMDN(文托等人,2022):一种有监督的深度学习方法,它将线性回归与插入神经网络的一个独特层相结合。这个层过滤掉混杂信息,只允许无混杂因素的残余信号传递到后续层。 在所有实验中,我们通过均方根误差(r-MSE)来量化连续变量的预测(公式(6))准确性,通过受试者工作特征曲线下面积(AUC)来量化二元变量的预测准确性,通过输入图像和重建图像之间的平均(L_1)范数来量化图像重建质量,并通过潜在图像表征((z_p))与变量之间的皮尔逊相关系数来量化混杂因素校正情况。我们还纳入了互信息(MI)(阿莱米等人,2016)和距离相关平方(dcor2)(维基百科,2024)作为评估混杂因素去除情况的额外度量指标。这些指标同时衡量线性和非线性相关性。较低的dcor2或较低的MI值表示相关性较低。

Figure

图片

Fig. 1. The proposed AI approach for association analysis in medical imaging. (a) Geometry perspective of correlations between a target and a confounder variable (𝐭, 𝐜), andits extension (⃗𝑡, ⃗𝑐) into the latent space (n=3 latent dimensions) of an autoencoder. Plane O is orthogonal to ⃗𝑐. 𝑝⃗∗ is the vector projection of ⃗𝑡 onto plane O. 𝐝 is the latentrepresentation of an input image and 𝐝 ′ is its projection onto 𝑝⃗∗ . 𝑧 ∗ 𝑝 is the distance between 𝐝 ′ and the origin. For cases with 𝑚 confounders, the latent dimensions should be𝑛 ≥ 𝑚 + 1, so as to guarantee there exist a 𝑝⃗∗ orthogonal to 𝑚 confounders; (b) a directed acyclic diagram explains the relationships between 𝐭, 𝐜, and image I. We aim to extractimage features associated with the learning target while being independent to the confounders. (c) The proposed approach in a neural network perspective. [𝑧1 , 𝑧2 ,… , 𝑧𝑛 ] arethe learned latent features by the network, which construct the latent space shown in (a); 𝐗 and 𝐗′ refer to the input and reconstructed image; θ𝑒𝑛𝑐 , θ𝑑𝑒𝑐 , θ𝑝𝑒 are the trainableparameters of encoder, decoder, and projection estimator.

图1. 所提出的用于医学影像关联分析的人工智能方法。(a) 目标变量和混杂变量(𝐭, 𝐜)之间相关性的几何视角,以及它们在自动编码器的潜在空间(潜在维度数(n = 3))中的扩展(⃗𝑡, ⃗𝑐)。平面(O)与⃗𝑐正交。𝑝⃗∗ 是⃗𝑡在平面(O)上的向量投影。𝐝 是输入图像的潜在表征,𝐝 ′ 是它在𝑝⃗∗ 上的投影。𝑧 ∗ 𝑝 是 𝐝 ′ 与原点之间的距离。对于有(m)个混杂因素的情况,潜在维度数应满足(n* \geq m + 1),以确保存在一个与(m)个混杂因素正交的𝑝⃗∗ ;(b) 一个有向无环图解释了 𝐭, 𝐜 和图像(I)之间的关系。我们的目标是提取与学习目标相关且独立于混杂因素的图像特征。(c) 从神经网络的角度来看所提出的方法。[(𝑧1, 𝑧2, \ldots, 𝑧n)] 是网络学习到的潜在特征,它们构成了图 (a) 中所示的潜在空间;𝐗 和 𝐗′ 分别指输入图像和重建图像;(\theta{enc})、(\theta{dec})、(\theta{pe}) 分别是编码器、解码器和投影估计器的可训练参数。

图片

Fig. 2. The distribution of the 2-D latent space for the synthetic images in the test set of Experiment 1, and the eleven reconstructed images sampling along the brightness-relatedvector, (a) without (i.e., vector ⃗𝑝) and (b) with correction (vector 𝑝⃗∗) for the confounding of circle radius, together with the predicted brightness 𝑡̂ derived by Eq. (6) and Eq.(7). 𝑍1 -axis: the first dimension of the latent space; 𝑍2 -axis: the second dimension. Each data point in the latent space represents an input image, which is denoted by its radiusand brightness. After training, eleven frames were reconstructed by sampling eleven points along the vector ⃗𝑝 and 𝑝⃗∗ (Eq. (6) and Eq. (7)) to visualize the confounding effects.Whereas our method does not involve the estimation of vectors ⃗𝑡 and ⃗𝑐, we have manually included them in this figure only for the purpose of enhancing comprehension

图2:实验1测试集中合成图像的二维潜在空间分布,以及沿亮度相关向量采样得到的十一张重建图像。(a) 未校正(即向量(\vec{p}))以及 (b) 校正后(向量(\vec{p}^))对圆形半径混杂因素的处理情况,同时展示了通过公式(6)和公式(7)得出的预测亮度(\hat{t})。(Z_1)轴:潜在空间的第一维度;(Z_2)轴:潜在空间的第二维度。潜在空间中的每个数据点代表一幅输入图像,由其半径和亮度来表示。训练完成后,沿着向量(\vec{p})和(\vec{p}^)(公式(6)和公式(7))采样十一个点来重建十一帧图像,以可视化混杂效应。尽管我们的方法不涉及向量(\vec{t})和(\vec{c})的估计,但我们在此图中手动加入了它们,只是为了增强理解。

图片

Fig. 3. The input images 𝐗 (8 × 5 circle images), and the reconstructed images 𝐗′ ofdifferent methods, in Experiment 1

图3:实验1中,输入图像 𝐗(8×5的圆形图像)以及不同方法得到的重建图像 𝐗′ 。

图片

Fig. 4. Distribution of datapoints in the 2-D latent space via (a) unsupervised trainingand (b) our proposed supervised training, in Experiment 1.

图4:实验1中,通过(a)无监督训练和(b)我们所提出的有监督训练得到的二维潜在空间中数据点的分布情况。

图片

Fig. 5. Interpretation heatmaps of facial changes in children with PAE using theproposed method: (a) without correction for confounders; (b) with correction forethnicity, BMI, maternal smoking, maternal age, and sex. Red areas refer to inwardchanges of the face with respect to the geometric center of the head. Heatmapgeneration is detailed in Section

图5:使用所提出的方法得到的孕期暴露于酒精(PAE)儿童面部变化的解释热图:(a) 未校正混杂因素;(b) 校正了种族、身体质量指数(BMI)、母亲吸烟情况、母亲年龄和性别的混杂因素。红色区域表示面部相对于头部几何中心的向内变化情况。热图的生成细节见[具体章节] 。

图片

Fig. 6. Interpretation heatmaps of facial changes in children exposed to alcohol duringpregnancy (PAE) using the proposed method with gradual correction for confoundersof ethnicity, BMI, maternal smoking, maternal age, and sex. From left to right, in thefirst heatmap no confounder was corrected for during the training; in the last heatmapall five confounders were corrected Eq. (4). Red areas refer to inward changes of theface with respect to the geometric center of the head

图6:使用我们所提出的方法,针对孕期暴露于酒精(PAE)的儿童面部变化的解释热图,该方法逐步校正了种族、身体质量指数(BMI)、母亲吸烟情况、母亲年龄和性别的混杂因素。从左至右,在第一张热图中,训练期间未校正任何混杂因素;在最后一张热图中,对公式(4)中的所有五个混杂因素都进行了校正。红色区域表示面部相对于头部几何中心的向内变化情况。

图片

Fig. 7. Data characteristic of the study population. (a) Joint distribution of g-factor andage. The Pearson’s correlation coefficient between age and g-factor is −0.51 (p-value= 4.88e−163, linear regression); (b) Histogram distribution of g-factor between maleand female. Male show slightly higher g-factor than female (p-value = 1.4e−5, linearregression); (c) Histogram distribution of g-factor for different educational years. Highereducational years show overall higher g-factors (p-value = 2.87e−57, linear regression)

图7:研究人群的数据特征。(a) 一般智力因素(g因素)与年龄的联合分布。年龄与g因素之间的皮尔逊相关系数为−0.51((p)值 = (4.88×10^{-163}),线性回归);(b) 男性和女性之间g因素的直方图分布。男性的g因素略高于女性((p)值 = (1.4×10^{-5}),线性回归);(c) 不同受教育年限人群的g因素直方图分布。受教育年限越高,总体上g因素也越高((p)值 = (2.87×10^{-57}),线性回归)。

图片

Fig. 8.Reconstructed supratentorial modulated gray matter maps using the sampledlatent features along the direction of increasing g-factor (a) without correcting forconfounders, and (b) with correcting for age, sex, and educational years. The resultsare averaged over the five folds, and masked out the statistically non-significant region.Color bar shows the direction and magnitude of the changes of GM density associatedwith a higher g-factor.

图8:利用沿g因素增加方向采样的潜在特征重建的幕上调制灰质图。(a) 未校正混杂因素,(b) 校正了年龄、性别和受教育年限。结果是五折交叉验证的平均值,并屏蔽了统计上不显著的区域。色条显示了与较高g因素相关的灰质密度变化的方向和幅度。 

Table

图片

Table 1Prediction error, Pearson’s correlation coefficient, and image reconstruction quality of methods without (NA) and with (*) correction for thecircle radius (confounder) in predicting the circle brightness (learning target) on the test set

表1:在测试集上,针对预测圆形亮度(学习目标)时,未校正(NA)和已校正(*)圆形半径(混杂因素)的各方法的预测误差、皮尔逊相关系数以及图像重建质量

图片

Table 2Data characteristic of children and their mothers included in the analysis (for thelabeled data only, N=1,515).

表2:纳入分析的儿童及其母亲的数据特征(仅针对标记数据,(N = 1515)) 。

图片

Table 3Association analysis between PAE (learning target) and children’s facial shape (input image). Results are presented without (NA) and with (*)controlling of the confounders (ethnicity, BMI, sex, maternal smoking, maternal age).

表3:孕期酒精暴露(PAE,学习目标)与儿童面部形状(输入图像)之间的关联分析。结果展示了未(NA)和已(*)控制混杂因素(种族、身体质量指数、性别、母亲吸烟情况、母亲年龄)的情况。

图片

Table 4Association analysis between the learning target global cognition (g-factor) and brain gray matter imaging. Results are presented without (NA)and with (*) controlling of confounders (age, sex, and educational years)

表4:学习目标即整体认知能力(g因素)与脑灰质成像之间的关联分析。结果呈现了未(NA)和已(*)控制混杂因素(年龄、性别和受教育年限)的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/77143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源免费虚拟化软件PVE功能介绍

Proxmox VE(PVE)提供了一个基于 Web UI(管理界面)的虚拟化管理平台,用户可以通过浏览器管理 虚拟机(VM)、容器(LXC)、存储、网络、备份、用户权限等。 一、PVE Web 界面…

新球体育比分状态监控

文章目录 目标分析监控逻辑代码目标分析 网页监控地址:aHR0cHM6Ly9saXZlLnRpdGFuMDA3LmNvbS9pbmRleDJpbjEuYXNweD9pZD0x 监控逻辑 比分等数据主要是依赖JS加载得到,通过ajax后端进行渲染 代码 # -*- coding: utf-8 -*-import warnings warnings.filterwarnings(ignore) f…

【lodash的omit函数详解 - 从入门到精通】

lodash的omit函数详解 - 从入门到精通 小白视角:什么是omit? omit在英文中意为"忽略"或"省略"。在编程中,它就是从一个对象中删除不需要的属性,返回一个新对象。 // 原始对象 const person {name: "…

软考笔记9——数据库技术基础

第九章节——数据库技术基础 数据库技术基础 第九章节——数据库技术基础一、基本概念1. 数据库与数据库系统2. 数据库的三级模式2.1 内模式2.2 概念模式2.3 外模式2.4 数据库的两级映射2.5 数据库设计的基本步骤 二、数据模型1. 基本概念2. E-R模型2.1 实体2.2 联系2.3 属性 3…

Django分页教程及示例

推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 完整代码示例:结论Django的分页模块允许你将大量数据分割成更小的块(页面)。这对于以可管理的方式显示项目列表,如博客文章或产品…

int 与 Integer 的区别详解

1. 本质区别 特性intInteger类型基本数据类型(Primitive)包装类(Wrapper Class)存储位置栈(或作为对象成员在堆中)堆(对象实例)默认值0null(可能导致 NullPointerExcept…

mariadb使用docker compose方式安装

问题 本地mac m1上面的mysql和mariadb突然不用使用了,重新安装也不想,最近mac系统也更新了,brew也更新了,重新安装mariadb还是不能正常使用,现在我打算使用docker来安装本地的mariadb了。 默认配置文件my.cnf 从容器…

基于React + Antd + Java的OFD文件上传预览实现方案(OFD文件转图片)

一、前端实现方案(React + Antd) import React, {useState } from react; import {Upload, Button, Image, Carousel } from antd; import {UploadOutlined } from @ant-design/icons;const OFDUploadPreview = () => {const [previewImages, setPreviewImages] = useSta…

从零构建大语言模型全栈开发指南:第四部分:工程实践与部署-4.3.1LangChain与Dify平台实战:从RAG到Agent工作流

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 LangChain与Dify平台实战:从RAG到Agent工作流 - 4.3.1 LangChain与Dify平台实战:从RAG到Agent工作流1. LangChain核心组件与RAG架构设计1.1 LangChain核心模块1.2 RAG架构实现流程2. RAG实战:企业知识…

操作 Office Excel 文档类库Excelize

Excelize 是 Go 语言编写的一个用来操作 Office Excel 文档类库,基于 ECMA-376 OOXML 技术标准。可以使用它来读取、写入 XLSX 文件,相比较其他的开源类库,Excelize 支持操作带有数据透视表、切片器、图表与图片的 Excel 并支持向 Excel 中插…

R Excel 文件:高效数据处理与可视化工具的完美结合

R Excel 文件:高效数据处理与可视化工具的完美结合 引言 在数据分析和处理领域,R语言因其强大的数据处理能力和丰富的可视化功能而备受青睐。而Excel作为最常用的电子表格软件,其广泛的应用也使得R与Excel的结合成为数据处理与可视化的理想…

[ctfshow web入门] 零基础版题解 目录(持续更新中)

ctfshow web入门 零基础版 前言 我在刷题之前没有学过php,但是会python和C,也就是说,如果你和我一样会一门高级语言,就可以开始刷题了。我会以完全没学过php的视角来写题解,你也完全没有必要专门学习php,这…

linux第三次作业

1、将你的虚拟机的网卡模式设置为nat模式,给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 2、测试你的虚拟机是否能够ping通网关和dns,如果不能请修改网关和dns的地址 3、将如下内容写入/etc/hosts文件中(如果有多个ip地址则写多行&…

如何开发 HTML 游戏

开发 HTML 游戏适合初学者学习编程和游戏开发的基础知识。HTML 游戏通常结合了 HTML、CSS 和 JavaScript 技术,利用浏览器的渲染能力来实现交互式的游戏体验。 1. 确定游戏类型 在开始开发之前,你需要明确你的游戏类型。例如: 简单游戏&…

我的NISP二级之路-02

目录 一.数据库 二.TCP/IP协议 分层结构 三.STRIDE模型 四.检查评估与自评估 检查评估 自评估 五.信息安全应急响应过程 六.系统工程 七.SSE-CMM 八.CC标准 九.九项重点工作 记背: 一.数据库 关于数据库恢复技术,下列说法不正确的是&#xff1a…

结构化需求分析:专业方法论与实践

结构化需求分析是一种用于软件开发或其他项目中的系统分析方法,旨在全面、准确地理解和描述用户对系统的需求。以下是关于结构化需求分析的详细介绍: 一、概念 结构化需求分析是采用自顶向下、逐步分解的方式,将复杂的系统需求分解为若干个…

windows10安装配置并使用Miniconda3

windows10安装配置并使用Miniconda3 Conda 与 Anaconda 的区别 Conda 是包管理和环境管理工具,Anaconda 在 Conda 的 基础上预装了大量科学计算包 Conda 与 pip 的区别 Conda 是跨语言的包和环境管理器(支持 Python/R 等),能安…

PyTorch中的Flatten

在 PyTorch 中,Flatten 操作是将多维张量转换为一维向量的重要操作,常用于卷积神经网络(CNN)的全连接层之前。以下是 PyTorch 中实现 Flatten 的各种方法及其应用场景。 一、基本 Flatten 方法 1. 使用 torch.flatten() 函数 import torch# 创建一个4…

Spring Boot + MyBatis + Maven论坛内容管理系统源码

项目描述 xxxForum是一个基于Spring Boot MyBatis Maven开发的一个论坛内容管理系统,主要实现了的功能有: 前台页面展示数据、广告展示内容模块:发帖、评论、帖子分类、分页、回帖统计、访问统计、表单验证用户模块:权限、资料…

探索AI编程规范化的利器:Awesome Cursor Rules

在AI辅助编程逐渐成为开发者标配的今天,如何让AI生成的代码既符合项目规范又保持高质量,成为开发者面临的新挑战。GitHub仓库**awesome-cursorrules**正是为解决这一问题而生的开源项目,它通过系统化的规则模板库,重新定义了AI编程的规范边界。本文将深入解析这一工具的核心…