编者按:今年Joël Greffier博士等在European Radiology (IF 4.1)上发表了题为《Image quality and dose reduction opportunity of deep learning image reconstruction algorithm for CT: a phantom study》的文章,通过与混合迭代重建算法(IR)对比,评价一种新型基于深度学习的图像重建算法(DLIR,GE TrueFidelity™)对图像质量和剂量降低的影响。对于了解基于深度学习(DLIR)的GE的最新图像重建算法(TrueFidelity™)的原理,性能(图像质量,降噪能力,空间分辨率等)有很大的帮助,对于今后利用这个图像重建新技术来进行临床应用和临床研究有很好的指导意义。在这里我们特别邀请到王铭君博士对这篇文章进行了详细的解读,王铭君博士还对这次体模研究用到的各种图像评价参数进行了详细说明(Appendix)。
01
—
摘要(Abstracts)
目的:通过与混合迭代重建算法(IR)对比,评价一种新型基于深度学习的图像重建算法(DLIR)对图像质量和剂量降低的影响。
方法:使用7个剂量水平(CTDIvol: 15/10/7.5/5/2.5/1/0.5 mGy) ,对用来评估图像质量的标准体模进行数据采集。利用滤波反投影(FBP)、两个等级的IR(ASiR-V50% (AV50) ,ASiR-V100%(AV100))、以及DLIR的三个等级(TrueFidelity™ 低,中,高) 对原始数据进行重建。计算噪声功率谱(NPS)和基于任务的传递函数(TTF), 并模拟肝脏内的大肿块、小钙化灶和小而精细且低对比度的病灶来检测能力指数(d')。
结果:AV50的NPS峰值高于所有DLIR等级,AV100的NPS峰值只高于DLIR-H。DLIR的NPS平均空间频率高于IR的结果。所有DLIR等级的TTF50%结果均高于IR。所有DLIR等级的d′高于AV50的结果,然而DLIR-L和DLIR-M的d′低于AV100的结果。对于低对比度病灶,DLIR-H的d′高于AV100 (10 ± 4%),对于其他模拟病灶,两者d′结果接近。
结论:新型DLIR重建算法可以降低噪声同时提高图像空间分辨率和检测能力,不会改变噪声纹理。对比IR重建的图片,通过DLIR可以有效进行剂量优化。
02
—
关键点(Key points)
本研究评估了新型深度学习图像重建算法(DLIR)对比混合迭代重建算法(IR)对图像质量和辐射剂量的影响。
新型DLIR算法降低噪声,提高空间分辨率和检测能力,不会出现IR重建算法导致的纹理变化情况。
与IR重建算法相比,DLIR可以给剂量优化提供更多可能性。
关键词:多层CT探测器;图像增强;图像重建;深度学习
03
—
背景和目的
CT检查中病人辐射剂量问题广受关注,因此在每次CT参数设置对剂量优化非常必要。许多工具开发出来用以优化剂量,如管电流调节技术(TCM)或迭代重建算法(IR)。TCM将管电流作为患者衰减的函数,来提供更均匀的剂量分布,从而提高图像质量(IQ)和减少伪影。IR算法在相同剂量水平下降低了图像噪声,因此可以在保持图像质量指数的同时降低剂量。近年来出现了几代IR算法,包括统计IR算法和完全/混合/高级基于模型的IR(MBIR)算法。多个临床研究显示IR算法可以降低剂量。但是,IR算法的非线性和非稳定性使得空间分辨率依赖于对比度和剂量。此外,IR算法会改变图像的噪声幅度和纹理特征,这使得给人的视觉印象不同于FBP图像的外观和视觉感觉。经常有报道反应IR图像的噪声纹理看起来“平滑”、“有斑点”、“塑料感”,或者“不自然”。使用这些IR算法获得的图像质量可能妨碍对图像的理解,限制了高权重迭代的使用,从而限制了其在临床应用中减少剂量的潜力。
如今,人工智能的应用增多,并在包括医学成像在内的各个科学领域展示了它的潜力。在机器学习技术中,深度学习最近显示出了巨大的潜力,可以在不改变噪声纹理或影响解剖和病理结构的情况下,在抑制噪声的同时重建CT图像。因此,一些CT厂商开发了新一代基于深度学习的CT图像重建技术。GE Healthcare和Canon Medical system开发的深度学习图像重建算法(Deep Learning Image Reconstruction, DLIR)使用深度神经网络(Deep Neural Network, DNN),该神经网络分别使用高质量滤波反投影FBP (TrueFidelity™,GEHealthcare)和MBIR (Advanced intelligent Clear-IQ Engine [AiCE],佳能医疗系统) 数据集的训练,以学习如何区分噪音和信号。据我们所知,还没有研究进行DLIR算法与同一制造商的IR算法的比较,研究对剂量减少和图像质量的影响。
我们研究的目的是评估GE Healthcare CT系统中DLIR算法(TrueFidelity™)与混合IR算法(ASiR-V)对图像质量和剂量减少潜力的影响。为了实现这一目标,我们进行了基于任务的图像质量评估。
04
—
材料与方法
1) CT系统和图像重建算法
本研究在法国圣德尼的诺德心脏病研究中心(Centre Cardiologique du Nord)进行了Revolution CT (GE Healthcare)的图像采集,该CT同时装配了混合IR算法(ASiR-V)和DLIR算法(TrueFidelity™),GE的DLIR提供了三个强度等级(低、中、高),可以进行即时的快速本地的DLIR的图像重建。
混合IR算法ASiR-V使用了概率统计方法,引入统计损失函数,通过X射线物理机理以及CT光学模型来降低噪声和伪影。如之前所说,该算法可以降低噪声,从而降低剂量,但是同时改变了图像纹理。因此开发DLIR TrueFidelity™来解决这一问题,同时提高图像质量。
基于深度学习(DLIR)的GE的TrueFidelity™使用FBP图像作为训练集,融合了近几十年使用FBP积累的技术和临床知识。当在接近理想条件下使用时,例如高剂量、完整的采样轨迹和高分辨率图像矩阵,FBP可以产生理想的图像质量,得到可靠的诊断信息。
GE Healthcare的TrueFidelity™采用的DNN包含了上百万个参数来表示高质量图像的特征,即使低剂量或非理想的扫描条件下的CT数据也可以进行高质量图像重建。GE的科学家对这些DNN参数进行训练,输入低剂量投影数据和图像数据,并将输出图像与使用FBP算法得到的真实图像(同一数据的高剂量图像)进行比较。同时科学家使用新的体模和临床图像来广泛验证算法的鲁棒性。完成监督训练和验证步骤后,确定下来的系数被应用到基于DNN模型的DLIR引擎(TrueFidelity™)中,该引擎负责根据输入的投影数据生成重建图像。
在实际临床扫描中,CT扫描仪得到的原始数据只需要通过DLIR引擎一次,即可在极快重建时间内完成图像重建,并产生TrueFidelity真理图像。
因为是以高剂量高质量的FBP图像作为训练目标,所以无论是高对比度诊断目标还是低对比度诊断目标,理论上TrueFidelity真理图像,都具有出色的图像质量和真实的噪声纹理(也不容易产生IR特有的蜡像样伪影)和快速的重建速度,可应用于各项临床CT检查(包括头部,全身,心血管,以及各年龄段患者的检查图像),提升诊断医生的读片信心。
2) 数据获取
将直径为20厘米的ACR QA体模(Gammex 464)置于体环内(直径33厘米,长度24厘米)进行扫描,测量其物理指标(图1)。所有采集均使用120 kVp管电压。通过设置管电流(mA)获得7个容积CT剂量指数(CTDIvol 15, 10, 7.5, 5, 2.5, 1, 0.5mGy)。其它采集参数为螺距0.998、光束准直64×0.625 mm、旋转时间0.6s。原始数据采用FBP、ASiR-V 50% (AV50)和ASiR-V 100% (AV100),以及TrueFidelity™ DLIR(低、中、高)三个等级进行重建。图像重建采用“标准”重建核,层厚为1.25 mm(增量为1.25mm),FOV为250 mm。
图1. a 研究中使用的体模; b 噪声功率谱(NPS)评估的感兴趣区域(ROIs); c 骨和丙烯酸插入物,计算基于任务的转移函数(TTF)的ROIs
3) 基于任务的图像质量评估
本研究采用imQuest软件(Duke)进行图像质量评估,使用噪声功率谱(NPS)对图像噪声纹理和大小进行评估; 使用基于任务的传递函数(TTF)对空间分辨率进行评估,空间分辨率是剂量水平和对比度的函数; 同时使用检测能力指数(d′)评估放射科医生检测某些病变的能力。
根据Samei等人的定义,通过三个任务函数来表示大小特征。假定对比度为预成像120HU,直径25mm的圆形信号来代表大特征,使用对比度500 HU,直径1.5 mm的圆形信号来代表小特征,第三个“精细”任务函数则定义为对比度为预成像10 HU、直径10mm的圆形信号。
丙烯酸插入物的TTF结果用于模拟大特征和精细特征,而骨插入物的TTF结果用于模拟小特征。大体积的肺或肝脏用大特征进行建模检测,钙化或高对比度组织边界检测使用小特征进行建模检测,肝脏低对比度病灶则使用精细特征进行建模检测。
用于获得d '的解释条件包括1.5倍的变焦系数、450毫米观察距离和500毫米FOV。
05
—
结果
1) 噪声功率谱
表1为NPS峰值和平均空间频率数据,图2为4个剂量水平下所有重建算法的NPS曲线。随着剂量的增加,IR的百分比升高,DLIR水平升高,NPS峰值会出现降低 (表1)。AV50组NPS峰值高于所有DLIR重建等级。AV100组的NPS峰值仅高于DLIR-H组,而低于DLIR-L组,也低于DLIR-M组(-11±15%)。
随着剂量的降低,NPS的空间平均频率向较低频率移动(图2)。对于所有剂量水平,FBP的NPS的空间平均频率最高(0.20 - 0.30 mm-1)。AV100(0.12 - 0.17 mm-1)的NPS平均空间频率低于AV50(0.17 - 0.26 mm-1)。NPS平均空间频率随DLIR水平的升高而降低。
DLIR组的NPS平均空间频率高于IR组。与AV50相比,DLIR-L的NPS平均空间频率平均高出 13±3%,DLIR-M组高8±2%,DLIR-H组高1±2%。DLIR与AV100的差异更大,分别为72±7%、64±8%和53±9%。
表1. 不同重建类型和剂量水平的噪声功率谱峰值和平均空间频率
图2 滤波反投影(FBP)、ASiR-V 50% (AV50)、ASiR-V 100% (AV100)、三个等级的深度学习图像重建(DLIR)算法在四种剂量水平(0.5、2.5、5、10 mGy)下的噪声功率谱(NPS)曲线
2) 基于任务的传递函数
图3显示了丙烯酸和骨插入物在所有重建类型和三种剂量水平下的TTF曲线。表2显示了两个插入的TTF50%值。TTF值随剂量下降而下降,尤其是在最低剂量水平下更加明显。对于所有CT扫描方案和插入物,TTF50%值随IR百分比的增加而降低,但TTF50%值不受DLIR水平变化的影响。
表2 骨和丙烯酸树脂插入物在所有重建类型和剂量水平的 TTF50%结果
图3 使用过滤反投影(FBP)、ASiR-V 50% (AV50)和ASiR-V 100% (AV100)以及深度学习图像重建(DLIR)算法,在3个剂量水平(0.5、2.5和10 mGy)下丙烯酸和骨插入物的基于任务的传递函数(TTF)曲线
对于骨插入物,在FBP和AV50之间发现相似的TTF值(0±1%)。AV100组TTF50%低于FBP组(- 8±3%)。15 ~2.5 mGy时,所有等级DLIR(低、中、高)重建的TTF50%高于IR,1 ~ 0.5 mGy时则相反。DLIR组TTF50%较AV50组平均高3±11%,较AV100组平均高11±11%。
对于丙烯酸树脂插入物,IR的TTF值低于FBP。AV50组TTF值高于AV100组(- 20±4%)。DLIR组TTF值高于AV50组(29±14%)和AV100组(61±18%)。
3) 检测能力指数
图4描述了FBP、IR和DLIR得到的d '值。d '随剂量增加而增加,且FBP组总低于IR或DLIR组。
在所有临床任务中,AV100组的d '值高于AV50组。小特征的FBP与IR、AV50与AV100之间的差异大于其他两种特征。DLIR组的d '值高于AV50组,并且在所有临床任务中d '值都随DLIR水平的升高而升高。DLIR-L和DLIR-M的d '值低于AV100,DLIR-H组的d '值高于AV100组(10±4%)。对于其他临床任务,DLIR-H的d '值与AV100相似。
图4 过滤反投影(FBP),ASiR-V 50% (AV50)和ASiR-V 100% (AV100),以及深度学习图像重建(DLIR)的三个等级对小特征 (直径1.5毫米,500HU对比度),大特征(直径25毫米,120HU对比度),和精细特征(10毫米直径,10HU对比度)在不同剂量下的的检测能力指数(d′)
4) d′增加潜力和剂量降低潜力
为了评估DLIR与AV50对d '的潜在增加,比较CTDIvol为10mGy时的d '值。表3显示,所有检测特征的可检测性都随着DLIR水平的增加而增加。
表3 与ASiR-V50%相比,DLIR可提高图像质量和减少潜在剂量。“’d '值增加”对应于常规剂量CTDIvol10 mGy,“剂量减少”对应10 mGy时ASiR-V 50%的‘d '值
为了评估潜在的剂量减少,我们比较了DLIR在10mGy时达到与AV50相同的‘d‘值时对应的CTDIvol。结果表明DLIR有可能降低所有检测特征的CTDIvol。小特征和细微特征的潜在剂量减少略高于大特征。
5) 图像质量视觉评估
图5描述了在每个剂量水平下使用丙烯酸树脂插入物使用FBP、IR和DLIR算法获得的图像质量(IQ)。
对于所有的算法,图像噪声随着剂量的减少而增加,噪声降低了空间分辨率(视觉边界检测)和对比度。插入物的可检测性在0.5毫戈瑞时是“困难的”。使用ASiR-V,图像更加平滑,尤其是对于AV100。与AV50相比,DLIR获得的图像噪声小、平滑度低,提高了空间分辨率(视觉边界检测)和插入检测能力。
图5 3×3 cm2的感兴趣区对于丙烯酸插入物的滤波反投影(FBP)、AV50(ASiR-V 50%)和AV100(ASiR-V 100%),三个等级的深度学习图像重建的图像
06
—
讨论
在本研究中,我们利用基于任务的图像质量评价方法,评估了一个新引进的DLIR技术,并与IR算法进行比较。结果表明新DLIR算法减少了噪音,提高了空间分辨率和可检测性,而没有出现IR通常会出现的图像纹理变化。
基于人工智能的新型重建算法的图像质量特征尚未被广泛表征,还需要与FBP、IR等参考重建方法进行比较和理解。在以前的研究中,研究人员对IR重建算法进行研究,证明了其对大多数临床适应症的降噪能力和减少患者辐射。然而,一些研究证明了IR的局限性,会造成纹理退化,并表明相关的剂量优化会对图像质量、检测和诊断带来风险。
为了客观地评价IR的非线性和非稳定性和量化图像质量,本研究引入了基于任务的评价概念。在表征IR、与传统FBP比较和估计其剂量减少潜力时,都表露出传统基于傅里叶变换指标的不足。因为DLIR重建最近才公布, 不是基于传统的算法,而是基于人工智能,以我们所知,除制造商GE以外没有在任何研究中进行客观地评估过,评估最终图像质量至关重要的是噪音大小和纹理,空间分辨率和基于任务的检测能力指数。
DLIR重建算法TrueFidelity™目的是在不改变纹理的情况下降低图像的噪声。本研究结果证实了DLIR可降低噪声强度。与FBP相比,NPS峰值从DLIR-L的50%降低到DLIR-H的68%。此外,利用高质量FBP图像训练DLIR算法,DLIR得到的噪声纹理和空间分辨率(分别用NPS空间频率和TTF50%评估)与FBP算法结果相似。FBP和DLIR的NPS空间频率在不同剂量下有相似之处。在2.5 mGy以下,NPS空间频率向较低频率移动。还应注意的是,随着DLIR水平的增加,NPS峰值和NPS空间频率略有下降,但TTF50%的值没有变化。最后,NPS和TTF联合结果显示,DLIR对三种模拟病灶的可检性高于FBP,随着DLIR水平的升高更加明显。
本研究中IR算法的基于任务的图像质量评价结果与以往研究结果一致。IR增加会导致NPS峰值降低,NPS空间频率向低频方向移动。由于IR算法的非线性和非稳定性,空间分辨率与对比度和剂量相关。与FBP相比,丙烯酸类插入物的TTF值变化高于骨植入物和低对比度低剂量情况。然而随着IR的增加,d '值相对FBP结果有了很大的提高。
DLIR与IR的比较结果根据所研究的度量值和IR的百分比不同而有所不同。所有DLIR水平的NPS峰值均低于AV50,但仅AV100与DLIR-H相当,这可能表明了DLIR训练的目标。基于线性特性(空间分辨率与剂量和对比度无关)的FBP图像校正,DLIR的NPS空间频率和TTF值均高于IR。在低对比度下,DLIR和IR的TTF值差异较大。重建剂量和重建水平的变化对DLIR的影响小于IR。最后,DLIR组三个模拟病灶的d’值均高于AV50组,但仅DLIR-H组精细特征在所有剂量水平上高于AV100组。
对图像质量的视觉评估证实了利用基于任务在噪音强度、噪音纹理和空间分辨率方面的评估结果。在相同剂量水平下,FBP图像的噪声强度高于IR和DLIR图像。IR的图像出现平滑现象,尤其是在AV100图像中。从NPS曲线的平均频率可以看出,DLIR的图像纹理类似于FBP,但噪声幅值更低。
多项研究表明,高权重等级的IR由于过多的图像平滑和不自然的图像外观难以在临床应用。盆腹腔检查的良好折中方案是使用文献中最常用的迭代水平AV50或AV60进行重建。为了保证满足诊断的图像质量,剂量减少同时要保持适度的图像质量强度。本研究的结果表明,在相同的可检测能力下,在不同的临床任务中,DLIR-L的剂量可能比AV50减少9 -17%,DLIR-H减少46 - 56%。此外,对于相同的剂量情况下,利用DLIR重建的图像质量相对于IR来说,特别是噪声纹理和空间分辨率,可以改善腹部病变的分割和表征。与AV50相比,DLIR确实提高了低对比度、小直径模拟病灶的可检出性。
07
—
总结
新型TrueFidelity™深度学习图像重建算法在不改变于FBP对应的噪声纹理的情况下,降低了噪声幅度,提高了空间分辨率和可检测性。DLIR获得的图像比IR获得的图像显示了更大的剂量优化潜力,其重建时间适合临床使用。因此,未来需要应用在临床条件下的患者研究,以确认在本体模研究中发现的结果。
08
—
Appendix:图像评价参数
1) MTF modulation transfer function 调制传递函数
MTF是在傅里叶域中描述线性和位移不变成像系统分辨率的度量,MTF定义为输出图像对比度/输入图像对比度,MTF的值在0到1之间,MTF为0,表示成像系统无法获取物体的信息,MTF为1则表示成像系统可以重现物体的所有信息。
图1. MTF示意图,A,B,C代表不同成像系统的MTF曲线结果
在CT中MTF反应成像系统在空间频域的空间分辨率和对比度特性,通过MTF的值可以反应CT对成像物体的分辨能力,50%MTF可以反应CT对软组织(如肝脏)的识别能力,10%MTF反应CT对骨骼的分辨能力,所以MTF的测量值与目标任务有关。所以在对CT进行MTF评估时,需要对不同目标任务进行测量计算。
CT的MTF计算方法主要有点扩散函数,线扩散函数以及边缘扩散函数。
对于点扩散法,通过假设成像图像是个点像,通过成像系统后形成的点图像,成像散开程度越大,则表示成像系统分辨能力越差。但是由于实验难以提供完美的点像,而且点扩散携带的数据信息较少,容易受到噪声的影响,重复性差。对于线扩散法,则利用线对(bar)通过CT进行成像,线的扩散程度反映了CT的空间分辨能力。缺点则是实验对线对的选择有严格的要求,在计算低噪声平均图像时,切片之间的边缘不对齐会造成边缘的模糊,降低MTF的测量精度。
现在研究者普遍使用边缘扩散法进行计算MTF,使用球形或圆盘物理进行CT成像,通常使用ACR QA体模进行评估。美国材料试验协会(ASTM)制定了CT测试标准,使用均匀圆盘为试件,通过插值,微分及傅里叶变化求得MTF曲线。
2) NPS noise power spectrum 噪声功率谱
利用标准差(SD)估计CT图像噪声,由于测量方法相对简单、快速,得到了广泛应用。然而,它提供了一个非常有限的噪声大小的描述,两幅具有非常不同的噪声纹理的图像可能有相同的标准差,如图2所示。
图2. 两幅标准差相同但图像纹理不同的图片,a) 高频噪声;b) 低频噪声。图像之间的鲜明差异说明了使用标准偏差充分评估图像噪声的局限性。
噪声功率谱(NPS)测量方法基于傅里叶变换,将噪声信号变换至频域进行分离测量,能够描述重建数据中的噪声频率变化,是一个更为全面的噪声评价方式。
在研究中,通常对水膜进行扫描,可以去除硬化伪影和X射线散射对结果的影响。NPS的计算如下:
,
计算总体扫描与理论背景的差值即为二维空间的噪声分布,通过傅里叶变换,则可以将噪声进行频域分离,从而反应噪声频率变化和分布的具体情况。
图3. 4mGy下FBP,ASiR-V40%,ASiR-V60%,ASiR-V100%重建图像的NPS曲线
图3为常见CT图像的NPS评估结果,FBP图像在正常剂量和高剂量下NPS结果不会受到剂量影响,曲线走势和平均频率相差不大。随着ASiR-V迭代算法重建权重的提高,NPS峰值降低,图像噪声减小,但平均频率左移增加,图像会出现噪声纹理变化和过度平滑的现象。
3) d’可检测指数
研究客观和主观指标之间的关系,需要使用复杂的指标,可检测指数提供了一个综合系统性能和成像任务的价值。在这种形式下,可检测指数也可以理解为任务函数与MTF task和NPS的加权和,相对空间频率的变化情况。检测能力具有空间分辨率和噪声纹理(像素相关性), 更全面地评估系统的分辨率的图像质量和噪声纹理与剂量和对比与迭代重建算法的相关性,是客观评价任务检出能力的参数。
d '的目标是找到最低剂量,产生足够的图像质量,提供良好的临床表现。
通常计算d‘需要确定目标任务,对不同的目标任务(如骨骼,软组织,低密度病灶等),CT成像系统对任务的检测能力也有所不同。
由于MTF和NPS与检出任务相关,NPS与剂量相关,则d’是基于指定的检出任务,在不同剂量下的客观诊出结果。
参考文献:
1) Greffier J., Hamard A., PereiraF., et al. Image Quality And Dose Reduction Opportunity of Deep Learning Image Reconstruction Algorithm for CT: A Phantom Study. Eur Radiol. 2020; 30(1):10.1007/s00330-020-06724-w.
2) De Marco P,Origgi D. New adaptive statistical iterative reconstruction ASiR-V: Assessment of noise performance in comparison to ASiR. JAppl Clin Med Phys. 2018;19(2):275-286. doi:10.1002/acm2.12253.
(摄影 David He)
- the END -