关键词:深度学习、肺癌、多标签、轻量级模型设计、异常肺音、音频分类
近年来,流感对人类的危害不断增加,COVID-19疾病的迅速传播加剧了这一问题,导致大多数患者因呼吸系统异常而死亡。在这次流行病爆发之前,呼吸系统疾病已经成为社会主要死亡原因之一,包括“五大”呼吸系统疾病:哮喘、慢性阻塞性肺病(COPD)、急性下呼吸道感染、肺癌和结核病。COPD在全球致命疾病中排名第三,每年夺去320万人的生命,占所有慢性呼吸系统疾病死亡的81.7%。
随着对肺部疾病的关注度日益增加,这些疾病的早期诊断也成为关注的焦点。通过听诊监测呼吸音是评估患者呼吸健康的传统方法,医生通常使用听诊器作为诊断肺部疾病和异常的临床工具。听诊器的主要目的是在给定时间框架内识别呼吸音的变化,如喘鸣、啰音和喘息。
- 啰音是短暂、爆炸性、非音乐性的声音,通常出现在有实质性肺部疾病的患者中,如肺炎、间质性肺纤维化(PF)和肺水肿。
- 喘鸣是与气道疾病如哮喘和慢性阻塞性肺病(COPD)相关的异常呼吸音,其特征是高音调,持续时间超过80毫秒。喘鸣被描述为一种连续的哨声和嘶嘶声,叠加在正常呼吸上。喘鸣是由气道狭窄引起的,导致气流受。
- 喘息是一种类似于喘鸣的连续气道声音,其特征是嘶嘶声和音乐般的音质。这种声音主要在吸气时听到,但有时也可能出现于呼气或两个阶段。与喘鸣不同,喘息是由喉部或支气管树的气流湍流引起的,通常与上呼吸道阻塞有关。
这些不同类型的呼吸音在诊断各种肺和气道疾病中起着至关重要的作用。使用听诊器听肺音是一种传统技术,也是专家对呼吸系统疾病的初步评估中最受欢迎的诊断方法。听诊的优点包括是一种非侵入性诊断方法和有效的辅助诊断工具,有助于诊断和区分各种呼吸系统疾病。然而,这种诊断方法也有局限性,如下所述:
- 主观性强:不同医生对呼吸音的解读存在差异,这取决于他们的经验、知识水平和听力能力。即使是经验丰富的医生,也可能对某些呼吸音产生不同的解读。这种主观性会导致诊断结果的不一致性,影响治疗方案的确定。
- 易混淆:不同异常呼吸音之间存在相似性,例如:哮喘的喘鸣音和声带功能障碍的喘鸣音: 这两种声音都表现为连续、高音调的哨声,波形呈正弦波,在时域上具有周期性。肺炎的爆裂音和肺纤维化的爆裂音: 这两种声音都表现为短暂、爆炸性、非音乐性的声音。这种相似性容易导致医生在初步诊断阶段产生混淆,难以准确区分不同的呼吸音,从而影响诊断结果和治疗方案的制定。
- 效率低:使用听诊器诊断需要医生花费大量时间和精力,尤其对于经验不足的医生来说,需要更长的时间才能准确识别和区分不同的呼吸音。在疫情或紧急情况下,需要快速评估大量患者的呼吸状况,传统方法难以满足这种需求。
- 受环境因素影响:周围环境噪音、患者的体位和呼吸状态等因素都会影响医生对呼吸音的判断。
1 方法
1.1 相关技术
1.1.1 可学习频谱前端模块
传统方法使用人工设计的特征变换,例如短时傅里叶变换(STFT)、梅尔频率倒谱系数(MFCC)和常数Q变换(CQT)等。这些变换存在固定的特征偏差,无法保证在所有任务中都获得最佳性能。
可学习频谱前端模块通过学习滤波器来提取特征,可以更好地适应不同的任务,并避免固定的特征偏差。
常见的可学习频谱前端模块包括:
- 基于Mel滤波器组的滤波器学习: 将滤波器初始化在Mel尺度上,并与其他网络组件一起学习。
- 基于原始波形的滤波器学习: 直接从原始波形中学习卷积滤波器,例如SincNET和EfficientLeaf。
- 基于Gabor滤波器的滤波器学习: 使用Gabor滤波器,结合正弦信号和高斯核,实现时间-频率局部化。
1.1.2 深度学习架构
随着深度学习技术的发展,许多深度学习模型被应用于呼吸音识别任务,并取得了较好的性能。常见的深度学习架构包括:
- 卷积神经网络(CNN): 用于提取时频特征,例如ResNet、CNN6和MobileNetV2等。
- 循环神经网络(RNN): 用于处理序列数据,例如LSTM和GRU等。
- 注意力机制: 用于捕捉时频特征之间的关系,例如Transformer和CSRA等。
预训练模型的使用可以弥补训练样本不足的问题,并提高模型性能。轻量级模型的设计可以降低模型复杂度,方便部署到便携式设备上。
1.2 数据集
本研究使用了在国际生物医学健康信息学会议(ICBHI 2017)上组织好的呼吸音数据库。ICBHI数据集包含6,898个呼吸周期,总计约5.5小时,并正式分为训练集(60%)和测试集(40%)。值得注意的是,在训练集和测试集的分割中,两个数据集之间的患者数据不重叠。每个呼吸周期被标记为以下四类之一:正常、啰音、喘鸣或啰音&喘鸣。训练集包含来自79名患者的539个记录,包括1,215个啰音周期、501个喘鸣周期、363个啰音&喘鸣周期和2,063个正常呼吸周期。类似地,测试集包括来自49名患者的381个记录,总计649个啰音周期、385个喘鸣周期、143个啰音&喘鸣周期和1,579个正常呼吸周期。
链接:
https://github.com/Maheswara1/ICBHI-Respiratory-Challenge-2017-dataset.
1.3 实验流程
- 数据收集和划分:将数据集按照患者进行划分,分为训练集、验证集和测试集。
- 特征提取:使用可学习的频谱前端模块或直接将音频信号转换为特征谱图。
- 数据增强:使用随机改变音频的速度和音调等方法进行数据增强。
- 模型设计:选择轻量级模型进行训练,并对分类器结构进行调整优化。
- 多标签学习:将类别标签转换为多标签形式,并使用二分类交叉熵损失函数进行训练。
- 多头注意力机制:在分类器中使用多头注意力机制,提高模型对时频特征的提取能力。
- 模型评估:使用Score、Specificity和Sensitivity等指标评估模型性能。
1.4 数据预处理
1.4.1 采样率统一:将所有音频录音的采样率统一为16 kHz,方便后续处理和模型训练。
1.4.2 时长统一:由于每个患者的呼吸周期时长不同,使用循环填充将所有呼吸周期的时长扩展到8秒,保证模型输入的一致性。
1.4.3 特征提取
- 可学习的频谱前端模块: 如果使用可学习的频谱前端模块,则直接提取特征。
- 梅尔谱图: 将音频信号转换为梅尔谱图,使用64个Mel滤波器,窗口大小为1024,步长为512,最小频率为50 Hz,最大频率为2000 Hz。梅尔谱图的尺寸为(64, 256)。
1.4.4 数据增强
- 随机改变速度和音调: 如果使用可学习的频谱前端模块,则对音频信号进行随机改变速度和音调,增加数据多样性。
- 时间掩码和频率掩码: 对梅尔谱图进行时间掩码和频率掩码,模拟真实世界中的噪声和干扰,提高模型的鲁棒性。
1.4.5 标签转换:将类别标签转换为多标签形式,例如将“爆裂音&喘鸣音”转换为“爆裂音”和“喘鸣音”。
1.5 Multi-breath模型
1.5.1 特征提取器
- 可学习的频谱前端模块: 可以使用EfficientLeaf等可学习频谱前端模块,学习滤波器并提取音频特征。
- 梅尔谱图: 将音频信号转换为梅尔谱图,提取时间-频率特征。
1.5.2 多标签学习
- 将类别标签转换为多标签形式,每个呼吸周期可以同时属于多个类别。
- 使用二分类交叉熵损失函数进行训练,每个类别单独计算损失。
1.5.3 多头注意力机制
- 类特定注意力机制: 针对每个类别,学习不同的注意力权重,突出显示与该类别相关的特征。
- 全局平均池化(GAP)和全局最大池化(GMP): 对特征图进行全局平均池化和全局最大池化,提取全局特征。
- 多头注意力机制: 使用多个注意力头,每个注意力头使用不同的温度参数,捕捉不同粒度的特征。
- 最终特征: 将类特定注意力机制和全局特征进行融合,得到最终的特征表示。
1.5.4 分类器
使用Softmax函数对最终特征进行分类,得到每个类别的预测概率。
2 结论
2.1 不同模型的比较
上表格展示了不同模型在测试集上的性能比较,包括CNN14、ResNet22、CNN6和MobileNetV2等。结果表明,CNN14模型性能最好,但参数量较大。CNN6模型在参数量和性能之间取得了较好的平衡,是本研究的首选模型。
2.2 多标签学习方法的比较
上表格展示了多标签学习方法在不同模型上的性能比较。结果表明,多标签学习方法在CNN6模型上取得了最大的性能提升,说明多标签学习可以缓解类别不平衡和数据多样性不足的问题,提高模型的性能。
2.3 多头注意力机制的比较
上表格展示了多头注意力机制在不同模型上的性能比较。
结果表明,大多数模型在引入多头注意力机制后,性能都有所提升,并且模型参数量有所降低。MobileNetV2模型由于特征维度较低,引入多头注意力机制后性能略有下降。
2.4 可学习频谱前端模块的比较
上表格展示了可学习频谱前端模块与本研究设计模型的性能比较。
结果表明,CNN14模型结合可学习频谱前端模块后,性能没有明显提升。CNN6模型结合可学习频谱前端模块后,性能与传统的梅尔谱图特征提取方法相当。这说明可学习频谱前端模块的有效性取决于模型的复杂度,需要根据实际情况进行调整。
2.5 与现有方法的比较
上表格展示了Multi-breath模型与其他方法的性能比较,包括基于Transformer的模型和基于CNN的模型。
结果表明,Multi-breath模型在CNN6架构上取得了最优性能,并且在轻量级模型方面优于其他方法。Multi-breath模型在ICBHI 2017数据集上的Score达到59.2%,超过了现有的轻量级模型方法。