前言:
之前写过一篇对CBAM模型改进的博客,在CBAM中引入了ECANet结构,对CBAM中的CAM、SAM模块逐一改进,并提出ECA-CBAM单链双链结构,我的这个小的想法已经被一些同学实现了,并进行了有效的验证,写了毕业论文,我既然把这个idea写成博文,那对于这些行为我也不追究了(其实应该加我名字)。还是关注CBAM这块,注意力这块它还是热点,也好发论文,今天我们看一下一篇2区的文章。
本文由内蒙古工业大学电力学院,内蒙古自治区高校智能能源技术与装备工程研究中心,大型储能技术教育部工程研究中心,内蒙古科学技术研究院于2024年发表于Scientific Reports,IF:4.6/JCR:Q2
Abstract:
对于基于稳态视觉诱发电位(SSVEP)的脑机接口(BCI)系统,传统方法对短时窗SSVEP信号难以获得满意的分类效果。本文提出了一种基于卷积神经网络(cam - cnn)的融合多子频段和卷积块注意模块(CBAM)分类方法,用于识别SSVEP-BCI任务。该方法提取多个子频段的SSVEP信号作为网络模型的初始输入,然后对所有特征输入进行特征融合。此外,CBAM嵌入到初始输入和特征融合的两个部分,用于自适应特征细化。为了验证所提方法的有效性,本研究使用内蒙古工业大学(IMUT)和清华大学(THU)的数据集来评估所提方法的性能。实验结果表明,CBAM-CNN的最高准确率达到0.9813个百分点(pp)。在0.1 ~ 2 s时间窗内,CBAMCNN的准确率比CNN、CCA- cwt - svm、CCA- svm、CCA- gnb、FBCCA和CCA的准确率高0.0201 ~ 0.5388 (pp)。特别是在0.1-1 s的短时窗范围内,CBAM-CNN的性能优势更为显著。CBAM-CNN的最大信息传输速率(ITR)为503.87 bit/min,比上述六种脑电图解码方法高227.53 bit/min-503.41 bit/min。研究结果进一步表明,CBAM-CNN在SSVEP解码中具有潜在的应用价值。
Introduction:
脑机接口(BCI)是一种将人脑与外部设备连接起来的新型人机交互形式1,2。脑机接口技术已广泛应用于康复工程、疲劳检测和智能家居等领域。随着脑机接口技术的发展,出现了稳态视觉诱发电位(SSVEP)6、P3007和运动意象(MI)8等典型的脑机接口模式。当受试者受到特定频率的视觉刺激时,大脑的视觉皮层会产生与刺激频率相关的连续电反应信号,该信号被称为SSVEP9。在SSVEP- bci系统中,每个特定的刺激频率都可以映射到指定的控制指令,并通过设计的方法对SSVEP信号进行反向解码,从而获得控制命令的分类结果10。SSVEP因其具有高信息传输速率(ITR)、高信噪比(SNR)、训练要求低等优点而受到众多学者的关注并得到广泛应用11 - 15。
传统的SSVEP范式目标识别方法包括连续小波变换(CWT)和典型相关分析(CCA)。CWT方法同时提取SSVEP信号的时域和频域特征。此外,该方法依靠先验知识提取若干感兴趣的频带,然后使用小波系数作为特征进行分类。CWT的核心是选择合适的母小波,不同的母小波通常会产生不同的分类结果。CCA以其计算速度快、鲁棒性好等优点被广泛应用于SSVEP-BCI系统中。
CCA的基本思想是定量计算由正弦和余弦构造的参考信号与待检测的脑电信号之间的相关性,进而识别刺激目标的频率使用最大相关系数。尽管CCA和CWT目标识别方法具有不同的特点,都能达到一定的效果,但两种方法的准确率仍然处于较低的水平。为了提高SSVEP任务分类的准确率,研究者们提出了许多改进的CCA方法。例如,提出了一种将多元变分模态分解(MVMD)与CCA相结合的方法来提高SSVEP信号的检测和分类能力。2017年,Nakanishi等人18提出了任务相关成分分析(task-related component analysis, TRCA),该方法可以最大限度地提高SSVEP信号在多个试验之间的再现性,提高其信噪比。因此,该方法特别适用于SSVEP等锁时信号的分类任务。Chen等人提出了一种滤波器组典型相关分析(filter bank canonical correlation analysis, FBCCA)方法,该方法结合基频和谐波频率分量,将CCA应用于脑电信号的多子频段滤波。FBCCA方法可以提高SSVEP-BCI的ITR和准确度。随着机器学习理论的发展,越来越多的机器学习模型被应用于SSVEP-BCI的目标分类任务,包括线性判别分析(LDA)19、高斯朴素贝叶斯(GNB)20、递归贝叶斯(RB)21和支持向量机(SVM)22。上述传统方法在解决不同的具体分类问题时具有显著的优势。但上述方法提取和处理的特征比较单一,对高级特征的编码能力不足。特别是在处理复杂脑电信号的分类时,需要提高分类的准确率和ITR。
近十年来,深度学习方法在图像处理、语音识别和自然语言处理方面表现出了巨大的能力23 - 25。由于深度学习在处理非线性、非平稳和随机信号建模方面的独特能力,卷积神经网络(CNN)等深度学习网络已逐渐应用于脑电图建模和分类领域,并取得了显著的效果26,27。CNN方法用自己的模型结构学习特征,不需要人工设计特征。此外,CNN在处理脑电信号时具有更好的自适应和自学习能力,并且具有比传统方法更好的泛化能力。2017年,Kwak等28提出了一种基于cnn的动态环境下的SSVEP分类器,SSVEP信号分类准确率达到94.03%。
与传统机器学习方法相比,CNN方法在信号特征表征和学习方面可以取得更好的性能。但是,CNN在关键特征表征和增强方面的作用仍有提高的空间,需要进一步加强。在深度学习网络中,注意机制的引入可以根据网络中不同特征的重要性匹配相应的权值。注意机制可以增强一些重要关键特征的贡献,同时削弱次要特征的贡献。因此,该机制可以进一步提取特征并提高模型的性能29,30。目前,人们提出了多种类型的注意机制模型。例如,挤压激励网络(SENet)通过特征再校准方法自适应地调整通道之间的影响,从而更有效地利用特征31。高效通道注意网络(ECANet)通过一维卷积跨通道交互来避免SENet降维的影响32。空间变压器网络(STN)通过训练与特定输入相对应的空间变换获得更好的鲁棒性33。以上注意模型仅从空间或渠道方面片面强化特征,所代表的特征是局部的。卷积块注意模块(convolutional block attention module, CBAM)同时考虑了空间和通道的特征,通过通道和空间两个独立的维度依次推断出注意图。然后将注意图与输入特征图相乘进行进一步的自适应特征优化,可以有效地提高深度学习模型的性能。
本文提出了一种基于CNN的融合多子频段和CBAM分类方法(CBAMCNN)。多子频段可以更全面地提取SSVEP信号的特征信息。此外,嵌入式CBAM同时使用空间和通道注意来提高深度学习网络的特征表示能力34。与其他经典方法相比,本文提出的CBAM-CNN模型结构在短时窗下具有更高的SSVEP信号精度和ITR。特别是,CBAM-CNN模型结构具有较好的自适应能力。
Proposed CBAM‑CNN method:
出的CBAM-CNN模型为识别SSVEP-BCI任务提供了一种新的方法。该模型融合了更丰富的SSVEP信号特征信息。同时,嵌入式CBAM利用空间和通道关注进一步提高了深度学习网络的特征表示能力。如图1所示,CBAM- cnn结构由下采样层、输入层、卷积层、特征融合层、CBAM层、平坦层、全连接层和输出层组成。原始数据为7 × 3000 × 40 × 4,其中7为引线数,3000为每个刺激频率一次实验的采样点数,40为每个刺激频率的实验数。4为刺激频率的个数。CBAM-CNN网络在进入层前需要以7 × 24000的形式对数据进行处理。
CBAM-CNN网络结构的第一层是降低原始脑电图数据的采样频率。下采样用于将原始数据的采样频率从1000 Hz调整到500hz。输入层通过巴特沃斯滤波器获取多亚频带信号。子频段信号的低信噪比导致信号分析和特征提取的有效性降低。50 Hz以上频段的SSVEP信号信噪比较低。因此,CBAM-CNN方法不使用50 Hz以上的多子频段信息。多子频段的频率范围分别为7 ~ 16hz、15 ~ 31hz、23 ~ 46hz和7 ~ 50hz。其中,根据刺激频率的一次谐波、二次谐波和三次谐波选择7-16 Hz、15-31 Hz和23-46 Hz的子频段。每个谐波都有一个完整的特征信息。7 ~ 50hz的子频段表示可用波段的综合特征信息。为了更充分地提取SSVEP信号的时间信息和空间信息特征,建立了多子频段信号。采用四个子频段的多子频段信号作为卷积层的初始输入。然后通过Conv1、Conv2、Conv3和CBAM的顺序层将信号转换为四个精细特征。之后,特征融合层将其上层的四个精炼特征融合在一起。此外,CBAM- cnn方法在特征融合层和Conv4之间嵌入第二个CBAM模块,增强对空间和通道维度上重点特征的关注。
Conv1、Conv2、Conv3和Conv4是CBAM-CNN网络的四个卷积层。Conv1的卷积核为NL × 1。NL表示引线的数量。Conv1输出SSVEP信号的时间信息。第二次卷积的卷积核为1 × TW,其中TW为下采样后的采样周期。Conv2输出SSVEP信号的空间信息。每个卷积层后面都有一个批归一化(BN)层,用于对SSVEP数据进行归一化。BN层可以将当前输入数据转换为均值为0,方差为1的标准正态分布,从而加快模型收敛速度,控制梯度爆炸,防止梯度消失和过拟合。CBAM-CNN的激活函数是ELU函数,即一种非饱和激活函数,ELU激活函数的强度在于其缓解梯度消失的能力和对噪声的鲁棒性。特征融合层对四个频带信号进行融合,然后依次通过第二个CBAM和Conv4提取重要特征。显然,Conv4层的输出是高维的,不能传输到最终的全连接层。因此,通过flatten层将高维数据转换为一维数据,作为全连接层的输入。
总结:
1、原始SSVEP信号4维作为输入
2、EEG信号滤波成4个子频带
3、添加2块CBAM
4、第二块添加在特征融合层,提取特征的特征
5、没了