英文题目
- 中文题目 稳定的语音BCI解码使ALS患者在3个月内无需重新校准即可进行控制
- 论文下载:
- 算法程序下载:
- 摘要
- 1 项目介绍
- 2 方法
- 2.1实时神经解码
- 2.2算法
- 手术植入:
- 神经解码模型:
- 数据收集实验
- 2.3稳定的解码器性能超过三个月
- 3 电极的贡献
- 4 讨论
- 5结论
中文题目 稳定的语音BCI解码使ALS患者在3个月内无需重新校准即可进行控制
论文下载:
DOI:
算法程序下载:
地址
摘要
脑机接口(bci)可以用来控制像肌萎缩侧索硬化症(ALS)这样的神经障碍患者的辅助设备,这些患者限制了语言和行动。对于辅助控制,BCI系统需要准确和可靠,最好具有最小的设置时间。在这项研究中,一名因ALS导致严重构音障碍的参与者通过腹侧感觉运动皮层上的慢性皮质电图(ECoG)植入物,用六个直观的语音指令操作计算机应用程序。在3个月的研究期间,无需模型再训练或重新校准,即可准确检测和解码语音命令(中位数精度:90.59%)。BCI的使用不需要外源性的定时提示,使参与者能够随意发出自定节奏的命令。这些结果表明,长期植入的基于ecog的语音BCI仅需要初始模型训练和校准,就可以在长时间内可靠地控制辅助设备,支持无辅助家用的可行性。
1 项目介绍
脑机接口(bci)通过记录大脑信号来解释用户的意图,从而控制设备和软件应用程序。[1, 2]严重瘫痪的个体可以使用BCIs来补充或取代他们现有的沟通能力和/或控制环境中的设备。[3, 4]在这种情况下,理想的BCI用户可以在需要时发出命令,而不需要外部提示或帮助,并且具有较高的可信度,命令将被执行
最近,语音BCI功能有了戏剧性的出现,音频波形和整个句子直接从颅内记录翻译。[6-14]这些技术为恢复通信提供了一条有希望的途径,但并不适用于设备控制,而设备控制是严重瘫痪者的一个关键需求与通信bci不同,用于设备控制的bci必须在最小的语言上下文或语言模型的帮助下提供低延迟、可靠的命令。此外,出于安全原因,使用bci与物理设备(如恒温器、机器人助手)进行接口可能需要更高的解码性能和稳定性。
植入式bci为用户提供了越来越复杂的功能,但在不需要重新训练或重新校准的情况下,长期保持高性能是具有挑战性的,这可能很耗时,并需要研究团队或护理人员的干预。[4, 16-19]一项研究表明,在光标控制任务中,用于基线收集的重新校准时间可以减少到2分钟,证明了“即插即用”BCI.[20]的可行性然而,目前尚不清楚不进行再训练和重新校准的长期解码对语音BCI是否仍然可行。同样尚不清楚的是,是否可以完全取消上述研究所需的日常基线数据收集,这将给BCI用户更多的自主权,并允许更广泛的BCI使用。
本文提出一种"即插即用" BCI控制系统,基于对慢性脑皮质电图(ECoG)植入物的语音相关神经活动的实时解码。使用这种脑机接口系统,一名患有肌萎缩侧索硬化症(ALS)的研究参与者能够自由地生成一组控制命令(即,上、下、左、右、进入和返回)。当参与者在通信板上导航,控制房间灯光和流媒体电视应用程序等设备时,命令会被可靠地检测和解码。我们发现,解码器再训练和重新校准,以及每次会话前的基线收集,不需要在初始实验室校准后的3个月研究期间保持高性能。总之,这些结果提供了证据,即对语音指令进行解码的植入脑机接口系统可以在几个月的时间内,为因ALS等神经障碍而导致运动语言障碍的人提供一种可靠和稳定的控制计算机和其他外部设备的手段。
2 方法
2.1实时神经解码
CortiCom临床试验的参与者(ClinicalTrials.gov标识符:NCT03567213;详细信息参见实验部分)由于ALS导致的严重关节炎障碍患者能够控制外部设备(视频S1,支持信息,参与者对发布视频记录给予知情同意)并导航4 × 8通信板(图1a;视频S2,支持信息)实时使用BCI。到目前为止,没有设备相关的不良事件或严重的不良事件发生。研究用BCI设备在报道时仍在正常工作,128个ECoG电极中只有4个电极获得了高质量的ECoG信号。两个64通道高密度ECoG阵列被植入运动和体感皮层区域(图1a和4a)。横向阵列主要覆盖了负责语音相关功能的大脑区域;本研究仅使用该数组对语音命令进行解码。原始的ECoG信号被带通滤波在70到170 Hz之间,以估计高能量(HGE),它已被证明与电极下的神经元群体活动相关[21-23],并被广泛用于ECoG信号的语音解码。[8, 9, 24] BCI系统利用HGE中与事件相关的增加来确定用户是否发出了命令(图1b,c)。具体来说,识别了与通道平均HGE 1-s滚动平均局部最大值相关的时间。一旦检测到语音事件,我们使用卷积神经网络(CNN, InceptionTime,[25]图1d),在由峰值检测前2秒和峰值检测后0.5秒组成的窗口中对神经特征进行分类。系统接收到解码结果后,立即向参与者提供视觉反馈。在通信板导航任务中,当解码结果分别为上、下、左、右时,参与者可以看到红色高亮点在基本方向上移动。如果命令输入被解码,这个红色高亮将变成绿色。当一个back命令被解码时,一个黄色高亮取代了任何现有的高亮,这表明当前选项已被取消选择。
用于功能控制的语音BCI示意图。a)神经信号来自两个64通道ECoG阵列,它们被植入负责上肢和语音功能的运动区和体感区。本研究中只使用了较差的阵列。b)六个通道的高伽马能量样本(HGE, 70-170 Hz, z-score)。c)通道平均HGE的1-s滚动平均(每10 ms更新一次)。该信号的峰值被用来检测语音意图。一旦检测到目标语音,分类器接收由峰值前2 s和峰值后0.5 s组成的HGE解码窗口。d) CNN模型(InceptionTime[25])将HGE的窗口划分为便于导航通信板或控制外部设备的命令。
2.2算法
CNN解码模型是在单词生成任务中收集的数据上进行训练的,在该任务中,受试者被要求阅读屏幕上出现的6个命令。该任务的训练数据收集分别在植入后77天和120天(实时使用前4个月和3个月)开始和结束。为了适应系统的使用而无需重新校准,所有数据都被归一化,使用在前述时间框架内任意选择的单个天(植入后95天)的音节重复任务(注S1,支持信息)中沉默期(刺激开始前0.8到0秒)的均值和标准差。
本文所描述的临床试验的主要结果指标旨在建立研究性脑机接口装置的安全性和记录可行性。安全结果以设备解释时间来衡量,如果在研究期间由于安全考虑设备未外植,则被认为是成功的。在本文报道时,该装置已植入52周。在整个研究期间,该设备的安全监测包括设备的视觉检查、流ECoG信号的审查、每次研究访视时对生命体征、情绪和认知的评估,以及每月的身体、神经和认知检查。到目前为止,没有严重的不良事件或器械相关的不良事件报告。研究装置的记录能力以可用神经信号的数量来衡量。到目前为止,在整个研究期间,128个ECoG电极中只有4个产生了可用的神经信号。3个具有一致高阻抗的电极(>15kΩ)被排除在分析之外。其余电极的阻抗在研究期间保持在15kΩthroughout以下。由于目视检查原始信号确认信号质量不一致,排除了一个额外的电极。在一些情况下,从该通道记录的原始信号不抑制脑电波的名义模式,并保持低于正常的振幅。ECoG阵列其余60个电极的ECoG信号被植入腹侧感觉运动皮层,用于训练和测试解码算法。
手术植入:
研究装置于2022年7月在约翰霍普金斯医院植入,无手术并发症。两个64通道ECoG网格(PMT公司,Chanhassen,MN)被植入到大脑皮层表面的硬膜下,大脑上方负责语言和上肢运动的区域。解剖标志、术前功能磁共振成像和体感诱发电位是术前定位的依据。每个ECoG网格的表面积为12.11 cm2(36.66 mm x 33.1 mm), 8×8电极配置和4mm中心到中心的间距嵌入软硅橡胶片。每个铂铱圆盘电极的厚度为0.76 mm,暴露表面直径为2 mm。两根导线植入网格表面作为ECoG信号放大的参考。一个连接到ECoG网格的经皮底座连接器(Blackrock Microsystems, Salt Lake City, UT)通过手术固定在颅骨上。活动检测:在1-s积分窗口内,每10 ms计算60个包含电极的归一化highgamma信号的通道平均值,用于检测与语音相关的神经活动(以后称为检测信号,图1b,c)。如果检测信号的显著[39]超过检测信号的10-s滚动窗口的标准差的两倍,则检测信号的3-s滚动缓冲器的峰值被识别。然后使用处理后的神经活动的2.5 s窗口(峰值前2 s,峰值后0.5 s)对6个语音命令进行分类(神经解码模型,图1b)。使用相同的检测算法提取训练样本.
神经解码模型:
对于神经解码模型,使用InceptionTimearchitecture设计卷积神经网络(CNN)。[25]针对时间序列分类,初始-时间模型结合了可变长度的滤波器,以获取不同时间分辨率的层次潜结构。在CNN的实现中,使用了6个Inception[40]块,每个块有3个Inception模块(图1d),没有进行神经网络集成。在每个inception模块内部,在具有32个内核大小为1的滤波器的初始卷积层之后使用三组卷积,每组卷积具有32个内核大小为{5,11,23}的滤波器。每个模块中还包含一个内核大小为3的MaxPooling层和一个后续的卷积集,其中包含32个内核大小为1的滤波器。四组卷积的输出被连接起来形成每个模块的输出。最后一个Inception块的最终输出被用作最大池化层的输入,然后是提供最终预测分类分数的全连接层。该模型在Python 3.8/3.9中使用PyTorch v1.10实现。关于解码型号的详细信息,请参见S2(支持信息)。数据收集和模型训练:在植入后第77天到第120天之间收集的数据上训练显性语音命令解码模型。无声语音解码模型是在植入后第83天到第225天收集的数据上进行训练的。受试者被要求大声朗读或默念电脑显示器上出现的单个文本命令(注S1,支持信息)。overtspeech在11天内共进行了30次数据采集实验,共计142.8 min,每个指令共进行了300次试验。
[H. I. Fawaz, B. Lucas, G. Forestier, C. Pelletier, D. F. Schmidt, J. Weber,G. I. Webb, L. Idoumghar, P.-A. Muller, F. Petitjean,Data Min. Knowl.Discov.2020,34, 1936.]
如图Fig.8表示的是 Inception结构中并行的多个支路的网络处理过程,对输入的特征进行多个向量方向的变化,和输入的特征的提取。不可否认的在卷积层11之后为11的激活函数Relu层基于其函数特性也起到了筛选一部分特征的作用。激活函数实际需要匹配前一层需要被激活的层尺度大小,这样才能参与后续运算,许多论文将卷积层与激活层直接合并,但是这在激活函数的研究依旧有进展下明确概念是理智的。
Fig.8 .inception单层的机构与特征分析
在多个拓扑结构卷积与单个卷积层相比,整个结构的网络的激活图的数量增加,并且网络的学习能力更强,Fig.8中四条分支的不同操作,在不同空间维度上提取的特征,起到了旋转特征并最终压缩的的作用。大量使用11卷积核有许多优点,避免了直接经过池化层的大量损失数据的现象,保持数据维度或者压缩数据维度,结构中采用多种卷积核55、3*3、增加多种维度的特征,再结合保留旋转的到卷积特征,起到压缩多种特征效果,这是Inception结构的优点。
在网络各层之间,默认卷积或池化过程之前和之后,各层的尺寸不会改变。并以此来选择步长和边缘0填充的情况, 与Squeezenet相比引入Google稀疏性会增加网络的拓扑性。Szegedy C , Liu W等人的工作【11】还具有更坚实的理论基础的优势。他们的主要结果表明,如果数据集的概率分布可以由大型的,非常稀疏的深度神经网络表示,则可以通过分析前一层激活的相关统计数据以及将具有高度相关输出的神经元聚类来实现,这是最优的网络拓扑结构。
原文链接:https://blog.csdn.net/qq_43158059/article/details/123406854
[C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan,V. Vanhoucke, A. Rabinovich, presented atIEEE Conf. on ComputerVision and Pattern Recognition (CVPR), Boston, Massachusetts, USA,June2015]
数据收集实验
(共43次)在17天的无声语音中进行,共计266.6分钟,每个命令430次试验。使用Adamoptimizer进行解码模型优化。通过保留一整天的数据作为验证集,在不同的超参数选择下评估[41]模型的性能。数据预处理和实时系统:使用连接到植入研究装置的128通道经皮连接器的神经丛头台(Blackrock Microsystems, Salt Lake City, UT)对ECoG信号进行滤波(0.3-7500 Hz)、放大和数字化。前端通过HDMI电缆连接到数字神经端口生物电位信号处理系统(NSP, Blackrock Microsystems, Salt LakeCity, UT),其中信号被下采样到1000 Hz。在实时使用时,NSP的数据从BCI2000的信号处理模块中实现的ZeroMQ[42]服务器流式传输。[43]子实时信号处理和模型推理在ezmsg框架内的python中实现,该框架是一种有向无环消息模式(https://github.com/iscoe/ezmsg),部署在台式计算机上,通过以太网电缆连接到主机计算机以实现神经端口系统。该框架中的ZeroMQ订阅者接收到重新格式化的数据。随后,选取本研究中使用的60个通道的数据。高伽马信号提取使用8阶巴特沃斯带通滤波器之间的70和170赫兹。采用118 ~ 122 Hz的陷波器滤除线噪声。当接收到10 ms数据时,计算50 ms窗口的高伽马信号的对数功率。然后将处理后的HGE特征存储在解码数据缓冲区中,等待语音意图检测。
2.3稳定的解码器性能超过三个月
实时测试在植入后194天开始,此时所有模型参数都是固定的,不进行解码模型的重新训练。在每一天的测试中,参与者被要求按照自己的节奏发出口头命令(上、下、左、右、进入和返回),以便通过交流板导航到他选择的目标。移植后第95天统计HGE特征。在实时实验之前,没有进行单独的基线收集/模型重校准。我们在这里报告了3个月的研究期间的性能统计,在植入后285天(总共35次)。在实时使用的前两天,每天进行两次会议。在其他所有日子里,单个会话的平均持续时间都不到5分钟(表1,支持信息)。
由于所有命令都是由参与者公开实时选择的,因此参与者在线使用时的音频记录被转录为ground truth。将在线准确率定义为当参与者确实发出命令时,与转录相匹配的实时分类结果的百分比。参与者获得了90.59%的中位准确率(95% CI:[89.47%, 92.00%],图2a)。在整个研究期间,性能保持稳定,在线准确率与植入后天数没有显著关系(y = 0.010x + 88.70,其中x为植入后天数(下同),R2 = 0.006, p = 0.65,图2a)。每分钟正确解码的中位数为14.9 (95% CI:[14.0, 15.3],图2b,每分钟发出命令的中位数为16.49),其与植入后天数的关系也无法确定(y = - 0.001x + 15.11, R2 = 0.001, p = 0.88,图2b)。这些发现表明,即使没有重新训练或专门的基线重新校准,解码器的稳定性也很好。
BCI在在线自步实验中的稳定性能超过3个月。a) BCI系统在线精度。每个点代表一个会话。平均机会= 16.16% (n = 10000次模拟,虚线)。蓝色的线是精度与植入后天数之间的最小二乘线性回归线。b) BCI每分钟执行的正确解码结果。每个点代表一个会话。蓝色的线是每分钟正确解码数和植入后天数之间的最小二乘线性回归线。c)每分钟的误检数(蓝点)和漏检数(紫色三角形)。每个符号代表一次实验。d)每天每个成功解码的语音偏移到BCI系统登记解码结果的时间。对于所有箱线图,中心线表示中位数,盒的上下边缘表示分位数。四分位差1.5倍以外的数据为离群点,非离群点的最大值和最小值为须。
3 电极的贡献
接下来,研究了所选电极中对解码性能和稳定性贡献最大的电极。我们首先测试了如果ECoG网格只覆盖运动(包括前运动)或感觉皮质(前中心和后中心区域),是否可以实现类似的解码性能。我们使用来自在线会话的神经活动数据,模拟了纯运动和纯感觉模型的实时使用,这些数据是从使用所有60个电极的上述方法中检测到的。在仅运动(中位数:81.33%,95% CI[79.07%, 83.33%])和仅感觉(中位数:70.67%,95% CI[66.67%, 73.49%])两种情况下均观察到较低的准确性(图4b, p < 0.0001, Mann-Whitney-Wilcoxon检验,六项比较的双侧Bonferroni校正)。与完整模型一样,解码准确率与植入时间之间没有显著的统计趋势(y1 =−0.058 x + 95.186, R2 = 0.109, p = 0.06;y2 =−0.016 + 74.159,R2 = 0.004, p = 0.73其中y1和y2分别是排除感觉和运动电极训练的模型的精度;图S2,支持信息)。这些发现表明,ECoG网格的广泛覆盖可能是实现我们观察到的高性能的必要条件,尽管性能稳定性似乎没有受到覆盖率减少的影响。
然后,我们更细致地研究了哪些特定电极对解码的影响最大。每个电极对解码的影响被量化为基于该电极神经活动的微小扰动对模型预测的相对变化网格的背侧和后部比网格的腹侧和前部对解码模型的影响更大。最具影响力的电极定位于腹侧感觉运动皮层(vSMC)的背侧部分,该部分与嘴唇运动有关,在较小程度上,也与舌头和下颌运动有关然后,我们研究了这种电极影响的空间模式在整个研究期间是否稳定(图4c)。3个实时使用月期间,电极的影响存在很强的相关性(Pearson相关系数,1 ~ 2个月r = 0.985, 1 ~ 3个月r = 0.994, 2 ~ 3个月r = 0.992, p均< 0.0001)。
研究期间的电极贡献。a)参与者大脑的MRI重建,覆盖在其上的是作为临床试验的一部分植入的ECoG网格。这项研究中使用的电极有红色(运动)和蓝色(感觉)。本研究未使用灰色电极。b)模拟同时使用运动电极和感觉电极、仅使用运动电极、仅使用感觉电极和仅使用最显著电极训练解码模型时的在线精度。概率= 16.67%(如虚线所示)。每个框对应n = 33个测试天的精度(****p < 0.0001, Mann-Whitney-Wilcoxon检验双侧与Bonferroni校正)。c)每个电极在每个实时使用月对解码结果的相对贡献。
4 讨论
在这项研究中,我们证明了基于慢性ECoG植入的语音BCI系统的准确性和稳定性。研究期间未发生严重不良事件或器械相关不良事件。在本报告撰写时,BCI系统仍在名义上运行,能够传输128个ECoG信号中的4个以外的所有信号。在3个月的研究期间,临床试验参与者能够按照自己的节奏使用该系统来控制计算机应用程序和外部设备,而无需进行模型重新校准或再培训。之前植入语音bci的演示主要集中在通过将大脑活动转换为文本来恢复参与者的沟通能力。[24, 28]一个突出的问题是,解码语音命令中的神经活动是否也可以用于直接控制设备,这是严重瘫痪者的另一个关键需求。在面向控制的BCI中,类似于健全个体使用的语音助手,需要以高置信度检测和分类用户发出的每个命令。否则,BCI用户可能选择放弃使用设备本文表明,使用少量直观命令的语音BCI确实可以在不使用语言模型纠正解码错误的情况下,实现通信板的高性能导航以及控制家用设备的高精度。
BCI开发的另一个突出问题是,是否可以在保持鲁棒性能的同时,减少与再训练和基线收集相关的日常设置时间对于以控制为中心的BCIs来说,这个问题变得更加尖锐,因为它们的最终目的是方便在家中独立使用辅助和其他智能设备。有严重运动障碍的人需要在需要时能够可靠地控制脑机接口系统。之前的研究已经证明,负责作为脑机接口控制基础的一致运动行为的神经表征是稳定的。[31,32]最近的一些研究将BCI系统的设置时间缩短到2分钟。[18,20]我们的研究建立在之前的工作基础上,完全消除了模型再训练和基线重新校准步骤,标志着向独立使用语音BCI进行导航控制而不需要持续的研究人员干预迈出了关键一步。
是什么驱动了我们研究中的解码稳定性?本文认为,从植入的ECoG阵列记录的高伽马反应的稳定性对解码稳定性有重要影响。之前的研究已经证明,在人类[3,20,33 -35]和非人灵长类动物中,ECoG植入物具有短期和长期的稳定性。[36, 37]在这项研究中,我们将这些关于慢性ECoG解码稳定性的发现扩展到ALS参与者的语音BCI。我们的结果为越来越多的证据提供了进一步的证据,即高伽马反应对语言相关的运动行为具有高度的信息,[7,20,21,38],并且它们是稳定的,可能是因为它们反映了神经元群体的集体放电率。[21-23]这些以及其他ECoG信号频谱特征的稳定性有待进一步深入研究。
该方法的一个限制是用于语音解码的词汇量有限。虽然本研究中采用的6个命令既直观又足以控制基于网格的应用程序,但更全面的词汇表可能会减少执行每个选择所需的时间。已有的关于语音bci的研究表明,仍然可以准确地解码出更多的解码类直接从神经记录中进行语音合成的成功也表明了解码更大词汇表的潜力。[6, 8, 9]目前的研究是在一项基于ecog的脑机接口装置的安全性和可行性的I期临床试验中,只有一名参与者进行的。很少有研究明确测试了基于ecog的语音BCI在ALS患者中的有效性还需要进一步的研究来验证所提出的方法是否可以推广到具有类似条件的其他参与者。即使我们探索了各种其他流行的BCI方法如何在离线模拟中执行,也没有机会确定这些方法如何在相同的在线闭环实验中执行较长时间。例如,低频信息的添加或高伽马的解析幅度提取可能会导致更好的在线解码精度。我们的参与者由于球棒功能障碍有严重的构音障碍,理解能力有限。尽管如此,他仍然能够发声和发音。即使我们能够在无声演讲中获得高水平的表现,但对于那些无法发声和/或表达的ALS患者来说,是否能达到同样水平的表现仍有待观察。
5结论
总之,我们的工作证明了安全使用植入bci进行长时间直观控制外部设备的潜力。在未来的研究中,可能会将不需要重新校准的解码系统的能力扩展到更长的和更多样化的语音命令。在家用BCI系统中,像我们这样稳定的解码器也可以用于为更复杂但不稳定的解码器启动校准会话。利用皮质内ECoG记录提供的信号稳定性,我们的结果可能是实现重度瘫痪患者家庭独立使用语音bci潜力的第一步。