Nature Machine Intelligence 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码

由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。开发神经-语音解码器的尝试大多数依赖于一种特殊的数据:通过皮层电图(ECoG)记录获取接受癫痫手术患者的数据。利用患有癫痫的患者植入的电极,在发音时收集大脑皮层数据,这些数据具有高时空分辨率,已经在语音解码领域帮助研究者获得了一系列很显著的成果,帮助推动了脑机接口领域的发展。

神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。

01

论文概要

在这里插入图片描述

为应对这些挑战,研究者在这篇文章中介绍了一个新型的从脑电(ECoG)信号到语音的解码框架,研究人员构建了一个低维度的中间表示(low dimension latent representation),该表示通过仅使用语音信号的语音编解码模型生成(图 1)。研究提出的框架由两部分组成:一部分是ECoG解码器,它能将ECoG信号转化为我们可以理解的声学语音参数(比如音高、是否发声、响度、以及共振峰频率等);另一部分是语音合成器,它将这些语音参数转化为频谱图。研究人员构建了一个可微分语音合成器,这使得在训练ECoG解码器的过程中,语音合成器也可以参与训练,共同优化以减少频谱图重建的误差。这个低维度的潜在空间具有很强的可解释性,加上轻量级的预训练语音编码器生成参考用的语音参数,帮助研究者构建了一个高效的神经语音解码框架,克服了数据稀缺的问题。

该框架能产生非常接近说话人自己声音的自然语音,并且ECoG解码器部分可以插入不同的深度学习模型架构,也支持因果操作(causal operations)。研究人员共收集并处理了48名神经外科病人的ECoG数据,使用多种深度学习架构(包括卷积、循环神经网络和Transformer)作为ECoG解码器。该框架在各种模型上都展现出了高准确度,其中以卷积(ResNet)架构获得的性能最好,原始与解码频谱图之间的皮尔森相关系数(PCC)达到了0.806。研究者提出的框架仅通过因果操作和相对较低的采样率(low-density, 10mm spacing)就能实现高准确度。研究者还展示了能够从大脑的左右半球都进行有效的语音解码,将神经语音解码的应用扩展到了右脑。

在这里插入图片描述

该研究的重要创新是提出了一个可微分的语音合成器(speech synthesizer),这使得语音的重合成任务变得非常高效,可以用很小的语音合成高保真的贴合原声的音频。可微分语音合成器的原理借鉴了人的发生系统原理,将语音分为Voice(用于建模元音)和Unvoice(用于建模辅音)两部分,Voice部分可以首先用基频信号产生谐波,由F1-F6的共振峰组成的滤波器滤波得到元音部分的频谱特征,对于Unvoice部分,研究者则是将白噪声用相应的滤波器滤波得到对应的频谱,一个可学习的参数可以调控两部分在每个时刻的混合比例,在此之后通过响度信号放大,加入背景噪声来得到最终的语音频谱。

基于该语音合成器,本文设计了一个高效的语音重合成框架以及神经-语音解码框架,相应的框架结构可以参考原文图6.

02

研究结果分析

在这里插入图片描述

首先,研究者直接比较不同模型架构(卷积(ResNet)、循环(LSTM)和Transformer(3D Swin)在语音解码性能上的差异。值得注意的是,这些模型都可以执行时间上的非因果(non-causal)或因果操作。研究结果表明,ResNet模型在所有模型中表现最佳,在48位参与者中达到了最高的皮尔森相关系数(PCC),非因果和因果的平均PCC分别为0.806和0.797,紧随其后的是Swin模型(非因果和因果的平均PCC分别为0.792和0.798)(图2a)。通过STOI+指标的评估也得到了相似的发现。解码模型的因果性对大脑-计算机接口(BCI)应用具有重大意义:因果模型仅利用过去和当前的神经信号生成语音,而非因果模型还会使用未来的神经信号。过去的研究通常采用非因果模型,这在实时应用中不可行。因此,研究者专注于比较相同模型在执行非因果和因果操作时的性能。研究发现,即使是因果版本的ResNet模型也能与非因果版本媲美,二者之间没有显著差异。同样,因果和非因果版本的Swin模型性能相近,但因果版本的LSTM模型性能显著低于非因果版本,因此研究者后续主要关注ResNet和Swin模型。

为确保本文提出的框架能够很好地泛化于未见过的单词,研究者进行了更为严格的单词级交叉验证,这意味着相同单词的不同试验不会同时出现在训练集和测试集中。如图2b所示,对未见单词的性能与文中的标准试验方法相当,表明即使在训练期间未见过的单词,模型也能够很好地进行解码,这主要得益于本文构建的模型在进行音素(phoneme)或类似水平的语音解码。

进一步,研究者展示了ResNet因果解码器在单个单词级别上的性能,展示了两位参与者(低密度采样率ECoG)的数据。解码后的频谱图准确保留了原始语音的频谱-时间结构(图2c,d)。研究人员还对比了神经解码器预测的语音参数与语音编码器编码的参数(作为参考值),研究者展示了几个关键语音参数的平均PCC值(N=48),包括声音权重(用于区分元音和辅音)、响度、音高f0、第一共振峰f1和第二共振峰f2。准确重建这些语音参数,尤其是音高、声音权重和前两个共振峰,对于实现精确的语音解码和自然地模仿参与者声音的重建至关重要。研究发现表明,无论是非因果还是因果模型,都能得到合理的解码结果,这为未来的研究和应用提供了积极的指引。

在这里插入图片描述

研究者进一步对左右大脑半球的语音解码结果进行了比较。多数研究集中关注主导语音和语言功能的左脑半球。然而,我们对于如何从右脑半球解码语言信息知之甚少。针对这一点,研究者比较了参与者左右大脑半球的解码表现,以此验证使用右脑半球进行语音恢复的可能性。在研究收集的48位受试者中,有16位受试者的ECoG信号采集自右脑。通过对比 ResNet 和 Swin 解码器的表现,研究者发现右脑半球也能够稳定地进行语音解码(ResNet 的 PCC值为 0.790,Swin 的 PCC值为 0.798),与左脑半球的解码效果相差较小(如图 3a 所示)。这一发现同样适用于 STOI+ 的评估(参见补充图 1b)。这意味着,对于左脑半球受损、失去语言能力的患者来说,利用右脑半球的神经信号恢复语言也许是一个可行的方案。

接着,研究者探讨了电极采样密度对语音解码效果的影响。之前的研究多采用较高密度的电极网格(0.4 mm),而临床中通常使用的电极网格密度较低(LD 1 cm)。有五位参与者使用了混合类型(HB)的电极网格(见图 3b),这类网格虽然主要是低密度采样,但其中加入了额外的电极。剩余的四十三位参与者都采用低密度采样。这些混合采样(HB)的解码表现与传统的低密度采样(LD)相似,但在 STOI+ 上表现稍好(参见补充图 3b)。研究者比较了仅利用低密度电极与使用所有混合电极进行解码的效果,发现两者之间的差异并不显著(参见图 3d),这表明模型能够从不同空间采样密度的大脑皮层中学习到语音信息,这也暗示临床通常使用的采样密度对于未来的脑机接口应用也许是足够的。

在这里插入图片描述

最后,研究者考察了大脑的语音相关区域在语音解码过程中的贡献程度,这对于未来在左右脑半球植入语音恢复设备提供了重要的参考。研究者采用了遮挡技术(occlusion analysis)来评估不同大脑区域对语音解码的贡献度。简而言之,如果某个区域对解码至关重要,那么遮挡该区域的电极信号(即将信号设为零)会降低重构语音的准确率(PCC值)。通过这种方法,研究者测量了遮挡每个区域时,PCC值的减少情况。通过对比 ResNet 和 Swin 解码器的因果与非因果模型,研究发现,听觉皮层在非因果模型中的贡献更大,这强调了在实时语音解码应用中,必须使用因果模型,因为在实时语音解码中,我们无法利用神经反馈信号。此外,无论是在右脑还是左脑半球,传感运动皮层尤其是腹部区域的贡献度相似,这暗示在右半球植入神经假肢也许是可行的。

03

结论和展望

研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(如音高,响度,共振峰频率等)并通过可微分语音合成器重新合成语音。通过将神经信号映射到这些语音参数,研究者构建了一个高度可解释且可应用于小数据量情形的神经语音解码系统,可生成听起来自然的语音。此方法在参与者间高度可复现(共48人),研究者成功展示了利用卷积和Transformer(3D Swin)架构进行因果解码的有效性,均优于循环架构(LSTM)。该框架能够处理高低不同空间采样密度,并且可以处理左、右半球的脑电信号,显示出了强大的语音解码潜力。

大多数之前的研究没有考虑到实时脑机接口应用中解码操作的时序因果性。许多非因果模型依赖于听觉感觉反馈信号。研究者的分析显示,非因果模型主要依赖于颞上回(superior temporal gyrus)的贡献,而因果模型则基本消除了这一点。研究者认为,由于过分依赖反馈信号,非因果模型在实时BCI应用中的通用性受限。有些方法尝试避开训练中的反馈,如解码受试者想象中的语音。尽管如此,大多数研究依然采用非因果模型,无法排除训练和推断过程中的反馈影响。此外,文献中广泛使用的循环神经网络通常是双向的,导致非因果行为和预测延迟,而研究者的实验表明,单向训练的循环网络表现最差。尽管该研究并没有测试实时解码,但研究者实现了从神经信号合成语音小于50毫秒的延迟(补充表 1),几乎不影响听觉延迟,允许正常语音产出。

研究中探讨了是否更高密度的覆盖能改善解码性能。研究者发现低密度和高(混合)密度网格覆盖都能实现高解码性能(见图 3c)。此外,研究者发现使用所有电极的解码性能与仅使用低密度电极的性能没有显著差异(图3d)。这证明了只要围颞覆盖足够,即使在低密度参与者中,研究者提出的ECoG解码器也能够从神经信号中提取语音参数用于重建语音。另外一个显著的发现是右半球皮质结构以及右围颞皮层对语音解码的贡献。尽管以前的一些研究展示了对元音和句子的解码中,右半球可能提供贡献,研究者的结果提供了右半球中鲁棒的语音表示的证据。

研究者还提到了目前模型的一些限制,比如解码流程需要有与ECoG记录配对的语音训练数据,这对失语患者可能不适用。未来,研究者也希望开发能处理非网格数据的模型架构,以及更好地利用多病人、多模态脑电数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/814529.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS之固定定位、相对定位、绝对定位

一、相对定位 相对元素自身所在的原来的位置进行定位,可以设置 left,right,top,bottom四个属性。 效果:在进行相对定位以后,元素原来所在的位置被保留了,既保留占位,其他元素的位置…

CSS核心样式-02-盒模型属性及扩展应用

目录 三、盒模型属性 常见盒模型区域 盒模型图 盒模型五大属性 1. 宽度 width 2. 高度 height 3. 内边距 padding 四值法 三值法 二值法 单值法 案例 4. 边框 border 按照属性值的类型划分为三个单一属性 ①线宽 border-width ②线型 border-style ③边框颜色 bo…

Python数据分析案例40——电商直播间成交金额预测

承接上一篇案例电商直播间提取的特征,进而做一篇机器学习的案例,来预测直播间的成交金额。 Python数据分析案例39——电商直播间评论可视化分析(LDA) 1. 引言 1.1 直播电商与传统电商的比较 直播电商作为一种新兴的电子商务模式…

超详细的YOLOv8项目组成解析:一站式指南了解其架构与组件

目录 yolov8导航 YOLOv8(附带各种任务详细说明链接) 项目结构 1. .github 2. docker 2.1 docker/Dockerfile 2.2 docker/Dockerfile-arm64 2.3 docker/Dockerfile-conda 2.4 docker/Dockerfile-cpu 2.5 docker/Dockerfile-jetson 2.6 docker/D…

Java | Leetcode Java题解之第27题移除元素

题目&#xff1a; 题解&#xff1a; class Solution {public int removeElement(int[] nums, int val) {int left 0;int right nums.length;while (left < right) {if (nums[left] val) {nums[left] nums[right - 1];right--;} else {left;}}return left;} }

MySQL之索引失效、覆盖、前缀索引及单列、联合索引详细总结

索引失效 最左前缀法则 如果索引了多列(联合索引)&#xff0c;要遵守最左前缀法则&#xff0c;最左前缀法则指的是查询从索引的最左列开始&#xff0c;并且不跳过索引中的列。如果跳跃某一列&#xff0c;索引将部分失效&#xff08;后面的字段索引失效&#xff09;。 联合索…

《古琴律学入门指南》——探寻古琴之美

《古琴律学入门指南》——探寻古琴之美感悟音律奥妙&#xff01;古琴 一抹古老的音韵 一段悠久的历史《古琴律学入门指南》是一本全面介绍中国传统古琴律学的教材涵盖了三分损益 古琴入门 古琴根基等重要内容本书由古琴专家倾情撰写深入浅出地解释了古琴律学的精髓通过丰富的例…

我是如何快速上线项目文档的

Hello , 我是"小恒不会java" 本文适合有使用Markdown&#xff0c;HTML&#xff0c;nginx经验的读者阅读 其中每一个小标题代表作者的突破点&#xff0c;每个技巧都是小tip 说说我的上线流程 使用mkdocs生成模板写入写好的Markdown文件mkdocs build生成静态文件&…

计算机毕业设计springboot小区物业报修管理系统m8x57

该物业报修管理系统实施的目的在于帮助物业管理企业升级员工管理、住户管理、报修问题管理等内部管理平台&#xff0c;整合物业管理企业物力和人力&#xff0c;全面服务于维修人员管理的内部管理需求,并重视需求驱动、管理创新、与业主交流等外部需求,通过物业管理企业各项资源…

Java使用aspose-words实现word文档转pdf

Java使用aspose-words实现word文档转pdf 1.获取转换jar文件并安装到本地maven仓库 aspose-words-15.8.0-jdk16.jar包下载地址&#xff1a;https://zhouquanquan.lanzn.com/b00g257yja 密码:965f 下载aspose-words-15.8.0-jdk16.jar包后&#xff0c;通过maven命令手动安装到本…

关于ARM的一些问题

一&#xff0c;arm的工作模式有哪些&#xff1f; User&#xff1a;非特权模式 FIQ&#xff1a;高优先级中断进入 IRQ&#xff1a;低优先级中断进入 Supervisor:当复位或软中断指令进入 Abort: 当存取异常时 Undef:当执行未定义指令时会进入这种模式 System:使用和User模式相同…

gma 2.0.8 (2024.04.12) 更新日志

安装 gma 2.0.8 pip install gma2.0.8网盘下载&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1P0nmZUPMJaPEmYgixoL2QQ?pwd1pc8 提取码&#xff1a;1pc8 注意&#xff1a;此版本没有Linux版&#xff01; 编译gma的Linux虚拟机没有时间修复&#xff0c;本期Linux版继…

【算法基础2】前缀和与差分

目录 前缀和与差分1.综述2.前缀和&#xff08;1&#xff09;一维前缀和&#xff08;2&#xff09;二维前缀和&#xff08;子矩阵的和&#xff09; 3.差分&#xff08;1&#xff09;一维差分&#xff08;2&#xff09;二维差分&#xff08;差分矩阵&#xff09; 前缀和与差分 1…

【Kafka】Kafka 架构深入

Kafka 工作流程及文件存储机制 Kafka 中消息是以 topic 进行分类的&#xff0c;生产者生产消息&#xff0c;消费者消费消息&#xff0c;都是面向 topic 的。 topic 是逻辑上的概念&#xff0c;而 partition 是物理上的概念&#xff0c;每个 partition 对应于一个 log 文件&am…

30 超级数据查看器 视频 详情界面的便捷功能

30 超级数据查看器 视频 详情界面的便捷功能 【超级数据查看器 详情界面便捷功能-哔哩哔哩】 https://b23.tv/ACnsIXm 最下方有 讲解稿全文 有兴趣的朋友可以看看 超级数据查看器是安卓手机上的APP&#xff0c;软件。 具有导入excel表格数据&#xff0c;存入手机内置的数…

elasticSearch从零整合springboot项目实操

type会被弃用 &#xff0c;就是说之后的elasticSearch中只会存在 索引&#xff08;indices&#xff09; 和 一行&#xff08;document&#xff09; 和字段&#xff08;fields&#xff09; elasticSearch 和solr的区别最大的就是 es对应的 是 json的格式 。 solr有xml和josn等…

Linux系统编程---文件IO

一、系统调用 由操作系统实现并提供给外部应用程序的编程接口(Application Programming Interface&#xff0c;API),用户程序可以通过这个特殊接口来获得操作系统内核提供的服务 系统调用和库函数的区别&#xff1a; 系统调用(系统函数) 内核提供的函数 库调用 …

一起学习python——基础篇(19)

今天来说一下python的如何修改文件名称、获取文件大小、读取文中指定的某一行内容。 1、修改文件名称&#xff1a; import os testPath"D:/pythonFile/test.txt" testPath2"D:/pythonFile/test2.txt" #修改文件名称使用rename方法&#xff0c; #第一个参…

TQ15EG开发板教程:在MPSOC上运行ADRV9009(vivado2018.3)

首先需要在github上下载两个文件&#xff0c;本例程用到的文件以及最终文件我都会放在网盘里面&#xff0c; 地址放在最后面。在github搜索hdl选择第一个&#xff0c;如下图所示 GitHub网址&#xff1a;https://github.com/analogdevicesinc/hdl/releases 点击releases选择版…

31省结婚、离婚、再婚等面板数据(1990-2022年)

01、数据介绍 一般来说&#xff0c;经济发达地区的结婚和离婚率相对较高&#xff0c;而经济欠发达地区的结婚和离婚率相对较低。此外&#xff0c;不同省份的文化、习俗、社会观念等因素也会对结婚和离婚情况产生影响。 本数据从1990年至2022年&#xff0c;对各地区的结婚、离…