从功能性磁共振成像(fMRI)数据重建音频

      听觉是人类最重要的感官之一,它负责接收外部的听觉刺激,并将这些信息传递给大脑进行处理和理解。研究人员正致力于从神经科学和计算机科学两个领域探索人脑的听觉感知机制。一个关键目标是从人脑中解码神经信息,并重建原始的刺激。常见的大脑到音频的重建任务可以分为三类:大脑到声音的任务,用于重建环境中的所有自然声音;大脑到音乐的任务,用于音乐;以及大脑到语音的任务,用于人声,这些任务基于不同的刺激音频

     研究表明,在人耳的耳蜗和亚皮质结构中,声音被分解成类似频谱图的频率特定时间模式。进入大脑皮层后,人类听觉系统有两条从低级到高级的信息处理通路。初级听觉皮层对浅层或中级DNN特征更敏感,这些特征代表低级声学特征,而非初级听觉皮层对深层DNN特征更敏感,这些特征代表高级语义特征

    受到声学到语义流的启发,我们模拟了听觉处理路径的每个生理结构,并提出了一种相反的从粗到细的音频重建方法。我们使用非侵入性fMRI作为神经信号。首先,进行一个从粗到细的大脑解码过程。我们将fMRI数据解码到低维CLAP空间以获得粗粒度的语义特征,然后在这些语义特征的引导下,我们将fMRI数据解码到高维AudioMAE潜在空间以获得精细的声学特征。接下来,我们使用解码的精细神经特征作为条件,通过潜在扩散模型(LDM)重建mel频谱图,然后使用声码器恢复刺激波形。

1、方法

利用无创功能性磁共振成像(fMRI)数据,模拟听觉处理的逆路径,从而实现高质量的音频重建。

1.1 粗粒度语义解码

使用预训练的多模态模型 CLAP(对比语言-音频预训练),将 fMRI 数据解码到低维语义空间,提取粗粒度的语义特征。

CLAP 模型通过对比语言-音频预训练,将音频与自然语言描述对齐,从而提供丰富的语义信息。

1.2 细粒度声学解码

在语义特征的指导下,将 fMRI 数据进一步解码到 AudioMAE 模型的潜在空间,获取细粒度的声学特征。

AudioMAE 模型是一个自监督预训练模型,专注于重建掩码块,能够保留更多低层声学细节并更好地保留高层语义信息。

选择AudioMAE 模型的理由:

  • AudioMAE保留了更多的低级声学细节。
  • 与VAE相比,AudioMAE更好地保留了高级语义信息。
  • 在包含自然声音、人类和动物声音以及音乐的AudioSet上预训练,AudioMAE可以在通用音频领域中很好地工作。

1.3 音频重建

使用潜在扩散模型(LDM)作为生成模型,在细粒度声学特征的条件 下重建刺激音频的梅尔频谱图。

LDM 是一种强大的生成模型,能够在潜在空间中建模复杂的数据分布,并已被广泛应用于音频生成任务。

1.4 声码器

使用预训练的 HiFiGAN 声码器将重建的梅尔频谱图转换为波形,最终生成高质量的音频。

2、实验

2.1 实验设置

  • 粗粒度解码: 对于 Brain2Sound 和 Brain2Speech 数据集,仅使用听觉皮层(AC)区域的体素;对于 Brain2Music 数据集,使用整个大脑的体素。
  • 细粒度解码: 使用 4 层 Transformer 编码器和解码器,并使用预训练的 AudioMAE 模型初始化。
  • 音频重建: 使用预训练的 AudioLDM2 模型作为 LDM,并使用预训练的 HiFiGAN 声码器将梅尔频谱图转换为波形。

2.2 实验对比

  • 直接解码方法: 将 fMRI 信号直接解码到梅尔频谱图,包括线性回归、多层感知机、双向 LSTM 和 Transformer 编码器。
  • 细粒度解码方法: 将 fMRI 信号直接解码到 AudioMAE 模型的潜在空间,然后使用 LDM 重建音频。
  • 粗到细解码方法: 首先将 fMRI 信号解码到 CLAP 空间获取语义特征,然后在语义特征的指导下解码到 AudioMAE 潜在空间获取声学特征,最后使用 LDM 重建音频。

2.3 评估指标

2.3.1 高层次音频表示指标

  • FD (Fréchet Distance): 计算生成样本和目标样本在音频分类器 PANNs 提取的特征空间中的距离。
  • FAD (Fréchet Audio Distance): 类似于 FD,但使用 VGGish 模型提取特征。
  • KL (Kullback–Leibler divergence): 计算分类器 PANNs 的分类 logit 的 KL 散度,使用 Softmax 激活函数。
  • KL-S (Kullback–Leibler divergence): 计算分类器 PANNs 的分类 logit 的 KL 散度,使用 Sigmoid 激活函数。

2.3.2 低层次梅尔频谱图相似度指标

  • PCC (Pearson Correlation Coefficient): 计算重建音频和刺激音频梅尔频谱图的皮尔逊相关系数。
  • SSIM (Structural Similarity Index): 计算重建音频和刺激音频梅尔频谱图的结构相似性指数。

2.4 实验结果

  • 粗到细解码方法在重建音频的细节和语义方面均优于直接解码方法和细粒度解码方法。
  • 粗到细解码方法在 FD、FAD、KL 和 KL-S 等指标上取得了最先进的性能。
  • 提供语义提示可以有效提高重建音频的语义质量,尤其是在语义特征不佳的情况下。

2.5 数据集

Brain2Sound、Brain2Music和Brain2Speech一起被广泛用于验证粗到细的解码方法在单独的细粒度方法中的优越性。

  • Brain2Sound 数据集: 包含 5 个受试者聆听自然声音的 fMRI 信号,包括人声、动物、乐器和环境声音。
  • Brain2Music 数据集: 包含 5 个受试者聆听音乐片段的 fMRI 信号,包括 10 种音乐类型。
  • Brain2Speech 数据集: 包含 7 个受试者聆听语音片段的 fMRI 信号,包括不同性别的说话人。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/845942.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【上海大学计算机组成原理实验报告】六、内存系统实验

一、实验目的 学习内存访问机制。理解代码和数据的分区存放原理和技术。 二、实验原理 根据实验指导书的相关内容,地址寄存器MAR用来存放要进行读或写的存储器EM的地址。其内容经数据总线DBUS写入,因此必须在数据总线上具有数据后,配合MAR允…

认识微服务,认识Spring Cloud

1. 介绍 本博客探讨的内容如下所示 什么是微服务?什么是springcloud?微服务和springcloud有什么关系? 首先,没有在接触springcloud之前,我写的项目都是单体结构, 但随着网站的用户量越来越大,…

编译 libpng zlib mozjpeg libjpeg-turbo 失败的解决方法

使用vcpkg 进行下载 在使用vcpkg安装这些库之前,请确保你已经正确安装并配置了vcpkg。以下是在Windows环境下,使用vcpkg安装libpng, zlib, mozjpeg, 和 libjpeg-turbo的命令序列。这些命令假设你已经在命令行中进入了vcpkg的根目录。 安装zlib: vcpkg i…

队列的特性及代码实现(C语言)

目录 队列的定义 队列的实现分析 代码实现 Queue.h Queue.c 队列的定义 队列是只允许在一端进行插入操作,而在另一段进行删除操作的线性表。 首先,让我们来看一看生活中的队列,当我们去银行办理业务的时候,我们进入银行的时候…

Python的第三方库OS库

读者大大们好呀!!!☀️☀️☀️ 🔥 欢迎来到我的博客 👀期待大大的关注哦❗️❗️❗️ 🚀欢迎收看我的主页文章➡️寻至善的主页 文章目录 🔥前言🚀OS/SHUTIL 的方法描述🚀OS/SHUTIL…

Golang 协程和 Channel 的协同工作

在 Golang 中,协程(goroutine)和通道(channel)是并发编程的两大支柱。协程是一种轻量级的线程,而通道则是协程之间进行通信的管道。在本文中,我们将通过一个简单的示例来深入理解它们是如何协同…

GPT-4o:突破与革新

近年来,人工智能(AI)技术迅速发展,特别是在自然语言处理(NLP)领域,GPT系列模型表现尤为突出。随着OpenAI不断推出新版本,GPT-4o作为最新成员,再次引起广泛关注。本文将对…

不同linux账户切换不同的cuda版本

原因 由于服务器中安装了两个版本的cuda(cuda10.1和cuda11.1),不同项目可能需要应用不同的cuda版本,但是自己又没有root权限或者只想在使用指定conda环境时改为用指定的cuda版本。总结起来有三种方法: 1、修改软链接指…

新游启航 失落的方舟台服注册指南 一文教会你方舟台服注册

新游启航!失落的方舟台服注册指南!一文教会你方舟台服注册 失落的方舟作为本月最受期待游戏之一,在上线之际许多玩家已经有点急不可待了。这款游戏是由开发商Smile gate开发的一款MMORPG类型游戏,这款游戏的基本玩法与其他MMORPG…

理解AdaBoost算法:简单流程概述(一)【流程理解、无数学推导】

什么是AdaBoost 算法? AdaBoost(Adaptive Boosting)算法,全称为 自适应提升 ,是 一种在机器学习中用作集成方法的提升技术 。它之所以被称为自适应提升,因为每个实例的权重会重新分配,错误分类…

前端面试题日常练-day47 【面试题】

题目 希望这些选择题能够帮助您进行前端面试的准备,答案在文末 1. 在Bootstrap中,以下哪个类用于创建一个具有响应式的栅格系统? a) .grid-system b) .responsive-grid c) .container-fluid d) .grid-responsive 2. 哪个Bootstrap类用于创…

Python 关于编码与解码

在Python中,字符串的编码和解码是处理字符串与字节之间转换的重要操作。 常见的字符串编码方式包括以下几种: ASCII 编码(American Standard Code for Information Interchange):ASCII 是最早的字符编码标准&#xf…

推荐一个远程数据库 Supabase

地址:Supabase | The Open Source Firebase Alternative 使用文档: Supabase Docs

IO进程线程(三)文件IO之open/close read/write lseek

一、文件IO (一)概念 文件IO就是系统调用,用户空间进入内核空间的过程就是系统调用。 系统调用没有缓冲机制,效率较低,可移植性也相对较差,实时性高。 文件描述符是使用open函数打开文件时的返回值&…

NIUSHOP开源商城单商户V6版本:前端技术架构的深度解析

摘要: 本文将对NIUSHOP开源商城单商户V6版本的前端技术架构进行深度解析。NIUSHOP V6版本以其强大的多应用多插件组合设计理念、前后端完全分离的技术架构,以及支持多语言、多平台等特点,受到了市场的广泛好评。本文将详细介绍其前端技术栈的…

HOW - BFF 服务实践系列(一)

目录 一、BFF 介绍1.1 BFF 的概念1.2 为什么需要 BFF1.3 举例说明 二、适用于Web前端的BFF应该提供哪些能力2.1 接口聚合(重要)2.2 简化和优化的API2.3 安全和身份验证(重要)2.4 缓存机制2.5 错误处理和重试机制2.6 数据格式转换2…

【算法】贪心算法简介

贪心算法概述 目录 1.贪心算法概念2.贪心算法特点3.贪心算法学习 1.贪心算法概念 贪心算法是一种 “思想” ,即解决问题时从 “局部最优” 从而达到 “全局最优” 的效果。 ①把解决问题的过程分为若干步②解决每一步时候,都选择当前最优解(不关注全局…

RDD实战:排序算子 - sortBy()

在本实战案例中,我们将使用Apache Spark的sortBy()算子来对一个包含学生信息的RDD进行排序操作。 排序规则如下: 首先按照性别升序排列。在性别相同的情况下,按照年龄降序排列。 步骤1:创建学生信息列表 首先,我们创…

基于51单片机和NRF24L01的无线温度监控设计

一、设计功能 由单片机、温度传感器、无线模块NRF24L01以及液晶显示器等构成高精度远 程无线温度监测系统。 温度显示精确到小数点后一位。 按键设定过温值,过温在液晶屏提示。 系统设计 三、器件选择3.1温度信号采集模块 传统的温度检测大多以热敏电阻为传感器&a…

【C++】list的使用(上)

🔥个人主页: Forcible Bug Maker 🔥专栏: STL || C 目录 前言🌈关于list🔥默认成员函数构造函数(constructor)析构函数(destructor)赋值运算符重载 &#x1…