小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见

近些年,研究人员们对探索大脑如何解读视觉信息,并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文,通过扩散模型重建视觉影像,给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么,并且帮你画了出来。‭​​‌‌‭​‍

第一行:人眼所见画面,第二行:AI 重现的画面‭​​‌‌‭​‍

简而言之,AI 利用 fMRI 信号(全称为功能性核磁共振成像)+ Diffusion Model,就能一定程度上实现「读脑术」。‭​​‌‌‭​‍

‭​​‌‌‭​‍不过,如何有效提取并利用 fMRI 信号中隐含的语义和轮廓信息,仍然是业界的一个关键挑战。‭​​‌‌‭​‍

‭​​‌‌‭​‍在上月揭晓的 AAAI 2024 上,‭​​‌‌‭​‍小红书多模态团队‭​​‌‌‭​‍提出了一种新方法——‭​​‌‌‭​‍可控脑视觉扩散模型(Controllable Mind Visual Diffusion Model,CMVDM)‭​​‌‌‭​‍。‭​​‌‌‭​‍该模型能很好地将 fMRI 信号还原为与原始视觉刺激语义属性一致,空间结构对齐的高质量图片,可以使得生成的图像清晰度更高、也更接近人眼所见的原始图像。‭​​‌‌‭​‍

‭​​‌‌‭​‍具体来说,CMVDM 首先使用属性对齐和辅助网络,从 fMRI 数据中提取语义和轮廓信息。其次,引入一个控制模型并结合残差块,充分利用提取的信息进行图像合成,生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。‭​​‌‌‭​‍

‭​​‌‌‭​‍通过大量实验,小红书多模态团队证明了 CMVDM 在可视化质量和技术指标上都优于现有的最先进的方法(SOTA)。‭​​‌‌‭​‍此外,团队还发现大脑的高级视觉皮层(HVC) 主要关注视觉刺激的语义信息,而低级视觉皮层(LVC)则主要关注视觉刺激的结构信息。‭​​‌‌‭​‍

‭​​‌‌‭

理解人类大脑在观察视觉刺激(例如自然图像)时发生的认知过程,一直是神经科学家的主要关注点。客观的视觉刺激和主观的认知活动,都能在大脑的视觉皮层中引发复杂的神经信号传递,从而为更高层次的认知认知和决策过程奠定基础。随着功能性磁共振成像(fMRI)等技术的进步,人们已经能够以更高的精度和更细的粒度捕获实时的大脑活动信号,从而加速了神经科学研究的进程。然而,对于认知神经科学和下游应用(如脑机接口 BCI)来说,解读和重构这些复杂的信号仍然是一个巨大的挑战。‭​​‌‌‭​‍

‭​​‌‌‭​‍早期尝试在分析视觉任务的大脑活动时,主要关注将在人类受试者的大脑活动与观察到的自然图像相匹配,或者重构简单几何形状的视觉模式。这些探索证明了从大脑信号中获取感知图像的语义信息的可行性,然而它们对未见过的语义类别或复杂的重构任务的泛化能力较差。‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

‭​​‌‌‭​‍近期研究在从大脑信号重构视觉刺激方面取得了重要进展。Roman Beliy、Guy Gaziv 等工作能够生成与原始视觉刺激形状相似的图像,但这些图像存在严重的扭曲和模糊问题。文献 IC-GAN, Mind-Vis 等研究采用了常用的生成模型,如生成对抗网络(GAN)或扩散模型,生成的高质量 RGB 图像在语义上与原始视觉刺激保持一致,条件是对应的 fMRI 信号。然而,如图所示,这些方法在位置一致性上存在问题。 总的来说,现有方法未能有效地利用 fMRI 信号中固有的语义和空间特征。‭​​‌‌‭​‍

‭​​‌‌‭​‍为了解决上述问题,我们提出了一种可控脑视觉扩散模型(CMVDM),该模型通过控制网络使扩散模型能够利用提取出可信的语义和轮廓信息,从而完成高度逼真的人类视觉重构。我们在两个数据集上进行了全面的实验来评估 CMVDM 的性能。与现有的方法相比,它在定性和定量结果上都达到了最先进的水平(SOTA),证明了 CMVDM 从 fMRI 信号中解码高质量和可控图像的有效性。‭​​‌‌‭​‍

‭​​‌‌‭

CMVDM 框架示意图‭​​‌‌‭​‍

具体来说,我们的方法可以被拆解为:‭​​‌‌‭​‍

  • ‭​​‌‌‭​‍我们首先对一个预训练的潜在扩散模型(Latent Diffusion Model,LDM)进行微调,使用语义对齐损失来提高性能,并预训练一个轮廓提取器来估计 fMRI 数据的准确语义和轮廓信息。‭​​‌‌‭​‍
  • 受 ControlNet 的启发,我们引入一个控制网络,该网络将轮廓信息作为条件输入到预训练的 LDM 中,以指导扩散过程生成所需的图像,这些图像在语义和轮廓信息方面都与原始视觉刺激相匹配。‭​​‌‌‭​‍
  • 此外,我们构建了一个残差模块来提供超出语义和轮廓的信息。‭​​‌‌‭​‍

2.1 预训练 LDM 调整以及语义信息提取‭​​‌‌‭​‍

我们引入在 HCP 数据集上预训练的 fMRI 信号特征提取器以及预训练的 LDM 网络,通过下述监督损失优化 fMRI 信号特征提取器以及 LDM 网络中的 cross attention 层,从而基本实现将脑电信号还原为视觉刺激。‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

我们将上文从 fMRI 信号提取器中得到的特征定义为从 fMRI 信号中提取的语义信息。由于缺乏直接的语义监督,只凭上文提到的监督函数可能无法提供足够的语义信息。因此,我们设计了一个语义对齐损失来进一步增强语义信息和余弦相似度,如下所示。‭​​‌‌‭​‍

‭​​‌‌

核心思路是将从 fMRI 信号中提取出的语义信息与 CLIP 处理图片得到的特征进行对齐。可以参考「CMVDM 框架示意图」中的“Finetuning LDM”部分。‭​​‌‌‭​‍

‭​​‌‌‭​‍2.2  轮廓信息提取‭​​‌‌‭​‍

‭​​

‭​​‌‌‭

‭​​‌‌‭​‍可以参考「CMVDM 框架示意图」中的 “Silhouette Extraction” 部分。‭​​‌‌‭​‍

‭​​‌‌‭​‍2.3 控制网络训练‭​​‌‌‭​‍

在从 fMRI 信号中获取增强的语义信息和可靠的轮廓信息后,我们使用它们来控制生成的结果。受 ControlNet 的启发,我们设计了一个控制模型来控制生成图像的整体构成。具体来说,我们固定了 LDM 中去噪网络中的所有参数,并将去噪网络的 U-Net 编码器克隆到可训练的控制模块中。控制模块的输入包括噪声潜在代码、语义信息和轮廓信息。此外,为了弥补在属性提取中丢失的 fMRI 信息,我们采用了一个可训练的残差块来添加超出语义和轮廓的信息。推理过程和监督控制模型的训练损失表示为:‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

‭​​‌‌‭​‍ 

‭​​‌‌‭​‍ 

‭​​‌‌‭

我们考虑在不同复杂度数据集上进行视觉信号重建测试,考虑的数据集有两个:Generic Objects Dataset (GOD)、BOLD5000 (Brain, Object, Landscape Dataset)。前者多为受试者对简单图片物体的脑电信号-图片对,后者则增加了场景复杂度和数据量。我们将 CMVDM 与四种 SOTA 方法进行比较:Beliy、Gaziv、IC-GAN、MinD-Vis。为评估模型的性能,在评价指标上我们考虑 N-way 分类准确度(Acc),皮尔森相关系数(PCC),结构相似性度量(SSIM)来评价生成图像的语义准确度和结构相似性。‭​​‌‌‭​‍

‭​​‌‌‭​‍3.1 指标对比结果‭​​‌‌‭​‍

如图所示,实验结果揭示了 CMVDM 总体上显著优于其他方法。与 IC-GAN、MinD-Vis 相比,尽管两者都产生了良好的结果,但 CMVDM 在 SSIM 方面显著优于它们。这表明 CMVDM 生成的图像在物体轮廓和图像结构方面与视觉刺激的相似度更高。Gaziv 在 SSIM 方面取得了显著的结果,但视觉结果表明,Gaziv 方法无法生成高保真度的图像。‭​​‌‌‭​‍

3.2 可视化对比结果‭​​‌‌‭​‍

  • GOD 上的可视化对比‭​​‌‌‭​‍

  • BOLD5000 对比结果‭​​‌‌‭​‍

3.3 实验分析‭​​‌‌‭​‍

本工作对提出的损失函数与引入的模块进行了消融实验,并结合不同视觉皮层的脑电信号进行实验对比与可视化验证,证明了所提出方法的有效性。‭​​‌‌‭​‍

  • ‭​​‌‌‭​‍消融实验指标分析‭​​‌‌‭​‍

消融实验表明,CMVDM 在引入了新的对齐损失与结构控制模块后实现了对原始刺激更高的语义准确度和结构相似性。‭​​‌‌‭​‍‭​​‌‌‭

  • 重建结果一致性可视化分析‭​​‌‌‭​‍

我们的方法相比于 MinD-Vis 在生成一致性上更佳,表现出了对生成图片结构的有效控制。‭​​‌‌‭​‍

  • 不同视觉皮层区域信号的重建分析‭​​‌‌‭​‍

V1,V2, V3 均属于低级视觉皮层 LVC 的主要组成区域,FFA,PPA,LOC 则属于高级视觉皮层 HVC 的主要组成区域,VC 代表全视觉皮层‭​​‌‌‭​‍

实验结果与可视化表明:LVC 在结构指标上(如 SSIM )表现优于 HVC,表明低级视觉皮层捕获视觉信息的结构等低级特征;HVC 在语义指标上(如 Acc )表现明显优于 LVC,表明高级视觉皮层用于处理更抽象的语义特征;借助全视觉皮层 VC 的信号,我们的方法可以有效重建出语义、结构与原始视觉刺激相近的高质量图像。‭​​‌‌‭​‍

我们提出了可控脑视觉扩散模型(CMVDM)。这项工作将脑电信号重建问题分解为特征提取和图像重建两个子任务。通过采取自监督与半监督方法,我们分别提取信号的语义和结构特征,并利用预训练扩散模型的丰富知识进行多条件视觉信号重建,实现了与原始视觉刺激语义匹配且结构相似的高质量图像生成。‭​​‌‌‭​‍

‭​​‌‌‭​‍更进一步,CMVDM 在脑电信号重建相关的数据集上取得了最先进成果(SOTA),展现了其在复杂场景视觉信号可控重建方面的良好泛化性,突出其在神经科学和计算机视觉交叉领域的创新性和实用性。本文提出的 Diffusion-based 生成方案可拓展至泛化的条件可控生成领域,为小红书发布端文生图新玩法提供更多方案。‭​​‌‌‭​‍

‭​​‌‌‭​‍论文地址:‭​​‌‌‭​‍https://arxiv.org/pdf/2305.10135.pdf‭​​‌‌‭​‍

  • 曾博涵

现为北京航空航天大学硕士研究生,小红书创作发布团队实习生,曾在 ECCV、CVPR、NeurIPS 等发表论文。主要研究方向为计算机视觉生成。

  • 李尚霖

现为北京航空航天大学硕士研究生,小红书创作发布团队实习生,曾在 AAAI 发表多篇论文。主要研究方向为计算机视觉生成、联邦学习等。

  • 莱戈(贾一亮)

小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文,曾获 YouTube-VOS 视频分割竞赛 Top-3 排名,曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向:目标跟踪、视频分割、多模态分类/检索等。

  • 汤神(田不易)

小红书创作发布团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录,ICCV Wider Challenge 人脸检测国际竞赛冠军,ICCV VOT 单目标跟踪冠军,CVPR UG2+ 亚军。

NLP 算法工程师-智能创作

岗位职责:

基于高质量的小红书内容生态,研发实用领先的 NLP 智能创作技术,技术栈包括关键词提取、情感分析、上下文理解、命名实体识别、词性标注、句法分析、机器翻译、文本摘要、问答系统等,广泛支持智能内容创作需求,创造小红书独有的产品用户价值。

任职资格:

1. 熟悉语言知识表示、多模态生成模型及 NLP 智能创作,在以下一个或多个领域有深入的研究及落地经验,包括但不限于:NLP 生成、文案创作、多轮对话、模型压缩等

2. 具有优秀的编程基础及动手能力、良好的工作习惯,丰富的业务落地实战经验,优秀的快速学习能力

3. 敢于应对实际挑战,有坚韧的品质、优秀的自驱能力,善于主动沟通表达和团队协作

4. 发表 ML/NLP 等顶会/期刊论文、取得权威竞赛 Top 名次、ACM 编程国际竞赛  Top 成绩者优先

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 tangshen@xiaohongshu.com。

算法工程师-社区生态

岗位职责:

  • 职责包括但不限于图文、视频等多模态内容的分类、检索、去重等工作,旨在优化平台内容生态、提升内容质量和分发效率,提高用户体验;

  • 负责 CV 相关算法研发,包括但不限于:图像/视频分类、图像检测/分割、视频理解、人脸识别、OCR、自监督学习等;

  • 负责 NLP 相关算法研发,包括但不限于:文本分析、语义分析、事件提取、分类、聚类、情感、问答、关系抽取、知识图谱等;

  • 完成算法的快速实现以及大规模工业化部署,参与创新性算法的研究以及开发工作;提供系统解决方案,打造可复用的社区业务平台能力,提升社区核心服务稳定性; 有互联网内容生态相关技术从业经验者优先。

任职资格:

  • 计算机/电子信息/自动控制/软件工程/数学等相关专业,硕士及以上学历

  • 优秀的分析、解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证;

  • 熟练掌握 PyTorch/TensorFlow 等深度学习框架中的至少一种;

  • 具备优秀的编程能力和经验,熟悉 Python、C/C++、Java 等编程语言,具有扎实的数据结构和算法功底;

  • 具备优秀的研究和创新能力,在 CVPR/ICCV/ECCV 与 ICML/ACL/EMNLP/KDD/AAAI 等计算机视觉 &自然语言处理 &机器学习领域国际顶会或顶刊上发表过论文或 workshop 获奖者优先; 在国际竞赛(如: ACM ICPC, Kaggle, KDD Cup 等)中获得过优异成绩者优先;

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 laige@xiaohongshu.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/642251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术浪潮中的职业变革:程序员面临的裁员挑战与应对策略

目录 前言 冲破时空壁垒:探索技术变革的酷时代! 逆境成长:一个互联网人战胜失业困境的故事 裁员的双面影响:挑战与机遇 应对裁员潮危机:程序员的超级英雄之路 前言 惊人的新闻传来,一对来自中国的工程师…

基于神经网络的电力系统的负荷预测

一、背景介绍: 电力系统负荷预测是生产部门的重要工作之一,通过准确的负荷预测,可以经济合理地安排机组的启停、减少旋转备用容量、合理安排检修计划、降低发电成本和提高经济效益。负荷预测按预测的时间可以分为长期、中期和短期负荷预测。…

​​快速排序(四)——挖坑法,前后指针法与非递归

目录 ​一.前言 二.挖坑法 三.前后指针法 四.递归优化 五.非递归 六.结语 一.前言 本文我们接着上篇文章的重点快排,现在继续讲解对快排优化的挖坑法,前后指针法以及非递归方法,下面是上篇文章快排链接:https://mp.csdn.net…

C#,字符串匹配(模式搜索)有限自动机(Finite Automata)算法的源代码

一、有限状态自动机 图中两个圆圈,也叫节点,用于表示状态,从图中可以看成,它有两个状态,分别叫0和1。从每个节点出发,都会有若干条边。当处于某个状态时,如果输入的字符跟该节点出发的某条边的内…

用Axure RP 9制作滑块

制作流程 1.打开界面 放置一个水平线 修改长为400 线段为5 2.放入圆 如图 3.修改圆的长和宽 如图 4.将圆变成动态面板 5.设置交互事件 如图 6.增加交互事件 7.增加 8.修改成跟随水平

基于springboot+vue的网上点餐系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 背景和意…

php基础学习之数据类型

php数据类型的基本概念 数据类型:data type,在PHP中指的是数据本身的类型,而不是变量的类型。 PHP 是一种弱类型语言,变量本身没有数据类型。 把变量类比成一个杯子(容器),杯子可以装雪碧、可…

STL之unordered_map使用方法

这里写目录标题 STL之unordered_map使用方法1.什么是STL呢2.unordered_map2.1 头文件:2.2 怎么创建:2.3 初始化:2.4 根据key获取对应value值:2.5 遍历,判断key是否存在:2.6 怎么根据迭代器it获取key和value…

Jenkins中文插件安装与使用

安装中文插件 进入Jenkins的系统管理—插件管理,选择Available plugins搜索Locale,进行下载安装 使用 安装完成之后,进入系统配置,找到Locale,Default Language输入zh_CN为中文模式,输入en_US为英文模式 …

Flutter 自定义AppBar实现滚动渐变

1、使用ListView实现上下滚动。 2、使用Stack:允许将其子部件放在彼此的顶部,第一个子部件将放置在底部。所以AppBar,写在ListView下面。 3、MediaQuery.removePadding:当使用ListView的时候发现,顶部有块默认的Padd…

数据的存储

目录 1 -> 数据类型的介绍 1.1 -> 类型的基本归类 2 -> 整型在内存中的存储 2.1 -> 原码、反码、补码 2.2 -> 大小端介绍 3 -> 浮点型在内存中的存储 3.1 -> 浮点数存储规则 1 -> 数据类型的介绍 基本内置类型有: char /…

视频转换成文字,原来转换的方法这么简单!

在我们的生活中,不少小伙伴是否遇到过这样的情况?观看网络视频时,由于解说内容极为引人入胜,忍不住想将其内容记录下来,但这手动逐句整理的过程既耗时又费力。幸运的是,经过一番努力查找,确实有…

【C++杂货铺】三分钟彻底搞懂如何使用C++中max函数

🌈前言 欢迎收看本期【C杂货铺】,这期内容,我们将围绕C中max函数部分进行讲解,包含了如何查询库函数,max函数的使用方法灯。如果你想学习C,或者刚学完C语言衔接C,那么这篇文章将会非常有效的帮助…

RC滤波电路的原理

RC滤波电路分为低通滤波和高通滤波 低通滤波通过低频信号 看上面这两个电路 先分析低通滤波 由于电容C具有隔直通交的特性,所以输入的高频分量相当于经过电阻R后直接对地短接,并没有输出到后端负载上,只有低频的输入分量才会输出到后端。 电…

JAVA输入任意一个数字,实现递减求和(计算任意整数n的和)

摘要:本文介绍了使用Java编程语言计算任意整数n及其之前所有整数的和的示例代码。代码使用了Scanner类来读取用户输入的整数值,并通过循环计算出和结果并生成计算公式字符串。 内容: 在这个示例中,我们将展示如何使用Java编程语言…

k8s-helm

Helm: 什么是helm,在没有这个heml之前,deployment service ingress的作用就是通过打包的方式,把deployment service ingress这些打包在一块,一键式的部署服务,类似于yum 官方提供的一个类似于安全仓库的功能,可以实现…

【Linux】【实战系列】10 分钟掌握日常开发中 Linux 文本与文件处理命令

文章目录 文本查看和处理cattailheadmore & lessmoreless grep组合融合技 awk 文本编辑vi & vim三种模式使用基本使用其它使用技巧 文件搜索find 最后个人简介 hello,大家好,我是 Lorin,今天和大家分享一期 Linux 命令实战教学&#…

WebAssembly002 emcc Emscripten js端传入数组给c++

Emscripten下载 安装Emscripten:可以在Emscripten的官方网站(https://emscripten.org/)上找到安装说明。我的踩坑记录在:WebAssembly002 emcc install 解决 Error: Downloading URL ‘https://storage.googleapis.com/…‘ erro…

第九站(17天):C++IO流

文件IO流 对象:文件,控制台,特定数据类型stringstream (写数据输出流out,读数据输入流in) ofstream : ofstream outfile;//输出流:从键盘输出数据,写入到文件 //文件打开默认位ios::out//字节覆盖写 //可以截断设置为:ios::out | ios::trunc//将之前文件全部…

关于网络模型的笔记

1. OSI 七层参考模型: 简介: 七层模型,亦称 OSI(Open System Interconnection)参考模型,即开放式系统互联。参考模型 是国际标准化组织(ISO)制定的一个用于计算机或通信系统间互联…