本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 会议接收为 Oral Presentation (64/15671=0.4%) 。本文主要作者来自同济大学苗夺谦,张奇团队,其余作者来自俄亥俄州州立大学、悉尼科技大学、中科院自动化所、北京安定医院。其中,第一作者龚子璇就读于同济大学计算机学院,研究方向涉及 fMRI 解码和多模态学习。
从大脑信号还原视觉刺激一直是神经科学和计算机科学研究人员们津津乐道的话题。然而,基于非侵入式大脑活动 fMRI(功能性磁共振成像)到视频的重建研究仍然有限,因为解码连续视觉刺激的时空感知是一项艰巨的挑战。为此,本文提出了一种名为 NeuroClips 的创新框架,用于从 fMRI 数据中解码高保真和流畅的视频。
论文题目:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
论文链接:https://arxiv.org/abs/2410.19452
项目主页:https://github.com/gongzix/NeuroClips
从 fMRI 重建视频具有哪些挑战?
1.fMRI 的低时间分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 脑电信号而言,具有极高的空间分辨率,可以对全脑进行细致的扫描。但是由于全脑扫描更加耗时,fMRI 拥有较低的时间分辨率,通常 2s 才能完成一次采样,帧率只有 0.5。然而,需要重建视频的时间分辨率是极高的,通常达到 30~60 的帧率。因此 fMRI 的低时间分辨率(0.5fps)和真实视频采样的高时间分辨率(30fps)之间存在严重冲突。
2. 重建视频的低级视觉感知缺乏控制。以往的研究对于视频重建,已经实现了较为精准的语义重建。例如,当采集被试看见一个男人的 fMRI 信号并用于重建,可以获得一段男人的视频。然而,视频更难的点在于物体形状变化,人物动作以及场景的变化。因此过往的研究缺乏对重建视频的低级视觉感知的控制。
为了解决上述挑战,我们主张利用关键帧图像作为过渡视频重建的锚点,与大脑的认知机制相吻合。此外,fMRI 到视频重建考虑低级感知特征,从大脑活动解码低级感知流,如运动和动态场景,以补充关键帧,从而增强高保真帧的重建,生成平滑的视频。我们提出了一种新颖的 fMRI-to-video 重建框架 NeuroClips,引入了两个可训练的组件 —— 感知重建器(Perception Reconstructor)和语义重建器(Semantics Reconstructor),分别用于重建低级感知流和语义关键帧。而在推理过程中,采用一个预先训练好的 T2V 扩散模型,注入关键帧和低级感知流,以实现高保真度、平滑度和一致性的视频重建。该模型不仅在各项指标上实现了 SOTA 性能,还通过使用多 fMRI 融合,开创了长达 6 秒、8 帧率视频重建的探索。
研究方法
NeuroClips 的整体框架如下图所示:
图 1:NeuroClips 的整体框架。红色的线代表推理过程。
NeuroClips 包括三个关键组件:感知重建器(PR)从感知层面生成模糊但连续的粗略视频,同时确保其连续帧之间的一致性;语义重建器(SR)从语义层面重建高质量的关键帧图像;推理过程是 fMRI 到视频的重建过程,它使用 T2V 扩散模型,并结合 PR 和 SR 的重建结果,以高保真度、平滑度和一致性重建最终的保真视频。
1、感知重建器(Perception Reconstructor,PR)
将视频按两秒间隔分割成多个片段(即 fMRI 的时间分辨率)。通过在 Stable Diffusion 的 VAE 解码器中添加时间注意力层,获得对齐的 fMRI 模糊嵌入,这些嵌入可以用于生成模糊视频,其缺乏语义内容,但能感知场景的通用动作信息,在位置、形状、场景等感知指标上表现出最先进的水平。
2、语义重建器(Semantics Reconstructor , SR)
语义重构器(SR)的核心目标是重建高质量的关键帧图像,以解决视觉刺激和 fMRI 信号之间的帧率不匹配的问题,从而提高最终视频的保真度。现有愈发成熟的 fMRI 到图像重建研究促进了我们的目标,包括将 fMRI 进行低维处理、关键帧图像与 fMRI 的对齐、重建嵌入生成以及文本模态的重建增强。受到对比学习的启发,我们在和之间进行对比学习,通过额外的文本模态来增强重建嵌入。对比损失作为这一过程的训练损失。我们设置混合系数和来平衡多个损失。 其中,是关键帧图像和 fMRI 对齐采用的结合了 MixCo 和对比损失的双向损失,是重建时与 DALLE・2 相同的扩散先验损失。 3、推理过程(Inference Process)
我们结合模糊的粗略视频(PR 输出)、高质量的关键帧图像(模糊视频第一帧嵌入和 fMRI 嵌入输入到 SR 中的 SDXL unCLIP 生成)和额外的文本模态分别作为、和Guidance 来重建具有高保真度、平滑度和一致性的最终视频。我们采用 text-to-video(T2V)的扩散模型来帮助重建视频,而由于嵌入的语义仅来自文本模态。我们还需要通过增强来自视频和图像模态的语义来创建 “综合语义” 嵌入,以帮助实现 T2V 扩散模型的可控生成。 4、多 fMRI 融合(Multi-fMRI Fusion)
如何从 fMRI 中重建更长的视频呢?在推理过程中,我们考虑来自两个相邻的 fMRI 样本的两个重建关键帧的语义相似性,如果语义相似,我们就用前一个 fMRI 重建视频的尾帧替换后一个 fMRI 的关键帧,该帧将作为后一个 fMRI 的第一帧来生成视频。如图 2 所示,通过这一策略,我们首次实现了长达 6 秒的连续视频重建。
图 2:多 fMRI 融合的可视化。
实验结果
本文使用开源的 fMRI-video 数据集(cc2017 数据集)进行了 fMRI-to-video 的重建实验,通过基于帧的和基于视频的指标进行了定量评估,并进行了全面分析。
从 fMRI 重建视频的 Demos
表 1:NeuroClips 重建性能与其他方法的定量比较。
结果如上表所示,NeuroClips 在 7 个指标中的 5 个上显著优于先前的方法,SSIM 性能大幅提升,表明其补充了像素级控制的不足。语义层面的指标也总体上优于先前的方法,证明了 NeuroClips 更好的语义对齐范式。在评估视频平滑度的 ST 级指标上,由于我们引入的模糊的粗略视频( Guidance),NeuroClips 远超 MinD-Video,重建视频更加流畅。
神经科学解释性
此外,为了探究神经层面的可解释性,本文在脑平面上可视化了体素级别的权重以观察整个大脑的关注度。可以观察到,任何任务视觉皮层都占据着重要的位置,以及 SR 和 PR 的不同权重。
结论
本文创新性地提出了 NeuroClips,这是一种用于 fMRI-to-video 重建的新颖框架。通过感知重建和语义重建两条路径实现了体素级和语义级的 fMRI 视觉学习。我们可以在不进行额外训练的情况下将它们配置到最新的视频扩散模型中,以生成更高质量、更高帧率和更长的视频。NeuroClips 能够在语义级精度和像素级匹配程度上恢复视频,从而在该领域建立了新的最佳水平,我们还可视化了 NeuroClips 的神经科学可解释性。
来源:机器之心
仅用于学术分享,若侵权请留言,即时删侵!
本文来自新知号自媒体,不代表商业新知观点和立场。
若有侵权嫌疑,请联系商业新知平台管理员。
联系方式:system@shangyexinzhi.com