解锁大脑的秘密:从脑信号中重建高保真流畅视频的奇迹

多项指标上刷新SOTA。

解锁大脑的秘密:从脑信号中重建高保真流畅视频的奇迹

原标题:NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
文章来源:机器之心
内容字数:5591字

NeuroClips: 从fMRI到视频重建的创新框架

近年来,基于功能性磁共振成像(fMRI)的视觉刺激重建成为神经科学与计算机科学领域的一大研究热点。关于这一主题的研究虽有所增加,但仍面临诸多挑战。本文介绍了NeuroClips,一个旨在实现高保真和流畅fMRI-to-video重建的创新框架。

1. 研究背景与挑战

fMRI具有极高的空间分辨率,但由于扫描时间较长,导致其时间分辨率较低(0.5fps),这与重建视频所需的高帧率(30-60fps)形成了冲突。此外,运动、动态场景及物体形状变化的复杂性也让视频重建面临挑战。以往的研究往往缺乏对低级视觉感知的控制,难以实现高质量的重建。

2. NeuroClips的框架设计

NeuroClips的整体框架包括三个关键组件:感知重建器(PR)、语义重建器(SR)和推理过程。PR负责生成模糊但连续的粗略视频,确保帧间一致性;SR则聚焦于重建高质量的关键帧图像,以解决fMRI信号与视频帧率不匹配的问题;推理过程中,结合PR和SR的输出,通过T2V扩散模型实现最终视频的高保真度和流畅性。

3. 多fMRI融合策略

为了实现更长的视频重建,NeuroClips引入了多fMRI融合策略。该策略通过比较相邻fMRI样本的语义相似性,允许替换关键帧,从而实现最长6秒的连续视频重建。这一创新方法为fMRI到视频重建的研究开辟了新的方向。

4. 实验结果与性能评估

在使用开源fMRI-video数据集进行实验时,NeuroClips在多个指标上显著优于现有方法,尤其在SSIM和视频平滑度方面表现突出。结果表明,NeuroClips不仅在像素级控制上具有优势,还在语义对齐上表现优越。

5. 结论与未来展望

NeuroClips通过感知与语义重建的双重路径,实现了高质量、高帧率和长视频的重建,推动了fMRI到视频重建领域的进步。该框架的可解释性分析也为神经科学研究提供了新的视角,未来有望在更广泛的应用中发挥重要作用。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...