耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本

耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本

原标题:耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本
文章来源:人工智能学家
内容字数:9501字

MindLLM:解码fMRI信号,迈向更精准的脑机接口

本文总结了耶鲁大学、达特茅斯学院和剑桥大学研究人员发表在arXiv上的论文“MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding”,该论文提出了一种名为MindLLM的新模型,用于将功能性磁共振成像(fMRI)信号解码为文本。

1. fMRI到文本解码的挑战

将大脑活动解码为文本一直是神经科学领域的一大挑战。现有方法存在预测性能差、任务种类有限、跨受试者泛化能力弱等问题。例如,UMBRAE模型只能将fMRI数据映射到图像,无法处理更复杂的任务,如记忆检索。此外,缺乏统一且个体无关的解码架构也限制了该技术的应用。

2. MindLLM模型的创新之处

MindLLM模型旨在解决上述问题,它具有主题无关和用途广泛的特点。其核心创新在于:

  1. 主题无关的fMRI编码器:该编码器结合了神经科学信息注意层和可学习查询,利用体素的空间信息和神经科学先验知识,实现动态特征提取,提高预测准确性。其值和键的设计将体素的功能信息与其fMRI值分开,增强了跨主体泛化能力。
  2. 脑指令调整(BIT):这是一种新的训练方法,使用包含不同任务(感知、记忆、语言处理等)的多样化数据集,增强模型捕获fMRI数据中不同语义表示的能力,从而实现更通用的解码。
  3. 结合预训练大型语言模型(LLM):MindLLM利用现成的LLM,进一步提升了文本生成的质量和流畅性。

3. MindLLM的性能评估

在全面的fMRI到文本基准测试中,MindLLM的表现优于现有基线模型。具体而言,其在各种下游任务中的性能平均提高了12.0%,在未见过主题上的泛化能力提高了16.4%,在新任务适应能力上提高了25.0%。此外,MindLLM的注意力模式提供了其决策过程的可解释性。

4. MindLLM的应用前景

MindLLM技术的突破为脑机接口和神经科学研究带来了新的可能性。其潜在应用包括:

  • 帮助语言障碍者恢复沟通能力。
  • 实现健康人群对数字设备(如具身AI或假肢)的更直观、精确的神经控制。

5. 总结

MindLLM模型的出现标志着fMRI到文本解码技术取得了显著进展。其主题无关性、通用性和优越的性能,为脑机接口等领域的应用提供了坚实的基础,也为加深对大脑机制的理解提供了新的工具。未来研究可以进一步探索MindLLM的应用场景,并改进其模型架构,以实现更准确、更可靠的脑活动解码。


联系作者

文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...