微软剑桥大学推出多模态思维可视化MVoT:大模型也拥有“空间想象力”
本文总结了微软研究院、剑桥大学和中科院研究人员提出的多模态思维可视化(MVoT)方法,该方法旨在提升大语言模型(LLM)和多模态大语言模型(MLLM)的空间推理能力。
1. 思维链(CoT)的局限性和MVoT的提出
现有的思维链(CoT)方法在复杂空间推理方面表现不佳。人类能够同时运用语言和图像进行推理,MVoT正是受此启发,将CoT扩展到多模态模型,通过结合文本和图像信息进行推理,并可视化推理过程。
2. MVoT的核心思想和技术细节
MVoT的核心思想是让AI在推理过程中生成视觉图像来辅助思考,将语言和视觉推理融合。具体而言,MVoT微调自回归多模态大语言模型(MLLM),并引入token差异损失来弥补不同模态分词器之间的差距,提升可视化质量。MVoT在推理过程中生成交织的多模态思维(文本和图像),最终生成答案。 该方法类似于人类的认知方式,能够在文本和图像之间无缝切换。
3. 实验结果和性能提升
在三个动态空间推理任务(MAZE,MINIBEHAVIOR,FROZENLAKE)中,MVoT展现出优于传统CoT的适应性和稳健性。尤其在难度最高的FROZENLAKE任务中,MVoT的表现比CoT高出20%以上。MVoT与CoT组合使用,能进一步提升性能上限,在部分任务中接近100%的准确率。
4. MVoT的可解释性和可视化分析
MVoT生成的可视化图像可以清晰地展现推理过程,提高了模型的可解释性。研究人员还定义了自动化评估指标(可视化准确率、冗余度、正确步骤等)来评估生成的视觉推理质量。实验结果表明,token差异损失有效提高了可视化准确性并减少了冗余。
5. 未来研究方向和局限性
MVoT的局限性在于推理过程中生成可视化会增加计算开销。未来研究方向包括探索更紧凑的图像表示,以及借鉴扩散模型中的图像生成技术来改进MVoT。
6. 作者介绍
该研究的主要贡献者来自微软研究院和剑桥大学,拥有深厚的AI和多模态学习背景。
总而言之,MVoT 作为一种新颖的多模态推理方法,通过结合文本和图像信息,并可视化推理过程,有效提升了大模型的空间推理能力和可解释性,为未来多模态模型的发展提供了新的方向。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。