突破视觉界限：MetaMorph模型引领理解与生成的未来

视觉理解与生成可以互惠互利，而不是相互对立。

原标题：统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与
文章来源：机器之心
内容字数：11683字

随着多模态大模型（MLLM）在视觉理解领域的快速发展，研究者们正在探索如何通过微调大语言模型（LLM）来生成同样有效的视觉信息。Meta与纽约大学的合作研究，揭示了LLM具有丰富的视觉知识，可以通过视觉指令调整方法（VPiT）实现视觉生成。

该研究的论文名为《MetaMorph: Multimodal Understanding and Generation via Instruction Tuning》，由AI领域知名学者参与。研究者们希望检查LLM在视觉理解与生成方面的潜力，尤其是通过少量数据的微调来激活其视觉功能。

VPiT是一种扩展现有指令调整方法的新技术，旨在让LLM同时生成文本和视觉token。其通过预训练的视觉编码器嵌入和文本token作为输入，输出连续视觉token和离散文本token。研究表明，理解视觉输入的能力与生成能力密切相关，且只需极少的额外训练。

研究者通过联合训练视觉理解和生成数据，发现理解数据的增加显著提升了模型的视觉生成能力。相较于单独使用生成数据，视觉理解数据的辅助作用更为显著，显示出视觉生成并非能力，而是相互依存的。

MetaMorph模型在多个视觉理解和生成基准上表现出竞争力，能有效利用LLM内在的知识生成高质量视觉token。此外，该模型在生成视觉token时能隐式执行推理，体现了其在复杂任务中的能力。

研究表明，使用指令调整训练统一模型是可行的，LLM的视觉功能在少量样本条件下也能被激活。这为未来的多模态模型开发提供了重要的见解，强调了理解数据在提升模型整体性能中的关键作用。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...