视觉理解与生成可以互惠互利,而不是相互对立。
原标题:统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
文章来源:机器之心
内容字数:11683字
多模态大模型的进展与研究成果
随着多模态大模型(MLLM)在视觉理解领域的快速发展,研究者们正在探索如何通过微调大语言模型(LLM)来生成同样有效的视觉信息。Meta与纽约大学的合作研究,揭示了LLM具有丰富的视觉知识,可以通过视觉指令调整方法(VPiT)实现视觉生成。
1. 研究背景
该研究的论文名为《MetaMorph: Multimodal Understanding and Generation via Instruction Tuning》,由AI领域知名学者参与。研究者们希望检查LLM在视觉理解与生成方面的潜力,尤其是通过少量数据的微调来激活其视觉功能。
2. 视觉预测指令调整(VPiT)
VPiT是一种扩展现有指令调整方法的新技术,旨在让LLM同时生成文本和视觉token。其通过预训练的视觉编码器嵌入和文本token作为输入,输出连续视觉token和离散文本token。研究表明,理解视觉输入的能力与生成能力密切相关,且只需极少的额外训练。
3. 实验成果
研究者通过联合训练视觉理解和生成数据,发现理解数据的增加显著提升了模型的视觉生成能力。相较于单独使用生成数据,视觉理解数据的辅助作用更为显著,显示出视觉生成并非能力,而是相互依存的。
4. MetaMorph模型的表现
MetaMorph模型在多个视觉理解和生成基准上表现出竞争力,能有效利用LLM内在的知识生成高质量视觉token。此外,该模型在生成视觉token时能隐式执行推理,体现了其在复杂任务中的能力。
5. 结论与启示
研究表明,使用指令调整训练统一模型是可行的,LLM的视觉功能在少量样本条件下也能被激活。这为未来的多模态模型开发提供了重要的见解,强调了理解数据在提升模型整体性能中的关键作用。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台