全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA
关键字：本文,模型,性能,视觉,方法
文章来源：机器之心
内容字数：16304字

内容摘要：

机器之心专栏
机器之心编辑部半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。
沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？
在这一命题上，最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成（包含 Sora 依赖的底层的 DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原 ViT 类方法提升显著。论文标题：VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
论文地址：https://arxiv.org/abs/2403.00522
代码地址：https://github.com/Meituan-AutoML/VisionLLaMA
该研究在统一图像和语言架构方面的尝试，可以复用 LLM 社区在 LLaMA 上的训练（稳定且有效的 scaling）、部署等一系列成果。
研究背景
大语言模型是当前学术界研究的热点，其中，LLaMA 是最具影响力和代表性的工作之一，

原文链接：全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA