全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

AIGC动态9个月前发布 机器之心
13 0 0

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

AIGC动态欢迎阅读

原标题:全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
关键字:本文,模型,性能,视觉,方法
文章来源:机器之心
内容字数:16304字

内容摘要:


机器之心专栏
机器之心编辑部半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。
沿袭 ViT 的研究思路,我们能否借助创新性的 LLaMA 架构,真正实现语言和图像的架构统一?
在这一命题上,最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成(包含 Sora 依赖的底层的 DIT)和理解(分类、分割、检测、自监督)等多个主流任务上相较于原 ViT 类方法提升显著。论文标题:VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
论文地址:https://arxiv.org/abs/2403.00522
代码地址:https://github.com/Meituan-AutoML/VisionLLaMA
该研究在统一图像和语言架构方面的尝试,可以复用 LLM 社区在 LLaMA 上的训练(稳定且有效的 scaling)、部署等一系列成果。
研究背景
大语言模型是当前学术界研究的热点,其中,LLaMA 是最具影响力和代表性的工作之一,


原文链接:全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...