今日Arxiv最热NLP大模型论文:美团发布VisionLLaMA,为视觉生成和理解提供新基线

今日Arxiv最热NLP大模型论文:美团发布VisionLLaMA,为视觉生成和理解提供新基线

AIGC动态欢迎阅读

原标题:今日Arxiv最热NLP大模型论文:美团发布VisionLLaMA,为视觉生成和理解提供新基线
关键字:模型,任务,视觉,变换器,性能
文章来源:夕小瑶科技说
内容字数:8074字

内容摘要:


夕小瑶科技说 原创作者 | 芒果引言:探索统一的视觉与语言模型架构在人工智能领域,统一的模型架构对于简化模型设计、提高模型效率以及促进跨领域应用具有重要意义。近年来,大语言模型(Large Language Models, LLMs)在处理文本输入方面取得了显著的进展,其中基于变换器(Transformer)架构的LLaMA模型家族在众多开源实现中脱颖而出。然而,一个引人关注的问题是,这些为文本输入设计的变换器是否同样适用于处理二维图像?
对此,本研究提出了一个类似于LLaMA的视觉变换器——VisionLLaMA,它以平面(plain)和金字塔(pyramid)形式出现,专为视觉任务量身定制。VisionLLaMA是一个统一且通用的模型框架,适用于解决大多数视觉任务。通过典型的预训练范式对其有效性进行了广泛评估,并在图像感知和尤其是图像生成的下游任务中取得了显著成果。在许多情况下,VisionLLaMA在性能上超越了先前的最先进视觉变换器。相信VisionLLaMA可以作为视觉生成和理解的强大新基线模型。
论文标题:VisionLLaMA: A Unified LLaMA Inter


原文链接:今日Arxiv最热NLP大模型论文:美团发布VisionLLaMA,为视觉生成和理解提供新基线

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...