ICLR 2024｜把图像视为外语，快手、北大多模态大模型媲美DALLE-3

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ICLR 2024｜把图像视为外语，快手、北大多模态大模型媲美DALLE-3
关键字：图像,快手,视觉,分词,模型
文章来源：机器之心
内容字数：6753字

内容摘要：

机器之心报道
机器之心编辑部动态视觉分词统一图文表示，快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。
当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展，能够理解和生成复杂的文本内容。但你是否想过，如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上，就可以轻松理解海量的图像与视频，并辅助创作图文并茂的内容。近期，来自快手和北大合作的最新多模态大模型 LaVIT, 正在让这个想法逐步变为现实。论文标题：Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
论文地址：https://arxiv.org/abs/2309.04669
代码模型地址：https://github.com/jy0205/LaVIT
模型总览
LaVIT 作为一个新型的通用多模态基础模型，可以像语言模型那样，既能够理解也能生成视觉内容。LaVIT 继承了大语言模型成功的训练范式，即以自回归的方式预测下一个图像或文本 token。在训练完成后，其可

原文链接：ICLR 2024｜把图像视为外语，快手、北大多模态大模型媲美DALLE-3