Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

AIGC动态1年前 (2024)发布 Founder Park

AIGC动态欢迎阅读

原标题：Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V
关键字：模型,图像,报告,文本,分词
文章来源：Founder Park
内容字数：8311字

内容摘要：

GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式。OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分离开。
然而，这种方法限制了模型，有效融合跨模态信息的能力。官博介绍，GPT-4o 是「首个端到端」训练的，跨越文本、视觉和音频的模型，所有的输入和输出，都由单个神经网络处理。
而现在，业界首个敢于挑战 GPT-4o 的模型现身了。
最近，来自 Meta 团队的研究人员发布了「混合模态基座模型」——Chameleon（变色龙）。
论文地址：https://arxiv.org/pdf/2405.09818
与 GPT-4o 一样，Chameleon 采用了统一的 Transformer 架构，使用文本、图像和代码混合模态完成训练。以类似文本生成的方式，对图像进行离散「分词化」（tokenization），最终生成和推理交错的文本和图像序列。
这种「早期融合」的方法，所有的 pipeline 从一开始就被映射到一个共同的表示空间，因此模型可以无

原文链接：Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V