Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

AIGC动态欢迎阅读

原标题:Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V
关键字:模型,图像,报告,文本,分词
文章来源:Founder Park
内容字数:8311字

内容摘要:


GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式。OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分离开。
然而,这种方法限制了模型,有效融合跨模态信息的能力。官博介绍,GPT-4o 是「首个端到端」训练的,跨越文本、视觉和音频的模型,所有的输入和输出,都由单个神经网络处理。
而现在,业界首个敢于挑战 GPT-4o 的模型现身了。
最近,来自 Meta 团队的研究人员发布了「混合模态基座模型」——Chameleon(变色龙)。
论文地址:https://arxiv.org/pdf/2405.09818
与 GPT-4o 一样,Chameleon 采用了统一的 Transformer 架构,使用文本、图像和代码混合模态完成训练。以类似文本生成的方式,对图像进行离散「分词化」(tokenization),最终生成和推理交错的文本和图像序列。
这种「早期融合」的方法,所有的 pipeline 从一开始就被映射到一个共同的表示空间,因此模型可以无


原文链接:Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

联系作者

文章来源:Founder Park
作者微信:Founder-Park
作者简介:来自极客公园,专注与科技创业者聊「真问题」。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...