苏剑林：“闭门造车”之多模态模型方案浅谈

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：苏剑林：“闭门造车”之多模态模型方案浅谈
关键字：图像,模型,报告,解读,文本
文章来源：算法邦
内容字数：14978字

内容摘要：

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场；分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫名，也可咨询。导读本文作者为苏剑林，来自月之暗面。这篇文章分享一下笔者关于多模态模型架构的一些想法，或者说一些猜测。这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。
最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。
事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。
01问题背景首先简化一下问题，本文所讨论的多模态，主要指图文混合的双

原文链接：苏剑林：“闭门造车”之多模态模型方案浅谈