智源研究院王仲远：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年

AIGC动态欢迎阅读

原标题：智源研究院王仲远：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年
关键字：模型,快手,语言,路线,世界
文章来源：甲子光年
内容字数：0字

内容摘要：

Next-Token Prediction is All You Need。作者｜王艺
编辑｜栗子
通往AGI的道路千万条，多模态大模型是极其重要的一条。
无论是Sora的发布引起的关于“世界模型”的讨论，还是Midjourney、Adobe Firefly、快手可灵、Runway Gen-3、Vidu等模型的爆火，抑或是作为具身智能机器人“大脑”出现，能感知多维环境信息、提升机器人适应性和创造力的VLM（Vision-Language-Model）……显然，多模态大模型的浪潮已不可阻挡。
据Gartner预测，建立在多模态大模型上的生成式AI应用，将从2023年的1%，激增至2027年的40%，未来的市场充满了想象空间。
然而，当今市面上绝大多数的多模态模型，要么采用Sora的Diffusion Transformer（DiT）架构，要么采用大语言模型+CLIP的训练方式。
尽管都能实现多模态的感知和生成，但是各个模态之间本质上是仍然是的，仍然需要各种显性或者隐性的pipeline进行连接。这种“各模态分开训练”的方式不仅模型复杂度高、训练数据需求量大，数据融合难度大，而且无法真

原文链接：智源研究院王仲远：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年