智源研究院王仲远:Emu3证明Scaling Law在多模态大模型上依然成立|甲子光年

智源研究院王仲远:Emu3证明Scaling Law在多模态大模型上依然成立|甲子光年

AIGC动态欢迎阅读

原标题:智源研究院王仲远:Emu3证明Scaling Law在多模态大模型上依然成立|甲子光年
关键字:模型,快手,语言,路线,世界
文章来源:甲子光年
内容字数:0字

内容摘要:


Next-Token Prediction is All You Need。作者|王艺
编辑|栗子
通往AGI的道路千万条,多模态大模型是极其重要的一条。
无论是Sora的发布引起的关于“世界模型”的讨论,还是Midjourney、Adobe Firefly、快手可灵、Runway Gen-3、Vidu等模型的爆火,抑或是作为具身智能机器人“大脑”出现,能感知多维环境信息、提升机器人适应性和创造力的VLM(Vision-Language-Model)……显然,多模态大模型的浪潮已不可阻挡。
据Gartner预测,建立在多模态大模型上的生成式AI应用,将从2023年的1%,激增至2027年的40%,未来的市场充满了想象空间。
然而,当今市面上绝大多数的多模态模型,要么采用Sora的Diffusion Transformer(DiT)架构,要么采用大语言模型+CLIP的训练方式。
尽管都能实现多模态的感知和生成,但是各个模态之间本质上是仍然是独立的,仍然需要各种显性或者隐性的pipeline进行连接。这种“各模态分开训练”的方式不仅模型复杂度高、训练数据需求量大,数据融合难度大,而且无法真


原文链接:智源研究院王仲远:Emu3证明Scaling Law在多模态大模型上依然成立|甲子光年

联系作者

文章来源:甲子光年
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...