苏剑林:“闭门造车”之多模态模型方案浅谈

AIGC动态8个月前发布 算法邦
61 0 0

苏剑林:“闭门造车”之多模态模型方案浅谈

AIGC动态欢迎阅读

原标题:苏剑林:“闭门造车”之多模态模型方案浅谈
关键字:图像,模型,报告,解读,文本
文章来源:算法邦
内容字数:14978字

内容摘要:


智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫码报名,也可咨询。导读本文作者为苏剑林,来自月之暗面。这篇文章分享一下笔者关于多模态模型架构的一些想法,或者说一些猜测。这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法,或者说一些猜测。
最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次点燃了不少人对多模态的热情,只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过,本文并非是为了凑这个热闹才发出来的,事实上其中的一些思考由来已久,最近才勉强捋顺了一下,遂想写出来跟大家交流一波,刚好碰上了两者的发布。
事先声明,“闭门造车”一词并非自谦,笔者的大模型实践本就“乏善可陈”,而多模态实践更是几乎“一片空白”,本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。
01问题背景首先简化一下问题,本文所讨论的多模态,主要指图文混合的双


原文链接:苏剑林:“闭门造车”之多模态模型方案浅谈

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...