AIGC动态欢迎阅读
原标题:爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
关键字:报告,视频,商标,字节跳动,模型
文章来源:量子位
内容字数:6666字
内容摘要:
明敏 丰色 发自 凹非寺量子位 | 公众号 QbitAI就说Sora有多火吧。
生成的视频上线一个、疯传一个。
作者小哥新上传的效果,很快引来围观。
失败案例都让人看得上瘾。
将近1万人点赞。
学术圈更炸开锅了,各路大佬纷纷开麦。
纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。
英伟达高级研究科学家Jim Fan高呼,这就是视频生成的GPT-3时刻啊!
尤其在技术报告发布后,讨论变得更加有趣。因为其中诸多细节不是十分明确,所以大佬们也只能猜测。
包括“Sora是一个数据驱动的物理引擎”、“Sora建立在DiT模型之上、参数可能仅30亿”等等。
所以,Sora为啥能如此惊艳?它对视频生成领域的意义是?这不,很快就有了一些可能的答案。
视频生成的GPT-3时刻总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。
关于技术细节,官方报告简单提了以下6点:
一是视觉数据的“创新转化”。
与大语言模型中的token不同,Sora采用的是“Patc
原文链接:爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...