AIGC动态欢迎阅读
原标题:国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
关键字:架构,视频,模型,数据,报告
文章来源:机器之心
内容字数:16966字
内容摘要:
机器之心原创
作者:张倩在 Sora 代表的视频生成路线上,国内公司其实已有一定的技术储备。2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了?Sora 生成的新视频
根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表示形式,并通过 Transformer 和扩散模型结合,展现了卓越的 scale 特性。无独有偶,最近发布的 Stable Diffusion 3 也采用了同样的架构。
其实,这两项工作都是基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合著的一篇论文《Scalable Diffusion Models with Transformers》。这篇论文提出了一种基于 Transformer 架构的新型扩散模型 ——DiT,用对潜在 patch 进行操作的 Transformer 替
原文链接:国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...