Sora技术详解及影响分析！

AIGC动态2年前 (2024)发布算法邦

Sora技术详解及影响分析！

AIGC动态欢迎阅读

原标题：Sora技术详解及影响分析！
关键字：报告,视频,模型,结构,世界
文章来源：算法邦
内容字数：5458字

内容摘要：

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场；分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫名，也可咨询。从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成，他们的目标是通过视频数据来学习一个世界模型或者世界模拟器，这才是真正令人兴奋和激动的部分。
01数据工程1-1 采用patches统一训练数据格式
最早在ViT[2]现将图片分patch输入给transformer。Sora的做有些不同，首先通过一个encoder【VAE结构】将视频帧压缩到一个低维度隐式空间（包含时间和空间上的压缩），然后展开成序列的形式送入模型训练，同样的模型预测也是隐式的序列，然后用decoder解码器去解码映射回像素空间形成视频。注意在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式如此一来有两个优势：
统一互联网上不同大小格式的视频和图片数据，统一为patches的格式输入

原文链接：Sora技术详解及影响分析！