Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
Open-Sora 2.0 是潞晨科技推出的一款先进开源视频生成模型,具备业界领先的性能表现。该模型以 11B 参数规模,仅花费 20 万美元(224 张 GPU)进行训练,显著降低了传统视频生成模型的训练成本。Open-Sora 2.0 在 VBench 和用户偏好测试中表现出色,其性能甚至超越了 HunyuanVideo 和 30B 参数的 Step-Video 等主流闭源模型。
Open-Sora 2.0是什么
Open-Sora 2.0 是潞晨科技全新推出的开源视频生成模型,以其卓越的性能和显著的成本效益而闻名。通过使用 20 万美元的投资和 224 张 GPU,成功训练出 11B 参数的商业级模型。该模型在多项测试中表现优异,与高成本的闭源模型相媲美,甚至在某些方面超越它们。Open-Sora 2.0 采用了先进的 3D 自编码器、全注意力机制以及 MMDiT 架构,结合高效的并行训练方式和高压缩比自编码器,大幅提升了训练效率和推理速度。
Open-Sora 2.0的主要功能
- 高质量视频生成:能够生成 720p 分辨率、24 FPS 的流畅视频,支持多种场景和风格,无论是自然风光还是复杂动态场景都能表现出色。
- 动作幅度可控:用户可以根据需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
- 文本到视频(T2V)生成:支持通过文本描述直接生成相应的视频内容,满足创意视频制作和内容生成的需求。
- 图像到视频(I2V)生成:结合开源图像模型,可以基于图像生成视频,进一步提升生成效果和多样性。
Open-Sora 2.0的技术原理
- 模型架构:基于三维自编码器,能够高效处理视频数据,捕捉时间维度上的动态信息;引入全注意力机制,提升视频生成的时空一致性;结合多模态扩散(MMDiT)架构,更精准地捕捉文本与视频内容的关联。
- 高压缩比自编码器:通过 4×32×32 的高压缩比自编码器,显著降低推理成本。
- 高效训练方法:采用多阶段、多层次的数据筛选机制,以确保高质量数据输入,提升训练效率。模型优先在低分辨率下训练,逐步提升分辨率,大幅降低计算开销。
- 并行训练与优化:利用 ColossalAI 和系统级优化,提高计算资源利用率,确保训练效率最大化。
- 模型初始化与蒸馏:借助开源图生视频模型 FLUX 进行初始化,降低训练成本,并利用蒸馏优化策略提升自编码器特征空间的表达能力。
Open-Sora 2.0的性能表现
- 媲美 HunyuanVideo 和 30B Step-Video:Open-Sora 2.0 凭借仅 11B 参数规模,在 VBench 和用户偏好测试中表现出色,与高成本开发的主流闭源大模型相当。
- 用户偏好评测:在视觉表现、文本一致性和动作表现等关键维度中,Open-Sora 2.0 在多个指标上超越了开源 SOTA 模型 HunyuanVideo 和商业模型 Runway Gen-3 Alpha。
- VBench 指标表现强势:根据视频生成权威榜单 VBench 的评测结果,Open-Sora 2.0 的性能表现极为出色,几乎实现与行业领先的闭源模型之间的性能对齐。
Open-Sora 2.0的项目地址
- GitHub仓库:https://github.com/hpcaitech/Open-Sora
- 技术论文:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2
Open-Sora 2.0的生成效果
- 提示词:A tomato surfing on a piece of lettuce down a waterfall of ranch dressing, with exaggerated surfing moves and creamy wave effects to highlight the 3D animated fun.(一颗番茄在一片生菜上冲浪,顺着牧场酱汁的瀑布而下,夸张的冲浪动作和柔滑的波浪效果凸显了 3D 动画的乐趣。)
- 提示词:A drone camera circles a historic church on a rocky outcrop along the Amalfi Coast, highlighting its stunning architecture, tiered patios, and the dramatic coastal views with waves crashing below and people enjoying the scene in the warm afternoon light.(一架无人机摄像机围绕着阿马尔菲海岸岩石露头上的一座历史悠久的教堂飞行,突显了其令人惊叹的建筑、分层的庭院和壮观的海岸景色,海浪拍打在教堂下方,人们在温暖的午后阳光下欣赏着这美丽的景色。)
- 提示词:A scene from disaster movie.(灾难片中的场景。)
- 提示词:Chinese ancient style, realism. A young woman, dressed in an embroidered red qipao, walks along the ancient streets of a bustling Chinese town. The red lanterns hanging above her sway gently in the evening breeze, and her calm, confident stride contrasts with the lively atmosphere of merchants and performers around her.(中国古风写实。一位身着绣花红旗袍的年轻女子走在繁华的中国小镇的古道上。头顶上悬挂的红灯笼在晚风中轻轻摇曳,她从容自信的步伐与周围商贩和艺人的热闹氛围形成鲜明对比。)
如何使用Open-Sora 2.0
- 从源代码安装:
- 创建虚拟环境(推荐使用 Conda):
conda create -n opensora python=3.9
conda activate opensora
-
- 克隆仓库:
git clone https://github.com/hpcaitech/Open-Sora
cd Open-Sora
-
- 安装依赖:
- 根据你的 CUDA 版本(例如 CUDA 12.1),安装基础依赖:
- 安装依赖:
pip install -r requirements/requirements-cu121.txt
-
-
- 安装项目:
-
pip install -v . # 或使用开发模式:pip install -v -e .
-
-
- 安装加速相关的依赖(可选,但推荐):
-
pip install git+https://github.com/hpcaitech/TensorNVMe.git
pip install git+https://github.com/hpcaitech/ColossalAI.git
pip install packaging ninja
pip install flash-attn --no-build-isolation
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.git
- 使用 Docker 安装:
- 构建 Docker 镜像:
docker build -t opensora .
-
- 运行 Docker 容器(确保挂载 GPU 和工作目录):
docker run -ti --gpus all -v .:/workspace/Open-Sora opensora
Open-Sora 2.0的应用场景
- 频制作:快速高效地生成广告、动画等创意视频,降作成本。
- 影视后期:辅助生成特效镜头和虚拟场景,提升制作效率。
- 教育领域:生成教育视频,增强教学的趣味性和效果。
- 游戏开发:应用于生成游戏动画和虚拟场景,丰富游戏内容。
- VR/AR 应用:构建沉浸式虚拟场景,提升用户体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...