Step-Video-TI2V – 阶跃星辰开源的图生视频模型
Step-Video-TI2V是什么
Step-Video-TI2V 是由阶跃星辰(StepFun)推出的一款开源图生视频(Image-to-Video)生成模型,具有 300 亿个参数。该模型能够根据提供的文本描述和图像输入生成最长可达 102 帧的视频。其核心技术基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,大幅提升了训练和推理的效率。用户还可以通过调整分数(motion score)来平衡视频的动态性和稳定性,并支持推、拉、摇、移、旋转、跟随等多种镜头方式。
Step-Video-TI2V的主要功能
- 图生视频生成:用户可以上传一张图片并输入相关文本描述,模型将生成一段连贯流畅的视频。
- 高质量视频输出:支持生成最多 102 帧、5 秒、540P 分辨率的视频,满足多种创作需求。
- 动态性调节:通过调整分数,用户能够控制视频的动态效果。例如,分数为 2 时,视频较为稳定,但动态性较弱;而分数提升至 10 或 20 时,视频动态性显著增强。
- 动态与稳定的平衡:用户可以在动态效果和稳定性之间找到最优平衡点,灵活调整视频效果。
- 运镜方式控制:支持多种镜头方式,包括固定镜头、上下左右移动、摇动、放大缩小、推进拉远、旋转及焦点转移等。
- 电影级运镜效果:能够生成类似电影级别的复杂运镜效果,满足专业创作需求。
- 动漫效果优化:在动漫风格视频生成方面表现杰出,能生成具有虚化背景和动态动作等特效,适合动画创作和短视频制作。
- 灵活的视频尺寸:支持多种视频尺寸的生成,包括横屏、竖屏和方屏,方便用户根据不同需求选择合适的视频格式。
- 多语言支持:配备双语文本编码器,支持中英文提示输入,方便不同语言用户使用。
- 特效生成能力:具备初步的特效生成能力,未来将进一步优化特效效果。
Step-Video-TI2V的技术原理
- 深度压缩的变分自编码器(Video-VAE):该模型使用了深度压缩的变分自编码器(Video-VAE),实现 16×16 的空间压缩和 8× 的时间压缩。此技术显著降低了视频生成的计算复杂度,同时保持了出色的视频重建质量。Video-VAE 采用双路径架构,有效分离高低频信息,进一步优化生成效果。
- 基于扩散的 Transformer(DiT)架构:模型基于扩散的 Transformer(DiT)架构,包含 3D 全注意力机制。通过 Flow Matching 训练方法,逐步去噪输入噪声为潜在帧,将文本嵌入和时间步作为条件因子,该架构在生成高动态和高美学质量视频方面表现出色。
- 双语文本编码器:Step-Video-TI2V 配备双语文本编码器,能理解中英文提示,使得模型能够直接生成与文本描述相符的视频。
- 直接偏好优化(DPO):为提升生成视频质量,模型引入了视频直接偏好优化(Video-DPO)方法,通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。
- 级联训练策略:采用级联训练流程,包括文本到图像(T2I)预训练、文本到视频/图像(T2VI)预训练、文本到视频(T2V)微调和直接偏好优化(DPO)训练,以加速模型的收敛,充分利用不同质量的视频数据。
- 系统优化:在系统层面进行了优化,包括张量并行、序列并行和 Zero1 优化,以实现高效的分布式训练。引入高性能通信框架 StepRPC 和双层监控系统 StepTelemetry,优化数据传输效率和识别性能瓶颈。
Step-Video-TI2V的项目地址
- Github仓库:https://github.com/stepfun-ai/Step-Video-TI2V
- HuggingFace模型库:https://huggingface.co/stepfun-ai/stepvideo-ti2v
- arXiv技术论文:https://arxiv.org/pdf/2503.11251
如何使用Step-Video-TI2V
- 访问跃问视频:前往跃问视频的官方网站或移动应用。
- 操作步骤:上传图片并输入文本描述,调整参数(如分数等),然后点击生成按钮以下载或分享视频。
Step-Video-TI2V的应用场景
- 动画制作:特别擅长生成动漫风格的视频,根据输入的图片和文本描述生成流畅动画。
- 短视频制作:支持多种运镜方式,生成具有电影级效果的短视频。
- 动作教学:生成复杂的动态场景,如体育或舞蹈动作教学视频。
- 特效制作:能够生成具有美感和真实感的视频,适用于电影、电视剧和游戏中的特效制作。
- 产品展示:生成吸引人的广告视频,展示产品特性和品牌故事。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...