VACE

AI工具1年前 (2025)更新 AI工具集

VACE – 阿里通义推出的视频生成与编辑框架

VACE是什么

VACE（视频创作与编辑）是阿里巴巴通义实验室推出的一款全方位的视频生成与编辑框架。该框架将多种视频处理任务（如参考视频生成、视频编辑、遮罩处理等）整合到一个统一的模型中，从而实现高效的内容创作与编辑。VACE的核心是视频条件单元（Video Condition Unit，VCU），它整合文本、图像、视频和遮罩等多种输入模态，支持灵活的任务组合。实验结果显示，VACE在多个任务上展现出与专用模型相当的性能，为视频内容创作开辟了新的可能性。

VACE

VACE的主要功能

文本生成视频：根据文本描述生成相应的视频内容。
参考图像生成视频：结合文本及参考图像生成新的短片。
视频扩展：在已有视频片段的基础上生成新的开头或结尾。
视频编辑：对输入的视频进行整体风格转换，例如色彩调整或风格化处理。
遮罩处理：在指定区域进行精细编辑，如修复或扩展画面。
主体移除与重建：从视频中移除特定主体，并对背景进行填充。
任务组合与创新：将多种任务进行组合，例如参考生成与主体替换、姿态控制与视频扩展等。支持基于姿态、深度和光流等条件进行视频生成。

VACE的技术原理

视频条件单元（VCU）：VCU是VACE的核心输入接口，旨在整合多种输入模态（如文本、图像、视频、遮罩），并以统一格式传递给模型，支持灵活的任务组合。
上下文适配器结构：该结构可以将不同任务的概念（如编辑区域和参考内容）注入模型，形式化表示时间和空间维度，以适应不同任务的需求。
扩散模型：VACE基于扩散模型（如Diffusion Transformer）构建，采用逐步去噪的方式生成高质量的视频内容。
多模态输入处理：支持文本、图像、视频和遮罩等多种输入形式，通过特定编码器将其映射到统一的特征空间。例如，视频变分自编码器（VAE）用于处理视频输入，而分割和掩码操作则用于局部编辑任务。
训练与优化策略：采用逐步训练方法，从基础任务（如修复、扩展）入手，逐步扩展至更复杂的任务（如组合任务）。支持全模型微调和上下文适配器微调，后者可更快收敛并支持插件式功能。