可控的视频生成需要实现对摄像机的精确控制。
机器之心AIxiv专栏:AC3D——显著提升视频生成中摄像机控制的精度和效率
机器之心AIxiv专栏长期致力于分享全球顶尖AI学术及技术成果。近期,来自多伦多大学、Vector Institute、Snap Research和西蒙·弗雷泽大学的研究团队在该专栏发布了其最新研究成果:AC3D (Advanced 3D Camera Control),该研究显著提升了视频生成中摄像机控制的精度和效率。
1. AC3D的核心改进
AC3D基于视频扩散变换器(VDiT)模型,通过以下三个方面改进视频生成效果和效率:
低频建模:研究发现摄像机主要集中在低频段。AC3D优化了训练和测试的条件调度,将摄像机注入限制在早期噪声阶段,从而减少后期干扰,提升视觉质量和保真度。
摄像机信息表示:研究者发现VDiT模型中间层隐含地进行了摄像机姿态估计。AC3D将摄像机条件注入限制在前8层,减少了对其他视觉特征的干扰,显著降低参数数量,提升训练速度和视觉质量。
数据集改进:AC3D引入了一个包含20,000段动态视频的高质量静态摄像机数据集,增强模型区分摄像机与场景的能力,从而生成更真实动态的视频。
2. AC3D的模型架构和方法
AC3D基于预训练的11.5B参数的VDiT模型,采用标准Transformer结构。通过分析摄像机的第一性原理,AC3D结合ControlNet模块,形成VDiT-CC,实现了精确的摄像机控制。具体方法包括:采用Plücker相机表征,轻量化DiT-XS模块处理摄像机编码,并调整训练和推理时的摄像机条件调度等。
此外,AC3D还引入了其他改进,例如一维时间编码器、分离文本与摄像机引导、ControlNet反馈机制等,进一步提升了模型性能和摄像机控制能力。
3. 实验结果和结论
研究者通过一系列提示词和不同摄像机轨迹,展示了AC3D在摄像机控制上的出色表现。实验结果表明,AC3D在三维摄像机控制视频合成方面达到了最先进的性能,同时保持了高视觉质量和自然的场景动态。
AC3D对视频扩散模型中的摄像机进行了系统性分析,显著提升了控制的精度和效率。这项工作为文本生成视频中更精准和高效的摄像机控制奠定了基础。未来研究将专注于进一步克服数据局限性,并开发适用于训练分布范围外摄像机轨迹的控制机制。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台