Boximator

AI工具9个月前发布 AI工具集

720 0 0

Boximator是一款由字节跳动研究团队开发的先进视频合成技术，旨在生成更加丰富且可控的，从而提升视频合成的质量与灵活性。该技术采用了两种类型的约束框（硬框与软框），使得用户能够对视频中的对象进行精准的定位、形状调整及路径控制。

Boximator是什么？

Boximator是一种创新的视频合成技术，由字节跳动的研究团队研发，旨在提升视频合成的质量和可控性。通过引入硬框和软框两种约束机制，Boximator使用户能够对视频中的对象进行细致的控制。

官方网站：https://boximator.github.io/
研究论文：https://arxiv.org/abs/2402.01566

Boximator

Boximator的工作原理

Boximator的运作基于视频扩散模型，通过引入新的控制机制来提高视频合成的精细程度和灵活性。以下是Boximator的工作流程：

对象选择与框定义：
- 用户可以在视频的起始帧或条件帧中使用硬框（Hard Box）来精确选择和定位对象，这些框定义了对象的具体边界。
- 在需要较宽松控制的情况下，用户可使用软框（Soft Box）来定义对象的大致活动区域，允许对象在该区域内移动。
对象ID与框关联：
- Boximator为每个对象分配一个唯一的对象ID，并以RGB颜色空间进行表示，使得每个框都有独特的“颜色”。这样，模型可以跨帧跟踪和控制相同的对象。
视频扩散模型集成：
- Boximator作为一个插件，与已有的视频扩散模型（如PixelDance和ModelScope）相结合。在训练期间，基础模型的权重被冻结，以保留其预训练的知识，仅训练新增的控制模块。
自跟踪技术：
- 为简化框与对象之间的关联学习，Boximator引入了自跟踪技术。模型在训练阶段生成与对象ID对应的彩色边界框，确保每一帧中生成正确的框并与Boximator的约束相一致。
多阶段训练过程：
- Boximator的训练分为三个阶段。第一阶段使用硬框约束，帮助模型建立对坐标和ID的基本理解。第二阶段引入软框，通过随机扩展硬框增加训练难度。第三阶段继续使用软框，但不生成可见的边界框，而是让模型内部保留这种关联。
推理阶段：
- 在生成视频的推理阶段，Boximator在用户定义的框之外的帧中插入软框，这些软框通过线性插值和放松处理生成，确保对象大致遵循预期轨迹，同时给予模型足够的灵活性以引入变化。
控制与质量评估：
- 通过平均精度（AP）分数评估控制的准确性，比较生成视频中的检测到的边界框与真实边界框的一致性。
- 视频质量则通过Fréchet Video Distance（FVD）分数和CLIP相似性分数（CLIPSIM）进行衡量。

通过这些步骤，Boximator实现了对视频合成中对象的精细控制，同时保持了视频的高质量和真实感。

Boximator

Boximator的应用场景

电影和电视制作：在电影和电视剧的后期制作中，Boximator可以用于生成或修改场景，例如添加或删除角色、调整动作场景或创造复杂的特效，从而省去昂贵的现场拍摄成本。
游戏开发：游戏开发者可以利用Boximator创建动态的游戏场景和角色动画，尤其是在需要高度定制化或快速迭代内容时，这将显著节省开发时间与成本。
虚拟现实与增强现实内容创作：在VR和AR领域，Boximator可以用来生成逼真的虚拟环境和交互式对象，为用户提供沉浸式体验。