VideoGrain

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

VideoGrain是什么

VideoGrain是由悉尼科技大学与浙江大合开发的一款零样本多粒度视频编辑框架，能够实现对视频的类别级、实例级和部件级的精细化修改。该框架结合了调节时空交叉注意力与自注意力机制，显著增强了文本提示对目标区域的控制能力，并确保区域特征之间的分离，从而有效解决了现有扩散模型中存在的语义错位和特征耦合问题。VideoGrain无需额外的参数调整，能够在真实场景中提供高质量的视频编辑效果，并保持时间的一致性。与现有的T2I和T2V方法相比，VideoGrain在多粒度编辑任务中表现更为优异，为视频创作提供了更灵活且精确的工具。

VideoGrain

VideoGrain的主要功能

多粒度视频编辑：允许用户针对视频中的不同对象进行分类编辑（例如将一名角色转变为“蜘蛛侠”，而另一名角色则变为“北极熊”），或局部修改对象（如改变服装颜色或添加配饰）。
文本驱动的区域控制：通过自然语言提示，精确控制视频中特定区域，实现理想的编辑效果。
时间一致性：在编辑过程中，确保视频的时间连贯性，避免因编辑而引起的帧间闪烁或不自然的过渡效果。
无需参数调整：作为一款零样本编辑工具，VideoGrain不需要对模型进行额外的训练或参数调整。
高效计算性能：在测试中表现出较低的内存占用和较快的编辑速度，非常适合实时视频编辑的应用。

VideoGrain的技术原理

交叉注意力调节：通过调节交叉注意力层，增强文本提示对目标区域的聚焦能力，同时抑制无关区域的注意力。该机制将文本提示与视频帧的空间区域绑定，通过调整查询-键对的注意力权重，使文本特征集中在相应区域，实现精准的文本到区域的控制。
自注意力调节：在自注意力层中，增强区域内特征的自注意力，减少区域间的干扰。这样可以避免因类别特征耦合而导致的编辑错误（例如将不同实例视作同一类别），确保每个查询只关注其目标区域，从而保持特征的分离与编辑的性。