Kaleido

Kaleido – 智谱AI开源的多主体视频生成框架

Kaleido：智谱AI匠心打造，革新多主体视频生成新纪元

您是否曾为多主体视频生成中主体特征的飘忽不定和背景细节的杂乱无章而烦恼？如今，智谱AI倾力推出的开源多主体视频生成框架Kaleido，将为您带来性的解决方案。Kaleido以其独创的数据构建管线与R-RoPE（Reference Rotary Positional Encoding）机制，精准解决了多主体视频生成的核心痛点——主体一致性与背景解耦，让您的视频创作栩栩如生，浑然天成。

Kaleido的独特魅力何在？

Kaleido，不仅仅是一个视频生成框架，更是您创意实现的强大翅膀。它能够确保视频中多个角色或物体的视觉特征始终如一，即使在复杂的场景切换或多人互动中，也能维持稳定的身份标识。更令人惊叹的是，Kaleido能够巧妙地将主体与背景信息区分开来，避免了参考图像中不必要的背景元素干扰，使得主体能够地融入各种新的场景，展现出卓越的适应性。凭借其先进的算法和精良的训练，Kaleido能够生成令人叹为观止的高质量、高保真度视频，为广告、影视制作等众多领域注入新的活力，助力开发者打造前所未有的多主体视频体验。

Kaleido的核心功能亮点：

主体恒定，神形兼备：Kaleido在视频中赋予了每个主体独特的生命力，无论场景如何变幻，人物的容貌、衣着乃至细微动作都能保持高度统一，实现真正的“形神兼备”。
背景抽离，随心切换：该框架能够将主体从原始背景中“解放”出来，使其能够轻松迁移至任何期望的场景，如同拥有了“千面”的百变魔术师，让背景不再是束缚。
画质卓越，细节致胜：通过精妙的数据处理与训练策略，Kaleido能够呈现出细节丰富、色彩生动的视频内容，满足广告、影视等行业对画质的严苛要求。
创意无限，随心掌控：Kaleido支持用户通过上传多张参考图像与文本指令进行视频生成，为创作者提供了前所未有的度，让每一个创意都能随心所欲地变为现实。

Kaleido背后的技术精髓：

数据构建管线：解开背景纠缠的“魔方”：Kaleido的创新之处在于其数据构建管线，它通过“跨配对数据合成”——将不同主体的特征与背景进行巧妙组合，以及“背景修复”技术，迫使模型在训练过程中学习如何区分和分离主体与背景。这种“症”式的训练方式，让模型难以简单地复制粘贴背景信息，从而有效地提升了主体特征的性。此外，多阶段的数据增强，包括主体定位、分割以及严格的质量过滤，确保了训练数据的多样性和高质量，为模型在复杂多变的场景下生成出色表现奠定了坚实基础。
R-RoPE：为每个主体“验明正身”：为了让模型能够精确地识别和区分来自不同参考图像的主体，Kaleido引入了R-RoPE（Reference Rotary Positional Encoding）机制。它为每个参考图像中的Token赋予了独特的旋转位置编码，从而在注意力计算中清晰地界定了不同主体与视频帧之间的界限。R-RoPE通过在模型的时空嵌入空间中为参考图像Token创造独特的“身份证”，有效避免了多主体特征的相互干扰，极大地增强了多主体生成的时空一致性。
架构革新，条件注入的艺术：Kaleido基于先进的扩散模型与Diffusion Transformer架构，并巧妙地采用了简洁而高效的条件注入策略，将多张参考图像与视频生成过程无缝融合。模型将参考图像的Token与视频的噪声表示沿着序列维度进行拼接，并借助R-RoPE机制，清晰地区分了图像信息与视频信息，实现了对生成过程的精准控制。