字节视频生成新突破！Phantom搞定多人物/主体一致性

AIGC动态1年前 (2025)发布量子位

视频质量、文本响应、主体一致性等多个维度都处于优势

原标题：字节视频生成新突破！Phantom搞定多人物/主体一致性
文章来源：量子位
内容字数：3978字

字节跳动推出全新视频生成模型Phantom：解决多主体一致性难题

字节跳动智能创作团队在视频生成领域取得突破性进展，推出了名为Phantom（“幻影”）的全新视频生成模型。该模型旨在解决现有视频生成模型中多主体一致性保持的重大挑战，并取得了显著成果。

1. Phantom的核心突破：多主体一致性

与现有技术相比，Phantom在多主体一致性方面实现了突破。它不仅能够支持多个主体同时存在于生成的视频中，还能精准地保持每个主体的完整性和一致性。无论是人物、物品、服装、动物，还是虚拟角色，Phantom都能准确捕捉其关键特征，并自然地融入生成的视频场景中。例如，它可以根据提示词，生成“歌剧魅影”片段，完美融合场景、服装和配饰等要素。

2. 身份保持与内容丰富性

借助面部参考图像，Phantom能够严格锁定主体的身份特征。用户只需上传一张人物照片，模型就能以此为蓝本，生成该人物在不同场景下说话、行动的视频，高度还原人物的面部轮廓、五官细节和表情神态，实现“照片中的人物活了过来”的效果。这种功能同样适用于动物、物品和虚拟角色，展现其独特的魅力和细节。

3. 单参考与多参考主体视频生成

Phantom支持单参考图像和多参考图像的视频生成。单参考图像生成可以捕捉小动物的可爱瞬间、服装的独特魅力或虚拟角色的奇幻冒险。多参考图像生成则支持复杂交互场景的视频创作，例如多人对话场景、产品展示场景以及虚拟试穿场景，为电商行业带来全新的营销模式。

4. 基于DiT的视频生成方案

Phantom采用基于DiT（Diffusion with Image-to-text）的视频生成框架，实现了主体到视频的生成(S2V)。它巧妙地平衡了文本生成视频(T2V)和图像生成视频(I2V)两种模式的优势，既能发挥T2V的创造性，又避免了I2V中“复制粘贴”的局限性。通过构建文本-图片-视频三元组数据以及交叉配对数据，模型学习不同模态之间的对齐，并有效避免了视频生成中主体元素的重复或缺失。

5. 性能优势与应用前景

与其他领先的商业化工具相比，Phantom在视频质量、文本响应和主体一致性等多个维度上都具有优势，尤其在人脸ID一致性方面表现突出。其强大的功能和高精度性能，为影视制作、广告营销、电商等领域提供了全新的创作工具和解决方案，具有广阔的应用前景。

6. 团队介绍

Phantom模型由字节跳动智能创作团队研发，该团队致力于建设领先的计算机视觉、音视频编辑、特效处理等技术，为抖音、剪映、即梦等产品提供技术支持，并通过火山引擎为外部合作伙伴提供智能创作能力与行业解决方案。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI视频生成技术 # 多主体视频生成 # 多人物视频一致性 # 字节跳动Phantom # 视频生成一致性算法

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

字节视频生成新突破！Phantom搞定多人物/主体一致性

视频质量、文本响应、主体一致性等多个维度都处于优势

字节跳动推出全新视频生成模型Phantom：解决多主体一致性难题

1. Phantom的核心突破：多主体一致性

2. 身份保持与内容丰富性

3. 单参考与多参考主体视频生成

4. 基于DiT的视频生成方案

5. 性能优势与应用前景

6. 团队介绍

联系作者

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

扎克伯格这款不会发售的新品，又在探索 AI 眼镜的终极形态

相关文章

暂无评论