字节视频生成新突破!Phantom搞定多人物/主体一致性

视频质量、文本响应、主体一致性等多个维度都处于优势

字节视频生成新突破!Phantom搞定多人物/主体一致性

原标题:字节视频生成新突破!Phantom搞定多人物/主体一致性
文章来源:量子位
内容字数:3978字

字节跳动推出全新视频生成模型Phantom:解决多主体一致性难题

字节跳动智能创作团队在视频生成领域取得突破性进展,推出了名为Phantom(“幻影”)的全新视频生成模型。该模型旨在解决现有视频生成模型中多主体一致性保持的重大挑战,并取得了显著成果。

1. Phantom的核心突破:多主体一致性

与现有技术相比,Phantom在多主体一致性方面实现了突破。它不仅能够支持多个主体同时存在于生成的视频中,还能精准地保持每个主体的完整性和一致性。无论是人物、物品、服装、动物,还是虚拟角色,Phantom都能准确捕捉其关键特征,并自然地融入生成的视频场景中。例如,它可以根据提示词,生成“歌剧魅影”片段,完美融合场景、服装和配饰等要素。

2. 身份保持与内容丰富性

借助面部参考图像,Phantom能够严格锁定主体的身份特征。用户只需上传一张人物照片,模型就能以此为蓝本,生成该人物在不同场景下说话、行动的视频,高度还原人物的面部轮廓、五官细节和表情神态,实现“照片中的人物活了过来”的效果。这种功能同样适用于动物、物品和虚拟角色,展现其独特的魅力和细节。

3. 单参考与多参考主体视频生成

Phantom支持单参考图像和多参考图像的视频生成。单参考图像生成可以捕捉小动物的可爱瞬间、服装的独特魅力或虚拟角色的奇幻冒险。多参考图像生成则支持复杂交互场景的视频创作,例如多人对话场景、产品展示场景以及虚拟试穿场景,为电商行业带来全新的营销模式。

4. 基于DiT的视频生成方案

Phantom采用基于DiT(Diffusion with Image-to-text)的视频生成框架,实现了主体到视频的生成(S2V)。它巧妙地平衡了文本生成视频(T2V)和图像生成视频(I2V)两种模式的优势,既能发挥T2V的创造性,又避免了I2V中“复制粘贴”的局限性。通过构建文本-图片-视频三元组数据以及交叉配对数据,模型学习不同模态之间的对齐,并有效避免了视频生成中主体元素的重复或缺失。

5. 性能优势与应用前景

与其他领先的商业化工具相比,Phantom在视频质量、文本响应和主体一致性等多个维度上都具有优势,尤其在人脸ID一致性方面表现突出。其强大的功能和高精度性能,为影视制作、广告营销、电商等领域提供了全新的创作工具和解决方案,具有广阔的应用前景。

6. 团队介绍

Phantom模型由字节跳动智能创作团队研发,该团队致力于建设领先的计算机视觉、音视频编辑、特效处理等技术,为抖音、剪映、即梦等产品提供技术支持,并通过火山引擎为外部合作伙伴提供智能创作能力与行业解决方案。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...