LongCat-Video-Avatar

LongCat-Video-Avatar – 美团开源的数字人视频生成模型

美团 LongCat 团队倾力打造的 LongCat-Video-Avatar，是一款革新性的音频驱动角色动画模型。它能够创造出栩栩如生、口型精准同步的超长视频，同时保持人物身份的恒定与动态的自然流畅。LongCat-Video-Avatar 提供了多种灵活的生成模式，包括从音频文本直接生成视频（AT2V）、结合音频文本与图像生成视频（ATI2V），以及强大的视频续写功能。

LongCat-Video-Avatar 究竟是什么？

LongCat-Video-Avatar 是美团 LongCat 团队研发的一项突破性技术，它是一款以音频为驱动，能够生成逼真角色动画的模型。该模型的一大亮点在于其卓越的视频生成能力，能够产出超乎想象的逼真效果，并实现精准的口型同步，即使是长视频也能保持人物身份的一致性，并呈现出极富生命力的自然动态。它集成了多种先进的生成模式，如音频与文本内容生成视频（AT2V）、融合音频、文本及图像生成视频（ATI2V），以及能够无缝衔接的视频续写功能。通过一系列精妙的技术手段，例如将音频信号与动作进行解耦，有效规避了内容重复的问题，并显著减少了 VAE（Variational Autoencoder）在生成过程中可能出现的错误累积，从而实现了高质量、超长时视频的生成。这使得 LongCat-Video-Avatar 在演员表演、歌手的动态演绎、播客的视觉呈现、销售演示的生动化，乃至多人互动场景的模拟等方面，都展现出巨大的应用潜力。

LongCat-Video-Avatar 的核心亮点

多元化的视频生成能力：支持音频文本生成视频（AT2V）、音频文本与图像生成视频（ATI2V）以及视频续写等多种模式，能够灵活应对不同场景下的多样化视频制作需求。
卓越的动态表现与身份保持：该模型能够精准地维持人物身份的连续性，生成逼真自然的表情变化、精确的口型匹配以及流畅的肢体动作。在多人互动场景中，它能确保对话过程的自然与流畅，营造真实的交流氛围。
高品质长视频生成保障：通过巧妙地将音频信号与动作信息进行解耦，模型在视频的静音片段也能生成自然的肢体活动，避免了因过度依赖音频而产生的僵硬感。同时，它有效减少了像素退化的问题，确保了长视频在稳定性和一致性方面的出色表现。
广泛的应用前景：无论是影视行业的演员表演、音乐人的舞台演绎、播客内容的视觉化、销售演示的生动化，还是其他各类需要高质量视频解决方案的领域，LongCat-Video-Avatar 都能提供强有力的支持。

LongCat-Video-Avatar 的技术精髓

语音与动作的精妙解耦 (Disentangled Unconditional Guidance)：通过区分语音信号本身和整体的动作表达，模型能够在没有语音输入的片段中依然生成自然的肢体动作，避免了因过度依赖语音信号而导致的静态表现，实现了更为生动自然的动态效果。
参考跳过的注意力机制 (Reference Skip Attention)：此机制能够有选择性地引入参考图像的信息，从而有效地保持人物身份的一致性。它能够防止因参考图像信息过度泄露而产生的“复制粘贴”式的效果，在保持视觉逼真度的同时，也兼顾了动作的多样性。
跨块潜在缝合策略 (Cross-Chunk Latent Stitching)：通过减少自回归生成过程中冗余的 VAE 解码-编码循环，该策略能够有效缓解像素退化的问题，并避免在长视频生成过程现误差的累积，从而确保视频的连贯性和整体一致性。
基于扩散模型的统一架构 (Unified DiT-based Framework)：采用先进的扩散模型（Diffusion Model）作为底层架构，该模型能够生成极度逼真且时长的长视频。其统一的框架支持多种生成模式，涵盖音频文本到视频（AT2V）、音频文本与图像到视频（ATI2V）以及视频续写。
多流音频输入支持：模型能够处理单流或多流音频输入。通过引入 L-ROPE（Learnable Relative Positional Encoding）技术，实现了音频信息与视觉信息的精准绑定，使其能够更好地适应复杂的多人交互场景。

LongCat-Video-Avatar 的获取渠道

官方项目网站：https://meigen-ai.github.io/LongCat-Video-Avatar/
GitHub 代码库：https://github.com/MeiGen-AI/LongCat-Video-Avatar
HuggingFace 模型中心：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar