LongCat-Video-Avatar 1.5

LongCat-Video-Avatar 1.5 – 美团开源的数字人视频生成模型

美团 LongCat 团队倾力打造的 LongCat-Video-Avatar 1.5，是一款革新性的音频驱动数字人视频生成框架，为内容创作者和企业带来了前所未有的便利与可能性。

基于强大的 13.6B 参数基础视频生成模型 LongCat-Video，LongCat-Video-Avatar 1.5 在核心技术上实现了重大突破。它将音频编码器从传统的 Wav2Vec2 升级为业界领先的 Whisper-Large-v3，这一升级带来了更为精细的语音特征提取能力，从而实现了令人惊叹的口型同步精度。更令人惊喜的是，通过引入 Step Distillation 技术，模型的推理过程被大幅压缩至仅需 8 步，在保证视频质量的同时，极大地提升了生成效率。该框架不仅支持 480P 和 720P 的视频分辨率，还兼容 INT8 量化，这使得它在单人及多人互动、歌唱表演以及风格化动画等多种场景下，都能展现出接近真实的物理合理性与出色的时序稳定性，足以满足生产级的严苛要求。

LongCat-Video-Avatar 1.5 的核心能力

单音频即是视频：仅需提供一段音频和相应的文本或参考图像，即可生成一段动态逼真、口型精准的人像说话视频。
多音频流畅交互：支持同时输入两条音频流，能够轻松实现双人对话、你来我往的自然交流等复杂交互场景。
视频无缝续写，打造长视频：原生支持视频续写功能，能够基于现有视频片段，持续生成数分钟级别的长视频，且全程保持色彩一致性，无任何漂移现象。
风格百变，动画亦可：该框架具有极强的泛化能力，不仅能驾驭动漫角色、动物形象，更能适应复杂真实的场景，并支持 3D 动画风格的生成。
歌唱与表演生动呈现：能够根据音乐节奏生成动态的表情变化，并实现全身或半身稳定、富有表现力的表演。
多任务基础模型，功能强大：其底层的 LongCat-Video 模型本身就集成了文生视频、图生视频以及视频续写等多项核心能力。

LongCat-Video-Avatar 1.5 的技术亮点

Whisper-Large-v3 赋能音频编码：采用 Whisper-Large-v3 作为音频编码器，能够提取更细腻的语音特征，显著提升唇形与声音的契合度。
Step Distillation 加速推理：通过先进的蒸馏采样技术，将推理步数精简至 8 步，在保证生成效果的前提下，大幅缩短了视频生成的时间。
粗细结合的时空生成策略：在时间和空间维度上均采用“粗到细”的生成策略，并结合 Block Sparse Attention 技术，实现了 720p/30fps 的高效视频生成。
多奖励 GRPO 强化学习优化：基于 Group Relative Policy Optimization 和多奖励模型进行训练，有效优化了文本对齐度、视觉质量以及的连贯性。
INT8 量化与并行计算：支持 INT8 量化技术，显著降低显存占用，同时兼容单卡或多卡的上下文并行推理，提升了硬件使用的灵活性。

如何体验 LongCat-Video-Avatar 1.5

准备环境：首先，克隆项目仓库并创建一个 Conda 环境，接着安装 PyTorch 2.6.0、FlashAttention-2 以及项目所需的全部依赖。
获取模型权重：通过 HuggingFace CLI 命令，将 LongCat-Video-Avatar-1.5 的模型权重下载至本地的 ./weights 文件夹。
单音频生成视频：准备一个包含音频文件路径、文本描述和参考图像的 JSON 文件。运行 run_demo_avatar_single_audio_to_video.py 脚本，并添加 --model_type avatar-v1.5 --use_distill --use_int8 参数，即可启用 1.5 版本模型、蒸馏推理和 INT8 量化功能。
多音频生成视频：创建包含两条音频文件和对应人物信息的 JSON 文件。执行 run_demo_avatar_multi_audio_to_video.py 脚本，可以选择“Merge”（叠加）或“Concatenation”（拼接）两种模式来处理双音频输入。
视频续写实现长视频：在运行单音频或多音频生成脚本时，添加 --num_segments 参数，模型将自动分段进行续写，生成更长的连续视频。
WebUI 交互体验：通过运行 streamlit run ./run_streamlit.py 命令，即可启动一个直观的可视化界面，方便用户进行交互式视频生成和参数调整。

LongCat-Video-Avatar 1.5 的突出优势

口型同步精度行业领先：升级后的 Whisper-Large-v3 音频编码器，带来了前所未有的嘴形准确度和更加平滑自然的表情过渡。
长视频身份一致性保障：在长时间的说话镜头和涉及手部与物体交互的场景中，能够始终保持稳定的身份特征和连贯的全身动作。
极速推理，效率非凡：8 步蒸馏推理大幅缩短了生成时间，特别适合对实时性要求极高的应用场景。
完全开源，商用无忧：模型权重和推理代码均遵循 MIT 协议完全开源，用户可以部署、二次开发，并用于商业用途。
硬件门槛低，易于部署：INT8 量化和多卡并行支持，有效降低了对硬件配置的要求，使得部署更加便捷。

LongCat-Video-Avatar 1.5 的相关链接

官方项目网站：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
GitHub 代码仓库：https://github.com/meituan-longcat/LongCat-Video
HuggingFace 模型中心：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

LongCat-Video-Avatar 1.5 与同类竞品对比

维度	LongCat-Video-Avatar 1.5	HeyGen	Kling Avatar 2.0	OmniHuman-1.5
开发方	美团 LongCat 团队	HeyGen	快手	阿里巴巴
开源协议	MIT（完全开源）	闭源商业	闭源商业	闭源商业
音频编码器	Whisper-Large-v3	未公开	未公开	未公开
推理步数	8 步（蒸馏）	未公开	未公开	未公开
口型精度	高（升级后显著提升）	高	高	高
长视频稳定性	强（原生续写支持）	中等	中等	中等
多人交互	原生支持双音频	支持	支持	有限支持
风格化/动画	支持动漫、动物等	有限	有限	有限
分辨率	480P / 720P	最高 4K	最高 1080P	最高 1080P
硬件门槛	支持 INT8 量化	云端 API	云端 API	云端 API

LongCat-Video-Avatar 1.5 的应用前景

AI 口播与电商营销的革新：商家可以通过输入产品讲解音频和参考图像，批量生成口型精准、表情自然的数字人带货视频，大幅度降低真人出镜成本，提升营销效率。
在线教育与虚拟讲师的升级：教育机构能够将课程音频转化为具有稳定身份和连贯动作的虚拟讲师授课视频，支持长时间讲解和手势互动，有效提升教学内容的复用率和传播范围。
虚拟客服与企业形象塑造：企业可以部署专属的数字人客服，利用多音频流功能实现多轮对话的可视化，应用于官网接待、智能外呼回访等多种场景，提升用户体验和品牌形象。
短视频与社交媒体内容创作的利器：内容创作者可以输入唱歌或表演音频，快速生成高动态、风格多样的（如动漫、写实等）虚拟形象短视频，轻松适配抖音、快手等主流短视频平台的内容创作需求。

阅读原文