LongCat-Video

LongCat-Video – 美团开源的视频生成模型

美团LongCat团队隆重推出其开源力作——LongCat-Video，一款拥有136亿参数的视频生成模型。这款创新模型在多个关键领域展现出卓越性能，包括文本到视频（Text-to-Video）、图像到视频（Image-to-Video）以及视频续写（Video-Continuation），尤以其高效生成高质量长视频的能力而备受瞩目。

LongCat-Video的精髓所在

LongCat-Video由美团LongCat团队匠心打造，是一款开源的136亿参数视频生成模型。它在将文本描述转化为视频、将静态图像扩展为动态影像，以及无缝衔接现有视频片段等任务上表现非凡。其独特之处在于能够高效地产出长度可观且品质上乘的视频。通过应用多奖励强化学习优化（GRPO）技术，LongCat-Video在内部测试与公共基准评估中均取得了令人印象深刻的成绩，其表现足以与业界领先的开源视频生成模型及最新的商业解决方案相媲美。

LongCat-Video的核心功能剖析

长篇视频创作能力：该模型经过专门的视频续写任务预训练，使其能够生成长达数分钟的视频，且在整个过程中，色彩保持一致，画面质量丝毫不减。
一体化多任务架构：LongCat-Video巧妙地将文本到视频、图像到视频及视频续写等多种功能整合于一个统一的视频生成框架之下，这意味着用户仅需一个模型即可应对各类视频创作需求。
卓越的推理效率：凭借其独特的粗到细生成策略以及Block Sparse Attention（块稀疏注意力）技术，LongCat-Video能够在短短几分钟内，便可生成720p分辨率、每秒30帧的流畅视频。
多维度强化学习优化：借助多奖励Group Relative Policy Optimization（GRPO）机制，模型在多个维度上得到了精细优化，确保其在内部及公共基准测试中，能与顶尖的开源视频生成模型乃至最新的商业解决方案保持同等甚至更优的性能水平。

LongCat-Video的技术奥秘

融合统一的架构设计：LongCat-Video采用单一且高度整合的视频生成框架，将文本到视频、图像到视频和视频续写等多元任务有机结合。通过共享模型架构和参数，实现了对不同任务的高效处理，极大提升了模型的通用性。
长视频生成的核心技术：模型在视频续写任务上进行了深度预训练，并辅以精密的训练策略与算法。这使得LongCat-Video能够生成持续数分钟的超长视频，同时确保视频内容的连贯性与卓越的质量稳定性。
高效推理的策略实施：LongCat-Video运用了一种精妙的粗到细生成策略，即首先构建视频的宏观骨架，随后逐步填充并细化各项细节。结合Block Sparse Attention技术，显著提升了模型在生成高分辨率视频时的推理效率，从而大幅缩短了视频的生成时间。
多奖励强化学习的精进：模型通过多奖励Group Relative Policy Optimization（GRPO）方法进行优化训练，旨在文本对齐、视觉质量和连贯性等多个关键维度上实现性能飞跃，从而全面提升生成视频的整体品质。