LongCat-Next

LongCat-Next – 美团 LongCat 推出的多模态模型

美团龙猫团队（Meituan LongCat）匠心打造的LongCat-Next，是一款划时代的多模态大模型，其核心突破在于独创的LoZA（LongCat ZigZag Attention）稀疏注意力机制。该模型巧妙地通过智能筛查模块的重要性，将高达50%的低价值模块替换为流式稀疏注意力，从而构建了一种全局与局部信息交错的ZigZag结构。这一创新设计赋予了LongCat-Next前所未有的强大能力，实现了100万Token的超长上下文处理，解码速度惊人地提升了10倍，算力消耗降低了30%，同时硬件利用率翻了一番。

LongCat-Next系列包含两个版本：Flash-Exp（1M上下文实验版），以及专为大规模部署设计的Flash-Lite（68.5B MoE架构）。在长文本任务的评测中，LongCat-Next已展现出超越Qwen-3的卓越表现。

LongCat-Next的卓越功能

驾驭万字长文：能够轻松处理高达100万Token的超长文本，在同等硬件配置下，其处理文档的长度是传统模型的两倍。
LoZA稀疏之妙：通过对模块重要性的精准评估，并采用ZigZag交错式结构，实现了全局与局部注意力的高效协同计算，为信息处理带来前所未有的效率。
极速推理体验：在128K上下文场景下，解码速度提升10倍；256K预加载也提速50%，极大地缩短了长文本的处理响应时间。
算力成本的：在256K的解码阶段，算力消耗减少了30%，为企业以更经济的成本部署和使用大模型提供了可能。
双版本灵活部署：提供1M上下文的实验版Flash-Exp和拥有68.5B MoE架构的轻量级Flash-Lite，满足不同应用场景的多元化需求。
长文本处理的稳健者：在MRCR长文本基准测试中，LongCat-Next的表现已领先于Qwen-3，无论是复杂的文档问答还是代码生成任务，都表现得更加稳定可靠。

LongCat-Next的关键亮点与使用前提

研发方：美团龙猫团队（Meituan LongCat）
核心技术：LoZA（LongCat ZigZag Attention）稀疏注意力机制
最大上下文窗口：高达100万Token
模型架构：68.5B MoE（混合专家模型），单次推理激活参数量在2.9B至4.5B之间
性能飞跃：128K上下文解码速度提升10倍，256K预加载提速50%，算力节省30%
硬件兼容性：虽然未公布具体配置要求，但LoZA机制显著降低了对高端硬件的依赖。
API服务：LongCat-Flash-Lite已提供API接口，其生成速度可达500-700 token/s。

LongCat-Next的独特优势

无与伦比的长文本处理能力：能够轻松驾驭100万Token（即百万字）的超长文本，在同等硬件条件下，其处理文档的长度是传统模型的两倍，彻底打破了大模型在长文本处理上的瓶颈。
高效创新的稀疏注意力：LoZA技术通过智能识别模块的重要性，用流式稀疏注意力替换50%的低价值模块，实现了全局与局部信息的精准融合与高效计算。
速度上的质的飞跃：在128K上下文场景下，解码速度提升了10倍；256K预加载提速50%，极大地缩短了用户等待长文本响应的时间。
经济高效的部署方案：256K解码阶段算力消耗减少30%，使得企业能够以更低的硬件成本部署高性能的大模型服务。
卓越稳定的性能表现：在MRCR长文本基准测试中，LongCat-Next的表现已超越Qwen-3；在日常问答和代码生成等任务上，其性能与原版持平，而在复杂场景下则表现得更为可靠。

如何启用LongCat-Next

获取开源资源：您可以访问其GitHub仓库，下载已发布的模型权重和推理代码，轻松完成本地部署。
硬件优化：得益于LoZA稀疏注意力机制，您可以在现有硬件上实现两倍于以往的长文本处理能力，无需额外投资高端设备。

LongCat-Next的官方链接

项目官网：https://longcat.chat/longcat-next/intro
GitHub仓库：https://github.com/meituan-longcat/LongCat-Next
HuggingFace模型库：https://huggingface.co/meituan-longcat/LongCat-Next
技术论文：https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf

LongCat-Next与同类竞品深度对比

对比项	LongCat-Next	Qwen-3	GPT-4
长文本基准表现	MRCR测试超越Qwen-3	曾是领先者	MRCR数据未公开
上下文窗口容量	1M Token	未明确同等长度	约128K Token
核心技术亮点	LoZA稀疏注意力	传统全注意力机制	技术细节未公开
推理速度优势	128K解码提速10倍	未公布具体量化数据	对算力要求高
算力成本效益	节省30%，硬件利用率翻倍	标准算力消耗	API调用成本较高

LongCat-Next的应用前景广阔

海量文档的深度洞察：能够深入理解百万字级的法律合同、学术论文、技术文档等，实现高效摘要生成与跨章节信息检索，彻底解决传统模型因上下文限制而无法处理长文档的问题。
代码全景式开发辅助：模型具备分析整个大型代码库（如百万行级别项目）的能力，能够深刻理解跨文件依赖关系，提供全局重构建议，并生成更具上下文感知能力的代码。
企业知识库的智能对话：可以基于海量企业内部文档构建高度智能化的客服与决策支持系统，以更低的算力成本实现高精度的长文本检索与推理，提升企业运营效率。
跨模态长内容整合展望：未来将拓展至长视频脚本解析、长图文内容理解等领域，实现跨模态长序列信息的无缝整合与智能生成。

阅读原文