Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型

Keye-VL-2.0-30B-A3B：快手重磅发布的自研多模态大模型，引领视频理解新纪元

快手（Kuaishou）隆重推出其自主研发的重磅级多模态大模型——Keye-VL-2.0-30B-A3B。这款模型以 30B 的强大参数量奠定了其主力基座的地位，更在技术上实现了多项突破。尤为引人注目的是，Keye-VL-2.0-30B-A3B 首次将 DSA 稀疏注意力机制巧妙融入多模态处理的广阔天地，并一举支持高达 256K 的超长上下文，使得处理小时级视频内容成为可能，并实现了毫秒级的精细时序推理。在权威的 TimeLens 基准测试中，它更是力压 Gemini-2.5-Pro 和 Gemini 3 Flash，展现出卓越的性能。更令人振奋的是，该模型成功解锁了 Code、Tool、Search 等 Agent 协作机制，标志着模型已从单纯的“观察者”蜕变为能够主动执行任务的“行动者”。

Keye-VL-2.0-30B-A3B 的核心能力亮点

驾驭超长视频的宏大叙事：凭借 256K 的海量上下文窗口，Keye-VL-2.0-30B-A3B 能够深入理解长达数小时的视频序列，并进行近乎无损的深度时序推理。
洞悉时序背后的因果脉络：模型能够精准捕捉视频内容中连续时序流动的因果链条，实现从“看见画面”到“理解逻辑”的飞跃。
毫秒级动作的精微捕捉：它拥有如同手术刀般精细的解析能力，能够对复杂的工艺流程或精彩的游戏瞬间进行精确到毫秒的时间戳定位。
多模态信息的深度交融：Keye-VL-2.0-30B-A3B 能够同时处理视觉、音频和文本信息，实现跨模态的协同理解和深度语义对齐。
Agent 协同执行复杂任务：模型首次实现了代码生成、工具调用和搜索等复杂场景下的系统级自主协作与任务执行。
高密度信息中的提纯艺术：在信息繁杂的场景下，模型能够精准识别关键帧，梳理动态规律，有效过滤冗余信息，保留核心内容。

Keye-VL-2.0-30B-A3B 的技术基石

DSA 稀疏注意力机制的创新应用：该模型首次将 DeepSeek Sparse Attention 引入多模态理解领域，通过稀疏注意力和针对性的特征聚合，有效解决了处理超长视觉上下文时面临的指数级算力挑战。
宏大上下文的架构支撑：采用 256K Token 级别的端到端架构，使得模型能够对长视频序列进行连贯而深入的感知，无需进行分段截断处理。
精细时序理解的引擎：通过对帧级动作边界的识别、动态视觉的解析以及音画协同的建模，实现了毫秒级的精确时序定位和因果推断。
Agent 协同的智能框架：集成了 Code Interpreter、Tool Use 和 Search 能力，构建了一个从多模态感知到逻辑推理再到工具执行的完整闭环决策系统。
统一多模态特征的融合之道：将视觉、音频和文本特征映射至共享的表征空间，实现了跨模态信息的深度语义对齐和联合推理。

如何解锁 Keye-VL-2.0-30B-A3B 的强大功能

轻松获取模型：用户可通过 GitHub、Hugging Face 或 ModelScope 轻松下载完全开源的模型权重及部署文档。
硬件配置建议：推荐使用 H800 或同等算力级别的显卡，并至少配备两张 GPU 以支持多卡张量并行推理。
Docker 快速部署体验：直接拉取官方 Docker 镜像并执行，即可实现一键式环境配置和模型加载。
源码安装的灵活性：用户可依次克隆 Keye 定制版 SGLang、DeepGEMM 和 EffectiveKernels 三个依赖仓库并完成编译安装。
启动推理服务的便捷性：使用 SGLang 加载模型权重，设置张量并行参数并开启远程代码信任，即可在本地启动兼容 OpenAI 协议的 API 服务。
API 调用实现智能化交互：启动服务后，通过标准的 HTTP 请求发送视频和文本指令，模型将返回结构化的长视频理解结果或 Agent 执行的输出。

Keye-VL-2.0-30B-A3B 的核心竞争力

DSA 机制首次赋能多模态：将 DeepSeek Sparse Attention 引入多模态理解场景，从根本上消除了超长视觉上下文带来的算力瓶颈，实现了小时级视频的高效推理。
256K 超长上下文的强大支持：高达 256K 的 Token 级超长上下文，使得模型能够对小时级视频序列进行近乎无损的端到端深度感知。
毫秒级帧级定位的精准度：具备手术刀般的细粒度时序解析能力，能对复杂场景下的关键动作进行精确到时间戳的拆解和定位。
时序因果推理的深度洞察：模型能够捕捉视频中的因果链条，实现从“看见画面”到“理解逻辑”的飞跃，例如能根据“雪地车祸”画面推断出“跟团优于自驾”的安全策略。
Agent 协作机制的革新：Keye 系列首次解锁了 Code、Tool、Search 等复杂场景的系统级自主协作与执行能力，使模型从被动的“观察者”转变为主动解决任务的“行动者”。

Keye-VL-2.0-30B-A3B 的项目入口

GitHub 探索之旅：https://github.com/Kwai-Keye/Keye
HuggingFace 模型库一览：https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B 与同类竞品深度对比

对比维度	Keye-VL-2.0-30B-A3B	Gemini-2.5-Pro	Gemini 3 Flash
所属公司	快手（Kuaishou）	Google	Google
模型规模	30B	未公开（Pro 级）	未公开（Flash 级）
核心架构	DSA 稀疏注意力 + 多模态融合	闭源多模态架构	闭源多模态架构
超长上下文	256K Token（小时级视频）	长上下文	长上下文
ActivityNet-TimeLens 视频动作定位	mIoU 58.5	mIoU 58.1	mIoU 57.0
Charades-TimeLens 日常动作时序解析	mIoU 58.4	—	mIoU 61.2
QVHighlights-TimeLens 高光时刻提取	mIoU 70.1	—	mIoU 49.5
Agent 协作能力	首次解锁 Code / Tool / Search	支持	支持
开源情况	完全开源（权重+代码+文档）	闭源	闭源

Keye-VL-2.0-30B-A3B 的广阔应用前景

长视频内容的深度解析：Keye-VL-2.0-30B-A3B 能够对旅行 Vlog、纪录片、教学视频等小时级长视频进行深度时序因果推理，自动生成包含装备建议、预算规划、景点推荐及安全提示的结构化总结。
工业流程的精细化分析：该模型能够以毫秒级精度定位复杂工艺视频中的关键动作节点，将制造流程精确拆解为多个阶段并标注时间戳，适用于工艺拆解、操作规范提取与质检流程优化。
电竞与体育内容创作的革新：基于对视觉张力、音画协同及叙事逻辑的深度理解，模型可精准判定电竞或体育赛事视频中的高光时刻与情绪共鸣点，实现超越简单击杀提示的智能化精彩瞬间提取。
Agent 驱动的自动化任务执行：作为 Keye 系列首次解锁的协作机制，该模型支持代码生成、工具调用与多步骤搜索的系统级自主执行，能够完成从多模态感知到逻辑推理再到工具调用的复杂闭环任务。
教育与培训领域的智能辅助：在实操教学场景中，模型可对学员操作视频进行毫秒级关键动作定位与步骤拆解，为教师提供精准的教学反馈与操作纠偏依据，辅助技能评估与课程优化。

阅读原文