Lance

Lance – 字节跳动开源的轻量级原生统一多模态模型

Lance：字节跳动匠心打造的轻巧原生统一多模态模型

Lance，这款由字节跳动智能创作团队精心研发的开源模型，以其轻量级、原生统一的多模态能力，在人工智能创作领域掀起一股新浪潮。它以仅 3B 的激活参数量，实现了在单一框架内对图像与视频的理解、生成及编辑等全链路任务的卓越支持。Lance 的诞生，标志着多模态模型在效率与性能上迈出了重要一步。

该模型采用创新的分阶段多任务训练方案，从零开始构建，却仅需 128 张 A100 GPU 的算力资源，极大地降低了研究与复现的门槛。在 GenEval、VBench 等权威基准测试中，Lance 屡获佳绩，展现出其强大的实力。更令人欣喜的是，Lance 遵循 Apache-2.0 开源协议，这意味着它不仅是技术上的突破，更是对开源社区的慷慨贡献，其商业使用的开放性，为各行各业的应用提供了无限可能。

Lance 的多维功能解析

图像洞察：Lance 能够深入剖析输入的图像，进行精细的语析，准确识别内容，并能进行富有洞察力的视觉问答。
图像幻化：只需简单的文本指令，Lance 即可挥洒自如地生成高质量的图像，即使是复杂构图和精细的属性绑定，也能游刃有余。
图像重塑：无论是背景的巧妙替换，还是物体的新增与移除，抑或是风格的随心转换和外观的精细调整，Lance 都能通过指令级编辑实现。
视频脉络：Lance 能够对视频内容进行深入的时序分析，精准识别动作，并深刻理解视频的整体语义。
视频编织：基于文本描述，Lance 可以创造出连贯且富有表现力的视频，支持角色生动的和场景的精心构建。
视频魔改：无论是单步的即时调整，还是复杂的组合式编辑，Lance 都能轻松实现背景的变换、主体的替换以及动作的修改。
多轮编辑的和谐：Lance 具备一项独特的能力，能够对同一主体进行连续多轮的编辑，同时巧妙地保持其身份与风格的一致性，如同拥有记忆的编辑师。

Lance 的核心技术精髓

双流混合专家架构：Lance 巧妙地在共享多模态序列表示的基础上，为理解与生成任务分别配置了的专家路径，从而有效避免了不同目标之间的相互干扰，实现了效率与精度的双重提升。
统一交织序列表示：通过将文本 token、ViT 语义 token，以及干净与噪声的 VAE 潜在 token 融合成统一的序列，Lance 能够无缝支持理解、生成和条件编辑等多种任务。
广义三维因果注意力：Lance 对序列进行了模态分段处理，文本 token 采用因果注意力机制，而视觉 token 则运用双向注意力，这种设计使得模型能够高效地统一处理多模态的理解与生成任务。
模态感知位置编码：为了应对图像与视频中异构视觉 token 的挑战，Lance 引入了专门的旋转位置编码，有效削弱了不同模态信号之间的干扰，保证了信息的纯粹性。
分阶段多任务训练：Lance 采用了预训练、持续训练和监督微调相结合的渐进式训练策略，在有限的算力预算内，实现了多任务的高效协同，充分发挥了每一份算力的价值。

如何开启 Lance 的使用之旅

环境的先行准备：确保您拥有一个稳定且功能齐全的 Python 环境，并且至少配备一张支持 CUDA 的 GPU，这是 Lance 运行的基础。
代码仓库的克隆：通过执行 git clone https://github.com/bytedance/Lance.git 命令，将 Lance 的项目源码完整地下载到您的本地。
依赖库的轻松安装：进入项目文件夹后，运行 pip install -r requirements.txt 命令，即可一键安装所有必要的库文件。
模型权重的获取：您可以从 Hugging Face 平台或项目官方 Release 页面，轻松下载 Lance 的预训练模型权重。
推理的实践操作：参照官方提供的示例脚本，加载模型，然后通过输入文本或视觉提示，便可进行生成、编辑或理解等各种任务的推理实践。

Lance 的突出亮点

极致的轻巧设计：Lance 以其仅 3B 的激活参数量，在统一模型中实现了参数量与性能的完美均衡，堪称轻量级模型的典范。
全链路任务的整合：Lance 凭借单一模型，全面覆盖了图像与视频的理解、生成、编辑这六大核心任务，彻底告别了模型切换的繁琐。
低成本的训练实践：在 128 张 A100 GPU 的算力预算下完成从零训练，极大地降低了模型复现的门槛，让更多人有机会接触和使用先进技术。
商业友好的开源协议：遵循 Apache-2.0 开源协议，Lance 允许用户地进行商业使用、修改和分发，为创新应用提供了广阔空间。
性能的卓越表现：在 GenEval、GEdit-Bench、VBench 等多项关键基准测试中，Lance 的表现均超越了现有同类开源统一模型，树立了新的标杆。

Lance 的项目资源链接

官方网站：https://lance-project.github.io/
GitHub 仓库：https://github.com/bytedance/Lance
HuggingFace 模型库：https://huggingface.co/bytedance-research/Lance
arXiv 技术论文：https://arxiv.org/pdf/2605.18678

Lance 与同类竞品的深度对比

对比维度	Lance	TUNA	Show-o2
激活参数量	3B	7B	7B
任务覆盖	图像/视频理解、生成、编辑	图像/视频理解、生成	图像/视频理解、生成
开源协议	Apache-2.0	未明确	Apache-2.0
GenEval 总分	0.90	0.90	0.76
GEdit-Bench 均分	7.30	6.52	未列入
VBench 总分	85.11	未列入	未列入
架构特点	双流 MoE + 模态感知位置编码	统一自回归架构	统一自回归架构