Llama 4 – Meta 推出的多模态系列模型
Llama 4 是由 Meta 开发的多模态人工智能模型,采用创新的混合专家(MoE)架构,提升了计算和推理的效率。该模型目前有两种版本:Scout 和 Maverick。Scout 版本包含 170 亿个活跃参数和 1090 亿个总参数,能够支持 1000 万个上下文并处理超过 20 小时的视频,运行在单个 H100 GPU 上,表现超越了 Gemma 3 等其他模型。Maverick 版本同样有 170 亿个活跃参数,但配备了 128 个“专家”模型,总参数达到 4000 亿,在图像理解和创意写作领域表现尤为突出,适合用于多种智能助手和对话应用。此外,Llama 4 Behemoth 仍在训练中,预计将拥有 2 万亿参数,已在 STEM 基准测试中展现了优异的性能。
Llama 4是什么
Llama 4 是 Meta 推出的先进多模态人工智能模型,首次引入混合专家(MoE)架构,显著提高了训练和推理的效率。该模型分为 Scout 和 Maverick 两个版本。Scout 版本具有 170 亿个活跃参数和 1090 亿个总参数,支持 1000 万个上下文窗口,能够处理长达 20 小时的视频,并且能够在单个 H100 GPU 上高效运行,性能超越了 Gemma 3 等竞争模型。Maverick 版本同样拥有 170 亿个活跃参数,配备 128 个“专家”模型,总参数达到 4000 亿,专注于图像理解和创意写作,适合用作通用助手和类应用,在大模型 LMSYS 排行榜中名列前茅。Llama 4 Behemoth 是一个仍在开发中的预览版本,预计将拥有 2 万亿参数,并在 STEM 基准测试中表现出色。Llama 4 支持在 200 种语言上进行开源微调,其训练数据超过 30 万亿个 token。
Llama 4的主要功能
- 卓越的语言理解与生成能力:经过大量文本数据的训练,Llama 4 在语言理解上表现精准,能够生成逻辑连贯的文本,适用于创意写作、文章撰写及对话交互。例如,在故事创作中,能基于给定的主题和情节线索生成生动的故事内容;在对话中,能准确理解用户意图并提供合适的回复。
- 多模态处理能力:通过图像数据的训练,模型具备图像理解能力,能识别图像中的物体、场景及颜色等元素,并对图像内容进行准确描述和分析。Scout 版本支持 1000 万 tokens 的上下文窗口,适合处理长文本总结、基于大型代码库的推理等任务。
- 高效的推理与计算能力:采用混合专家(MoE)架构,使模型分为多个专注于特定任务的“专家”子模型,从而提高训练和查询响应的效率,降低了模型的服务成本和延迟。
- 多语言处理能力:通过在 200 种语言上的预训练,Llama 4 能处理和生成多种语言文本,支持跨语言的交流与任务处理,如语言翻译和文本分析,帮助用户消除语言障碍。
Llama 4的技术原理
- 混合专家(MoE)架构:Llama 4 是 Llama 系列中首个采用 MoE 架构的模型。在 MoE 模型中,每个 token 仅激活一小部分参数。例如,Maverick 模型拥有 4000 亿个总参数,但只有 170 亿个是活跃的。Meta 通过交替使用稠密层和 MoE 层,确保每个 token 被送至共享专家和 128 个路由专家中的一个,从而在运行模型时仅激活部分参数,提升推理效率,降低服务成本和延迟。
- 原生多模态设计:Llama 4 是一个原生多模态模型,采用早期融合技术,能够将文本与视觉 token 无缝整合在统一的模型框架中。它可以利用海量的无标签文本、图像和视频数据进行预训练。Meta 对 Llama 4 的视觉编码器进行了升级,编码器基于 MetaCLIP,训练时与固定的 Llama 模型分开,能够更好地调整编码器以适应大语言模型(LLM)。
- 模型超参数优化:Meta 研发了 MetaP 新训练方法,能够有效设置关键的模型超参数,例如每层的学习率和初始化规模,这些超参数在不同的批大小、模型宽度、深度及训练 token 量上均能良好适配。
- 高效的模型训练:使用 FP8 精度进行训练,确保不损失质量的同时提升模型的 FLOPs 利用率。例如,在使用 FP8 精度和 32K 个 GPU 预训练 Llama 4 Behemoth 模型时,能够实现每个 GPU 390 TFLOPs 的性能。训练数据涵盖超过 30 万亿个 token,包括文本、图像和视频数据集。通过“中期训练”方式持续训练模型,扩展长上下文,提升核心能力,使 Llama 4 Scout 能够解锁 1000 万输入上下文长度的领先性能。
- 后训练流程优化:训练流程包含轻量级监督微调(SFT)、在线强化学习(RL)及轻量级直接偏好优化(DPO)。为避免 SFT 和 DPO 对模型的过度限制,Meta 利用 Llama 模型作为评判者,剔除超过 50% 被标记为“简单”的数据,对剩余的困难数据进行轻量级 SFT,并在多模态在线 RL 阶段精心选择更具挑战性的提示,实施持续在线 RL 策略,交替进行模型训练与数据筛选,保留中等到高难度的提示,最后进行轻量级 DPO,以平衡模型的智能性与对话能力。
Llama 4的项目地址
- 项目官网:https://ai.meta.com/blog/llama-4
- HuggingFace模型库:https://huggingface.co/collections/meta-llama/llama-4
Llama 4的应用场景
- 对话系统:Llama 4 可用于开发智能机器人,特别是 Maverick 适合用作通用 AI 助手和应用,能够理解用户的问题并生成自然流畅的回答,提供信息、解答疑问或进行闲聊。
- 文本生成:具备创意写作能力,能够创作故事、诗歌和剧本等,也可用于撰写新闻报道、产品说明和文案策划,根据特定主题和要求生成高质量的文本。
- 代码生成与辅助:能够帮助开发者生成代码,基于功能描述提供相应的代码片段或完整程序,并提供代码解释、注释生成和代码规范检查等辅助功能,提升开发效率。
- 代码理解与分析:Scout 可基于大型代码库进行推理,协助开发者理解复杂代码的逻辑与功能,进行代码审查和漏洞检测等工作。
- 图像理解与描述:Maverick 在图像精准理解方面表现出色,能够识别图像中的物体、场景及颜色,对图像内容进行描述和分析,例如输入一张照片,可以对照片内容进行详细描述和判断拍摄地点。
- 信息检索与推荐:结合其语言理解与生成能力,能够用于信息检索系统,理解用户的查询意图,提供更精准的搜索结果,并基于用户的兴趣和行为进行个性化推荐。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...