文心 5.1

文心 5.1 – 百度推出的旗舰大语言模型

文心5.1（ERNIE 5.1），百度倾力打造的旗舰级大型语言模型，汲取了文心5.0的知识蒸馏精华，并融合了Once-for-All弹性训练的创新框架，使得其预训练成本大幅压缩至业界同等规模模型的6%，堪称效能标杆。

揭秘文心5.1

文心5.1，百度最新推出的旗舰级大型语言模型，以其卓越的性能和极致的性价比，在人工智能领域掀起新的浪潮。该模型巧妙地运用了文心5.0的知识蒸馏技术，并借助Once-for-All弹性训练框架，将庞大的预训练成本锐减至业界同等规模模型的6%。在Agent任务、深度搜索、数学推理以及创意写作等多个维度，文心5.1均展现出令人瞩目的实力。其在Arena搜索榜上荣获国内第一、全球第四的佳绩，充分证明了其在处理复杂信息检索与知识推理方面的深厚功底。模型采用了先进的分离式全异步强化学习与多阶段在线策略蒸馏技术，用户可以通过文心一言官网、千帆API以及星河社区便捷地调用，其定位清晰，旨在成为国产大模型效价比的典范。

文心5.1的核心亮点

Agent赋能，任务处理游刃有余：在τ3-bench和SpreadsheetBench-Verified的严苛评测中，文心5.1的表现超越了DeepSeek-V4-Pro，其能力已然逼近顶尖的闭源模型水平，能够高效完成复杂指令和任务。
深度搜索，信息海洋的导航者：凭借1223分的高分，文心5.1在Arena搜索榜上摘得全球第四、国内第一的桂冠，其在复杂信息检索和知识推理方面的强大能力得到了充分验证。
知识广博，推理能力卓越：在GPQA和MMLU-Pro的评测中，文心5.1的表现已与顶尖闭源模型不相上下。而在AIME26数学竞赛中，其99.6分的得分仅次于Gemini-3.1 Pro，展现了其在数学和逻辑推理上的深厚造诣。
创意无限，写作灵感迸发：在内部评测中，文心5.1的创意写作能力已接近Gemini 3.1 Pro。在Text Arena评测中，它更是荣获国内第一，并赢得了众多专业作家和内容平台的广泛赞誉，其在叙事逻辑和情感表达方面尤为出色。
极致性价比，成本效益最大化：得益于多维度弹性预训练技术的革新，文心5.1的预训练成本仅为业界同等规模模型的6%，在实现同等效果的前提下，大幅降低了训练开销，为用户带来前所未有的价值。

文心5.1背后的技术驱动

Once-for-All弹性训练框架：与传统为不同模型规模分别预训练的方式不同，文心5.0在单次预训练过程中，利用动态采样机制，同步优化了大量参数各异的子模型。由此构建了一个覆盖多种参数规模与计算开销的子模型矩阵，文心5.1从中精炼出最优子结构并继承了其深厚的知识底蕴。
多维度弹性压缩技术：模型在弹性深度上，通过随机跳过部分Transformer层，实现了不同深度子模型的权重共享；在弹性宽度上，动态屏蔽MoE专家，迫使剩余专家承担更多样化的任务；在弹性稀疏度上，则通过可变Top-k路由灵活调整激活专家数量，从而在推理开销与性能之间实现了动态的权衡。
分离式全异步强化学习：该技术以RL Controller为核心，将训练、推理、奖励、Agent Loop四大子系统控制面完全解耦。这使得各子系统能够部署和扩缩容，推理与训练之间形成天然的流水线，可以充分重叠掩盖，为长程异步训练奠定了高可扩展的基石。
FP8训推一致性优化：基于飞桨训推一体化框架，实现了统一的FP8低精度算子库，最大限度地减小了强化学习中训推精度的偏差。针对MoE模型，还优化了Rollout Router Replay技术，通过两阶段的计算通信掩盖与动态比特位压缩，成功将K3 KL散度降低了50%。
多阶段OPD训练管线：在统一SFT初始化之后，模型并行训练代码、推理、Agent等领域专家模型，有效避免了相互干扰。随后，通过令牌级反向KL的在线策略蒸馏，将多专家的能力融汇于统一的参数空间。最后，再通过通用的在线RL技术，进一步提升了模型在开放式和创意写作等通用能力上的表现。

如何体验文心5.1

官网直接对话：访问文心一言官网，即可与文心5.1进行实时互动交流。
API调用服务：通过千帆大模型平台（https://console.bce.baidu.com/qianfan/），将model_name参数设置为ernie-5.1，即可进行API调用。
Playground在线体验：登录星河社区（https://aistudio.baidu.com/playground），即可开启文心5.1的在线体验之旅。

文心5.1的突出优势

无与伦比的性价比：预训练成本仅为业界同等规模模型的6%，总参数压缩至1/3，激活参数压缩至1/2，在同等效果下实现了最低的训练开销。
搜索能力登顶国内：在Arena搜索榜上，文心5.1以1223分位列全球第四、国内第一，超越了GPT-5.5 Search等众多模型。
Agent与推理能力强悍：在τ3-bench评测中，文心5.1的表现超越了DeepSeek-V4-Pro；AIME26得分高达99.6，逼近Gemini-3.1 Pro，展现了其强大的复杂任务拆解和工具调用能力。
创作能力获业界的广泛认可：在Text Arena评测中排名第13（国内第一），赢得了凤凰智媒、原点构想等专业内容平台及作家的赞誉，尤其擅长剧本逻辑构建和情感把控。
先进的训练架构：其分离式全异步RL基础设施支持的扩缩容和异构资源调度，FP8训推一致性则保障了长程训练的稳定性。

文心5.1的项目链接

项目官方资讯：https://yiyan.baidu.com/blog/posts/ernie-5.1-0508-release/

文心5.1与竞品对比分析

对比维度	文心5.1	DeepSeek-V4-Pro	Gemini-3.1 Pro
开发团队	百度	DeepSeek	Google
预训练成本	业界同规模6%	常规水平	常规水平
Agent能力(τ3-bench)	67.9	67.5	67.1
AIME26 w/tools	99.6	92.6	99.9
GPQA得分	91.0	90.1	94.1
搜索排名	Arena全球第四/国内第一	未进入前列	未明确
文本排名	Text Arena #13	未明确	#5
开源情况	闭源API	开源/闭源	闭源