EAPO

EAPO – 阿里通义推出的全新强化学习框架

EAPO，一项由阿里通义实验室孕育的长文本推理强化学习框架，正以其独特的“证据奖励”机制，为大模型领域注入新的活力。它巧妙地将监督信号的焦点从最终答案转移到证据提取的每一个环节，从而显著提升了模型在复杂长文本推理任务中的表现。

EAPO的核心创新之处在于其结构化的证据推理流程。该框架模型遵循“任务分析→证据提取→推理执行→答案生成”的四步工作流，并利用特殊的token分隔各阶段，使得中间的证据状态得以清晰呈现并直接进行监督。这种精细化的过程控制，有效解决了传统模型在回答问题时可能出现的“答案正确但引用错误”的幻觉现象。

为了实现这一目标，EAPO构建了多粒度的过程奖励机制。它不再仅仅依赖于最终结果的准确性，而是引入了复合奖励信号，包括格式遵循奖励、群组相对证据质量奖励以及结果准确率奖励。这种从稀疏结果监督转向密集过程监督的策略，能够更有效地引导模型关注证据的质量和提取过程。

特别值得一提的是其“群组相对证据评估”功能。EAPO会针对同一问题采样多条不同的证据提取路径，然后由奖励模型进行统一评估，并给出1-5分的整数质量评分。通过在同一组内进行归一化处理，生成相对奖励，从而激励模型优先提取那些质量更高的证据。

此外，EAPO还设计了一个“奖励-策略协同进化”的自适应闭环机制。当策略模型生成的高置信度、结果一致的优质证据链被筛选出来后，会反哺奖励模型进行拒绝微调。这意味着评判标准能够随着模型能力的提升而动态进化，形成一个持续优化的良性循环。

在实际应用中，EAPO在SEAL、LongBench-V1/V2等8个权威长文本基准测试中取得了显著的性能提升。令人瞩目的是，基于EAPO训练的30B模型，其长文本推理能力已经超越了120B的GPT-OSS及Claude-Sonnet-4等闭源大模型，展现了“小模型以巧胜大模型”的强大实力。

EAPO的技术原理根植于其“Evidence-Augmented Reasoning（EAR）”范式，该范式模型在生成答案前必须从原文中逐字摘录相关证据片段。通过特殊的token将流程拆解为“任务分析→证据提取→推理执行→答案生成”四个环节，使得中间的证据状态暴露在外，易于直接监督，从根本上解决了模型“蒙对答案但引用错误”的幻觉问题。

“Group-Relative Evidence Reward（群组相对证据奖励）”是EAPO的另一项核心技术。它将强化学习的优化目标从“结果正确”调整为“证据正确”。在训练过程中，模型会为同一问题采样多条不同的证据轨迹，奖励模型会同时评估这些证据集，给出1-5分的效用评分，并在采样组内归一化为[0，1]的相对奖励。这种密集的过程监督，让模型深刻理解“找对证据”的重要性远超“蒙对答案”，从而有效抑制参数化捷径。

“Adaptive Reward-Policy Co-Evolution（自适应奖励-策略协同进化）”则是一个精妙的自我强化闭环。随着策略模型能力的提升，固定的奖励模型可能难以区分证据的细微质量差异。EAPO通过“Outcome-Consistent Rejection Fine-Tuning”筛选出“高证据评分且答案正确”或“低评分且答案错误”的高置信度rollout数据，并利用这些实例对奖励模型进行监督微调。这种机制使得策略模型越强，生成的训练数据越好；奖励模型评判越精准，又能反过来指导策略模型提取更精确的证据，实现动态同步进化。

EAPO还基于GRPO（Group Relative Policy Optimization）构建了复合奖励机制。它结合了格式遵循奖励（α=0.1）、群组相对证据质量奖励（β=0.3）和结果准确率奖励（γ=0.6），将稀疏的结果信号转化为密集的过程导向指导。

在关键信息方面，EAPO由阿里通义实验室研发，论文已被ACL 2026录用。其训练基于Qwen3系列模型，上下文长度统一限制在128K tokens以内。训练数据包含4,664条复合样本，涵盖了32K-128K填充上下文的多跳QA（MuSiQue）及混合QA。奖励模型基于Qwen3-30B-A3B-Thinking初始化，并每20个RL步骤更新一次。

EAPO的核心优势在于其过程监督的革新，打破了长文本RL稀疏奖励的瓶颈，实现了证据级的密集过程监督。其效能突破显著，30B模型在长文本推理上反超120B的闭源大模型。同时，EAPO能够实现错误双降，证据错误率和推理错误率均有所下降。在训练效率上，EAPO收敛速度更快，准确率天花板更高。此外，其评判标准的进化机制，通过奖励模型与策略模型的持续迭代协同进化，避免了固定评判标准的局限性。

EAPO在AI搜索与问答、专业领域文档分析、科研文献综述、企业知识库问答以及教育辅导与自动批改等场景具有广泛的应用前景，能够有效解决“搜对了但答错了”等核心痛点，确保信息的准确性和可靠性。

阅读原文