「专业智能体指导」让小模型学会数学推理！微调Mistral-7B实现86.81%准确率

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：「专业智能体指导」让小模型学会数学推理！微调Mistral-7B实现86.81%准确率
关键字：问题,模型,研究人员,数据,答案
文章来源：新智元
内容字数：11677字

内容摘要：

新智元报道编辑：LRS
【新智元导读】小模型也能解锁数学能力，无需多模型集成，7B模型在GSM 8 k数据集上性能超越70B！对于小型语言模型（SLM）来说，数学应用题求解是一项很复杂的任务。
比如之前有研究结果显示，在GSM 8K基准测试中实现80%以上准确度所需的最小模型尺寸为340亿个参数。
为了在较小的模型上达到这种性能水平，研究人员经常训练SLM来生成Python代码或使用外部工具作为辅助，以避免计算错误。
或是基于集成（ensembling）技术，将100多个模型生成的输出组合在一起，以获得更准确的结果，最终结果的选择需要通过、多数表决或与SLM结合使用的单独的验证器模型来完成，可以显著提升准确率（Phi-GSM使用top-48将性能从68.2提升到81.5），不过代价是由于多次调用模型导致的成本显著增加。
最近，微软的研究人员提出了一个基于Mistral-7B、70亿参数量的小型语言模型Orca-Math，它在GSM 8 k上实现了86.81%，不需要调用多个模型进行集成或使用验证器、代码执行或任何其他外部工具。论文链接：https://arxiv.org/abs/

原文链接：「专业智能体指导」让小模型学会数学推理！微调Mistral-7B实现86.81%准确率