贾佳亚团队新作：10k数据让大模型数学能力超GPT-4

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：贾佳亚团队新作：10k数据让大模型数学能力超GPT-4
关键字：模型,步骤,错误,数据,数学
文章来源：量子位
内容字数：0字

内容摘要：

港中文贾佳亚团队投稿量子位 | 公众号 QbitAI只要10k数据，就能让大模型的数学成绩增长5.6%。
港中文贾佳亚团队推出了基于推理步骤的大模型优化策略，能够像老师教学生一样优化大模型。
利用这种方法，72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。
老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。
贾佳亚团队正是学习了这一特点，将斯坦福团队推出的DPO（直接偏好优化）进一步细化，形成了逐步应用的策略Step-DPO。
该方法让Qwen-72B模型在多个数据集上进步明显，同时也获得了更强的长链条推理任务能力。
像教育学生一样训练大模型如何强化推理能力，一直是大语言模型领域的重要问题之一。
常见的思维链策略通过在输入提示词部分添加“Let’s think step by step.”，来使模型在输出中完成逐步推理，但对于复杂的问题，仅通过修改提示词不足以引导模型正确解决问题。
由于复杂问题涉及的推理过程较长，有时包含数十个推理步骤，一旦其中任一步骤出错，就难以得到正确

原文链接：贾佳亚团队新作：10k数据让大模型数学能力超GPT-4