这篇文章以代码大模型和垂域大模型进化为例,逐步介绍流星雨计划。
流星雨研究计划概述
本文介绍了北京理工大学计算机科学与技术学院启动的流星雨研究计划,旨在深入研究大模型自我进化的理论与方法,以推动大模型的发展。该计划调通过自主交互与环境的频繁互动,促进大模型能力的深度挖掘与扩展。
一、自我进化的核心思想
流星雨计划以 SRA-MCTS(Self-driven Reasoning Augmentation with Monte Carlo Tree Search)为基础,提出了一种自我进化的思路。研究者通过模型自身生成推理路径,避免了对外部监督的依赖,从而提升代码生成的能力。
二、SRA-MCTS 的创方法
SRA-MCTS 方法的核心在于将推理过程与数据生成紧密结合。模型通过反复生成推理路径并进行自我训练,形成正向反馈循环,进而提升其在复杂任务中的成功率。实验表明,即使在小规模模型中,SRA-MCTS 也能显著提升任务处理能力。
三、流星雨计划的三阶段框架
流星雨计划的自我进化框架包括三个关键阶段:
- 导师监督学习:通过 weak-to-strong 的域数据蒸馏方法,模型首先生成指导步骤,模型在此基础上生成答案。
- 自我评估能力习得:模型在此阶段通过更模型的反馈进行自我纠正,提升域性能。
- 自我提升训练:模型在完成自我批判后,尝试进行自我进化,利用不同推理策略的效果对比进行自我训练。
四、研究成果与未来展望
通过应用流星雨计划,研究者在准确性、完整性、相关性等维度上取得了显著提升。未来,研究团队将继续探索更适用的自我进化方法,以实现更广泛的应用并推广流星雨计划。
DIRECT LAB 期待与更多学者和业界同仁合作,同推进大模型进化域的探索与突破。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...