刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习
关键字：代码,模型,研究人员,任务,数据
文章来源：新智元
内容字数：11225字

内容摘要：

新智元报道编辑：LRS
【新智元导读】StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题，对未执行的代码段以细粒度优化；还开源了可用于强化学习训练的APPS+数据集。大型语言模型（LLMs）的发展极大地推动了代码生成领域的发展，之前有工作将强化学习（RL）与编译器的反馈信号集成在一起，用于探索LLMs的输出空间，以提高代码生成质量。
但当下还存在两个问题：
1. 强化学习探索很难直接适配到「复杂的人类需求」，即要求LLMs生成「长序列代码」；
2. 由于单元测试可能无法覆盖复杂的代码，因此使用未执行的代码片段来优化LLMs是无效的。
为了解决这些挑战，复旦大学、华中科技大学、皇家理工学院的研究人员提出了一种用于代码生成的新型强化学习框架StepCoder，由两个主要组件组成：
1. CCCS通过将长序列代码生成任务分解为代码完成子任务课程来解决探索挑战；
2. FGO通过屏蔽未执行的代码段来优化模型，以提供细粒度优化。论文链接：https://arxiv.org/pdf/2402.01391.pdf
项目链接：https://github.com/A

原文链接：刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习