AIGC动态欢迎阅读
原标题:刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
关键字:代码,模型,研究人员,任务,数据
文章来源:新智元
内容字数:11225字
内容摘要:
新智元报道编辑:LRS
【新智元导读】StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。大型语言模型(LLMs)的发展极大地推动了代码生成领域的发展,之前有工作将强化学习(RL)与编译器的反馈信号集成在一起,用于探索LLMs的输出空间,以提高代码生成质量。
但当下还存在两个问题:
1. 强化学习探索很难直接适配到「复杂的人类需求」,即要求LLMs生成「长序列代码」;
2. 由于单元测试可能无法覆盖复杂的代码,因此使用未执行的代码片段来优化LLMs是无效的。
为了解决这些挑战,复旦大学、华中科技大学、皇家理工学院的研究人员提出了一种用于代码生成的新型强化学习框架StepCoder,由两个主要组件组成:
1. CCCS通过将长序列代码生成任务分解为代码完成子任务课程来解决探索挑战;
2. FGO通过屏蔽未执行的代码段来优化模型,以提供细粒度优化。论文链接:https://arxiv.org/pdf/2402.01391.pdf
项目链接:https://github.com/A
原文链接:刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...