如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践

该论文已被软件工程领域国际顶级会议 ICSE 2025 收录。

如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践

原标题:如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践
文章来源:机器之心
内容字数:8304字

北京大学aiXcoder团队:基于软件工程方法的代码大模型aiXcoder-7B

本文介绍了北京大学aiXcoder团队研发的代码大模型aiXcoder-7B,该模型在ICSE 2025会议上被收录,并已开源。该团队致力于融合深度学习与软件工程,以提升代码大模型在实际开发场景中的表现。

1. 代码大模型训练的挑战

虽然开源数据集和训练框架降低了训练代码大模型的技术门槛,但现有模型往往将代码简单地视为自然语言文本,忽略了代码的结构性和上下文关系,导致实际应用效果不佳。aiXcoder团队认为,训练模型的初衷应始终从实际开发场景出发。

2. aiXcoder-7B的创新之处

aiXcoder-7B的主要创新在于将传统软件工程方法引入大规模预训练中,以生成更符合真实场景的代码。具体而言,它从以下几个方面进行了优化:

  1. 数据预处理: 利用语法分析和静态分析工具,去除语法错误、Bug和安全漏洞,保证数据质量。
  2. 结构化FIM (SFIM): 基于抽象语法树(AST)结构构建训练任务,让模型学习代码的语法结构,避免生成不合法的代码片段。
  3. 多文件排序: 以项目为单位组织数据,并根据文件内容相似性和依赖关系对文件排序,提升模型对项目内多文件关系的建模能力。

3. aiXcoder-7B的效果

实验结果表明,aiXcoder-7B在代码补全任务上取得了显著效果。与DeepSeekcoder-6.7B相比,aiXcoder-7B在多种补全位置上表现更好,生成的代码更简洁,且在跨文件上下文理解方面也更具优势。

4. 未来改进方向

aiXcoder团队指出,在真实软件开发场景中,代码大模型还需要学习更多能力,特别是处理复杂的上下文信息。他们正在进行对齐训练,以提升模型在实际应用中的代码补全准确率。

5. 总结

aiXcoder-7B代表了代码大模型研究的一个重要尝试,它通过融合软件工程方法,显著提升了代码大模型的性能和实用性。该团队的努力为推动软件开发自动化迈出了关键一步。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...