该论文已被软件工程领域国际顶级会议 ICSE 2025 收录。
原标题:如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践
文章来源:机器之心
内容字数:8304字
北京大学aiXcoder团队:基于软件工程方法的代码大模型aiXcoder-7B
本文介绍了北京大学aiXcoder团队研发的代码大模型aiXcoder-7B,该模型在ICSE 2025会议上被收录,并已开源。该团队致力于融合深度学习与软件工程,以提升代码大模型在实际开发场景中的表现。
1. 代码大模型训练的挑战
虽然开源数据集和训练框架降低了训练代码大模型的技术门槛,但现有模型往往将代码简单地视为自然语言文本,忽略了代码的结构性和上下文关系,导致实际应用效果不佳。aiXcoder团队认为,训练模型的初衷应始终从实际开发场景出发。
2. aiXcoder-7B的创新之处
aiXcoder-7B的主要创新在于将传统软件工程方法引入大规模预训练中,以生成更符合真实场景的代码。具体而言,它从以下几个方面进行了优化:
- 数据预处理: 利用语法分析和静态分析工具,去除语法错误、Bug和安全漏洞,保证数据质量。
- 结构化FIM (SFIM): 基于抽象语法树(AST)结构构建训练任务,让模型学习代码的语法结构,避免生成不合法的代码片段。
- 多文件排序: 以项目为单位组织数据,并根据文件内容相似性和依赖关系对文件排序,提升模型对项目内多文件关系的建模能力。
3. aiXcoder-7B的效果
实验结果表明,aiXcoder-7B在代码补全任务上取得了显著效果。与DeepSeekcoder-6.7B相比,aiXcoder-7B在多种补全位置上表现更好,生成的代码更简洁,且在跨文件上下文理解方面也更具优势。
4. 未来改进方向
aiXcoder团队指出,在真实软件开发场景中,代码大模型还需要学习更多能力,特别是处理复杂的上下文信息。他们正在进行对齐训练,以提升模型在实际应用中的代码补全准确率。
5. 总结
aiXcoder-7B代表了代码大模型研究的一个重要尝试,它通过融合软件工程方法,显著提升了代码大模型的性能和实用性。该团队的努力为推动软件开发自动化迈出了关键一步。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...