如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

该论文已被软件工程领域国际顶级会议 ICSE 2025 收录。

原标题：如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践
文章来源：机器之心
内容字数：8304字

本文介绍了北京大学aiXcoder团队研发的代码大模型aiXcoder-7B，该模型在ICSE 2025会议上被收录，并已开源。该团队致力于融合深度学习与软件工程，以提升代码大模型在实际开发场景中的表现。

虽然开源数据集和训练框架降低了训练代码大模型的技术门槛，但现有模型往往将代码简单地视为自然语言文本，忽略了代码的结构性和上下文关系，导致实际应用效果不佳。aiXcoder团队认为，训练模型的初衷应始终从实际开发场景出发。

aiXcoder-7B的主要创新在于将传统软件工程方法引入大规模预训练中，以生成更符合真实场景的代码。具体而言，它从以下几个方面进行了优化：

实验结果表明，aiXcoder-7B在代码补全任务上取得了显著效果。与DeepSeekcoder-6.7B相比，aiXcoder-7B在多种补全位置上表现更好，生成的代码更简洁，且在跨文件上下文理解方面也更具优势。

aiXcoder团队指出，在真实软件开发场景中，代码大模型还需要学习更多能力，特别是处理复杂的上下文信息。他们正在进行对齐训练，以提升模型在实际应用中的代码补全准确率。

aiXcoder-7B代表了代码大模型研究的一个重要尝试，它通过融合软件工程方法，显著提升了代码大模型的性能和实用性。该团队的努力为推动软件开发自动化迈出了关键一步。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...