明确了:文本数据中加点代码,训练出的大模型更强、更通用

明确了:文本数据中加点代码,训练出的大模型更强、更通用

AIGC动态欢迎阅读

原标题:明确了:文本数据中加点代码,训练出的大模型更强、更通用
关键字:代码,数据,模型,性能,研究者
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
机器之心编辑部代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。
在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。
在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响。论文链接:https://arxiv.org/abs/2408.10914
设问「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任务、代码基准和 LLM-as-a-judge 胜率进行了广泛的消融和评估,模型的参数大小从 4.7 亿到 2.8 亿个参数不等。
在各种配置中,我们可以看到存在一致的结果:代码是泛化的关键模块,远远超出了编码任务的范围,并且代码质量的改进对所有任务都有巨大影响。预训练期间投资代码质量和保留代码数据,可以产生积极影响。
这里有几个因素很重要,包括确保代码比例正确、通过包含合成代


原文链接:明确了:文本数据中加点代码,训练出的大模型更强、更通用

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...