微软祭出代码大模型WaveCoder！4项代码任务2万个实例数据集，让LLM泛化能力飙升

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：微软祭出代码大模型WaveCoder！4项代码任务2万个实例数据集，让LLM泛化能力飙升
关键字：指令,模型,数据,代码,任务
文章来源：新智元
内容字数：5183字

内容摘要：

新智元报道编辑：桃子
【新智元导读】指令调优或许是让大模型性能提升最有潜力的方法。用高质量数据集进行指令调优，能让大模型性能快速提升。
对此，微软研究团队训练了一个CodeOcean数据集，包含了2万个指令实例的数据集，以及4个通用代码相关任务。
与此同时，研究人员微调了一个代码大模型WaveCoder。
论文地址：https://arxiv.org/abs/2312.14187
实验结果表明，Wavecoder优于其他开源模型，在以前的代码生成任务中表现出色。
指令调优，释放「代码大模型」潜力过去的一年，GPT-4、Gemini、Llama等大模型在一系列复杂NLP任务中取得了前所未有的性能。
这些LLM利用自监督预训练的过程，以及随后的微调，展示了强大的零/少样本的能力，能够有效遵循人类指示完成不同的任务。
然而，若想训练微调这样一个大模型，其成本非常巨大。
因此，一些相对较小的LLM，特别是代码大语言模型（Code LLM），因其在广泛的代码相关任务上的卓越的性能，而引起了许多研究者的关注。
鉴于LLM可以通过预训练获得丰富的专业知识，因此在代码语料库上进行高效的预训练，对代码

原文链接：微软祭出代码大模型WaveCoder！4项代码任务2万个实例数据集，让LLM泛化能力飙升