LLM巫师，代码预训练是魔杖！UIUC华人团队揭秘代码数据三大好处

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：LLM巫师，代码预训练是魔杖！UIUC华人团队揭秘代码数据三大好处
关键字：代码,报告,任务,反馈,能力
文章来源：新智元
内容字数：9932字

内容摘要：

新智元报道编辑：LRS
【新智元导读】如果语言模型是巫师，代码预训练就是魔杖！大模型时代的语言模型（LLM）不仅在尺寸上变得更大了，而且训练数据也同时包含了自然语言和形式语言（代码）。
作为人类和计算机之间的媒介，代码可以将高级目标转换为可执行的中间步骤，具有语法标准、逻辑一致、抽象和模块化的特点。
最近，来自伊利诺伊大学香槟分校的研究团队发布了一篇综述报告，概述了将代码集成到LLM训练数据中的各种好处。论文链接：https://arxiv.org/abs/2401.00812v1
具体来说，除了可以提升LLM在代码生成上的能力外，好处还包括以下三点：
1. 有助于解锁LLM的推理能力，使能够应用于一系列更复杂的自然语言任务上；
2. 引导LLM生成结构化且精确的中间步骤，之后可以通过函数调用的方式连接到外部执行终端（external execution ends）；
3. 可以利用代码编译和执行环境为模型的进一步改进提供了更多样化的反馈信号。此外，研究人员还追踪了LLM作为智能智能体（intelligent agents，IA）时，在理解指令、分解目标、规划和执行行动（execut

原文链接：LLM巫师，代码预训练是魔杖！UIUC华人团队揭秘代码数据三大好处