LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞

LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞

原标题:LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
文章来源:新智元
内容字数:11572字

DeepSeek团队新作CODEI/O:利用代码提升LLM推理能力

近日,DeepSeek团队联合上海交通大学和香港科技大学的研究人员发布了全新研究成果CODEI/O,该方法通过代码输入/输出,有效提升了大型语言模型(LLM)的推理能力,并获得Ai2研究所大牛Nathan Lambert的高度评价。这项研究成果,特别是其一作Junlong Li在DeepSeek实习期间完成的研究,迅速引发了学术界的广泛关注。

1. LLM推理能力的瓶颈与CODEI/O的提出:LLM在推理任务中面临挑战,主要原因在于训练数据的稀疏性和零散性。以往的研究主要集中在特定领域(如数学或代码),而CODEI/O则旨在系统性地提升LLM在更广泛推理任务上的能力。其核心思想是通过代码的输入/输出预测,提炼出代码中蕴含的各种推理模式。

2. CODEI/O的数据构建流程:CODEI/O的数据构建流程包含以下步骤:

  1. 收集原始代码文件:从CodeMix、PyEdu-R等多个来源收集约810.5K个Python代码文件。
  2. 转换为统一格式:使用DeepSeek-V2.5对代码进行预处理,将其转换为可执行函数,并明确定义输入/输出,确保其JSON可序列化。
  3. 收集输入/输出对:使用自定义的输入生成器生成测试用例,并执行代码收集相应的输出。
  4. 构建训练样本:将函数、查询、参考代码和输入/输出组合成提示和响应,构建监督学习数据集CODEI/O和CODEI/O++ (包含多轮反馈)。

3. 实验结果与分析:实验结果表明,CODEI/O在符号推理、科学推理、逻辑推理、数学与数值推理以及常识推理等任务上均取得了显著的性能提升,优于其他数据集,并展现出跨模型规模和架构的普遍有效性。消融实验进一步验证了输入/输出预测、多轮迭代以及两阶段训练的必要性。

4. CODEI/O的核心优势:CODEI/O的核心优势在于其系统性的方法,通过代码输入/输出预测,提取了代码中蕴含的多种推理模式,并将其应用于LLM的训练,从而在多个推理任务上实现了显著的性能提升。此外,CODEI/O还展现出良好的可扩展性。

5. 团队成员介绍:该论文一作Junlong Li是上海交通大学硕士生,其他作者来自DeepSeek和香港科技大学,均在人工智能领域拥有丰富的研究经验。

总之,CODEI/O为提升LLM的推理能力提供了一种新的有效方法,其研究成果对人工智能领域具有重要的意义。DeepSeek团队在LLM领域持续的创新和突破,也值得我们关注和学习。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...