大语言模型成为了「调包侠」？耶鲁提出代码生成新基准：ML-Bench

AIGC动态3年前 (2023)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：大语言模型成为了「调包侠」？耶鲁提出代码生成新基准：ML-Bench

关键字：代码,仓库,模型,文件,任务

文章来源：夕小瑶科技说

内容字数：6422字

内容摘要：夕小瑶科技说原创作者| 夕小瑶编辑部更实际，更有用的代码生成评测方案来了！ML-Bench提出了新的代码生成Benchmark，其目标在于评测大模型如何利用开源仓库完成机器学习任务。仅仅在代码生成测评榜单上表现出色并不代表大模型就实用，因为现存的代码生成数据集往往过分关注从零开始编写代码，这与实际工程和科研编程中对现有库的依赖并不完全一致。开发者和研究人员在真实环境中往往会基于现有的代码库进行开发和创新。鉴于此，来自耶鲁、学、北京大学的研究人员提出了“ML-Bench”，一个基于14个流行开源 GitHub 机器学习仓库建立的机器学习任务数据集。在ML-Bench中，模型根据与用户需求相关的文档，生成满足用户需求的Python代码或Bash脚本。此数据集所反映的编程场景更加贴近实际情况，提供了在这些仓库基础上进行机器学习任务的评价方式。于是，ML-Bench建立了一种新模式，即让大…

原文链接：点此阅读原文：大语言模型成为了「调包侠」？耶鲁提出代码生成新基准：ML-Bench