UCL博士生创业一年，造出最强AI「ML工程师」，OpenAI盖戳认证

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：UCL博士生创业一年，造出最强AI「ML工程师」，OpenAI盖戳认证
关键字：报告,模型,解读,任务,框架
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心原创
作者：微胖重要的事说三遍：Agent 框架很重要。一、被忽略的「Agent 框架」
OpenAI 最近又有了新动作，这次他们的野心更大了。
鉴于大型语言模型（ LLM ）强大的先验知识和行动/反应能力，让 AI 训练 AI ，可还行？
几个顶级大模型在机器学习自动化工程上的表现如何？
人类距离 OpenAI AGI 路线图上的 Level 3（ Agents ）还有多远？
怀揣这些问题，OpenAI 自行推出了一个新基准测试—— MLE-bench ，严选 75 个与机器学习工程（ MLE ）相关的 Kaggle 竞赛题目。毕竟，目前「很少有基准测试能够全面衡量自主的端到端机器学习工程」。
结果发现，GPT-4o 结合 AIDE 框架平均获得奖牌数量，明显优于另外两个开源 Agent 框架。
更令人惊讶的是，当模型切换到 OpenAI o1-preview（据称，突破了 LLM 推理极限）后，其表现又翻了一倍：
在大约 16.9% 的比赛中达到了相当于 Kaggle 铜牌以上的水平，奖牌数量也一骑绝尘。
而且，8 次尝试后，o1-preview 的得分从单次尝试的 16.

原文链接：UCL博士生创业一年，造出最强AI「ML工程师」，OpenAI盖戳认证