Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

大模型挣钱哪家强？

原标题：Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力
文章来源：机器之心
内容字数：4542字

近日，OpenAI发布了一个名为SWE-Lancer的全新基准测试，用于评估AI大模型在软件工程领域的实际能力。该基准包含来自Upwork平台的1400多个真实软件工程任务，总价值高达100万美元。这意味着，如果一个AI模型能够完成所有任务，它就能获得与人类工程师相同的百万美元报酬。

SWE-Lancer基准测试包含两类任务：工程任务(IC)和管理任务。IC任务涵盖从简单的bug修复到复杂功能实现，总价值41.47万美元；管理任务则要求模型扮演软件工程经理的角色，选择最佳解决方案，总价值58.52万美元。所有任务都经过严格的验证，其价格也真实反映了市场价值。

该基准测试的数据来自Expensify开源库在Upwork平台发布的任务，OpenAI研究人员和100名专业软件工程师参与了任务的筛选和整理。为了避免模型作弊，测试环境限制了模型对网络和GitHub的访问。

OpenAI使用包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在内的多个前沿模型进行了测试。结果显示，所有模型都未能完成所有任务，无法完全取代人类工程师。Claude 3.5 Sonnet表现最佳，获得了40.33万美元的虚拟报酬。

测试结果表明，模型在定位问题方面表现出色，但对问题的根本原因理解不足，导致解决方案不完整或存在缺陷。模型在需要推理和技术理解的管理任务上表现相对更好。

SWE-Lancer基准测试通过将模型性能与真实经济价值联系起来，为评估AI模型在软件工程领域的实际能力提供了新的标准。该基准的开源也促进了相关研究的发展，有助于推动AI模型在软件工程领域的应用。

有人认为，随着AI在软件工程领域能力的扩展，拥有标准化的评估方法至关重要。SWE-Lancer的出现为这一领域提供了重要的参考，但其性也值得关注。未来，社区对SWE-Lancer Diamond的使用反馈将进一步验证其有效性和适用性。

OpenAI发布的SWE-Lancer基准测试为评估AI大模型在软件工程领域的实际能力提供了新的标准，也为未来AI在该领域的应用研究指明了方向。虽然当前模型仍无法完全取代人类工程师，但其在特定任务上的出色表现也预示着AI在软件工程领域具有巨大的发展潜力。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...