Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

大模型挣钱哪家强?

Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

原标题:Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力
文章来源:机器之心
内容字数:4542字

OpenAI发布百万美元软件工程基准测试SWE-Lancer

近日,OpenAI发布了一个名为SWE-Lancer的全新基准测试,用于评估AI大模型在软件工程领域的实际能力。该基准包含来自Upwork平台的1400多个真实软件工程任务,总价值高达100万美元。这意味着,如果一个AI模型能够完成所有任务,它就能获得与人类工程师相同的百万美元报酬。

1. SWE-Lancer基准测试详解

SWE-Lancer基准测试包含两类任务:工程任务(IC)和管理任务。IC任务涵盖从简单的bug修复到复杂功能实现,总价值41.47万美元;管理任务则要求模型扮演软件工程经理的角色,选择最佳解决方案,总价值58.52万美元。所有任务都经过严格的验证,其价格也真实反映了市场价值。

该基准测试的数据来自Expensify开源库在Upwork平台发布的任务,OpenAI研究人员和100名专业软件工程师参与了任务的筛选和整理。为了避免模型作弊,测试环境限制了模型对网络和GitHub的访问。

2. 测试结果及分析

OpenAI使用包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在内的多个前沿模型进行了测试。结果显示,所有模型都未能完成所有任务,无法完全取代人类工程师。Claude 3.5 Sonnet表现最佳,获得了40.33万美元的虚拟报酬。

测试结果表明,模型在定位问题方面表现出色,但对问题的根本原因理解不足,导致解决方案不完整或存在缺陷。模型在需要推理和技术理解的管理任务上表现相对更好。

3. SWE-Lancer的意义和未来

SWE-Lancer基准测试通过将模型性能与真实经济价值联系起来,为评估AI模型在软件工程领域的实际能力提供了新的标准。该基准的开源也促进了相关研究的发展,有助于推动AI模型在软件工程领域的应用。

有人认为,随着AI在软件工程领域能力的扩展,拥有标准化的评估方法至关重要。SWE-Lancer的出现为这一领域提供了重要的参考,但其性也值得关注。未来,社区对SWE-Lancer Diamond的使用反馈将进一步验证其有效性和适用性。

4. 总结

OpenAI发布的SWE-Lancer基准测试为评估AI大模型在软件工程领域的实际能力提供了新的标准,也为未来AI在该领域的应用研究指明了方向。虽然当前模型仍无法完全取代人类工程师,但其在特定任务上的出色表现也预示着AI在软件工程领域具有巨大的发展潜力。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...