GPT-4单项仅得7.1分，揭露大模型代码能力三大短板，最新基准测试来了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：GPT-4单项仅得7.1分，揭露大模型代码能力三大短板，最新基准测试来了
关键字：模型,代码,腾讯,报告,字节跳动
文章来源：量子位
内容字数：7296字

内容摘要：

DevBench团队投稿量子位 | 公众号 QbitAI首个AI软件工程师Devin正式亮相，立即引爆了整个技术界。
Devin不仅能够轻松解决编码任务，更可以自主完成软件开发的整个周期——从项目规划到部署，涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等。
这种 “强到逆天” 的软件开发能力，让一众码农纷纷绝望，直呼：“程序员的末日真来了？”
在一众测试成绩中，Devin在SWE-Bench基准测试中的表现尤为引人注目。
SWE-Bench是一个评估AI软件工程能力的测试，重点考察大模型解决实际 GitHub 问题的能力。
Devin以解决13.86%的问题率高居榜首，“秒杀”了GPT-4仅有的 1.74%得分，将一众AI大模型远远甩在后面。
这强大的性能让人不禁浮想联翩：“未来的软件开发中，AI将扮演怎样的角色？”
上海人工智能实验室联合字节跳动SE Lab的研究人员以及SWE-Bench团队，提出了一个新测试基准DevBench，首次揭秘大模型在多大程度上可以从PRD出发，完成一个完整项目的设计、开发、测试。
具体地说，DevBench首次对大模型进行了

原文链接：GPT-4单项仅得7.1分，揭露大模型代码能力三大短板，最新基准测试来了