GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了

AIGC动态6个月前发布 量子位
5 0 0

GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了

AIGC动态欢迎阅读

原标题:GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了
关键字:模型,代码,腾讯,报告,字节跳动
文章来源:量子位
内容字数:7296字

内容摘要:


DevBench团队 投稿量子位 | 公众号 QbitAI首个AI软件工程师Devin正式亮相,立即引爆了整个技术界。
Devin不仅能够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等。
这种 “强到逆天” 的软件开发能力,让一众码农纷纷绝望,直呼:“程序员的末日真来了?”
在一众测试成绩中,Devin在SWE-Bench基准测试中的表现尤为引人注目。
SWE-Bench是一个评估AI软件工程能力的测试,重点考察大模型解决实际 GitHub 问题的能力。
Devin以独立解决13.86%的问题率高居榜首,“秒杀”了GPT-4仅有的 1.74%得分,将一众AI大模型远远甩在后面。
这强大的性能让人不禁浮想联翩:“未来的软件开发中,AI将扮演怎样的角色?”
上海人工智能实验室联合字节跳动SE Lab的研究人员以及SWE-Bench团队,提出了一个新测试基准DevBench,首次揭秘大模型在多大程度上可以从PRD出发,完成一个完整项目的设计、开发、测试。
具体地说,DevBench首次对大模型进行了


原文链接:GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...