超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

AIGC动态欢迎阅读

原标题:超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单
关键字:模型,解读,代码,公司,数字
文章来源:AI科技评论
内容字数:0字

内容摘要:


AI编程持续突围。近日,来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实编程评测)排行榜,取得了全球第二名的成绩,同时创造了非GPT-4o基模的最高纪录(SOTA)。开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。
OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。1大模型编程的真实挑战2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给


原文链接:超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

联系作者

文章来源:AI科技评论
作者微信:aitechtalk
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...