AIGC动态欢迎阅读
原标题:首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
关键字:测试,问题,报告,团队,智能
文章来源:机器之心
内容字数:8736字
内容摘要:
机器之心报道
编辑:杜伟、大盘鸡从编码、编译到调试、验证,AI 智能体能做的事情更多了。这周三,Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 AI 社区,引发了人们对程序员这个职业未来前景的热议。在对 Devin 的评估中,团队使用了 SWE-bench。这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。他们认为 SWE-bench 是一个不错的选择,它确定性地评估(通过单元测试)系统解决现实世界代码库问题的能力,并与 HumanEval 等仅限于功能的基准测试不同。
从结果来看,在 SWE-Bench 基础测试中,无需人类辅助,Devin 就可以解决 13.86% 的问题。而当前 SOTA 模型,在没有人类帮忙的情况下,只能完成 1.96% 的问题。即使提供了要编辑(辅助)的确切文件,当前 SOTA 模型也只能解决 4.80% 的问题。数据集
具体来讲,SWE-bench 是一个包含 2294 个问题和 GitHub 流行开源 Python 存储库中拉取请求(pull request)的数据集,目的是测试系统编写真实代码
原文链接:首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...