OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？
关键字：样本,测试,问题,注释,解决方案
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：张倩、小舟有人说，「我们期待的是草莓，但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来，大模型的编程能力都备受关注，超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近，Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示，Genie 的表现轻松超越了 Devin，在第三方基准测试 SWE-bench 上的得分为 30%，而 Devin 的得分仅为 13.8%。这个 SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2,294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 描述，然后生成一个补丁来解决 issue 描述的问题。这个数据集在 AI 编程能力的评估中已被广泛使用。
在 AI 编程能力进化的同时，这个基准也在进化。今天凌晨，网传的 OpenAI「草莓」模型再次跳票，但 OpenAI 确

原文链接：OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

联系作者

文章来源：机器之心
作者微信：
作者简介：

阅读原文

# AIGC动态 # 样本 # 注释 # 测试 # 解决方案 # 问题

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

AIGC动态欢迎阅读

内容摘要：

联系作者

一夜之间，谷歌版GPT-4o和AI手机全上市了

没有等来OpenAI开源GPT-4o，等来了开源版VITA

相关文章

暂无评论

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

AIGC动态欢迎阅读

内容摘要：

联系作者

​一夜之间，谷歌版GPT-4o和AI手机全上市了

没有等来OpenAI开源GPT-4o，等来了开源版VITA

相关文章

暂无评论

一夜之间，谷歌版GPT-4o和AI手机全上市了