刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？
关键字：小米,问题,测试,报告,模型
文章来源：AI前线
内容字数：0字

内容摘要：

整理 | 李冬梅褚杏娟
大家期待中的 OpenAI 与谷歌“大战”并未如约而至，双方都打出了“毫无力”的棉花拳。以为能等到“草莓”，没想到来了个“羽衣甘蓝”尽管全世界都在盯着“草莓计划”，但似乎叛逆的 OpenAI 总是不尽如人愿。你要“草莓”，他们偏偏给你个“羽衣甘蓝”。
北京时间 14 日凌晨 2 点，OpenAI 在其官网上发文称正在发布一个经过人工验证的 SWE-bench 子集，该子集可以更可靠地评估 AI 模型解决现实世界软件问题的能力。
SWE-bench Hugging Face 地址：
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
作为准备框架的一部分（准备框架是 OpenAI 设立的一套安全地开发和部署其前沿模型的方法），OpenAI 开发了一系列指标来跟踪、评估和预测模型的自主行动能力。
一直以来，自主完成软件工程任务的能力是前沿模型自主风险类别中中等风险水平的关键组成部分。由于软件工程任务的复杂性、准确评估生成的代码的难度以及模拟真实世界开发场景的挑战，评估这些能力具有挑

原文链接：刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？