从专家到傻瓜：Claude 3.5两小时狂飙编程，8小时后却现惊人短板！

AIGC动态2年前 (2024)发布新智元

原标题：Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板
文章来源：新智元
内容字数：7797字

AI自主研发能力的现状与挑战

随着人工智能技术的快速发展，AI在科研领域的表现引发了广泛关注。最近的研究表明，Claude 3.5 Sonnet和o1-preview在短时间内的研发任务中表现出色，击败了50多位人类专家。然而，随着时间的延长，人类专家在更长的任务中逐渐展现出明显的优势，这一现象引发了对AI自主研发能力的深入探讨。

1. AI与人类专家的比较

在仅有2小时的研发任务中，AI智能体表现优异，尤其是在编程速度方面，能够以超越人类10倍的速度生成和测试解决方案。例如，在一个优化前缀和运算的任务中，o1-preview成功将运行时间压缩至0.64毫秒，超过了人类专家的最佳方案。然而，在8小时的任务中，AI的性能提升趋于平缓，而人类专家则展现出了更强的进步能力。

2. 研究方法与评估框架

研究使用了RE-Bench设计架构，评估了七个具有挑战性的机器学习问题。每个评估环境都设定了明确的目标，提供初始解决方案，并对智能体的表现进行归一化。此外，研究人员对比了不同智能体在32小时内的最高性能，发现AI智能体在某些环境中表现良好，但整体上仍未达到人类专家的水平。

3. AI智能体的成功与局限性

AI智能体的成功主要归因于其广泛的知识储备及高频率的尝试能力。然而，仍存在多样性不足和指令理解错误的问题，导致AI在某些情况下无法找到最佳解决方案。例如，在优化内核的任务中，AI能够快速找到解决方案，但在其他环境中的表现却不尽如人意。

4. 未来展望与改进方向

研究人员认为，AI智能体在短期高保真反馈和低复杂度的环境中更具优势。未来，提升评估环境的代表性、降低评估成本及改善指令理解能力将是关键。同时，研究者希望通过更好地管理计算资源和优化算法，进一步缩小AI与人类专家之间的差距。

总的来说，AI在自主研发领域的能力正在不断提升，但要实现与人类专家相当的水平，仍需克服诸多挑战。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

从专家到傻瓜：Claude 3.5两小时狂飙编程，8小时后却现惊人短板！

AI自主研发能力的现状与挑战

1. AI与人类专家的比较

2. 研究方法与评估框架

3. AI智能体的成功与局限性

4. 未来展望与改进方向

联系作者

捷豹新Logo惊艳亮相，消费者却为何冷淡反应？

颠覆编码界的革命性AI工具：华人初创公司以12.5亿估值引领新潮流！

相关文章

暂无评论