从专家到傻瓜:Claude 3.5两小时狂飙编程,8小时后却现惊人短板!

从专家到傻瓜:Claude 3.5两小时狂飙编程,8小时后却现惊人短板!

原标题:Claude 3.5两小时暴虐50多名专家编程10倍速飙升!但8小时曝出惊人短板
文章来源:新智元
内容字数:7797字

AI自主研发能力的现状与挑战

随着人工智能技术的快速发展,AI在科研领域的表现引发了广泛关注。最近的研究表明,Claude 3.5 Sonnet和o1-preview在短时间内的研发任务中表现出色,击败了50多位人类专家。然而,随着时间的延长,人类专家在更长的任务中逐渐展现出明显的优势,这一现象引发了对AI自主研发能力的深入探讨。

1. AI与人类专家的比较

在仅有2小时的研发任务中,AI智能体表现优异,尤其是在编程速度方面,能够以超越人类10倍的速度生成和测试解决方案。例如,在一个优化前缀和运算的任务中,o1-preview成功将运行时间压缩至0.64毫秒,超过了人类专家的最佳方案。然而,在8小时的任务中,AI的性能提升趋于平缓,而人类专家则展现出了更强的进步能力。

2. 研究方法与评估框架

研究使用了RE-Bench设计架构,评估了七个具有挑战性的机器学习问题。每个评估环境都设定了明确的目标,提供初始解决方案,并对智能体的表现进行归一化。此外,研究人员对比了不同智能体在32小时内的最高性能,发现AI智能体在某些环境中表现良好,但整体上仍未达到人类专家的水平。

3. AI智能体的成功与局限性

AI智能体的成功主要归因于其广泛的知识储备及高频率的尝试能力。然而,仍存在多样性不足和指令理解错误的问题,导致AI在某些情况下无法找到最佳解决方案。例如,在优化内核的任务中,AI能够快速找到解决方案,但在其他环境中的表现却不尽如人意。

4. 未来展望与改进方向

研究人员认为,AI智能体在短期高保真反馈和低复杂度的环境中更具优势。未来,提升评估环境的代表性、降低评估成本及改善指令理解能力将是关键。同时,研究者希望通过更好地管理计算资源和优化算法,进一步缩小AI与人类专家之间的差距。

总的来说,AI在自主研发领域的能力正在不断提升,但要实现与人类专家相当的水平,仍需克服诸多挑战。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...