Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

AIGC动态1个月前发布 量子位
440 0 0

官方透露Claude3.7没那么大,训练花了几千万美元

Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

原标题:Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友
文章来源:量子位
内容字数:2524字

Claude 3.7 Sonnet 编程能力登顶,惊艳网友

近日,Anthropic公司推出的Claude 3.7 Sonnet在LMArena(LMSYS Org)打造的WebDev竞技场榜单中以绝对优势登顶,大幅领先第二名(同样是Claude的另一个版本Claude 3.5 Sonnet)100多分。WebDev榜单与Chatbot Arena榜单类似,但更侧重于AI的编程和网页应用开发能力。值得注意的是,开源模型DeepSeek R1也表现出色,排名第三。

Claude 3.7 Sonnet 的惊艳表现

Claude 3.7 Sonnet 的高分并非偶然。最近,大量网友实测并分享了其令人惊艳的编程能力,刷新了人们对AI编程能力的认知。例如,它仅用几分钟就能用p5js编写出布料模拟效果,这在过去需要耗费数天时间才能完成。一位MIT硕士毕业的学者看到后,感叹AI的进步速度之快,甚至质疑自身职业的未来。

  1. 布料模拟效果

    网友不仅复现了该布料模拟效果,还进一步改进,加入了明暗关系,效果更加逼真,甚至超越了高级图形学课程的教学内容。

  2. Visual Basic 4 代码转换

    一位网友将自己1997年用Visual Basic 4编写的EXE文件上传给Claude 3.7,请求将其转换为Python代码。Claude 3.7在5分钟内完成了转换,并用Pygame编写了可运行的Python代码,令人惊叹。

  3. GitHub 集成功能

    Claude 3.7 的新GitHub集成功能也备受好评。它可以Fork代码库,选择特定文件夹,并回答关于代码的任何问题,还能显示每个文件夹在上下文窗口中所占的百分比,帮助用户理解代码结构和内容。例如,它可以可视化yt-dlp(一个YouTube下载器)的工作流程。

  4. 游戏及互动应用开发

    沃顿商学院教授Ethan Mollick也对Claude 3.7进行了测试,例如基于“Bartleby the Scrivner”故事创建小游戏,以及制作互动式“时光机道具”。他专门撰写博客介绍了Claude 3.7的强大功能,Anthropic官方也对此进行了回应,承认Claude 3.7的模型规模并不算大,但未来的模型规模会进一步增长。

总结

Claude 3.7 Sonnet 在WebDev竞技场榜单的登顶,以及众多网友的积极反馈,充分展现了其强大的编程能力。它不仅能够快速高效地完成复杂的编程任务,还能帮助用户更好地理解和使用代码,这对于软件开发领域来说具有重要的意义。 未来,随着模型规模的进一步增长,Claude系列模型有望在AI编程领域取得更大的突破。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...