官方透露Claude3.7没那么大,训练花了几千万美元
原标题:Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友
文章来源:量子位
内容字数:2524字
Claude 3.7 Sonnet 编程能力登顶,惊艳网友
近日,Anthropic公司推出的Claude 3.7 Sonnet在LMArena(LMSYS Org)打造的WebDev竞技场榜单中以绝对优势登顶,大幅领先第二名(同样是Claude的另一个版本Claude 3.5 Sonnet)100多分。WebDev榜单与Chatbot Arena榜单类似,但更侧重于AI的编程和网页应用开发能力。值得注意的是,开源模型DeepSeek R1也表现出色,排名第三。
Claude 3.7 Sonnet 的惊艳表现
Claude 3.7 Sonnet 的高分并非偶然。最近,大量网友实测并分享了其令人惊艳的编程能力,刷新了人们对AI编程能力的认知。例如,它仅用几分钟就能用p5js编写出布料模拟效果,这在过去需要耗费数天时间才能完成。一位MIT硕士毕业的学者看到后,感叹AI的进步速度之快,甚至质疑自身职业的未来。
布料模拟效果
网友不仅复现了该布料模拟效果,还进一步改进,加入了明暗关系,效果更加逼真,甚至超越了高级图形学课程的教学内容。
Visual Basic 4 代码转换
一位网友将自己1997年用Visual Basic 4编写的EXE文件上传给Claude 3.7,请求将其转换为Python代码。Claude 3.7在5分钟内完成了转换,并用Pygame编写了可运行的Python代码,令人惊叹。
GitHub 集成功能
Claude 3.7 的新GitHub集成功能也备受好评。它可以Fork代码库,选择特定文件夹,并回答关于代码的任何问题,还能显示每个文件夹在上下文窗口中所占的百分比,帮助用户理解代码结构和内容。例如,它可以可视化yt-dlp(一个YouTube下载器)的工作流程。
游戏及互动应用开发
沃顿商学院教授Ethan Mollick也对Claude 3.7进行了测试,例如基于“Bartleby the Scrivner”故事创建小游戏,以及制作互动式“时光机道具”。他专门撰写博客介绍了Claude 3.7的强大功能,Anthropic官方也对此进行了回应,承认Claude 3.7的模型规模并不算大,但未来的模型规模会进一步增长。
总结
Claude 3.7 Sonnet 在WebDev竞技场榜单的登顶,以及众多网友的积极反馈,充分展现了其强大的编程能力。它不仅能够快速高效地完成复杂的编程任务,还能帮助用户更好地理解和使用代码,这对于软件开发领域来说具有重要的意义。 未来,随着模型规模的进一步增长,Claude系列模型有望在AI编程领域取得更大的突破。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破