用了一个月后发现,Devin是真不好用

20项任务失败14次,坑很深

用了一个月后发现,Devin是真不好用

原标题:用了一个月后发现,Devin是真不好用
文章来源:机器之心
内容字数:8099字

AI编程助手Devin:光鲜外表下的实用性挑战

近日,机器之心报道了Answer.AI团队对AI编程助手Devin进行为期一个月的测试结果,该结果与Devin发布之初的盛赞形成鲜明对比。Answer.AI团队的博客文章详细记录了他们在20多个任务中遇到的问题,揭示了Devin实用性方面的不足。

1. 初期表现亮眼,但问题随之而来

在最初的几个简单任务中,Devin表现令人印象深刻。例如,它成功地将数据从Notion数据库迁移到Google Sheet,并帮助用户创建了一个行星。这展现了Devin在处理“胶水代码”任务方面的潜力。

2. 复杂任务频频“翻车”,效率低下

然而,随着任务复杂度的增加,Devin的问题逐渐显现。它常常陷入技术死胡同,生成过于复杂或无法使用的解决方案,甚至会花费大量时间尝试根本不可能完成的任务(例如将多个应用程序部署到不支持此功能的平台)。更令人沮丧的是,团队无法预测哪些任务会成功,即使是与早期成功案例相似的任务也可能失败。

3. 不同类型任务的测试结果

Answer.AI团队对Devin进行了系统测试,涵盖了从零开始创建新项目、执行研究任务以及分析和修改现有项目等几类任务。结果显示,在20项任务中,Devin有14次失败,3次成功,3次结果不确定。 在创建新项目方面,Devin生成的代码常常过于复杂;在研究任务中,它难以处理复杂问题;在分析和修改现有代码方面,它经常无法理解上下文,生成的代码存在问题,甚至出现误报。

4. 用户体验和实际应用的差距

虽然Devin的用户体验设计精美,用户可以通过Slack进行交互,但其实际应用效果却大打折扣。团队成员普遍认为,Devin更适合处理非常小且定义明确的任务,而对于那些预期能节省时间的复杂任务,它往往会失败,因此并没有什么特定场景让他们真正想使用它。 自主性成为了Devin的负担,它会执着于追求不可能的解决方案,而忽略了根本性的障碍。

5. 新版本更新未能解决核心问题

Devin 1.2版本发布,虽然带来了一些改进,例如提升了代码重用能力和音频消息回应功能,并推出了企业账户和按使用量计费模式,但这些更新并没有解决Answer.AI团队在测试中遇到的核心问题,例如在复杂任务中的失败率高和难以预测性等。

6. 结论:社交媒体的宣传与实际应用的脱节

Answer.AI团队的测试结果表明,AI工具的社交媒体宣传和实际应用效果之间存在巨大差距。 用户交付的产品和服务的详细故事才是评估AI工具可靠性的最可靠信号。 Devin的案例提醒我们,在评估AI工具时,不能仅仅依赖于宣传,而要关注其在实际应用中的表现。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止