跨平台多模态智能体基准测试来了！但全班第一只考了35.26分

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：跨平台多模态智能体基准测试来了！但全班第一只考了35.26分
关键字：任务,平台,基准,测试,系统
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan 好困
【新智元导读】近日，来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试，全面覆盖了Agent系统的真实工作场景。生成式人工智能取得更快进展的一个障碍是评估。
——吴恩达
假如你目前正在使用和研究类似CAMEL的多智能体系统，现在已经有了扮演研究者的Agent和负责写论文的Agent，再添加一个事实核查Agent会改善结果吗？
如果无法有效评估这种更改的影响，就很难确定前进的方向。
当然，从另一个角度来说，有一个令人信服的基准测试用来给大家刷分也是很重要的（狗头）。
近日，来自CAMEL AI、KAUST、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试——CRAB。
值得一提的是，CAMEL AI团队最早做出了基于大语言模型的多智能体开源项目：https://www.camel-ai.org/、https://github.com/camel-ai/camel。
论文地址：https://arxiv.org/abs/2407.01511
这个Benchmark涉及当前AI应

原文链接：跨平台多模态智能体基准测试来了！但全班第一只考了35.26分