苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源

AIGC动态1个月前发布 量子位
1 0 0

苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源

AIGC动态欢迎阅读

原标题:苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
关键字:模型,工具,场景,状态,用户
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
这套Benchmark创新性地采用了场景化测评方法,可以更好体现模型在真实环境中的水平。
而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。
这套测试基准名叫ToolSandbox,苹果基础模型团队负责人庞若鸣也参与了研究工作。
ToolSandbox弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。
而且在交互上,作者让GPT-4o扮演用户和被测模型进行对话,从而模拟真实世界中的场景。
比如告诉GPT-4o你不再是一个助理,而是要扮演正在和用户B对话的用户A,然后提出一系列具体要求。
另外,作者也利用ToolSandbox对一些主流模型进行了测试,结果整体上看闭源比开源模型分数更高,其中最强的是GPT-4o。
iOS应用开发者Nick Dobos表示,苹果的这套标准简洁明了。
同时他指出,现在ChatGPT面对三个工具就已经有些捉襟见肘,Siri要想管理好手机中几十上百个应用,也需要提高工具调用能力。
言外之意


原文链接:苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...