谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

AIGC动态4个月前发布 新智元
3 0 0

谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

AIGC动态欢迎阅读

原标题:谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力
关键字:时间,问题,实体,关系,数据
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:alan
【新智元导读】近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT),从两个独立的维度分别考察了LLM的时间理解和算术能力。大语言模型的时间推理能力怎么样?
我们先来看一道幼儿园的题目:
给出切尔西历年的主教练名单,向模型提问:Pochettino之前的教练是谁?
此时,LLM能够给出正确的回答(Lampard),——貌似有点实力?
但是,如果我们把人名来个变量代换(E1~E5),其他内容保持不变,LLM瞬间就降智了:
事实上,在第一次的题干里,我们并没有说明Lampard教练叫什么名字,而答案里直接就出现了Frank。
所以LLM有可能只是碰到了原题?
于是小编用这两道题分别测试了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT
从结果来看,上面被公开处刑的应该是ChatGPT。
而Gemini 1.0 pro和Claude 3 Sonnet甚至还不如ChatGPT,两题全错(虽然也给出了全名),估计是刷题的时候懈怠了。
相比之下,Ll


原文链接:谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...