谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力
关键字：时间,问题,实体,关系,数据
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，来自谷歌DeepMind的研究人员，推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time（ToT），从两个的维度分别考察了LLM的时间理解和算术能力。大语言模型的时间推理能力怎么样？
我们先来看一道幼儿园的题目：
给出切尔西历年的主教练名单，向模型提问：Pochettino之前的教练是谁？
此时，LLM能够给出正确的回答（Lampard），——貌似有点实力？
但是，如果我们把人名来个变量代换（E1~E5），其他内容保持不变，LLM瞬间就降智了：
事实上，在第一次的题干里，我们并没有说明Lampard教练叫什么名字，而答案里直接就出现了Frank。
所以LLM有可能只是碰到了原题？
于是小编用这两道题分别测试了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。
从结果来看，上面被公开处刑的应该是ChatGPT。
而Gemini 1.0 pro和Claude 3 Sonnet甚至还不如ChatGPT，两题全错（虽然也给出了全名），估计是刷题的时候懈怠了。
相比之下，Ll

原文链接：谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力