Google开放域问答系统新突破！多粒度评估提升近20个点

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：Google开放域问答系统新突破！多粒度评估提升近20个点
关键字：粒度,解读,答案,模型,知识
文章来源：夕小瑶科技说
内容字数：9749字

内容摘要：

夕小瑶科技说原创作者 | 赛博马良本文内容由赛博马良「AI论文解读达人」智能体生成，人工整理排版。
「AI论文解读达人」可提供最热AI论文推荐、论文解读等功能。
传送门：
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
引言：多粒度问题回答的挑战与机遇在开放领域的问答（QA）任务中，事实问题通常可以在不同的粒度级别上得到正确的回答。例如，对于问题“何时出生？”，“1961年8月4日”和“1961年”都是正确的答案。然而，标准的问答评估协议并没有明确考虑这一点，而是将预测答案与单一粒度级别的参进行比较。在本工作中，我们提出了GRANOLA QA（GRANularity Of LAbels的缩写），这是一种新颖的评估设置，其中预测答案将根据准确性和信息量与多粒度答案集进行评估。
我们展示了一种简单的方法，用于丰富现有数据集中的多粒度答案，并创建了GRANOLA-EQ，这是ENTITYQUESTIONS数据集的多粒度版本。我们的实验表明，大型语言模型（LLM

原文链接：Google开放域问答系统新突破！多粒度评估提升近20个点