原标题:让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜
文章来源:新智元
内容字数:5575字
谷歌FACTS Grounding基准测试:评估AI模型事实准确性的新标准
1. **大模型的事实准确性问题:** 当前的大型语言模型(LLM)虽然在文本生成方面表现出色,但其“胡说八道”的问题依然突出。由于用户通常无法验证答案的准确性,评估模型的事实准确性(Factuality)成为一个重要挑战。
2. **FACTS Grounding基准测试的提出:** 为了解决这一问题,谷歌研究人员推出了FACTS Grounding基准测试,旨在评估LLM在给定上下文下生成事实准确文本的能力。该基准测试的独特之处在于:它将用户请求和完整的上下文文档(最多32k个token)作为输入,要求模型仅基于上下文内容生成回复,并确保回复满足用户需求。
3. **数据构建与质量保证:** FACTS Grounding数据集包含Public集合(860条)和Private集合(859条)。为了避免数据污染和作弊,竞赛期间仅公开Public集合,最终排名基于两个集合的平均性能。数据涵盖多个领域,文档长度多样,并经过严格的人工审核,去除不符合指令的样本和需要创造力/复杂推理的任务。数据来源避免了PDF文档,以减少OCR错误的影响。
4. **自动化评估方法:** FACTS Grounding的自动化评估包含两个维度:1. 验证模型回复是否满足用户需求;2. 检查回复是否完全基于给定文档。 研究人员使用三个不同的LLM (Gemini 1.5 Pro,GPT-4,Claude 3.5 Sonnet) 进行评估,并通过选择一致性最高的提示模板来减少模型偏差。 评估指标包括未调整的事实性得分(Unadjusted Factuality Score)和调整后的事实性得分(考虑了回复是否满足用户需求)。
5. **评估指标与排名:** 未调整的事实性得分计算每个LLM的准确回复百分比,并取平均值。 为了获得最终排名,研究人员采用Condorcet方法融合六个指标,结果与仅使用最终事实性得分排名一致。 实验结果显示,排除无效回复会降低最终事实性得分(1%-5%),并可能略微改变模型排名。
6. **FACTS Grounding的意义:** FACTS Grounding基准测试为评估LLM的事实准确性提供了一个新的、更严格的标准。它强调了基于上下文生成准确回复的重要性,并有助于推动LLM朝着更可靠、更值得信赖的方向发展。 其公开的排行榜也促进了模型的改进和竞争。
7. **数据污染的考量:** 虽然数据可能存在被预训练模型污染的风险,但研究人员认为,用户请求和仅使用上下文内容的指令是相对“干净”的。 这使得FACTS Grounding基准测试在评估模型的实际应用能力方面具有重要意义。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。