答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思
关键字：报告,任务,团队,框架,模型
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文第一作者和通讯作者均来自上海算法创新研究院。其中，通讯作者李志宇博士毕业于中国人民大学计算机专业，并曾在阿里巴巴、小红书等互联网公司从事算法落地与研究工作，曾参与了包括千亿级商品知识图谱、用户图谱和舆情图谱的研发工作，累计发表论文四十余篇。李志宇当前在上海算法创新研究院大模型部门（由熊飞宇博士带领）负责整体的技术研发工作。研究院主页：https://www.iaar.ac.cn/
大语言模型（LLM）的迅速发展，引发了关于如何评估其公平性和可靠性的热议。
尽管现有的评估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各种 Benchmark 推动了行业进步，但专注于这些评估框架核心组件可信度或可靠性度量的团队却为

原文链接：答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思