突破常规:如何让o1-preview在事实性基准中脱颖而出

淘天算法技术团队发布首个简短事实问答能力的中文评测集Chinese SimpleQA。

突破常规:如何让o1-preview在事实性基准中脱颖而出

原标题:媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
文章来源:机器之心
内容字数:7748字

Chinese SimpleQA:提升中文模型事实正确性的评测集

在人工智能(AI)领域,模型生成幻觉问题一直是一个重要的挑战。为了评估语言模型的事实正确性,OpenAI近期发布了名为SimpleQA的评测集。响应这一需求,淘天集团算法技术 – 未来生活实验室团队推出了Chinese SimpleQA,这是首个系统性评估中文模型回答简短事实性问题能力的评测集。本文将总结Chinese SimpleQA的主要特点、构建过程及其评测结果。

1. Chinese SimpleQA的主要特点

Chinese SimpleQA具有以下六个显著特点:

  • 中文:专注于中文语言,包含中国文化等特色知识问题。
  • 全面性:涵盖6个大类主题和99个子类主题。
  • 高质量:经过严格的质量控制,确保数据集的可信度。
  • 静态:参保持不变,保证评测的长期有效性。
  • 易于评估:问题和答案简短,便于进行快速评测。
  • 难度与区分度:通过严格筛选,确保样本的挑战性。

2. 数据集构建流程

Chinese SimpleQA的数据集构建分为自动化构建和质量控制两个阶段。自动化构建包括知识内容提取、问答对生成、质量验证和难度过滤等步骤。在质量控制阶段,确保数据经过严格的人工标注和复审,最终生成3000对高质量问答对。

3. 评测指标与榜单

评测采用OpenAI的方法,主要包含四个指标:正确率、未回答率、回答错误率和回答精确率。评测结果显示,o1-preview模型表现最佳,而许多小型模型的表现较差,尤其是在知识回答的准确性上。

4. 实验发现与未来展望

通过Chinese SimpleQA,研究团队探索了推理scaling law、模型校准和检索增强生成(RAG)等领域。结果表明,更大的模型通常具有更好的校准性能,而RAG策略能显著提升模型的事实正确性。此外,许多模型在对齐训练后存在明显的性能下降,反映出当前对齐训练在幻觉缓解上的不足。

总之,Chinese SimpleQA为开发者深入了解中文模型的事实正确性提供了重要工具,期待能助力中文基础模型的进一步发展。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止