淘天算法技术团队发布首个简短事实问答能力的中文评测集Chinese SimpleQA。
原标题:媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
文章来源:机器之心
内容字数:7748字
Chinese SimpleQA:提升中文模型事实正确性的评测集
在人工智能(AI)领域,模型生成幻觉问题一直是一个重要的挑战。为了评估语言模型的事实正确性,OpenAI近期发布了名为SimpleQA的评测集。响应这一需求,淘天集团算法技术 – 未来生活实验室团队推出了Chinese SimpleQA,这是首个系统性评估中文模型回答简短事实性问题能力的评测集。本文将总结Chinese SimpleQA的主要特点、构建过程及其评测结果。
1. Chinese SimpleQA的主要特点
Chinese SimpleQA具有以下六个显著特点:
- 中文:专注于中文语言,包含中国文化等特色知识问题。
- 全面性:涵盖6个大类主题和99个子类主题。
- 高质量:经过严格的质量控制,确保数据集的可信度。
- 静态:参保持不变,保证评测的长期有效性。
- 易于评估:问题和答案简短,便于进行快速评测。
- 难度与区分度:通过严格筛选,确保样本的挑战性。
2. 数据集构建流程
Chinese SimpleQA的数据集构建分为自动化构建和质量控制两个阶段。自动化构建包括知识内容提取、问答对生成、质量验证和难度过滤等步骤。在质量控制阶段,确保数据经过严格的人工标注和复审,最终生成3000对高质量问答对。
3. 评测指标与榜单
评测采用OpenAI的方法,主要包含四个指标:正确率、未回答率、回答错误率和回答精确率。评测结果显示,o1-preview模型表现最佳,而许多小型模型的表现较差,尤其是在知识回答的准确性上。
4. 实验发现与未来展望
通过Chinese SimpleQA,研究团队探索了推理scaling law、模型校准和检索增强生成(RAG)等领域。结果表明,更大的模型通常具有更好的校准性能,而RAG策略能显著提升模型的事实正确性。此外,许多模型在对齐训练后存在明显的性能下降,反映出当前对齐训练在幻觉缓解上的不足。
总之,Chinese SimpleQA为开发者深入了解中文模型的事实正确性提供了重要工具,期待能助力中文基础模型的进一步发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...