突破常规：如何让o1-preview在事实性基准中脱颖而出

AIGC动态2年前 (2024)发布机器之心

淘天算法技术团队发布首个简短事实问答能力的中文评测集Chinese SimpleQA。

原标题：媲美OpenAI 事实性基准，这个中文评测集让o1-preview刚刚及格
文章来源：机器之心
内容字数：7748字

Chinese SimpleQA：提升中文模型事实正确性的评测集

在人工智能（AI）领域，模型生成幻觉问题一直是一个重要的挑战。为了评估语言模型的事实正确性，OpenAI近期发布了名为SimpleQA的评测集。响应这一需求，淘天集团算法技术 – 未来生活实验室团队推出了Chinese SimpleQA，这是首个系统性评估中文模型回答简短事实性问题能力的评测集。本文将总结Chinese SimpleQA的主要特点、构建过程及其评测结果。

1. Chinese SimpleQA的主要特点

Chinese SimpleQA具有以下六个显著特点：

中文：专注于中文语言，包含中国文化等特色知识问题。
全面性：涵盖6个大类主题和99个子类主题。
高质量：经过严格的质量控制，确保数据集的可信度。
静态：参保持不变，保证评测的长期有效性。
易于评估：问题和答案简短，便于进行快速评测。
难度与区分度：通过严格筛选，确保样本的挑战性。

2. 数据集构建流程

Chinese SimpleQA的数据集构建分为自动化构建和质量控制两个阶段。自动化构建包括知识内容提取、问答对生成、质量验证和难度过滤等步骤。在质量控制阶段，确保数据经过严格的人工标注和复审，最终生成3000对高质量问答对。

3. 评测指标与榜单

评测采用OpenAI的方法，主要包含四个指标：正确率、未回答率、回答错误率和回答精确率。评测结果显示，o1-preview模型表现最佳，而许多小型模型的表现较差，尤其是在知识回答的准确性上。

4. 实验发现与未来展望

通过Chinese SimpleQA，研究团队探索了推理scaling law、模型校准和检索增强生成（RAG）等领域。结果表明，更大的模型通常具有更好的校准性能，而RAG策略能显著提升模型的事实正确性。此外，许多模型在对齐训练后存在明显的性能下降，反映出当前对齐训练在幻觉缓解上的不足。

总之，Chinese SimpleQA为开发者深入了解中文模型的事实正确性提供了重要工具，期待能助力中文基础模型的进一步发展。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # o1-preview # OpenAI # 中文评测集 # 事实性基准 # 人工智能评测

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

突破常规：如何让o1-preview在事实性基准中脱颖而出

淘天算法技术团队发布首个简短事实问答能力的中文评测集Chinese SimpleQA。

Chinese SimpleQA：提升中文模型事实正确性的评测集

1. Chinese SimpleQA的主要特点

2. 数据集构建流程

3. 评测指标与榜单

4. 实验发现与未来展望

联系作者

梦中迷失：揭开意识虚拟本质的科学探索

AI时代的媒体人：如何实现创意配图的无限可能

相关文章

暂无评论