Chinese SafetyQA是全球第一个针对中文安全领域的系统性评估模型安全事实性知识的高质量评测集。
原标题:中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线
文章来源:机器之心
内容字数:10901字
中国信息通信研究院与淘天集团联合发布中文安全知识评测集Chinese SafetyQA
本文介绍了中国信息通信研究院与淘天集团联合推出的Chinese SafetyQA,一个针对中文安全领域的系统性评估大语言模型(LLMs)安全事实性知识的高质量评测集。该数据集旨在评估LLMs在复杂法律、政策和伦理领域的安全性,弥补现有评测方法的不足,并促进大模型在中文语境下的安全应用。
一、大语言模型安全性的挑战
1. 安全知识理解的深度和准确性:LLMs的安全性能与其对安全知识的理解程度密切相关,需要具备高准确性、全面性和清晰度,尤其在法律、政策和伦理等敏感领域。传统的安全评测方法存在局限性,容易出现“虚假对齐”现象,即模型在特定场景下给出正确答案,但在其他场景下缺乏泛化性。
2. 知识缺乏导致的安全风险:知识缺乏会导致模型产生幻觉、不准确等问题,进而引发安全风险。因此,准确评估模型对安全相关知识的掌握程度至关重要。
3. 国际与国内安全研究的侧重点差异:国际上,安全研究侧重有害意图、越狱攻击和违反国际ESG规定;中国则更关注模型是否符合中国法律、政策、道德和主流价值观。因此,需要开发一种全面且无偏的评测框架,以适应不同地区的需求。
二、Chinese SafetyQA 的特点
1. 专注中文和中国安全知识:数据集使用中文,并聚焦于中国相关的安全知识,包括法律框架、道德标准和文化环境。
2. 高质量和全面性:评测了38个国内外开源和闭源大模型,涵盖7个一级类目、27个二级类目和103个子类目,全面覆盖中国内容安全相关知识。
3. 易于评估:提供QA和MCQ两种问题形式,问题和答案简短清晰。
4. 定期迭代和稳定性:数据定期迭代,以保证其对最新法律法规的适应性,现有版本数据知识截止于2023年底。
5. 无害化:所有问题都是合法合规的无害化内容。
三、评测结果与进一步实验
1. 模型参数规模与性能正相关:参数规模更大的模型通常表现更好。
2. 中国大模型在中文安全问答上具有优势:这体现了中国企业在高质量中文语料库构建和利用方面的优势。
3. 模型普遍存在认知一致性问题和“舌尖现象”:模型往往过度自信,且在多选题中表现优于问答题。
4. 自我反思机制对知识性缺失的帮助有限:在知识缺失场景下,自我反思机制的提升效果微乎其微。
5. RAG技术有效提升模型的事实安全性:被动RAG优于主动RAG。
四、结论
Chinese SafetyQA 为评估LLMs中文安全知识提供了一个客观公正的工具,有助于更好地理解和提升LLMs在安全领域的应用能力。数据集开源部分可供行业共享,闭源部分则用于持续监测大模型安全水平提升情况。该研究也揭示了LLMs在安全领域面临的挑战和改进方向,为未来的研究和发展提供了 valuable insights。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台