CCI 3.0

AI工具2年前 (2024)发布 AI工具集

CCI 3.0是智源研究院推出的一个庞大的中文互联网语料库，涵盖了1000GB的数据集以及498GB的高质量子集CCI 3.0-HQ。与前一版本CCI 2.0相比，CCI 3.0的数据规模几乎翻了一番，数据来源机构也增至20多家，从而显著提高了数据的覆盖广度和代表性。

CCI 3.0是什么

CCI 3.0是由智源研究院发布的一项大型中文互联网语料库，包含1000GB的总数据集以及498GB的高质量子集CCI 3.0-HQ。相较于CCI 2.0，CCI 3.0在数据规模上几乎翻倍，增加了20多家数据来源机构，极大地拓宽了数据的覆盖面和代表性。该语料库收录了超过2.68亿个网页，涵盖新闻、社交网络、博客等多个领域。CCI 3.0对原始数据进行了详尽的分类和标注，涉及语法、句法、教育背景等多个维度，筛选出高价值的数据。

CCI 3.0

CCI 3.0的主要功能

丰富的数据规模与来源：CCI 3.0的数据量达到1000GB，涵盖了超过2.68亿个网页，内容涉及新闻、社交媒体、博客等多个领域。数据来源机构多达20余家，增强了数据的全面性和代表性。
精确的标注体系：CCI 3.0对原始数据进行了细致的分类和标注，涵盖语法、句法、教育程度等十多个维度，以筛选出更具价值的数据。
高质量子集：CCI 3.0包括498GB的高质量子集CCI 3.0-HQ，该子集通过70B模型的自动标注和小型质量模型的训练，确保能够满足各种行业和应用的需求。
严格的数据处理标准：在构建过程中，CCI 3.0采用了基于规则的过滤（如关键词和垃圾信息过滤）、基于模型的过滤（如低质量内容过滤）等多种方法来确保数据的质量和安全性。

CCI 3.0的技术优势

卓越的训练效果：对比实验显示，基于不同数据集从零开始训练的100B模型，CCI 3.0在中文语料和中英文混合训练的效果上均优于其他数据集，特别是CCI 3.0 HQ的表现更为突出。
共建共享的理念：CCI 3.0的推出推动了数据的共建与共享，旨在构建一个高质量、高知识密度的中文数据集，为中国人工智能行业的发展贡献力量。
便捷的获取途径：研究者和开发者可以通过Flopsera、Huggingface以及Datahub等平台轻松下载CCI 3.0的数据集。