Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集
关键字：数据,模型,报告,团队,注释
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
作者：蛋酱、小舟众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。
最近，AI 大牛 Andrej Karpathy 推荐了一项名为 FineWeb-Edu 的工作。这项工作将原始 15 万亿个 FineWeb token，经 Llama 3 70B 评判，过滤为 1.3 万亿个高质量（教科级）token。
事实证明，LLM 从教育内容中学习会更好更快。部分原因是普通的互联网爬取文章的价值不是很高，并且会分散训练的注意力，包含太多不相关的信息。
互联网上的网页是如此随机和糟糕，这些奇怪的数据转储、广告垃圾邮件、数兆字节的股票行情更新等等，里面混杂着「钻石」（重要内容），那么挑战就是把「钻石」挑出来。
预训练数据集对于微调可能非常有用，因为当你将模型微调到特定领域时，就会慢慢失去一般能力。模型开始慢慢忘记目标域之外的事物。并且这不仅限于知识，模型还会失去原始数据所需的一般「思维」技能。也就是说，除了广泛的知识消失之外

原文链接：Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集