AIGC动态欢迎阅读
原标题:Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集
关键字:数据,模型,报告,团队,注释
文章来源:机器之心
内容字数:0字
内容摘要:
机器之心报道
作者:蛋酱、小舟众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。
最近,AI 大牛 Andrej Karpathy 推荐了一项名为 FineWeb-Edu 的工作。这项工作将原始 15 万亿个 FineWeb token,经 Llama 3 70B 评判,过滤为 1.3 万亿个高质量(教科级)token。
事实证明,LLM 从教育内容中学习会更好更快。部分原因是普通的互联网爬取文章的价值不是很高,并且会分散训练的注意力,包含太多不相关的信息。
互联网上的网页是如此随机和糟糕,这些奇怪的数据转储、广告垃圾邮件、数兆字节的股票行情更新等等,里面混杂着「钻石」(重要内容),那么挑战就是把「钻石」挑出来。
预训练数据集对于微调可能非常有用,因为当你将模型微调到特定领域时,就会慢慢失去一般能力。模型开始慢慢忘记目标域之外的事物。并且这不仅限于知识,模型还会失去原始数据所需的一般「思维」技能。也就是说,除了广泛的知识消失之外
原文链接:Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...