240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开
关键字：数据,模型,研究人员,参数,报告
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】是时候把数据Scale Down了！Llama 3揭示了这个可怕的事实：数据量从2T增加到15T，就能大力出奇迹，所以要想要有GPT-3到GPT-4的提升，下一代模型至少还要150T的数据。好在，最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了，但你有卡吗？是时候把数据Scale Down了！
如今，这个问题已经迫在眉睫。
清华博士秦禹嘉表示，Llama 3就揭示了一个严峻且悲观的现实：在不改变模型架构的情况下，将数据量从2万亿（2T）增加到15万亿（15T），就能大力出奇迹。
这也就意味着，从长远来看，基座模型的发展机会，只能独属于大公司。
而考虑到Scalng Law的边际效应，如果我们希望在下一代模型身上看到从GPT-3到GPT-4级别的演进，就需要至少再清洗出至少10个数量级的数据（比如150T）。
就在最近，好消息来了！
DCLM团队从CommonCrawl里，清洗出了240T的数据。
论文地址：https://arxiv.org/abs/2406.11794
显然，这给Scaling Law的支持者们带来了

原文链接：240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开