240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

AIGC动态4个月前发布 新智元
9 0 0

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

AIGC动态欢迎阅读

原标题:240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开
关键字:数据,模型,研究人员,参数,报告
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了,但你有卡吗?是时候把数据Scale Down了!
如今,这个问题已经迫在眉睫。
清华博士秦禹嘉表示,Llama 3就揭示了一个严峻且悲观的现实:在不改变模型架构的情况下,将数据量从2万亿(2T)增加到15万亿(15T),就能大力出奇迹。
这也就意味着,从长远来看,基座模型的发展机会,只能独属于大公司。
而考虑到Scalng Law的边际效应,如果我们希望在下一代模型身上看到从GPT-3到GPT-4级别的演进,就需要至少再清洗出至少10个数量级的数据(比如150T)。
就在最近,好消息来了!
DCLM团队从CommonCrawl里,清洗出了240T的数据。
论文地址:https://arxiv.org/abs/2406.11794
显然,这给Scaling Law的支持者们带来了


原文链接:240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...