Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

AIGC动态1年前 (2023)发布 机器之心
29 0 0

Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

AIGC动态欢迎阅读

原标题:Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

关键字:模型,余弦,曲线,解读,损失

文章来源:机器之心

内容字数:7870字

内容摘要:选自espadrine机器之心编译2022 年 3 月,DeepMind 一篇论文《Training Compute-Optimal Large Language Models》通过构建的 Chinchilla 模型得出了一个结论:大模型存在训练不足的缺陷,模型大小和训练 token 的数量应该以相等的比例扩展。也就是说模型越大,所使用的训练 token 也应该越多。但事实可能并非如此,近日,博主…

原文链接:点此阅读原文:Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...