标签:余弦

Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

选自espadrine机器之心编译2022 年 3 月,DeepMind 一篇论文《Training Compute-Optimal Large Language Models》通过构建的 Chinchilla 模型得出了一个结论...
阅读原文