华为最新研究挑战Scaling Law

AIGC动态1年前 (2024)发布量子位

华为最新研究挑战Scaling Law

AIGC动态欢迎阅读

原标题：华为最新研究挑战Scaling Law
关键字：函数,模型,华为,能量,记忆
文章来源：量子位
内容字数：4649字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI“Scaling Law不是万金油”——关于大模型表现，华为又提出了新理论。
他们发现，一些现象无法用Scaling Law来解释，进而开展了更加深入的研究。
根据实验结果，他们认为Transformer模型的成绩，与记忆力高度相关。
具体来说，他们发现Scaling Law的缺陷主要有这两种表现：
一是一些小模型的表现和大一些的模型相当甚至更好，如参数量只有2B的MiniCPM，表现与13B的Llama接近。
二是在训练大模型时，如果过度训练，模型表现不会继续增加，反而呈现出了U型曲线。
经过深入研究和建模，团队结合了Hopfield联想记忆模型，提出了大模型表现的新解释。
有人评价说，联想记忆是人类所使用的一种记忆方法，现在发现大模型也会用，可以说是AI理解力的跃迁。
不过需要指出的是，这项研究虽有挑战之意，但并非对Scaling Law的否定，而是对其局限性的客观思考和重要补充，同时作者对前者的贡献也做出了肯定。
构建全新能量函数作者首先进行了假设，提出了新的能量函数，并根据Transformer模型的分层结构，设计了全局能量函

原文链接：华为最新研究挑战Scaling Law