华为最新研究挑战Scaling Law

AIGC动态6个月前发布 量子位
9 0 0

华为最新研究挑战Scaling Law

AIGC动态欢迎阅读

原标题:华为最新研究挑战Scaling Law
关键字:函数,模型,华为,能量,记忆
文章来源:量子位
内容字数:4649字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI“Scaling Law不是万金油”——关于大模型表现,华为又提出了新理论。
他们发现,一些现象无法用Scaling Law来解释,进而开展了更加深入的研究。
根据实验结果,他们认为Transformer模型的成绩,与记忆力高度相关。
具体来说,他们发现Scaling Law的缺陷主要有这两种表现:
一是一些小模型的表现和大一些的模型相当甚至更好,如参数量只有2B的MiniCPM,表现与13B的Llama接近。
二是在训练大模型时,如果过度训练,模型表现不会继续增加,反而呈现出了U型曲线。
经过深入研究和建模,团队结合了Hopfield联想记忆模型,提出了大模型表现的新解释。
有人评价说,联想记忆是人类所使用的一种记忆方法,现在发现大模型也会用,可以说是AI理解力的跃迁。
不过需要指出的是,这项研究虽有挑战之意,但并非对Scaling Law的否定,而是对其局限性的客观思考和重要补充,同时作者对前者的贡献也做出了肯定。
构建全新能量函数作者首先进行了假设,提出了新的能量函数,并根据Transformer模型的分层结构,设计了全局能量函


原文链接:华为最新研究挑战Scaling Law

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...