24年对于大模型演进方向的一些思考

AIGC动态2年前 (2024)发布智猩猩GenAI

24年对于大模型演进方向的一些思考

AIGC动态欢迎阅读

原标题：24年对于大模型演进方向的一些思考
关键字：模型,知乎,侵权,框架,编译器
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

导读文章转载自知乎，作者为霸王腿，总结了关于大模型计算方式如何变革的一些思路。
原文地址：https://zhuanlan.zhihu.com/p/682434451
本文只做学术/技术分享，如有侵权，联系删文。大模型计算方式会如何变革，一直是一个持续思考的问题，简单记录一些思路，逻辑并不严谨，不怕打脸，一年后再看。
01大模型发展的方向是“稀疏”这里面稀疏指的是，每次执行具体的任务所消耗的资源与整体参数量的比值会越来越低。从以gemm为主到以gemv为主，可以算是一种稀疏（本质上这种稀疏允许了更大的context length的可能性)。MoE毫无疑问也是更稀疏的。从人理解世界的方式而言，稀疏应该是一个比较commen sense的思路。
02训练和推理的界限会变得模糊推理的过程中会进行着某种形式的训练。本质而言，长seq_length带来的巨大的kv cache就是某种意义上的训练，但看起来并不是一种足够高效的方式，所以我感觉这未必会是终极形态。从具体的程序架构而言，在推理的执行模块，对于每层而言，out=op(in0,in1,attrs) 其中op只改变out的值并不足以作为

原文链接：24年对于大模型演进方向的一些思考