标签:张量
基于LLaMA却改张量名,李开复公司大模型引争议,官方回应来了
机器之心报道机器之心编辑部有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出...
用FP8训练大模型有多香?微软:比BF16快64%,省42%内存
机器之心报道编辑:Panda低精度训练是大模型训练中扩展模型大小,节约训练成本的最关键技术之一。相比于当前的 16 位和 32 位浮点混合精度训练,使用 FP8 8 ...
苹果创新大模型压缩技术,大模型有机会塞进手机里了
机器之心报道编辑:赵阳大模型的内容安全问题使得人们希望可以在终端设备上完成模型训练及运行。对于手机来说,大模型的权重数据显得尤为庞大。大型语言模型...
LLaMA微调显存需求减半,清华提出4比特优化器
机器之心专栏作者:李炳睿大模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比...