AIGC动态欢迎阅读
原标题:WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律
关键字:模型,高效,神经元,定律,开发者
文章来源:AI科技评论
内容字数:0字
内容摘要:
在非阶段打「先手」。作者丨王悦
编辑丨陈彩娴
2020 年,1750 亿参数规模的 GPT-3 问世。彼时,完整训练 1750 亿参数的模型需要 3.14E11(TFLOPS)的每秒浮点运算量。如果使用英伟达 80GB A100 GPU(16位浮点算力有 312 TFLOPS,但在分布式环境中很难达到峰值),按照每张显卡 1.5 刀每小时的租赁价格来算,则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。
2024 年,大模型只需使用 2B 的参数规模即可达到和 2020 年的 GPT-3 一样的性能表现。
这一现象,类似于半导体领域中的「摩尔定律」——集成电路上可容纳的晶体管数目约每隔两年便会增加一倍,芯片性能因此持续提升。芯片制程带来终端算力持续增强,模型制程带来模型知识密度持续增强,两者交汇揭示端侧智能巨大潜力。
面壁此前推出的端侧多模态大模型—— MiniCPM-Llama3-V 2.5 ,实现了「以最小参数,撬动最强性能」的最佳平衡点。
而大模型行业也有自己的摩尔定律,纵观 OpenAI 的 GPT 系列大模型和各类开源大模型,会发现大家都
原文链接:WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律
联系作者
文章来源:AI科技评论
作者微信:aitechtalk
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...