AIGC动态欢迎阅读
原标题:30%参数达到92%的表现,大模型稀疏化方法显神通
关键字:模型,方法,数据,任务,上下文
文章来源:夕小瑶科技说
内容字数:6338字
内容摘要:
夕小瑶科技说 原创作者 | Axe_越当我还是一位懵懂少年的时候,总认为“任务难度”,“参数规模”和“准确率”是一个不可兼顾的三角,比如当我想要挑战更难的任务,追求获得更高的准确率,那必然就要在更大的模型参数量上进行妥协。然而,真的是这样吗?
而在千帆阅尽以后,我才终于开始感悟到,
“小孩子才做选择,成年人全部都要”
论文标题Enabling High-Sparsity Foundational Llama Models With Efficient Pretraining and Deployment
论文链接https://arxiv.org/pdf/2405.03594.pdf
到底怎样才能把你变小过去我们在做工程优化时,常常会出现这样的一段对话:
由于在量化(quantization)过程中,只保留每个参数的4位或8位数值参与运算,因此不可避免地会带来准确度损失。除了量化以外,权重剪枝(weight pruning)也是一个常见的模型压缩办法,它通过让部分参数为0来提高推理速度。然而,权重剪枝同样面临降准确率的问题,尤其是在面临复杂任务的时候。
今天我们介绍的这篇文章,就致力于
原文链接:30%参数达到92%的表现,大模型稀疏化方法显神通
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...