Scaling Law不是唯一视角！清华刘知远团队提出大模型“密度定律”：模型能力密度100天翻番

AIGC动态2年前 (2024)发布人工智能学家

来源：量子位 | 公众号 QbitAI克雷西发自凹非寺Scaling Law并非描述大模型能力的唯一视角！清华NLP实验室刘知远教授团队，最新提出大模型的密度定律（densing law），表达形式让人想到芯片领域的摩尔定律：模型能力密度随时间呈指数级增长，2023年以来能力密度约每3.3个月（约100天）翻一倍。根据密度定律，研究团队还得出以下重要推论——AI时代的三大核心引擎——电力、算力与智力，都同样遵循密度快速增长趋势。为了发现这一结论，研究团队引入了一项衡量大模型性价比的新指标——能力密度（capability density）。团队通过设置参考模型的方式，将“能力密度”定义为了“有效参数量”与实际参数量的比值。给定目标模型后，其“有效参数量”被定义为实现与目标模型一样的效果，参考模型需要的最少参数量。论文第一作者肖朝军表示，根据拟合曲线，到了明年年底，只要8B参数就能实现和GPT-4一样的效果。论文地址：https://arxiv.org/abs/2412.04315大模型“能力密度”三个月翻一番大模型尺度定律（Scaling Law）和密度定律（Densing Law），都是大模型指导性的规律发现。它们分别在不同的维度，对大模型进行科学化的推演。大模型尺度定律是一种描述大模型随着规模的变化而发生的规律性变化的数学表达，表现为大模型的Loss与模型参数规模、训练数据规模之间的幂律关系。尺度定律之外，清华研究团队发现，大模型还有另一种度量与优化的空间，能力密度（Capability Density），它为评估不同规模 LLM 的训练质量提供了新的统一度量框架。清华研究团队提出的“能力密度”（Capability Density），定义为给定LLM的有效参数大小与实际参数大小的比率。有效参数大小指的是达到与目标模型同等性能所需的参考模型的参数数量。清华研究团队特别引入了参考模型（Reference Model）的概念，通过拟合参考模型在不同参数规模下的性能表现，建立起参数量与性能之间的映射关系。具体来说，若一个目标模型M的参数量为NM ，其在下游任务上的性能分数为SM，研究人员会计算出参考模型要达到相同性能所需的参数量 N(SM)，即“有效参数量”。目标模型M的密度就定义为这个“有效参数量”与其实际参数量的比值：ρ(M) = N(SM)/NM。比如一个3B的模型能达到6B参考模型的性能，那么这个3B模型的能力密度就是2（6B/3B）。为了准确估计模型性能，研究团队采用了两步估计法。第一步是损失（Loss）估计，通过一系列不同规模的参考模型来拟合参数量与语言模型Loss之间的关系；第二步是性能估计，考虑到涌现能力的存在，研究人员结合开源模型来计算它们的损失和性能，最终建立起完整的映射关系。通过研究分析近年来29个被广泛使用的开源大模型，清华研究团队发现，LLMs的最大能力密度随时间呈指数增长趋势，可以用公式ln(ρmax) = At + B来描述.其中ρmax是时间t时LLMs的最大能力密度。密度定律表明，大约每过3.3个月（100天），就能用参数量减半的模型达到当前最先进模型的性能水平。ChatGPT发布后，能力密度增长更快了基于密度法则，清华研究团队提出了多个重要推论。首先，模型推理开销随时间指数级下降。2022年12月的GPT-3.5模型每百万Token的推理成本为20美元，而2024年8月的Gemini-1.5-Flash模型仅为0.075美元，成本降低了266倍，约2.5个月下降一倍。与此同时，大模型推理算法不断取得新的技术突破——模型量化、投机采样、显存优化。其次，研究还发现，自ChatGPT发布以来，大模型能力密度正在加速增强。以MMLU为评测基准测量的能力密度变化情况，ChatGPT发布前按照每4.8倍增，发布后按照每3.2月倍增，密度增强速度增加50%。这一现象背后，更高效模型引起了学术界和产业的广泛关注，诞生了更多高质量开源模型。再次，芯片电路密度（摩尔定律）和模型能力密度（密度定律）持续增强，两条曲线交汇揭示端侧智能巨大潜力。研究显示，在摩尔定律的作用下，相同价格芯片的计算能力每2.1年翻倍，而密度法则表明模型的有效参数规模每3.3个月翻倍。两条曲线的交汇，意味着主流终端如PC、手机将能运行更高能力密度的模型，推动端侧智能在消费市场普及。此外，团队指出，无法仅依靠模型压缩算法增强模型能力密度。也就是说，现有的模型压缩技术（如剪枝和蒸馏）未必能提高模型密度。实验表明，大多数压缩模型的密度低于原始模型，模型压缩算法虽可以节省小参数模型构建开销。但是如果后训练不充分，小参数模型能力密度非但不会增长，反而会有显著下降。最后，研究团队指出，模型高性价比有效期不断缩短。根据尺度定律，更多数据+更多参数实现能力增强，训练成本会急剧上升；而能力密度定律，随着能力密度加速增强，每隔数月会出现更加高效的模型。这意味着模型高性价比的有效使用期缩短，盈利窗口短暂。例如，2024年6月发布的Google Gemma-2-9B模型，其训练成本约185 万人民币；但仅两个月后，它的性能就被参数量减半的MiniCPM-3-4B超越。以API盈利方式估算，2个月内需要17亿次用户访问，才能够收回训练成本！尺度定律下，LLM规模至上。而在密度定律下，LLM正进入一个全新的发展阶段。在清华刘知远老师最新报告中，AI时代的三大核心引擎——电力、算力与智力，密度都在快速增长：电池能量密度在过去20年中增长了4倍，其倍增周期约为10年；摩尔定律则揭示，芯片的晶体管密度每18个月翻倍；而AI模型能力密度每100天翻倍的速度更是惊人。尤其是模型能力密度的提升也意味着用更少的资源实现更强的能力，这不仅降低了AI发展对能源和算力的需求，也为AI技术的可持续发展提供了无限可能。同时也揭示了端侧智能的巨大潜力。在这一趋势下，AI计算从中心端到边缘端的分布式特性协同高效发展，将实现“AI无处不在”的愿景。作者预计，随着全球AI计算云端数据中心、边缘计算节点的扩张，加上模型能力密度增长带来的效率提升，我们将看到更多本地化的AI模型涌现，云端和边缘端各司其职，可运行LLM的终端数量和种类大幅增长，“AI 无处不在”的未来正在到来。论文地址：https://arxiv.org/abs/2412.04315阅读报告全文，请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告Air Street Capital《2024 年人工智能现状报告》未来今日研究所：2024 技术趋势报告 – 广义计算篇科睿唯安中国科学院 2024 研究前沿热度指数报告文本到图像合成：十年回顾《以人为中心的大型语言模型（LLM）研究综述》经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告理解世界还是预测未来？世界模型的综合综述Google Cloud CSA2024 AI 与安全状况调研报告英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告国际原子能机构 2024 聚变关键要素报告 – 聚变能发展的共同愿景国际可再生能源署 IRENA2024 年全球气候行动报告Cell: 物理学和化学、人工智能知识领域的融合智次方 2025 中国 5G 产业全景图谱报告未来今日研究所：2024 技术趋势报告 – 移动性，机器人与无人机篇Deepmind：AI 加速科学创新发现的黄金时代报告PitchBookNVCA2024 年第三季度全球风险投资监测报告德科 2024 年未来全球劳动力报告高工咨询 2024 年协作机器人产业发展蓝皮书国际能源署 IEA2024 年全球能源效率报告基因慧基因行业蓝皮书 2024 – 2025普华永道 PwC2024 全球经济犯罪调查英国报告 – 智对风险直面挑战中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书中移智库 2024 先进感知新技术及新应用白皮书智次方研究院 2025 中国 AIoT 产业全景图谱报告未来今日研究所：2024 技术趋势报告 – 人工智能篇国际电联：迈向衡量数字经济的通用框架的路线图联合国粮食与农业组织：2024 年世界粮食安全和营养状况大语言模型综述李飞飞等，AI 智能体：探索多模式交互的前景综述哈尔滨工业大学 – ChatGPT 调研报告2024《美国核部署战略报告》最新文件清华大学：AIGC 发展研究 3.0 发布版 b 版OpenAI：2024 年 OpenAI o1 大模型技术报告Verizon2024 年世界支付安全报告皇家学会哲学学报从复杂系统角度评估人工智能风险复旦大学大模型 AI 代理的兴起和潜力：综述经合组织 OECD2024 年气候行动监测报告Wevolver2024 年边缘人工智能现状报告 – 探索各行业边缘 AI 应用动态2024 全球人形机器人产品数据库报告 – 人形机器人洞察研究 BTIResearch《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定瑞士洛桑联邦理工学院《人工智能中的 – 创造力：进展与挑战》《你所需要知道的理 – 论：人工智能、人类认知与决策》牛津大学最新 53 页报告世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024ADL 理特咨询 2024 汽车出行未来展望报告2024 中国硬科技创新发展白皮书 – 开辟未来产业新赛道科学时代的大语言模型中的人工智能Gartner2025 年重要战略技术趋势报告CBInsights2024 年第三季度全球人工智能投融资状况报告TrendHunter2025 年全球趋势报告 – 全行业顶级创新和变革趋势前瞻天津大学 2024 大模型轻量化技术研究报告欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告国际原子能机构 2024 年世界聚变展望报告复旦大学 2024 大语言模型的能力边界与发展思考报告安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图YouGov2024 美国公众对人工智能 AI 的态度调研报告麦肯锡中国报告：《中国与世界》完整版麦肯锡全球研究所 2024 下一代竞技场报告 – 重塑全球经济的 18 个新兴行业领域Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目德国研究与创新专家委员会德国研究创新与科技成果报告2024 年欧洲关键产业的科技重塑研究报告智能体专题报告之二 – 智能体时代来临具身智能有望成为最佳载体ActivateConsulting 2025 年顶级技术和媒体发展趋势报告兰德全球灾难风险评估斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版普华永道 2024 第五次工业研究报告迈向弹性可持续和以人为本的未来大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告Emakina 将塑造 2024 年的技术趋势报告图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平？》——Yann LeCun，附 Slides 及视频华为：2024 鸿蒙生态应用开发白皮书 V3.0（最新版）CASA：2023 第三代半导体产业发展报告大型视觉语言模型中幻觉现象的综述IEA PVPS：2024 光伏应用趋势报告（英文版）ABI Research：82 个将会或不会在 2024 年发生的技术趋势白皮书《美国反无人机系统未来趋势报告（2024 – 2029 年）》《军事自主系统：未来之路》美空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》2024 低空经济场景白皮书 v1.0战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）Artificial Intelligence Review：人工智能与物理学相遇的综述麦肯锡：全球难题，应对能源转型的现实问题欧米伽理论，智能科学视野下的万物理论新探索（研究论文）Gartner 2025 年主要战略技术趋势研究报告2024 人工智能国外大模型使用手册 + 中文大模型使用手册详解光刻巨人 ASML 成功之奥妙 – 241015CB Insights：未来变革者：2025 年九大科技趋势研究报告国际电信联盟 2023 – 2024 年联合国人工智能 AI 活动报告《人工智能能力的人类系统集成测试和评估》最新 51 页，美国防部首席数字和人工智能办公室（CDAO）2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告MHP 2024 全球工业 4.0 晴雨表白皮书世界经济论坛白皮书《AI 价值洞察：引导人工智能实现人类共同目标》瑞典皇家科学院诺贝尔物理学奖科学背景报告资料AI 智能体的崛起：整合人工智能、区块链技术与量子计算 (研究报告，书）OpenAI o1 评估：AGI 的机遇和挑战（280 页）世界知识产权组织：2024 年全球创新指数美国白宫：国家近地天体防御策略与行动计划上下滑动查看更多

阅读原文