清华汪玉教授团队支招：如何把“大”模型部署到“小”设备上 | Q福利

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：清华汪玉教授团队支招：如何把“大”模型部署到“小”设备上 | Q福利
关键字：模型,华为,算法,高效,神经网络
文章来源：AI前线
内容字数：0字

内容摘要：

2024 年，由 AI 驱动的 GPT-4o 等应用产品爆红。这些热门产品的广阔应用前景令人振奋，吸引了大量资源投入 AI 的算法研究、数据清洗、算力等方面的基础建设中。
这些爆款应用是由大数据训练的大模型支撑的。
举例来说，近年来，大语言模型的训练数据和模型的体量迅速增长，从 2017 年发布的有 1.65 亿参数量的 Transformer，到 2020 年发布的有 1750 亿参数量的 GPT-3，再到 2022 年发布的 ChatGPT 应用背后的模型也至少有数百亿参数量。
这样的训练数据和模型体量的增长带来了模型能力的提升，让大模型“涌现”出指令跟随、上下文学习等能力，展示出“通用”的生成能力。
有目共睹的是，生成式任务的智能算法模型扩大，对算力的需求急剧增加。
在这个背景下，高效深度学习领域显得尤为关键，得到了广泛关注。
如何将“大”模型（参数量大、计算量大）部署到“小”设备上（资源受限，计算和存储能力低），同时尽量保持算法性能是各应用领域都非常关心的话题。
实际应用场景关心的硬件性能指标主要包括延时（Latency）、吞吐率（Throughput）、功率（Power）、

原文链接：清华汪玉教授团队支招：如何把“大”模型部署到“小”设备上 | Q福利