零一万物李谋：当大模型推理遇到算力瓶颈，如何进行工程优化？

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：零一万物李谋：当大模型推理遇到算力瓶颈，如何进行工程优化？
关键字：模型,报告,华为,万物,技术
文章来源：AI前线
内容字数：6230字

内容摘要：

嘉宾 | 李谋
编辑 | 李忠良
自 OpenAI 发布 ChatGPT 起，大语言模型的惊艳效果吸引了越来越多的人和资本关注到该领域，近年模型本身的参数量和序列长度也呈指数级增长，要面对的算力瓶颈问题接踵而至。
在 AICon 全球人工智能开发与应用大会暨大模型应用生态展·2024 上，InfoQ 邀请到了零一万物资深算法专家李谋发布演讲分享，他将结合大模型的的算力需求和模型结构，详细介绍零一万物在构建 Yi 模型在线推理服务过程中所运用的优化技术手段。为了让听众了解更多的内容，我们提前采访了李老师，以下为内容纪要：
InfoQ：您在演讲中提到了大模型的算力需求及其增长趋势，可以详细介绍一下目前大模型在推理过程中所面临的主要算力挑战是什么？针对这种快速增长的算力需求，您认为目前的技术和资源是否足以应对？
李谋：大模型的计算主要分为训练和推理两个步骤，他们对于算力的侧重点不太一样。模型训练侧重整体吞吐 (throughput)，需要大规模，高扩展性，低能耗的分布式计算集群，而推理侧重延迟 (latency)，在算力方面需要强大的计算芯片，高速的内存访问技术。这种算力的需求在深度学习

原文链接：零一万物李谋：当大模型推理遇到算力瓶颈，如何进行工程优化？