万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化
关键字：模型,技术,语言,高效,算子
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心发布
作者：宁雪妃、周紫轩（无问芯穹TechView）近年来，大语言模型（Large Language Models, LLMs）受到学术界和工业界的广泛关注，得益于其在各种语言生成任务上的出色表现，大语言模型推动了各种人工智能应用（例如ChatGPT、Copilot等）的发展。然而，大语言模型的落地应用受到其较大的推理开销的限制，对部署资源、用户体验、经济成本都带来了巨大挑战。例如，将包含700亿参数量的LLaMA-2-70B模型进行部署推理，至少需要6张RTX 3090Ti显卡或2张NVIDIA A100显卡，以部署在A100显卡上为例，该模型生成512长度的词块（token）序列需要耗时超过50秒。
许多研究工作致力于设计优化大语言模型推理开销的技术，优化模型的推理延迟、吞吐、功耗和存储等指标，成为许多研究的重要目标。为了对这些优化技术有更全面、更系统的认知，为大语言模型的部署实践和未来研究提供建议和指南，来自清华大学电子工程系、无问芯穹和上海交通大学的研究团队对大语言模型的高效推理技术进行了一次全面的调研和整理，在《A Survey on Efficient Infer

原文链接：万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化