比A100性价比更高！FlightLLM让大模型推理不再为性能和成本同时发愁

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：比A100性价比更高！FlightLLM让大模型推理不再为性能和成本同时发愁
关键字：模型,矩阵,指令,阶段,长度
文章来源：机器之心
内容字数：6223字

内容摘要：

机器之心专栏
机器之心编辑部大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引，在算法与芯片之间，撕开了一道充分的推理竞争场。
面对想象中的终端场景，基于 GPU 和 FPGA 的推理方案的应用潜力需要被重新审视。
近日，无问芯穹、清华大学和上海交通大合提出了一种面向 FPGA 的大模型轻量化部署流程，首次在单块 Xilinx U280 FPGA 上实现了 LLaMA2-7B 的高效推理。
第一作者为清华大学电子系博士及无问芯穹硬件负责人曾书霖，通讯作者为上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩，清华大学电子工程系教授、系主任及无问芯穹发起人汪玉。
相关工作现已被可重构计算领域顶级会议 FPGA’24 接收。论文链接：https://arxiv.org/pdf/2401.03868.pdf
回顾上一轮清华电子系相关工作被 FPGA 国际会议收录的踪迹，要追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 与 2017 年 ESE:

原文链接：比A100性价比更高！FlightLLM让大模型推理不再为性能和成本同时发愁