AIGC动态欢迎阅读
原标题:比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁
关键字:模型,矩阵,指令,阶段,长度
文章来源:机器之心
内容字数:6223字
内容摘要:
机器之心专栏
机器之心编辑部大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引,在算法与芯片之间,撕开了一道充分的推理竞争场。
面对想象中的终端场景,基于 GPU 和 FPGA 的推理方案的应用潜力需要被重新审视。
近日,无问芯穹、清华大学和上海交通大学联合提出了一种面向 FPGA 的大模型轻量化部署流程,首次在单块 Xilinx U280 FPGA 上实现了 LLaMA2-7B 的高效推理。
第一作者为清华大学电子系博士及无问芯穹硬件负责人曾书霖,通讯作者为上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩,清华大学电子工程系教授、系主任及无问芯穹发起人汪玉。
相关工作现已被可重构计算领域顶级会议 FPGA’24 接收。论文链接:https://arxiv.org/pdf/2401.03868.pdf
回顾上一轮清华电子系相关工作被 FPGA 国际会议收录的踪迹,要追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 与 2017 年 ESE:
原文链接:比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...