LLaMA 2端到端推理打通!来自中国团队

AIGC动态10个月前发布 量子位
14 0 0

LLaMA 2端到端推理打通!来自中国团队

AIGC动态欢迎阅读

原标题:LLaMA 2端到端推理打通!来自中国团队

关键字:模型,生态,层级,硬件,工具

文章来源:量子位

内容字数:8131字

内容摘要:允中 发自 凹非寺量子位 | 公众号 QbitAIBuddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorch 的编译生态。目前,前端部分可以覆盖 LLaMA 计算图,转换到 MLIR 后我们集成了部分向量化和并行优化,并在 AVX512 平台上进行了测试。整个推理过程可以跑通但还需要大量优化。以下是相关链接和现状:[E2E] Buddy Compiler 端到端 LLaMA2-7B 推理示例[2][E2E] 上述端到端推理示例目的是展示编译栈设计,并非完备的 LLaMA 问答工具[Frontend] Buddy Dynamo Compiler[3][Midend] 集成面向矩阵乘法的向量化以及面向…

原文链接:点此阅读原文:LLaMA 2端到端推理打通!来自中国团队

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...