AIGC动态欢迎阅读
原标题:400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
关键字:模型,注意力,窗口,效果,机制
文章来源:量子位
内容字数:4665字
内容摘要:
明敏 发自 凹非寺量子位 | 公众号 QbitAI22倍加速还不够,再来提升46%,而且方法直接开源!
这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。
StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共400万个token,22.2倍推理速度提升。
该项目在上线不到3个月时间内,GitHub项目标星达到5.7k star。
不过,StreamingLLM使用原生PyTorch实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI团队开源了SwiftInfer,基于TensorRT的StreamingLLM,可以进一步提升大模型推理性能46%,有效解决如上问题。
具体如何实现?一起来看。
开源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM如何实现超长多轮对话?大语言模型能够记住的上下文长度,直接影响了ChatGPT等大模型应用与用户互动的质量。
如何让LLM在多轮对话场景下保持生成质量,对推理系统提出了更高的要求,因为LLM在预
原文链接:400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...