400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低
关键字：模型,注意力,窗口,效果,机制
文章来源：量子位
内容字数：4665字

内容摘要：

明敏发自凹非寺量子位 | 公众号 QbitAI22倍加速还不够，再来提升46%，而且方法直接开源！
这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。
StreamingLLM可以在不牺牲生成效果、推理速度的前提下，实现多轮对话共400万个token，22.2倍推理速度提升。
该项目在上线不到3个月时间内，GitHub项目标星达到5.7k star。
不过，StreamingLLM使用原生PyTorch实现，对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI团队开源了SwiftInfer，基于TensorRT的StreamingLLM，可以进一步提升大模型推理性能46%，有效解决如上问题。
具体如何实现？一起来看。
开源地址：https://github.com/hpcaitech/SwiftInfer
StreamingLLM如何实现超长多轮对话？大语言模型能够记住的上下文长度，直接影响了ChatGPT等大模型应用与用户互动的质量。
如何让LLM在多轮对话场景下保持生成质量，对推理系统提出了更高的要求，因为LLM在预

原文链接：400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

联系作者

文章来源：量子位
作者微信：QbitAI
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 效果 # 机制 # 模型 # 注意力 # 窗口

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

AIGC动态欢迎阅读

内容摘要：

联系作者

余震强度预测能力升级，Nature 刊文认证基于神经网络的模型性能优于传统模型

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

AIGC动态欢迎阅读

内容摘要：

联系作者

余震强度预测能力升级，Nature 刊文认证基于神经网络的模型性能优于传统模型

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制​

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制