大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制

AIGC动态12个月前发布 新智元
17 0 0

大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制

AIGC动态欢迎阅读

原标题:大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制
关键字:模型,注意力,窗口,机制,效果
文章来源:新智元
内容字数:4453字

内容摘要:


新智元报道编辑:好困 桃子
【新智元导读】大模型推理再次跃升一个新台阶!最近,全新开源的国产SwiftInfer方案,不仅能让LLM处理无限流式输入,而且还将推理性能提升了46%。在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升。
但StreamingLLM使用原生PyTorch实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI团队开源了SwiftInfer,基于TensorRT实现了StreamingLLM,可以进一步提升大模型推理性能46%,为多轮对话推理提供了高效可靠的落地方案。
开源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM简介大语言模型能够记住的上下文长度,直接影响了ChatGPT等大模型应用与用户互动的质量。
如何让LLM在多轮对话场景下保持生成质量,


原文链接:大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...