多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制​

AIGC动态11个月前发布 机器之心
36 0 0

多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制​

AIGC动态欢迎阅读

原标题:多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制​
关键字:模型,注意力,窗口,机制,效果
文章来源:机器之心
内容字数:4950字

内容摘要:


机器之心发布
机器之心编辑部在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。
但 StreamingLLM 使用原生 PyTorch 实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI 团队开源了 SwiftInfer,基于 TensorRT 实现了 StreamingLLM,可以进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。
开源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM 简介
大语言模型能够记住的上下文长度,直接影响了 ChatGPT 等大模型应用与用户互动的质量。
如何让 LLM 在多轮对话场景下保持生成质量,对推理系统提出了更高的要求,因为 LLM 在预训练期间只能在有限的注意力窗口的限制下进行训练。
常见的 K


原文链接:多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制​

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...