AIGC动态欢迎阅读
原标题:多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
关键字:模型,注意力,窗口,机制,效果
文章来源:机器之心
内容字数:4950字
内容摘要:
机器之心发布
机器之心编辑部在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。
但 StreamingLLM 使用原生 PyTorch 实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI 团队开源了 SwiftInfer,基于 TensorRT 实现了 StreamingLLM,可以进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。
开源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM 简介
大语言模型能够记住的上下文长度,直接影响了 ChatGPT 等大模型应用与用户互动的质量。
如何让 LLM 在多轮对话场景下保持生成质量,对推理系统提出了更高的要求,因为 LLM 在预训练期间只能在有限的注意力窗口的限制下进行训练。
常见的 K
原文链接:多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...