多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制
关键字：模型,注意力,窗口,机制,效果
文章来源：机器之心
内容字数：4950字

内容摘要：

机器之心发布
机器之心编辑部在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM，能够在不牺牲推理速度和生成效果的前提下，可实现多轮对话总共 400 万个 token 的流式输入，22.2 倍的推理速度提升。
但 StreamingLLM 使用原生 PyTorch 实现，对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI 团队开源了 SwiftInfer，基于 TensorRT 实现了 StreamingLLM，可以进一步提升大模型推理性能 46%，为多轮对话推理提供了高效可靠的落地方案。
开源地址：https://github.com/hpcaitech/SwiftInfer
StreamingLLM 简介
大语言模型能够记住的上下文长度，直接影响了 ChatGPT 等大模型应用与用户互动的质量。
如何让 LLM 在多轮对话场景下保持生成质量，对推理系统提出了更高的要求，因为 LLM 在预训练期间只能在有限的注意力窗口的限制下进行训练。
常见的 K

原文链接：多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

联系作者

文章来源：机器之心
作者微信：almosthuman2014
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 效果 # 机制 # 模型 # 注意力 # 窗口

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

AIGC动态欢迎阅读

内容摘要：

联系作者

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

大模型无限流式输入推理飙升46%！国产开源加速「全家桶」，打破多轮对话长度限制

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制​

AIGC动态欢迎阅读

内容摘要：

联系作者

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

大模型无限流式输入推理飙升46%！国产开源加速「全家桶」，打破多轮对话长度限制

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制