阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍

AIGC动态2年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍
关键字：分布式,内存,模型,上下文,资源
文章来源：AI科技评论
内容字数：7844字

内容摘要：

DistAttention与DistKV-LLM结合，带来云端自然语言处理新变革。编译 | 郭思
编辑丨陈彩娴
在实际应用大模型的过程中，尤其是处理长文本的上下文信息时，如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的问题。
大语言模型所能容纳的上下文长度直接影响了诸如 ChatGPT 等高级应用与用户交互体验的优劣程度，这给云环境下的 LLM 服务系统提出了严峻挑战：不合理的资源配置不仅可能导致性能瓶颈，还可能造成宝贵的计算资源浪费。
最近，上海交通大学携手阿里研究团队针对这个问题开展了一项研究。
他们提出一个名为 DistAttention 的新颖注意力机制以及一套名为 DistKV-LLM 的分布式 LLM 服务架构，针对长文本语言任务处理中的计算难题提出了新解法，或是对行业的启示。
论文链接：https://arxiv.org/pdf/2401.02669.pdf1长文本处理，众久难熬LLM云服务是指通过云计算平台提供的，基于大型语言模型的各项服务。各家在LLM云服务之上也下足了马力。目前市场上主要的 LLM 云服务提供商包括但不限于亚马逊的 SageMaker、谷

原文链接：阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍