颠覆性Star Attention：英伟达如何实现LLM推理速度的十倍飞跃！

原标题：英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜
文章来源：新智元
内容字数：4274字

引言

随着大模型上下文长度的不断增加，推理计算成本也随之上升，导致用户在输入问题后需要等待较长时间才能得到结果。为了解决这一问题，英伟达最新提出的Star Attention机制显著减少了推理计算量，同时保持了模型的精度，尤其适用于边缘计算场景。

Star Attention的工作原理

Star Attention的推理过程分为两个阶段：首先是上下文编码阶段，在此阶段，输入的上下文被分割成较小的块，并分配给多个主机处理。每个主机在处理自己的部分时，会存储非锚点部分的KV缓存。第二阶段是查询编码和token生成，查询被广播到所有主机，查询主机通过聚合所有主机的统计数据来计算全局注意力。这个方式使得在处理长序列时，信息的获取更加高效。

性能提升

Star Attention在多个长上下文基准测试上表现出色，推理速度最高可提升11倍。在Llama3.1-70B等大型模型上，推理加速比显著提升，同时准确率仅降低0至3%。即使在更长的上下文（例如128K和1048K）下，Star Attention依然保持了高水平的准确性和显著的加速效果。

应用前景

Star Attention的机制可以无缝集成到基于Transformer的大多数LLM中，且不需要额外的模型微调。这项技术的推出，将使得在本地设备上处理更长序列变得更加可行，同时大幅降低了内存需求。未来的研究将探索将Star Attention扩展到更长的序列和更大的模型，以进一步提高性能和可扩展性。