Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AIGC动态欢迎阅读

原标题：Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了
关键字：上下文,模型,任务,文本,代码
文章来源：量子位
内容字数：0字

内容摘要：

鱼羊发自凹非寺量子位 | 公众号 QbitAI国产大模型，最近有点卷。
这不，刚在写代码这事儿上刷新SOTA，Qwen2.5系列又双叒突然更新了——
一口气读三本《三体》不费事，并且45秒左右就能完整总结出这69万token的主要内容，be like：
还真不是糊弄事儿，“大海捞针”实验显示，这个全新的Qwen2.5-Turbo在100万token上下文中有全绿的表现。
也就是说，这100万上下文里，有细节Qwen2.5-Turbo是真能100%捕捉到。
没错，Qwen2.5系列新成员Qwen2.5-Turbo，这回主打的就是支持超长上下文，并且把性价比卷出了花儿：
上下文长度从128k扩展到1M，相当于100万个英文单词或150万个汉字，也就是10部长篇小说、150小时语音记录、30000行代码的量。
更快的推理速度：基于稀疏注意力机制，处理百万上下文时，首字返回时间从4.9分钟降低到了68秒，实现了4.3倍加速。
关键是还便宜：0.3元/1M tokens。这意味着，在相同成本下，Qwen2.5-Turbo可以处理的token数量是GPT-4o-mini的3.6倍。
看到这波更

原文链接：Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了