Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了

AIGC动态1个月前发布 量子位
1 0 0

Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了

AIGC动态欢迎阅读

原标题:Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
关键字:上下文,模型,任务,文本,代码
文章来源:量子位
内容字数:0字

内容摘要:


鱼羊 发自 凹非寺量子位 | 公众号 QbitAI国产大模型,最近有点卷。
这不,刚在写代码这事儿上刷新SOTA,Qwen2.5系列又双叒突然更新了——
一口气读三本《三体》不费事,并且45秒左右就能完整总结出这69万token的主要内容,be like:
还真不是糊弄事儿,“大海捞针”实验显示,这个全新的Qwen2.5-Turbo在100万token上下文中有全绿的表现。
也就是说,这100万上下文里,有细节Qwen2.5-Turbo是真能100%捕捉到。
没错,Qwen2.5系列新成员Qwen2.5-Turbo,这回主打的就是支持超长上下文,并且把性价比卷出了花儿:
上下文长度从128k扩展到1M,相当于100万个英文单词或150万个汉字,也就是10部长篇小说、150小时语音记录、30000行代码的量。
更快的推理速度:基于稀疏注意力机制,处理百万上下文时,首字返回时间从4.9分钟降低到了68秒,实现了4.3倍加速。
关键是还便宜:0.3元/1M tokens。这意味着,在相同成本下,Qwen2.5-Turbo可以处理的token数量是GPT-4o-mini的3.6倍。
看到这波更


原文链接:Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...