标签:全局

拆分Transformer注意力,韩国团队让大模型解码提速20倍

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的...
阅读原文

AIGC工作站要把好三道关,宁畅为AI时代终端算力打了个样

高端图形计算如何打好算力地基?宁畅首款桌面级AI工作站交卷。 作者|香草 编辑|漠影 在5G、边缘计算等技术的推动下,算力逐渐从数据中心向终端扩展。AI时代的...
阅读原文

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5? 答案是独角兽Character.ai,由Transformer作...
阅读原文

宁畅AI算力栈火力全开,用全局智算凿出通往AGI的快车道

AI计算的大乱斗之春:大模型遍地开花,宁畅用全局智算栽培硕果。 作者|三北 编辑|漠影 “AI+”时代,大模型正如雨后春笋般涌现,以重构千行百业之势向通用人工...
阅读原文

Softmax注意力与线性注意力的优雅融合,Agent Attention推动注意力新升级

机器之心专栏 作者:韩东辰来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。近年来,视觉 Transformer 模型得到了极大的发展...
阅读原文