最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀
关键字：缓存,注意力,全局,显存,团队
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求，达到2024年谷歌搜索流量的1/5？
答案是独角兽Character.ai，由Transformer作者Noam Shazeer（后面简称沙哥）创办。
刚刚，沙哥公布了推理优化独门秘诀，迅速引起业界热议。
具体来说Character.ai在整个服务堆栈中实现了如下成绩：
内存高效架构设计：将KV缓存大小减少20倍以上，而不会降低质量
Attention状态缓存：95%请求无需重算
直接用in8精度量化训练：推理零损失还省显存
Character.AI通过以上种种优化，已经把推理成本降低到最初的1/33，如果用市场上最好的商业API来支撑这种级别的流量，成本会比现在高出13.5倍!
众多公布的方法中，原生int8训练是最受关注的。
虽然大多数技巧都来自公开研究，但是正如网友所说，知道如何把它们高效整合在一起实现的团队才是真正的护城河。
秘诀1：高效利用显存，attention 参数量降低20倍大模型的一大痛点是显存占用高，导致无法支持大批量推理。Attention 层中的 Key-Value(

原文链接：最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀