AIGC动态欢迎阅读
原标题:最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
关键字:缓存,注意力,全局,显存,团队
文章来源:量子位
内容字数:0字
内容摘要:
梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5?
答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。
刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。
具体来说Character.ai在整个服务堆栈中实现了如下成绩:
内存高效架构设计:将KV缓存大小减少20倍以上,而不会降低质量
Attention状态缓存:95%请求无需重算
直接用in8精度量化训练:推理零损失还省显存
Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍!
众多公布的方法中,原生int8训练是最受关注的。
虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。
秘诀1:高效利用显存,attention 参数量降低20倍大模型的一大痛点是显存占用高,导致无法支持大批量推理。Attention 层中的 Key-Value(
原文链接:最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...