标签:缓存

月之暗面kimi底层推理系统方案揭秘

7月2日晚七点,「NVIDIA 机器人技术公开课」正式开讲,NVIDIA解决方案架构总监舒家明将以《NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划》为主题进行...
阅读原文

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5? 答案是独角兽Character.ai,由Transformer作...
阅读原文

2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源

蔡泽凡 投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2....
阅读原文

Transformer本可以深谋远虑,但就是不做

机器之心报道 机器之心编辑部语言模型是否会规划未来 token?这篇论文给你答案。 「别让 Yann LeCun 看见了。」Yann LeCun 表示太迟了,他已经看到了。今天要...
阅读原文

关于 RAG、AI Agent、多模态,我们的理解与探索

嘉宾 | 王元编辑 | 李忠良引言:在这个快速发展的数字时代,生成式 AI 不仅仅是一个概念,而是正在被塑造成为未来技术生态系统的核心。随着 LLM 的崛起,我们...
阅读原文

加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!

夕小瑶科技说 原创作者 | 智商掉了一地、卖萌酱近年来,随着大型语言模型(LLM)的出现,在多样化的 NLP 任务上取得了令人瞩目的成果。然而,知识密集型任务...
阅读原文

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

机器之心报道 机器之心编辑部大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而,用于...
阅读原文

今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!

夕小瑶科技说 原创作者 | 赛博马良 本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」 可提供最热AI论文推荐、论文解读...
阅读原文

吞吐量提升近30倍!田渊栋团队最新论文解决大模型部署难题

新智元报道编辑:alan【新智元导读】大语言模型在实际部署中,存在内存和输入长度限制的问题。最近,田渊栋团队一举解决这两大难题,将推理系统的吞吐量提高...
阅读原文

不到1000行代码,PyTorch团队让Llama 7B提速10倍

机器之心报道编辑:陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很...
阅读原文

OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源

新智元报道编辑:润【新智元导读】OpenAI的工程团队经理(Engineering Manager)Evan Morikawa在一个开发者活动中分享了如何带领OpenAI的工程团队来应对ChatG...
阅读原文

GPT-4变笨加剧,被曝缓存历史回复:一个笑话讲八百遍,让换新的也不听

丰色 发自 凹非寺量子位 | 公众号 QbitAI有网友找到了GPT-4变“笨”的又一证据。他质疑:OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。最明显的例...
阅读原文

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

新智元报道编辑:LRS【新智元导读】吞吐量上不去有可能是内存背锅!无需修改模型架构,减少内存浪费就能提高吞吐量!‍虽然大型语言模型(LLM)的性能表现足够...
阅读原文

6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务

机器之心专栏编辑:Panda利用操作系统的虚拟内存管理方法来提升LLM推理吞吐量。今年六月,来自加州大学伯克利分校等机构的一个研究团队开源了(目前已有 6700...
阅读原文

RTX 5090最新爆料:架构大改,性能提升70%

机器之心报道编辑:小舟关于英伟达下一代旗舰 GPU RTX5090,人们一直抱有期待和猜测。早在 2021 年,知名爆料者 kopite7kimi 就称英伟达将推出代号为「Blackw...
阅读原文
12