标签：缓存

月之暗面kimi底层推理系统方案揭秘

7月2日晚七点，「NVIDIA 机器人技术公开课」正式开讲，NVIDIA解决方案架构总监舒家明将以《NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划》为主题进行...

阅读原文

AIGC动态

1年前 (2024)

最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

梦晨发自凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求，达到2024年谷歌搜索流量的1/5？答案是独角兽Character.ai，由Transformer作...

阅读原文

AIGC动态

1年前 (2024)

2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘｜开源

蔡泽凡投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈，终于迎来突破。北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案，只用2....

阅读原文

AIGC动态

1年前 (2024)

Transformer本可以深谋远虑，但就是不做

机器之心报道机器之心编辑部语言模型是否会规划未来 token？这篇论文给你答案。「别让 Yann LeCun 看见了。」Yann LeCun 表示太迟了，他已经看到了。今天要...

阅读原文

AIGC动态

2年前 (2024)

关于 RAG、AI Agent、多模态，我们的理解与探索

嘉宾 | 王元编辑 | 李忠良引言：在这个快速发展的数字时代，生成式 AI 不仅仅是一个概念，而是正在被塑造成为未来技术生态系统的核心。随着 LLM 的崛起，我们...

阅读原文

AIGC动态

2年前 (2024)

加速知识检索：伯克利&DeepMind联合研究，RaLMSpec让语言模型服务飞速提升2-7倍！

夕小瑶科技说原创作者 | 智商掉了一地、卖萌酱近年来，随着大型语言模型（LLM）的出现，在多样化的 NLP 任务上取得了令人瞩目的成果。然而，知识密集型任务...

阅读原文

AIGC动态

2年前 (2024)

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

机器之心报道机器之心编辑部大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而，用于...

阅读原文

AIGC动态

2年前 (2024)

今日Arxiv最热NLP大模型论文：清华大学让大语言模型自动并行自回归解码，速度提升高达4倍！

夕小瑶科技说原创作者 | 赛博马良本文内容由赛博马良「AI论文解读达人」智能体生成，人工整理排版。「AI论文解读达人」可提供最热AI论文推荐、论文解读...

阅读原文

AIGC动态

2年前 (2024)

吞吐量提升近30倍！田渊栋团队最新论文解决大模型部署难题

新智元报道编辑：alan【新智元导读】大语言模型在实际部署中，存在内存和输入长度限制的问题。最近，田渊栋团队一举解决这两大难题，将推理系统的吞吐量提高...

阅读原文

AIGC动态

2年前 (2023)

不到1000行代码，PyTorch团队让Llama 7B提速10倍

机器之心报道编辑：陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里，生成式 AI 发展迅猛，在这当中，文本生成一直是一个特别受欢迎的领域，很...

阅读原文

AIGC动态

2年前 (2023)

OpenAI大佬甩出「喵喵GPT」黑客！分享ChatGPT成功的秘密：极限压榨GPU资源

新智元报道编辑：润【新智元导读】OpenAI的工程团队经理（Engineering Manager）Evan Morikawa在一个开发者活动中分享了如何带领OpenAI的工程团队来应对ChatG...

阅读原文

AIGC动态

2年前 (2023)

GPT-4变笨加剧，被曝缓存历史回复：一个笑话讲八百遍，让换新的也不听

丰色发自凹非寺量子位 | 公众号 QbitAI有网友找到了GPT-4变“笨”的又一证据。他质疑：OpenAI会缓存历史回复，让GPT-4直接复述以前生成过的答案。最明显的例...

阅读原文

AIGC动态

2年前 (2023)

LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

新智元报道编辑：LRS【新智元导读】吞吐量上不去有可能是内存背锅！无需修改模型架构，减少内存浪费就能提高吞吐量！‍虽然大型语言模型（LLM）的性能表现足够...

阅读原文

AIGC动态

2年前 (2023)

6.7k Star量的vLLM出论文了，让每个人都能轻松快速低成本地部署LLM服务

机器之心专栏编辑：Panda利用操作系统的虚拟内存管理方法来提升LLM推理吞吐量。今年六月，来自加州大学伯克利分校等机构的一个研究团队开源了（目前已有 6700...

阅读原文

AIGC动态

2年前 (2023)

RTX 5090最新爆料：架构大改，性能提升70%

机器之心报道编辑：小舟关于英伟达下一代旗舰 GPU RTX5090，人们一直抱有期待和猜测。早在 2021 年，知名爆料者 kopite7kimi 就称英伟达将推出代号为「Blackw...

阅读原文

AIGC动态

2年前 (2023)