标签:吞吐量

三个程序员奋战三天重写推理堆栈,Grok-2 mini直接提速两倍,马斯克亲发贺电

机器之心报道 机器之心编辑部一直在用 Grok-2 的用户可能察觉到,这两天,它好像变快了:上周,xAI 发布了 Grok-2 聊天机器人,并在 X 平台上以每月 8 美元的...
阅读原文

要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧

卖模型就像感恩节卖火鸡,快才能赚钱。作者丨刘洁 编辑丨岑峰 最近的AI社区,关于模型规模的讨论有些活跃。 一方面,此前在大模型开发奉为“圣经”的Scaling La...
阅读原文

贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心报道 编辑:张倩用来运行 Llama 3 405B 优势明显。 最近,Meta 开源了最新的 405B 模型(Llama 3.1 405B),把开源模型的性能拉到了新高度。由于模型...
阅读原文

拆分Transformer注意力,韩国团队让大模型解码提速20倍

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的...
阅读原文

Transformer并非万能:Jamba在效率和吞吐量上大幅超越

点击上方蓝字关注我们“AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在...
阅读原文

Mamba架构第一次做大!混合Transformer,打败Transformer

丰色 发自 凹非寺量子位 | 公众号 QbitAI精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数,还是Mamba+Transformer混合架构。 它的名...
阅读原文

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

机器之心报道 编辑:小舟Mamba 时代来了? 自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领...
阅读原文

Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

新智元报道编辑:编辑部 【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞...
阅读原文

业界首次!搭载英伟达GPU,50倍性能提升!Zilliz发布Milvus 2.4向量数据库

在上周在美国硅谷圣何塞召开的NVIDIA GTC大会上,Zilliz[1] 发布了 Milvus 2.4 [2]版本。这是一款革命性的向量数据库系统,它在业界首次采用了英伟达 GPU 的...
阅读原文

比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍

新智元报道编辑:桃子 好困 【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火,能够每秒输出近500个token。如此神速的响应,背后全凭自研的LPU。一觉...
阅读原文

大模型推理成本排行榜来了:贾扬清公司效率领跑

机器之心报道 编辑:小舟、泽南风投烧完之后,哪些大模型创业公司会开始盈利? 「大模型的 API 是个亏本买卖吗?」随着大语言模型技术的逐渐实用化,越来越多...
阅读原文

今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!

夕小瑶科技说 原创作者 | 赛博马良 本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」 可提供最热AI论文推荐、论文解读...
阅读原文

Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开

机器之心报道 编辑:杜伟、小舟这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。 大型语言...
阅读原文

自己发基准自己第一,Anyscale行为惹社区吐槽

机器之心报道 编辑:蛋酱前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。 第二天就收获 AI 社区的大量吐槽,原因是排行...
阅读原文

LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量

新智元报道编辑:LRS【新智元导读】DeepSpeed-FastGen结合MII和DeepSpeed-Inference实现LLM高吞吐量文本生成。GPT-4和LLaMA这样的大型语言模型(LLMs)已在各...
阅读原文