标签:吞吐量

大模型推理成本排行榜来了:贾扬清公司效率领跑

机器之心报道 编辑:小舟、泽南风投烧完之后,哪些大模型创业公司会开始盈利? 「大模型的 API 是个亏本买卖吗?」随着大语言模型技术的逐渐实用化,越来越多...
阅读原文

今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!

夕小瑶科技说 原创作者 | 赛博马良 本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」 可提供最热AI论文推荐、论文解读...
阅读原文

Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开

机器之心报道 编辑:杜伟、小舟这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。 大型语言...
阅读原文

自己发基准自己第一,Anyscale行为惹社区吐槽

机器之心报道 编辑:蛋酱前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。 第二天就收获 AI 社区的大量吐槽,原因是排行...
阅读原文

LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量

新智元报道编辑:LRS【新智元导读】DeepSpeed-FastGen结合MII和DeepSpeed-Inference实现LLM高吞吐量文本生成。GPT-4和LLaMA这样的大型语言模型(LLMs)已在各...
阅读原文
12