标签:吞吐量
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
三个程序员奋战三天重写推理堆栈,Grok-2 mini直接提速两倍,马斯克亲发贺电
机器之心报道 机器之心编辑部一直在用 Grok-2 的用户可能察觉到,这两天,它好像变快了:上周,xAI 发布了 Grok-2 聊天机器人,并在 X 平台上以每月 8 美元的...
要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧
卖模型就像感恩节卖火鸡,快才能赚钱。作者丨刘洁 编辑丨岑峰 最近的AI社区,关于模型规模的讨论有些活跃。 一方面,此前在大模型开发奉为“圣经”的Scaling La...
贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
机器之心报道 编辑:张倩用来运行 Llama 3 405B 优势明显。 最近,Meta 开源了最新的 405B 模型(Llama 3.1 405B),把开源模型的性能拉到了新高度。由于模型...
拆分Transformer注意力,韩国团队让大模型解码提速20倍
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的...
Transformer并非万能:Jamba在效率和吞吐量上大幅超越
点击上方蓝字关注我们“AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在...
Mamba架构第一次做大!混合Transformer,打败Transformer
丰色 发自 凹非寺量子位 | 公众号 QbitAI精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数,还是Mamba+Transformer混合架构。 它的名...
Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量
机器之心报道 编辑:小舟Mamba 时代来了? 自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领...
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
新智元报道编辑:编辑部 【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞...
业界首次!搭载英伟达GPU,50倍性能提升!Zilliz发布Milvus 2.4向量数据库
在上周在美国硅谷圣何塞召开的NVIDIA GTC大会上,Zilliz[1] 发布了 Milvus 2.4 [2]版本。这是一款革命性的向量数据库系统,它在业界首次采用了英伟达 GPU 的...
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
新智元报道编辑:桃子 好困 【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火,能够每秒输出近500个token。如此神速的响应,背后全凭自研的LPU。一觉...
大模型推理成本排行榜来了:贾扬清公司效率领跑
机器之心报道 编辑:小舟、泽南风投烧完之后,哪些大模型创业公司会开始盈利? 「大模型的 API 是个亏本买卖吗?」随着大语言模型技术的逐渐实用化,越来越多...
今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!
夕小瑶科技说 原创作者 | 赛博马良 本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」 可提供最热AI论文推荐、论文解读...
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
机器之心报道 编辑:杜伟、小舟这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。 大型语言...
自己发基准自己第一,Anyscale行为惹社区吐槽
机器之心报道 编辑:蛋酱前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。 第二天就收获 AI 社区的大量吐槽,原因是排行...
12