标签：吞吐量

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

9个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

1年前 (2024)

突破极限！vLLM 中文文档首发，推理速度提升2.7倍，延迟减至五分之一！

已支持超 40 个模型架构

阅读原文

AIGC动态

12个月前

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

新智元报道编辑：静音【新智元导读】六个月的争议后，诺奖级AI AlphaFold3开源了。这个在蛋白质结构预测领域掀起波澜的AI——期待它的开源推动更多科学家的大...

阅读原文

AIGC动态

1年前 (2024)

专家模型不要专家并行！微软开源MoE新路径

新智元报道编辑：alan 【新智元导读】近日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软...

阅读原文

AIGC动态

1年前 (2024)

vLLM vs TensorRT-LLM 性能对比测试，基于0910较新版本

大会预告12月5日-6日，2024中国生成式AI大会（上海站）将举办。上海科大助理教授、博导顾家远，腾讯优图实验室天衍研究中心负责人吴贤，银河通用机器人合伙人...

阅读原文

AIGC动态

1年前 (2024)

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Mamba

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

三个程序员奋战三天重写推理堆栈，Grok-2 mini直接提速两倍，马斯克亲发贺电

机器之心报道机器之心编辑部一直在用 Grok-2 的用户可能察觉到，这两天，它好像变快了：上周，xAI 发布了 Grok-2 聊天机器人，并在 X 平台上以每月 8 美元的...

阅读原文

AIGC动态

1年前 (2024)

要想赚钱，AI模型该大该小？贾扬清：论AI模型经济学的技巧

卖模型就像感恩节卖火鸡，快才能赚钱。作者丨刘洁编辑丨岑峰最近的AI社区，关于模型规模的讨论有些活跃。一方面，此前在大模型开发奉为“圣经”的Scaling La...

阅读原文

AIGC动态

1年前 (2024)

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心报道编辑：张倩用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型...

阅读原文

AIGC动态

1年前 (2024)

拆分Transformer注意力，韩国团队让大模型解码提速20倍

克雷西发自凹非寺量子位 | 公众号 QbitAI只要将注意力切块，就能让大模型解码提速20倍。来自韩国科学技术研究院、LG和DeepMind的研究人员，提出了一种新的...

阅读原文

AIGC动态

1年前 (2024)

Transformer并非万能：Jamba在效率和吞吐量上大幅超越

点击上方蓝字关注我们“AI21 Labs推出Jamba，一种结合SSM与transformers的新AI模型，旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型，尽管在...

阅读原文

AIGC动态

2年前 (2024)

Mamba架构第一次做大！混合Transformer，打败Transformer

丰色发自凹非寺量子位 | 公众号 QbitAI精彩精彩，第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数，还是Mamba+Transformer混合架构。它的名...

阅读原文

AIGC动态

2年前 (2024)

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

机器之心报道编辑：小舟Mamba 时代来了？自 2017 年开创性研究论文《Attention is All You Need》问世以来，transformer 架构就一直主导着生成式人工智能领...

阅读原文

AIGC动态

2年前 (2024)

Mamba超强进化体一举颠覆Transformer！单张A100跑140K上下文

新智元报道编辑：编辑部【新智元导读】52B的生产级Mamba大模型来了！这个超强变体Jamba刚刚打破世界纪录，它能正面硬刚Transformer，256K超长上下文窗口，吞...

阅读原文

AIGC动态

2年前 (2024)

业界首次！搭载英伟达GPU，50倍性能提升！Zilliz发布Milvus 2.4向量数据库

在上周在美国硅谷圣何塞召开的NVIDIA GTC大会上，Zilliz[1] 发布了 Milvus 2.4 [2]版本。这是一款革命性的向量数据库系统，它在业界首次采用了英伟达 GPU 的...

阅读原文

AIGC动态

2年前 (2024)

比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

新智元报道编辑：桃子好困【新智元导读】卷疯了！世界最快的大模型Groq一夜之间爆火，能够每秒输出近500个token。如此神速的响应，背后全凭自研的LPU。一觉...

阅读原文

AIGC动态

2年前 (2024)