标签：大小

3140参数Grok-1推理加速3.8倍，PyTorch+HuggingFace版来了

明敏发自凹非寺量子位 | 公众号 QbitAI马斯克说到做到开源Grok-1，开源社区一片狂喜。但基于Grok-1做改动or商用，都还有点难题： Grok-1使用Rust+JAX构建...

2年前 (2024)

鱼羊克雷西发自凹非寺量子位 | 公众号 QbitAI马斯克说到做到：旗下大模型Grok现已开源！代码和模型权重已上线GitHub。官方信息显示，此次开源的Grok-1是...

2年前 (2024)

新智元报道编辑：编辑部【新智元导读】线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训...

2年前 (2024)

作者 |Timothée Lacroix OneFlow编译翻译｜宛子琳、杨婷选择正确的 LLM 推理栈意味着选择适合你的任务的正确模型，并配以适当的推理代码在适当的硬件上运行...

2年前 (2024)

机器之心报道编辑：陈萍、小舟Stable Code 3B 的性能优于类似大小的代码模型，并且与 CodeLLaMA 7B 的性能相当，尽管其大小只有 CodeLLaMA 7B 的 40%。在文...

2年前 (2024)

机器之心报道编辑：杜伟、小舟这是为数不多深入比较使用消费级 GPU（RTX 3090、4090）和服务器显卡（A800）进行大模型预训练、微调和推理的论文。大型语言...

2年前 (2023)

来源：PaperWeekly作者：陈乐群学校：华盛顿大学博士生研究方向：机器学习系统及分布式系统机器学习模型依赖于批处理（Batching）来提高推断吞吐量，尤其是...

2年前 (2023)

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔®Extension for Transformer创新工...

2年前 (2023)