标签:大小

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

明敏 发自 凹非寺量子位 | 公众号 QbitAI马斯克说到做到开源Grok-1,开源社区一片狂喜。 但基于Grok-1做改动or商用,都还有点难题: Grok-1使用Rust+JAX构建...
阅读原文

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

鱼羊 克雷西 发自 凹非寺量子位 | 公众号 QbitAI马斯克说到做到: 旗下大模型Grok现已开源! 代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是...
阅读原文

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

新智元报道编辑:编辑部 【新智元导读】线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训...
阅读原文

Mistral AI:探索LLM推理的吞吐、时延及成本空间

作者 |Timothée Lacroix OneFlow编译 翻译|宛子琳、杨婷 选择正确的 LLM 推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行...
阅读原文

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

机器之心报道 编辑:陈萍、小舟Stable Code 3B 的性能优于类似大小的代码模型,并且与 CodeLLaMA 7B 的性能相当,尽管其大小只有 CodeLLaMA 7B 的 40%。 在文...
阅读原文

Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开

机器之心报道 编辑:杜伟、小舟这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。 大型语言...
阅读原文

一文剖析GPT推断中的批处理(Batching)效应

来源:PaperWeekly作者:陈乐群学校:华盛顿大学博士生研究方向 :机器学习系统及分布式系统机器学习模型依赖于批处理(Batching)来提高推断吞吐量,尤其是...
阅读原文

用上这个工具包,大模型推理性能加速达40倍

作者:英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊编者按:只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔®Extension for Transformer创新工...
阅读原文
12