标签:内存
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
机器之心报道 编辑:泽南、小舟「Real men program in C.」众所周知,大语言模型还在快速发展,应该有很多可以优化的地方。我用纯 C 语言来写,是不是能优化...
Nvidia B100/B200/GB200 关键技术解读
对GTC keynote中关于AI基础设施的关键信息整理如下,分三个部分: 芯片 服务器 Superpod 芯片 1. GPU芯片 晶体管数: B200 GPU的晶体管数量是现有H100的两倍...
花了两周,我又更新了开源软件ffio(二)
Hello,我是 JioNLP。这篇文章依然是宣传我正在更新开发的开源软件工具 ffio。最近又有新的更新,由于有优秀的同事参与更新,所以更新速度还是挺快的。 开源...
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
机器之心报道 编辑:陈萍、大盘鸡只用 24G 显存,消费级 GPU 就能搞定大模型了。 上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM:...
ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
机器之心专栏 作者:邵文琪模型量化是模型压缩与加速中的一项关键技术,其将模型权重与激活值量化至低 bit,以允许模型占用更少的内存开销并加快推理速度。对...
白宫发文,呼吁开发者放弃C、C++:Rust被「钦点」内存安全
机器之心报道 编辑:杜伟、小舟近年来,C、C++ 编程语言成了美国官方的「眼中钉」,而内存安全的 Rust 等语言摇身一变成了「新宠」。近日,在一份 19 页的报...
微软、国科大开启1Bit时代:大模型转三进制,速度快4倍能耗降至1/41
机器之心报道 机器之心编辑部革命性的提升来了。把大模型的权重统统改成三元表示,速度和效率的提升让人害怕。 今天凌晨,由微软、国科大等机构提交的一篇论...
老黄祭出全新RTX 500 GPU,AIGC性能狂飙14倍!AI应用的门槛彻底被打下来了
新智元报道编辑:润 好困 【新智元导读】英伟达发布移动工作站产品线最后一块拼图,号称与竞品相比效率提升14倍。随着今年大量AI消费级硬件的上市,AI应用的...
AI芯片黑马Groq走红,英伟达又多了一个挑战者|甲子光年
天下武功,唯快不破。作者|苏霍伊 编辑|赵健 本周,一匹 AI 芯片黑马 Groq 在业内走红。 Groq 推出了一款全新的 AI 芯片 LPU(Language Processing Unit...
AI芯片黑马一夜爆红:成本推算争议不断,前员工现员工互撕
AI芯片是时候上演新故事了。 作者|ZeR0 编辑|漠影 智东西2月21日报道,在OpenAI推出又一爆款力作AI视频生成模型Sora后,连带着偏上游的AI芯片赛道热度一点即...
揭秘AI推理芯片的未来
来源:内容由半导体行业观察(ID:icbank) 编译:自design-reuse 人工智能行业包含一个受技术进步、社会需求和监管考虑影响的动态环境。机器学习、自然语言...
Mistral AI:探索LLM推理的吞吐、时延及成本空间
作者 |Timothée Lacroix OneFlow编译 翻译|宛子琳、杨婷 选择正确的 LLM 推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行...
阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍
DistAttention与DistKV-LLM结合,带来云端自然语言处理新变革。编译 | 郭 思 编辑丨陈彩娴 在实际应用大模型的过程中,尤其是处理长文本的上下文信息时,如何...
英伟达大手笔预购内存,力保AI硬件霸主地位
点击上方蓝字关注我们“英伟达为确保其即将推出的 AI 和 HPC GPU 产品获得充足的 HBM3E 内存供应,向美光科技和三星电子预购了总价值超过 13 亿美元的 HBM3 内...
苹果突破内存限制,将大型语言模型嵌入iPhone
点击上方蓝字关注我们“苹果研究人员成功运用创新的闪存技术,克服了iPhone内存限制,实现了大型语言模型在有限内存下的高效推理。通过窗口化和行列捆绑等关键...