标签:集群

国产GPU如何系统性的解决大模型算力难题 | 演讲预告

生成式AI时代,大模型及AIGC的快速发展推动着计算需求的高速增长。 从服务器到边缘,再到AI手机、AI PC、AIoT、智能汽车,各个领域的AI芯片玩家都面临着新的...
阅读原文

寻找中国智算力量!2024年度中国AI生产力创新先锋企业榜,速来申报

欢迎报名或推荐优秀的中国智算集群解决方案提供商和AI芯片企业。 作者|ZeR0 编辑|漠影 2024年9月6日~7日,2024全球AI芯片峰会(GACS 2024)将在北京举行。本...
阅读原文

小扎自曝砸重金训Llama 4,24万块GPU齐发力!预计2025年发布

新智元报道编辑:桃子 【新智元导读】没想到,多模态Llama 4已经紧锣密鼓地开始训练中了。小扎表示,将投入Llama 3的十倍计算量训练模型,预计2025年发布。他...
阅读原文

缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

编译 | 核子可乐、Tina 埃隆·马斯克掌控的那几家公司——包括 SpaceX、特斯拉、xAI 乃至 X(原 Twitter)——都需要大量的 GPU,而且也都是为自己的特定 AI 或者...
阅读原文

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

西风 发自 凹非寺量子位 | 公众号 QbitAI每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首? 最近有人从Meta发布的92页超长Llama 3....
阅读原文

训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场!

整理 | 华卫 最近,Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战:该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行,在训练期间...
阅读原文

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

新智元报道编辑:庸庸 好困 【新智元导读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟...
阅读原文

世界最强AI训练集群上线

大数据文摘受权转载自头部科技 文丨俊俊 特斯拉首席执行官埃隆·马斯克(Elon Musk)接对当前人工智能领域普遍缺失的“亲人类”原则表达了深切忧虑,所以从OpenA...
阅读原文

【深度万文】10 万卡 H100 集群的尽头……

7月25日上午10点,中国科学技术大学与微软亚洲研究院联合培养博士生张博文将在智猩猩直播讲解微软亚洲研究院开源成果GaussianCube,主题为《结构化3DGS为高质...
阅读原文

从机到700亿参数大模型,这里有份教程,还有现成可用的脚本

选自imbue.com 作者:Imbue 团队 机器之心编译 编辑:panda我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的,机器之心曾介绍过不少用于辅助和改...
阅读原文

马斯克启动全球最大AI集群,由10万个英伟达H100组成

点击上方蓝字关注我们“埃隆·马斯克领导的xAI孟菲斯超级集群启动,配备十万个Nvidia H100 GPU,旨在年底前训练出世界最强AI,此举或将重塑全球AI竞争格局。科...
阅读原文

电脑平板组AI集群,在家就能跑400B大模型,GitHub狂揽2.5K星​

克雷西 发自 凹非寺量子位 | 公众号 QbitAI不用H100,三台苹果电脑就能带动400B大模型。 背后的功臣,是GitHub上的一个开源分布式AI推理框架,已经斩获了2.5k...
阅读原文

急缺!高校GPU告急,李飞飞辛顿求救

全球学术界正面临系统性的GPU短缺问题。 编译|陈骏达 编辑|Panken 智东西7月18日消息,据外媒报道,由于AI算力集群价格高企与大企业订单挤兑,许多美国高校正...
阅读原文

AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训

新智元报道编辑:桃子 【新智元导读】马斯克官宣xAI建造的世界最大超算集群,由10万块H100搭建,预计本月末开始投入训练。另一边,OpenAI再次加码,将打造由1...
阅读原文

太酷了!iPhone、iPad、MacBook老旧设备组成异构集群,能跑Llama 3

机器之心报道 机器之心编辑部假如你有闲置的设备,或许可以试一试。这次,你手里的硬件设备也能在 AI 领域大展拳脚了。 将 iPhone、iPad、Macbook 进行组合,...
阅读原文