标签:集群

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

新智元报道编辑:编辑部 【新智元导读】两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。...
阅读原文

马斯克3 个月建成世界最强算力集群,由 10 万片英伟达 H100 组成

点击上方蓝字关注我们“埃隆·马斯克的人工智能公司xAI推出的超级计算机“Colossus”在田纳西州数据中心上线,装备了10万个Nvidia H100处理器,旨在训练大型语言...
阅读原文

多元算力时代大模型并行训练框架技术创新与实践

9月6-7日,2024全球AI芯片峰会(GACS 2024)将在北京辽宁大厦盛大举办。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产...
阅读原文

全球AI芯片峰会终极议程来了!46场演讲正式揭晓

2024全球AI芯片峰会,9月6-7日北京开启! 生成式AI开启智算新纪元,大模型与AIGC应用推动算力需求高速增长。 从服务器到边缘,再到AI手机、AI PC、AIoT、智能...
阅读原文

LLM 推理框架之上:10 种常见 LLM 推理系统总结

9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京辽宁大厦盛大举行。峰会设有开幕式、数据中心AI芯片专场、AI芯片架构创新专场、边缘/端侧AI芯片专场、...
阅读原文

面向AI的GPU ScaleUP互连: ALink System|阿里云孔阳博士演讲预告

9月6-7日,2024全球AI芯片峰会(GACS 2024)将在北京辽宁大厦盛大举办。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产...
阅读原文

深度揭秘:Meta工程师如何构建超大规模AI训练网络?

新智元报道编辑:乔杨 【新智元导读】最近,Meta的多个工程团队联合发表了一篇论文,描述了在引入基于GPU的分布式训练时,他们如何为其「量身定制」专用的数...
阅读原文

马斯克首次亮相特斯拉的5万个英伟达H100超级集群

点击上方蓝字关注我们埃隆·马斯克本周在超级计算领域的探索又向前迈出了一大步,他分享了一段视频,展示了他新近重新命名的“Cortex”人工智能超级集群。这个位...
阅读原文

我们如何在 1000 GPU 小时内做好 Open-Sora 微调

作者 | Chuan Li、Corey Lowman、David Hartmann、Jeremy Hummel 译者 | Sambodhi 策划 | 褚杏娟 导读:你是否好奇如何利用尖端技术提升视频生成的质量?你是...
阅读原文

Meta、BAT、字节、零一万物万卡集群构建汇总

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
阅读原文

国产GPU如何系统性的解决大模型算力难题 | 演讲预告

生成式AI时代,大模型及AIGC的快速发展推动着计算需求的高速增长。 从服务器到边缘,再到AI手机、AI PC、AIoT、智能汽车,各个领域的AI芯片玩家都面临着新的...
阅读原文

寻找中国智算力量!2024年度中国AI生产力创新先锋企业榜,速来申报

欢迎报名或推荐优秀的中国智算集群解决方案提供商和AI芯片企业。 作者|ZeR0 编辑|漠影 2024年9月6日~7日,2024全球AI芯片峰会(GACS 2024)将在北京举行。本...
阅读原文

小扎自曝砸重金训Llama 4,24万块GPU齐发力!预计2025年发布

新智元报道编辑:桃子 【新智元导读】没想到,多模态Llama 4已经紧锣密鼓地开始训练中了。小扎表示,将投入Llama 3的十倍计算量训练模型,预计2025年发布。他...
阅读原文

缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

编译 | 核子可乐、Tina 埃隆·马斯克掌控的那几家公司——包括 SpaceX、特斯拉、xAI 乃至 X(原 Twitter)——都需要大量的 GPU,而且也都是为自己的特定 AI 或者...
阅读原文

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

西风 发自 凹非寺量子位 | 公众号 QbitAI每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首? 最近有人从Meta发布的92页超长Llama 3....
阅读原文