标签:故障

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

哎呀,我们“挂了”!——这是能说的吗?| 直播预告

近年来,多家知名互联网公司遭遇的软件系统故障,导致服务中断、数据丢失,这不仅影响了用户体验,甚至给企业带来直接或间接的经济损失。这些事件促使整个行...
阅读原文

英伟达版B200A曝光!最强芯片架构Blackwell难产:产能不够,刀法来凑

梦晨 发自 凹非寺量子位 | 公众号 QbitAI英伟达最强芯片B200被迫推迟三个月,传闻闹的沸沸扬扬。 老黄的对策来了:阉割版芯片B200A曝光。 这难道就是“产能不...
阅读原文

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

西风 发自 凹非寺量子位 | 公众号 QbitAI每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首? 最近有人从Meta发布的92页超长Llama 3....
阅读原文

训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场!

整理 | 华卫 最近,Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战:该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行,在训练期间...
阅读原文

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

新智元报道编辑:庸庸 好困 【新智元导读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟...
阅读原文

微软蓝屏全球停摆,这个锅是ta的?一次更新酿成全球灾难

新智元报道编辑:Aeneas 好困 【新智元导读】周五下午,一次安全软件的更新,竟然引发了全球停摆。航班停飞,银行宕机,全球打工人摸鱼狂欢,我们亲眼见证了...
阅读原文

GPT、Claude、Perplexity等AI集体宕机,全球打工人崩溃了

夕小瑶科技说 原创作者 | 付奶茶就在昨天!一个看似平常的周三上午,三大顶尖AI居然集体罢工了! 首先,网友们发现OpenAI的ChatGPT崩了,接着Claude和Perplex...
阅读原文

专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法

新智元报道编辑:LRS 【新智元导读】针对大模型偶发脑回路故障难题,最新研究GlitchHunter收集了大量故障词元,并针对不同情况进行分类,极大改善了大模型的...
阅读原文

互联网大厂“组团”宕机,都怪降本增“笑”?

编辑|冬梅、邓邓、Tina当服务器宕机的那一刻,时间仿佛也停滞了。前不久,国际数据公司 IDC 发布了《中国公有云服务市场(2023 上半年)跟踪》报告。该报告...
阅读原文

互联网大厂宕机拼!网友:开“猿”节流,降本增“笑”?

夕小瑶科技说 整理编辑 | 谢年年、王二狗这都2023年了,AI大模型时代已经到来,按理说互联网基础设施应该很稳定了吧?然而并没有~就在前天晚上,#腾讯视频崩...
阅读原文

滴滴崩了一夜:这次的异常问题该由谁来“背锅”?

整理 | Tina 11 月 27 日深夜,上海、北京、广州等多地滴滴用户反馈,滴滴出行 App 无法使用,显示网络异常,地图无法加载,用户无法使用定位功能且无法打车...
阅读原文