OpenAI提到,在客户感受到影响的“几分钟”内,公司就检测到了该问题;但由于必须绕过不堪重负的Kubernetes服务器,因此无法快速实施修复。
原标题:OpenAI 史上最长宕机:自研 K8s 成“拦路虎”,导致数小时无法修复
文章来源:AI前线
内容字数:11311字
OpenAI服务中断概述
根据Tina和核子可乐的报道,OpenAI旗下的ChatGPT、视频生成工具Sora及其开发者API于太平洋时间12月11日下午3点发生严重的服务中断。这一引发了广泛关注,尤其是在OpenAI最近频繁出现宕机的背景下。上个月,ChatGPT也曾因故障导致服务中断近半小时,影响超过19,000人。
经过
事发当天,OpenAI在下午3:12部署了一项新的遥测服务,旨在收集Kubernetes控制平面的详细指标。然而,这项服务的配置意外导致每个节点执行资源密集的Kubernetes API操作,最终使Kubernetes API服务器不堪重负,导致多个服务出现严重降级甚至不可用。最终,所有服务于下午7:38才恢复正常。
根本原因分析
OpenAI的报告指出,新的遥测服务在大规模集群中产生了大量Kubernetes API负载,导致控制平面失效。尽管在登台集群内进行了测试,但未能发现潜在问题。DNS缓存在故障初期起到了一定掩盖作用,延迟了问题的发现。
补救措施与时间线
在确认问题后,OpenAI迅速启动了多个工作流以恢复服务,包括缩小集群规模和阻止新的高资源请求。最终,经过多项措施的实施,恢复工作于晚上7:38完成。的时间线展示了从部署新服务到服务恢复的详细进程。
未来预防措施
为避免类似再次发生,OpenAI计划实施多项预防措施,包括改进登台发布机制、进行故障注入测试、确保应急访问Kubernetes控制平面、解耦Kubernetes数据平面与控制平面,以及加快恢复速度。这些措施旨在提高系统的可靠性和应对突发的能力。
总结
OpenAI对因本次给客户造成的影响表示深表歉意,承诺将致力于提高服务的可靠性,确保用户在使用其产品时能够获得更好的体验。此次再次提醒了技术公司在基础设施管理和服务可靠性方面的重要性。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。