OpenAI遭遇了史上最长的服务中断,旗下AI聊天机器人平台ChatGPT、视频生成工具Sora和面向开发人员的API服务均受到影响。这次中断从12月11日下午3点17分左右开始,持续了数小时,直至晚上7点38分服务才完全恢复。问题源于新部署的用于收集Kubernetes指标的监控服务,该服务配置不当导致资源密集型API操作过多,使得Kubernetes API服务器不堪重负,进而导致控制平面瘫痪。由于DNS依赖于控制平面,服务间的通信受到了影响。
OpenAI迅速承认问题并开始修复,但由于必须绕过不堪重负的Kubernetes服务器,修复工作无法迅速进行。作为应对措施,OpenAI计划改进登台发布流程、加强基础设施变化的监控,并确保工程师在任何情况下都能访问Kubernetes API服务器。
这次宕机事件凸显了人们对AI工具依赖程度的加深,同时也暴露了OpenAI在基础设施和稳定性方面的挑战。
网友:ai解决不了ai的问题么[doge]