新闻资讯-歌剧话剧

一个空指针,让谷歌云全球宕机13小时

发布时间:2025-06-23 05:33:07  浏览量:16

2025年6月12日,太平洋时间10点51分,谷歌云控制台突然变成红色海洋。从硅谷创业公司到跨国企业,所有调用谷歌API的服务开始集体报错503。这场景让人想起2017年AWS的S3存储宕机事件——当时半个互联网瘫痪,连智能咖啡机都停止工作。

故障的导火索是一行没有错误处理的代码。5月29日,谷歌云服务控制团队新增了配额策略检查功能,但这个功能既没有设置功能开关,也没写异常处理逻辑。6月12日的策略更新触发了空指针异常,直接导致全球服务控制二进制文件像多米诺骨牌一样连环崩溃。

宕机最严重的是us-central-1区域。这个承载全球30%流量的超级枢纽陷入“羊群效应——所有服务同时尝试重启,就像早高峰地铁站突然断电后的人群踩踏。由于系统缺乏随机指数退避机制(简单说就是失败后等待时间应该越来越长),崩溃循环持续了2小时40分钟。

谷歌SRE团队在25分钟内启用了“紧急停用按钮”。这个设计源自2022年Meta大宕机的教训,当时Meta工程师花了6小时才找到关闭故障系统的权限。但谷歌的恢复过程依然曲折,部分服务像接触不良的灯泡一样时好时坏,直到太平洋时间18点18分才完全稳定。

这次宕机暴露了云计算行业的通病。去年阿里云香港机房宕机48小时,根源也是单区域设计缺陷。微软Azure在2023年的故障则是因为全球流量调度系统过载。云计算厂商总说"多云架构"能降低风险,但大多数企业根本负担不起跨云部署的成本。

谷歌在事故报告里承认,他们的监控系统也成了故障的牺牲品。这就像火警报警器需要用电,但火灾先切断了电源。当健康检查API本身不可用时,工程师只能靠用户投诉来判断影响范围。这种情况在2016年腾讯云故障时同样出现过——当时连腾讯自家的微信都看不到故障通知。

谷歌承诺的改进方案包括模块化架构强制功能标志。简单说就是把核按钮锁进多层保险箱,每次发射前需要三个人同时转钥匙。但业内人士指出,真正难题在于平衡安全与速度——2024年亚马逊的统计显示,每增加一道审批流程,云服务新功能上线时间平均延长37天。

这次事件再次验证了“墨菲定律”。当代码可能出错时,它就一定会在最糟糕的时刻出错。不过比起2019年Cloudflare因CPU过载全球宕机,至少谷歌没把原因甩锅给"路由器配置错误"。这份直面技术债的态度,或许是他们能留住客户的根本原因。

现在压力来到其他云厂商这边。当谷歌公开所有技术细节后,如果AWS或Azure再发生同类事故,解释的难度会呈指数级上升。毕竟在云计算领域,透明度正在成为新的SLA(服务等级协议)。就像2009年Gmail宕机4小时让企业开始认真考虑备份方案,这次事件可能迫使整个行业重新审视全局熔断机制的设计。

标签: 谷歌 azure 宕机 太平洋时间 空指针
sitemap