谷歌就長達數小時的雲服務宕機事件致歉併發布事故報告
谷歌就一起重大服務宕機事件致歉,該公司稱事故由近期多層級的缺陷更新所致。
公司於週五晚發佈事故報告,詳細說明週四發生的數小時服務中斷情況。全球超 70 項谷歌雲服務停止正常運行,導致 Cloudflare、OpenAI、Shopify 等數十家第三方服務癱瘓或受干擾,Gmail、谷歌日曆、谷歌雲端硬盤、谷歌 Meet 等第一方產品也出現故障。
“我們對此次宕機造成的影響深表歉意,” 谷歌在事故報告中寫道,“谷歌雲客戶及其用戶將業務託付給谷歌,我們會做得更好。我們不僅爲此次事件對客戶業務及其用戶造成的影響道歉,也爲系統信任受損致歉。我們承諾將做出改進,避免未來發生類似宕機。”
谷歌雲業務首席執行官托馬斯・庫裡安也於週四在 X 平臺(原推特)發帖提及此次宕機,稱 “對給客戶造成的干擾深感遺憾”。
事故報告顯示,谷歌於 5 月爲評估自動傳入請求的 “配額策略檢查” 添加了新功能,但該功能未立即在真實場景中測試。因此,系統無法正確處理新功能產生的數據(包括空白條目)。這些空白條目隨後被髮送至所有谷歌雲數據中心區域,引發系統崩潰。
據谷歌稱,工程師在 10 分鐘內定位了問題,但由於部分大型區域因崩潰出現過載,整個事件持續了 7 小時。
谷歌還提到,推出該功能時未使用 “功能標誌”—— 這是行業內日益普遍的做法,可通過緩慢部署新功能來降低問題發生時的影響。若使用功能標誌,本可在問題擴散前發現隱患。
展望未來,谷歌表示將調整架構,確保單一系統故障時其他系統仍能運行,避免連鎖崩潰。此外,公司將審計所有系統,並改進自動化和人工通信機制,“讓客戶儘快獲取應對問題所需的信息”。
本文源自金融界