谷歌就長達數小時的雲服務宕機事件致歉併發布事故報告

谷歌就一起重大服務宕機事件致歉，該公司稱事故由近期多層級的缺陷更新所致。

公司於週五晚發佈事故報告，詳細說明週四發生的數小時服務中斷情況。全球超 70 項谷歌雲服務停止正常運行，導致 Cloudflare、OpenAI、Shopify 等數十家第三方服務癱瘓或受干擾，Gmail、谷歌日曆、谷歌雲端硬盤、谷歌 Meet 等第一方產品也出現故障。

“我們對此次宕機造成的影響深表歉意，” 谷歌在事故報告中寫道，“谷歌雲客戶及其用戶將業務託付給谷歌，我們會做得更好。我們不僅爲此次事件對客戶業務及其用戶造成的影響道歉，也爲系統信任受損致歉。我們承諾將做出改進，避免未來發生類似宕機。”

谷歌雲業務首席執行官托馬斯・庫裡安也於週四在 X 平臺（原推特）發帖提及此次宕機，稱 “對給客戶造成的干擾深感遺憾”。

事故報告顯示，谷歌於 5 月爲評估自動傳入請求的 “配額策略檢查” 添加了新功能，但該功能未立即在真實場景中測試。因此，系統無法正確處理新功能產生的數據（包括空白條目）。這些空白條目隨後被髮送至所有谷歌雲數據中心區域，引發系統崩潰。

據谷歌稱，工程師在 10 分鐘內定位了問題，但由於部分大型區域因崩潰出現過載，整個事件持續了 7 小時。

谷歌還提到，推出該功能時未使用 “功能標誌”—— 這是行業內日益普遍的做法，可通過緩慢部署新功能來降低問題發生時的影響。若使用功能標誌，本可在問題擴散前發現隱患。

展望未來，谷歌表示將調整架構，確保單一系統故障時其他系統仍能運行，避免連鎖崩潰。此外，公司將審計所有系統，並改進自動化和人工通信機制，“讓客戶儘快獲取應對問題所需的信息”。

本文源自金融界

相關資訊