根據(jù)Azure的服務健康狀態(tài)表(上圖),受損最嚴重的就是基於美國中南部數(shù)據(jù)中心的各式服務,從API管理、應用程式閘道、App Service、自動化、適用於MySQL與PostgreSQL的Azure資料庫、Azure Cosmos DB、Azure監(jiān)視器、語言或機器學習服務或VSTS等都被波及。
盡管意外是發(fā)生在美國中南部的數(shù)據(jù)中心,但除了座落在當?shù)氐氖褂谜邿o法存取帳號之外,有監(jiān)於內(nèi)部架構(gòu)的相依性,大多數(shù)的美國客戶也無法使用發(fā)行管理(Release Management)功能,亦無法載入基於第三方工具的儀表板,所有區(qū)域的Mac Pools也都受到影響。
根據(jù)微軟的說法,數(shù)據(jù)中心的故障源自於一連串的骨牌效應,主要是因為美國中南部一個數(shù)據(jù)中心附近出現(xiàn)了包括雷擊在內(nèi)的惡劣天氣,造成電源的電壓突然升高,進而影響冷卻系統(tǒng),為了維護資料與硬體的完整性,數(shù)據(jù)中心啟動了關(guān)機的自動化程序,才會讓服務中斷。
冷卻系統(tǒng)為現(xiàn)代數(shù)據(jù)中心最關(guān)鍵的元素之一,因為它必須替密集容納數(shù)千臺伺服器的數(shù)據(jù)中心降溫,且大多數(shù)的云端服務供應商為了因應突然竄升的溫度時,都有自動關(guān)機程序的配置,只是在關(guān)機後也必須花一點時間重啟所有服務。
根據(jù)Azure目前的復原狀態(tài),微軟已經(jīng)重啟美國中南部數(shù)據(jù)中心的電源,也已恢復Azure Storage縮放單位的軟體負載平衡,目前仍在進行中的則是恢復對Azure Storage縮放單位的影響,以及恢復其它仰賴當?shù)谹zure Storage的各式服務。