數據中心故障頻出：都是網絡惹的禍？

2019-04-25 05:29:38AnnBednarz

計算機世界 2019年14期

Ann Bednarz

隨著企業計算環境變得越來越復雜，IT系統故障和網絡錯誤正導致越來越多的數據中心出現運行中斷，造成了大量的意外宕機事件。

電源故障是導致數據中心運行中斷的常見原因，但它們并不是唯一的罪魁禍首。隨著企業計算環境變得越來越復雜，IT系統和網絡故障正在導致越來越多的數據中心宕機。

數據中心設施咨詢機構Uptime Institute的主要業務為提供彈性服務，為建立和運行數據中心提供建議以及認證服務。該公司一直在研究公開發表的宕機報道，以追蹤導致意外停機的原因。過去三年中，他們已經從傳統媒體或社交媒體上報道出來的162次宕機報告中篩選出了一些信息。可用的數據在這三年內不斷增加，研究人員收集到了2016年27次宕機、2017年57次宕機以及2018年78次宕機的數據。

Uptime Institute的研究執行董事Andy Lawrence表示：“曝光出來的宕機事故成為新聞的次數正變得越來越多。”

在研究結果公布的同時，Lawrence指出，目前他們正記錄著全球每天發生的幾乎所有的重大運行中斷事件。雖然這并不一定意味著運行中斷的次數在急劇增加，但是宕機時間正在受到越來越多的關注。“我們很清楚，運行中斷產生的影響肯定會增加。”

Uptime Institute的一個重要研究發現是，電源在整個故障中影響較小，但網絡和IT系統的影響則較為深遠。導致變化的一個原因是電力系統比過去更加可靠，這減少了本地數據中心發生電力故障的次數。

技術行業在過去二十年中一直專注于如何設計電力系統，即使電力系統某處出現故障或整個系統發生故障，IT資產也能繼續運行。Uptime Institute首席技術官Chris Brown稱：“供應雙線IT設備的2N配電系統的出現使得IT系統能夠在經歷一系列獨立事件和事故后仍能繼續保持運行。”

同時，日益復雜的IT環境導致了更多的IT和網絡問題。Uptime Institute負責IT優化和戰略的副總裁Todd Traver稱：“數據現在分布在多個地方，這些數據極為依賴網絡。應用程序的構建以及數據庫的復制同樣也非常依賴網絡。這是一個非常復雜的系統。”

對數據中心運行中斷的嚴重性的評估

為了區分可能導致業務崩潰的運行中斷和僅僅造成不便的運行中斷，Uptime Institute對此進行了分級。該評級系統可讓研究人員了解運行中斷的整體情況是如何隨時間而變化的。Uptime Institute的評估分為五個等級：

1級為可忽略不計的中斷。該級別的中斷會被記錄下來，但是對服務的影響很小或沒有明顯影響，也沒有出現服務中斷。

2級的特點為最低程度的服務中斷。服務出現中斷，但對用戶、客戶或聲譽的影響微乎其微。

3級為重要業務發生服務中斷，涉及客戶或用戶服務，主要特點是范圍、持續時間或影響有限。對財務的影響輕微甚至沒有，但是會產生一些聲譽或合規方面的影響。

4級為嚴重的業務或服務中斷，涉及服務和/或操作。波及面包括財務損失、數據泄露、聲譽損害并可能出現安全問題。可能會導致客戶損失。

5級為關鍵業務或任務出現中斷，包括服務和/或運營出現重大和破壞性中斷。可能會造成重大財務損失、安全問題、數據泄露、客戶損失和名譽損失。

在分析了三年內所有公開的數據中心運行中斷（級別1到5）事件后，Uptime Institute發現IT系統和網絡問題已經超過了電源成為了主要原因（見圖）。

在逐年對原因進行比較后，這種趨勢會顯得尤為突出。2017年，電力是28%運行中斷事件的罪魁禍首。次年，僅有11%的運行中斷事件的主因為停電。與IT系統有關的故障則在這兩年中基本保持一致。其中，2017年32%的運行中斷事件的主因為系統故障，2018年這一比例為35%。網絡作為運行中斷的主要原因在顯著增長。其中，2017年19%的運行中斷事件被歸咎于網絡，2018年這一比例飆升到了32%。

Traver在談到2018年運行中斷事件數量大幅增長時指出，“這些事情之間的確是相互聯系的。這也就是為什么網絡中斷的大幅上升會導致運行中斷的原因所在。這些東西不是連接在一個或兩個站點上，而是連接在三個、四個站點，甚至更多的站點上。如今，網絡在IT彈性方面正發揮著越來越大的作用。

此外，隨著更多IT資源被移交給服務提供商，并且不再受使用它們的企業的直接控制，管理和操作也變得越來越復雜。Traver稱：“在2018年，三分之二的運行中斷事件與網絡和IT有關。這是在過去幾年中出現的一個重大變化。”

深入研究數據中心的宕機時間

Uptime Institute對導致數據中心運行中斷的具體原因進行了深入的研究。在網絡方面，導致運行中斷的常見原因包括：

連接數據中心的外部光纖被切斷，并且未充分選擇備份路由。

主要交換機間歇性故障，且未部署次要路由器。

主要交換機故障且沒有備份。

維護期間未正確配置流量。

路由器和軟件定義的網絡未正確配置。

無備用的單個組件（如交換機和路由器）發生斷電。

Traver指出，“錯誤配置的路由器和軟件定義的網絡是常見的網絡問題。這一問題應當可通過測試被檢測出來。”

當談到光纖被切斷問題時，Traver說，企業此時往往沒有意識到他們發生了單點故障。“企業可能有兩個獨立的服務提供商，但他們不知道，兩個提供商的光纖埋在同一個溝渠中。同時，企業也沒有對這一問題展開恰當的盡職調查。”

當IT為罪魁禍首時，造成運行中斷的主要原因如下：

對升級工作管理不善，對軟件級別測試不充分。

大型磁盤驅動器或存儲區域網絡發生故障并出現數據損壞。這可能是由硬件故障引起的，配置或編程錯誤讓問題雪上加霜。

負載平衡或流量管理系統中發生同步故障或程序錯誤。

未能對故障/同步或災難恢復系統進行正確的編程。

無備用的單個組件（如服務器或大型磁盤驅動器）發生斷電。

談到負載均衡/流量管理問題，Lawrence表示，在企業嘗試將IT資源部署的更為分散時，可能會出現程序錯誤和同步問題。Lawrence說：“減少對單一站點的依賴性通常是企業戰略的一部分，但是它們就像擠壓氣球一樣，問題突然出現在其他地方。”

Traver補充道，如果企業沒有認真規劃他們在所有平臺上的應用程序和數據，或是沒有展開經常性測試，那么這些問題就會發生。

當電源是罪魁禍首時，導致運行中斷的一些主要原因包括：

雷擊導致出現電涌和斷電。備份軟件/配置失敗。

轉換開關出現間歇性故障，導致無法啟動發電機，或轉移到第二個數據中心。

UPS故障和無法轉移到輔助系統。

操作錯誤，關閉或未正確配置電源。

公用電力斷電，隨后發生發電機或UPS故障。

電涌導致IT設備損壞。

IT設備未配備兩種互為備份的電源供給方式。

Brown稱，在以電源問題為主因的運行中斷事件中，所有具體原因大家都非常熟悉。“這些都是數據中心的工程師們幾十年來一直在努力解決的問題，即如何圍繞這些問題進行設計，以及如何利用他們的設計緩解這些問題。”

Traver表示，總的來說，企業需要更加關注數據中心的彈性。他說：“要知道自己的系統是如何設計的，充分理解各部分之間的關聯性。同時還要知道故障是如何發生的，以及故障發生后的應急預案。而我認為這一塊是缺失的。”

Lawrence總結道，“如今設備正越來越好，管理越來越出色，經驗也越來越豐富。整個行業正變得越來越成熟。但即便如此，運行中斷仍將是一個非常重要和代價高昂的問題。”

本文作者Ann Bednarz，主要負責為《網絡世界》采訪報道IT職業、外包和互聯網文化方面的新聞。

原文網址

https：//www.networkworld.com/article/3373646/network-problems-responsible-for-more-data-center-outages.html