AP
最終用戶數量的增長使現代企業面臨越來越大的網絡中斷風險一再加上有越來越多的業務在線上完成,因此這個問題的嚴重性達到前所未有的高度。
網絡中斷可能導致單位損失巨額資金和嚴重損害他們的名聲。西南航空和達美航空2016年夏天遇到的重大網絡中斷事故,就是很好的例子。西南航空的網絡中斷造成的公司損失達到5400萬美元,而達美航空則因為停電事故付出了1.5億美元的代價。
行業專家指出,這兩家航空公司—直在努力向他們的客戶交付更加先進的技術服務,這使他們面臨網絡問題帶來的風險。所有航線的旅客都會在線預計機票,然后希望通過手機接收他們的機票,這給訂票和出票系統及企業網絡帶來很大的壓力。
雖然這兩家航空公司所遇到的事件較為引人關注,但是網絡中斷并不是唯一可能遇到的問題。大多數其他行業的應用也一樣會面臨網絡壓力,而中斷問題可能并確實發生在許多類型的組織中—大銀行、電信運營商、云提供商和大學等。
網絡分析師指出,采用以下的標準最佳實踐方法,可以幫助組織降低網絡中斷的壓力。負責Enterprise Strategy Group網絡技術的分析師Dan Conde說:“在西南航空的案例中,有一臺路由器宕機了,這實際上是不應該發生的問題。”Conde指出,公司需要考慮核心基礎架構3至5年的更新周期,并且關注內置冗余性。
此外,他們應該利用支持網絡可見性的現代網絡管理工具。德克薩斯州奧斯丁的圣愛德華大學數字基礎架構副主管Roberto Dovalina指出,這正是他們團隊所做的事情。他和同事一起負責支持大約5,500名學生和1,200職員和員工。Dovalina說,他們在圣愛德華大學的數據中心部署了冗余核心路由器、防火墻和服務器機架,他們每隔3至5年就會更換一次設備。他們每隔5至7年會更換支持校園建筑的12臺路由器。通過部署冗余基礎架構,圣愛德華大學可以周期性將一些設備關閉半天,然后進行網絡測試。他們還在系統中開發了情報邏輯和腳本,這樣當核心路由器宕機時,他們就可以啟用1臺或2臺備用路由器,從而保證所有程序都不受到宕機的影響。
下面是ESG的Dan Conde提出的防止網絡中斷的9個步驟:
1)端到端地遵從這些最佳實踐。網絡最薄弱環節決定了網絡的強度。
2)從基礎做起。維護硬件,避開舊系統,運行診斷程序,配置合適電源和備用電源,運行電源系統壓力測試。
3)測試整個系統。切斷一些鏈路,測試故障恢復是否正確執行。如果沒有,則可能有配置問題。
4)盡可能使用路由器備用協議。—定要在不同路由器層次之間配置冗余鏈路——并且使用虛擬路由冗余協議(virtual Router Redundancy Protocol)或熱備路由協議(Hot Standby Router Protocol)等協議,從而使備用路由器能夠在主路由器出現問題時接管負載。
5)與ISP使用。部署來自網絡運營商的替代路徑。此外,購買足夠多的帶寬,從而保證備用路徑用完時,它們造成級聯故障。
6)使用更新的網絡管理工具。一直使用正確的網絡可見性和監控工具,包括分析和應用部署測試時期。這個部分至關重要,也是服務保證的關鍵——如果不發現問題,就不知道如何解決問題。
7)考慮應用層。要設計整個架構,使基礎架構與應用程序協調工作。不要強迫應用去適應已有的基礎架構—要先設計應用的架構,然后再設計基礎架構,使之符合應用需求。要整體地看待這兩個部分。
8)全面檢查。要檢查鏈路故障和設備故障。不要只關注成本,而忽視其他方面。
9)保持跟蹤。如果遇到故障,無論是在真實環境或是測試環境中,都要執行全面的事后分析。
Dovalina解釋說:“在網絡中斷之后修復網絡是很簡單且不需要花費很多的時間。但是將應用程序恢復回中斷之前的狀態則最耗費時間。因此,使用情報邏輯和腳本將應用程序自動恢復回之前狀態,我們就可以非常快速地將系統恢復回正常狀態。在一些設備宕機時,用戶幾乎感覺不到斷網的情況。”
根據Dimension Data的2016 Network Barometer報告,有37%的網絡服務意外事件都歸咎于人為錯誤,而其中有許多都與配置錯誤相關。組織正在采取措施糾正配置錯誤。Dovalina指出,在圣愛德華大學中,工程師需要審批所有的網絡配置變更。
企業網絡工程師Robert Lumsden指出,FidelityInformation Services在這個概念上做得更深人_步,它的每一個變更工單都需要經過全面同行審議。而且,在變更之前,工程師、內部客戶及其他干系人(如來自審計或銷售部門的員工)需要一起開始,這樣工程師才能完全解釋清楚變更內容,并且解答一些疑問。Lumsden說:“我們想要做的是評估出現瓿之后的風險。我們的格言中‘不能破壞任何東西。”
有一些可編程網絡技術的提倡者認為,它可以減少手工配置及人為引起錯誤可能性,從而可以將網絡中斷的風險降到最低。
思科企業網絡高級副總裁Jeff Reed說:“在過去20年,管理網絡—直沒有太大的變化。客戶告訴我們,他們的網絡工程師將80%的時間都投入到保持網絡的正常運行。許多的流程都基于人工的任務,而這些任務嚴重拖累頂級技術人員,使它們無法專注于支撐業務的關鍵應用程序。”
Reed指出,思科一直專注于在交換機使用更高效的設計,它可以幫助網絡工程師減少配置時間。Brocade通信系統公司、Pluribus Networks和BarefootNetworks等供應商也有可編程網絡技術。
Reed解釋說:“我們正在嘗試在交換機中加入更多的智能,從而使網絡工程師只需要處理高級策略。網絡工程師應該更關注于他們優先處理哪一些應用程序流量,而不是那些一成不變的網絡設計。”
當然,雖然更好更高效的交換機和路由器可以將網絡中斷的風險降到最低,但是網絡組織仍然需要注意Dovalina和Lumsden所推薦的最佳實踐。這種新型交換機可能流行更長時間并且能夠減少過載,但是網絡組織仍然需要刷新策略。而且,即使將大多數配置實現自動化,但是在出現異常情況時仍然需要監控它們。
最后,網絡組織仍將需要審視環境和選擇最適合未來發展趨勢的網絡伙伴。一些組織仍然部署內部數據中心,并目仍然堅持使用自己熟悉的技術和策略。但是,經濟因素可能促使許多企業至少將一部分數據中心遷移去云供應端環境,如亞馬遜Web服務和微軟Azure,這種方式要求有創新思考方式和開放網絡等新技術。