引言: 本文對網絡可用性及相關保障技術進行了分析,對單位專網拓撲、應用業務特點進行了梳理,最后結合實際規劃了專網高可用性網絡三層接入組網模型,并提出了具體設計思路。
可用度指可維修產品在規定的條件與時間內,維持其規定功能的能力,它綜合反映可靠性和維修性。HA(High Availablity,高可用性)日益成為網絡建設重要指標,對其參考衡量主要涉及可靠性和可維修性兩個方面。網絡可用性指標用A(Availability,可用度 )來表示,可靠性用MTBF(Mean Time Between Failure,平均無故障時間)來表示,可維修性用MTTR(Mean Time To Repair,平均修復時間)來表示。可用公式A=MTBF/(MTBF+MTTR)來表示,其中MTBF值越大,即可靠性越高,可用度越高。
為保證網絡高可用性,我們需要提高網絡可靠性,重點對網絡的四個部分進行評估和改進,分別是:網絡設計、底層設施、操作和維護、支持服務。其中網絡設計和底層設施我們在建設時首要重點考慮的部分。網絡設計最重要的體現就是網絡拓撲,其原則是核心、匯聚層進行最高的可用性保證;整體設計應保證關鍵硬件不應該出現單點故障;另外一個重點就是應當給出對重要區域的設備的帶外管理通路,通過單獨的管理網絡來對重要的設備進行訪問——當主要通路中斷時,能夠對設備進行診斷和進行故障修復工作,可以顯著地提高故障恢復工作的效率。
基于網絡設計和底層設施的高可用性保障技術主要有以下9個方面:
對節點設備進行硬件冗余,主要形式一般有雙機冗余、主控冗余、交換網冗余、單板熱插拔和電源風扇冗余等,硬件冗余可以在單個部件可靠性一定的情況下提高整個設備、節點可用性。
鏈路捆綁就是把多個屬性相同的物理鏈路捆綁在一起,邏輯當成一條鏈路。鏈路捆綁主要優勢在于:提供更高的鏈路帶寬;流量在各個鏈路間可實現負載分擔;鏈路間互為備份,這些都大大提高系統可用性。另外,利用跨單板、跨設備鏈路捆綁,事實提供了一定程度的單板、設備間備份功能,也較大程度提高了網絡可用性。
為了對設備的軟件系統中的某些錯誤進行修正,需要對設備軟件進行升級、更改。熱補丁技術可以在不影響系統、業務正常運行的情況下完成對設備軟件錯誤的修正,也就是對設備軟件的動態升級。
IRF(Intelligent Resilient Framework,智能彈性架構)是將多臺三層交換機互聯在一起形成一個邏輯交換實體的技術實現。其實它是一種增強的堆疊技術,除做到擴展端口、統一管理之外,在高可靠性、冗余備份方面比傳統堆疊有了很大提高,容許全局范圍內的跨設備鏈路聚合,提供全面鏈路級保護。同時IRF技術也實現了跨設備的三層路由冗余,支持多種單播路由協議、組播路由協議的分布式處理,真正實現了多種路由協議的熱備份技術。此外IRF技術也實現了二層協議在邏輯設備內分布式運行,提高了堆疊內各交換機的利用率和可靠性,減少了設備間的協議依賴關系。
環網就是把設備進行環形鏈接,因而提供了一定的鏈路冗余,具有很強的單點故障自愈能力。環網技術分單環和雙環兩種結構,較新的環網技術有:RPR(Resilent Packet Ring,彈性分組環)和RRPP(Rapid Ring Protection Protocol,快速環保護協議)。RPR沿襲了光傳輸SDH環型結構,屬于互逆雙環結構,它繼承了SDH的快速自愈能力,可以實現50ms的故障切換。RRPP組網采用單環結構,是一種專門應用于以太網環的鏈路層協議,它在以太網環中能夠防止數據環路引起的廣播風暴,以太網環上鏈路或設備故障時,能迅速切換到備份鏈路,保證業務快速恢復。與生成樹協議相比,RRPP協議具有算法簡單、拓撲收斂速度快、收斂時間與環網上節點數無關等優勢。
STP(Spanning Tree Protocol,生成樹協議)及Smart Link技術都是解決由于鏈路冗余而產生的二層環路問題的協議。其中STP可用于各種拓撲,缺點是收斂時間較慢,通常30秒,難以適應重要數據傳輸保障,RSTP(快速生成樹協議)相對于STP,大大加快了收斂時間,達到百毫秒級收斂速度。MSTP(多實例生成樹協議)的出現解決了冗余鏈路利用率低的問題。Smart Link則可以認為是特定組網情況下STP的替代技術。
為了解決局域網內主機靜態配置缺省網關而出現單點故障問題,可以采用網關冗余技術。通過多個物理網關虛擬出一個或多個虛擬網關,作為局域網主機的缺省網關,虛擬網關的轉發任務由選舉出來的某個物理網關承擔,如發生故障,則選舉出另外物理網關承擔虛擬網關的轉發任務。通過把局域網內主機的缺省網關配置成不同的虛擬網關,網關冗余技術還可實現流量的負載分擔。目前的虛擬網關技術主要有VRRP(Virtual Router Redundancy Protocol,虛擬路由冗余協議)、HSRP(Hot Standby Router Protocol,熱備份路由協議)和GLBP(Gateway Load Balancing Protocol,網關負載均衡協議),其中HSRP和GLBP是CISCO的私有技術。
通過冗余路由來提高網絡可用性是重要技術手段,當其中一條路徑發生故障時,流量可以切換到其他冗余路徑。冗余路由可以分為兩種情況,一種是等價路由,一種是非等價路由。ECMP(Equal Cost Multi Path,等價路由,等價多路徑),是各條路徑在互為備份的同時實現了負載分擔。非等價路徑情況下,只有最優路徑被啟用作報文轉發,次優路徑只有當最優路徑失效時才會被啟用。ECMP具有很好的收斂速度,使用ECMP來保障高可用性是重要及必要的選擇。

圖1 專網基本拓撲示意圖
為提高收斂速度,基于鏈路狀態類型的內部網關路由協議,如OSPF、ISIS等可采用以下方法,提高收斂速度:①提高鄰居故障檢測速度:快速Hello可以有效加快故障檢測速度,允許把Hello間隔設到最小50ms,來提高鄰居丟失檢查速度;②提高協議會話建立速度:在沒有冗余路徑的情況下,快速hello的另一個作用是可以提高OSPF和IS-IS鄰居關系的建立;③提高鏈路狀態數據庫的同步速度:提高鏈路狀態的同步速度,需要對鏈路變化快速反應,迅速生成新LSA并泛洪;④提高SPF計算效率:提高SPF計算效率,目前普遍采用iSPF(incremental SPF,增量最短路徑優先);⑤減少LSDB同步到SPF計算開始之間的時間間隔,可以通過適當調整SPF timer來實現。
快速檢測相鄰設備之間鏈路通信故障的速度很大程度上決定了網絡的收斂速 度。DLDP(Device Link Detection Protocol,鏈路檢測協議)協議的作用就檢測單向鏈路的存在狀態,它工作于二層,與物理層協同以監控鏈路狀態。另個鏈路檢測協議是BFD (Bidirectional Forwarding Detection,雙向轉發檢測協議)也是一個為上層控制協議提供通用的低開銷快速故障檢測的協議,上層控制協議利用BFD提供的服務來決定自己采取相應的重新路由等操作。
單位專用網絡基本拓撲基本呈星型,部分干線建有SDH環。典型呈以一、二級控制中心及外測通站的三層組成拓撲結構,如圖1所示。
單位專網主要功能是為實現測量站信息數據實時、可靠傳輸與中心站傳輸,業務應用主要采用組播形式進行傳送。
主要業務應用有:實時語音類(指揮、調度、勤務電話等)、實時圖像類(測量實況等)、實時數據類(測量、控制等)、事后數據類(測量等)。
其業務應用數據流特性如下:實時突發小數據流(語音);實時突發大數據流(控制數據);穩定小數據流(指揮顯示、時間統一);實時穩定大數據流(圖像、測量數據)。
數據流向為:多個外測通站向二級中心傳輸交互(圖像、測量、控制數據等);二級中心向一級中心、外測控站傳輸(語音、指揮顯示、時間統一等)。
隨著網絡規模逐年擴大,設備逐年增加,各接入設備IP化建設改造不斷深入,網絡業務應用在向更多、更大的實時穩定大數據流(測量數據)保障需求發展,給專網網絡性能、組播業務高可用性保障組織帶來巨大壓力。

圖2 高可用性網絡三層接入組網模型
網絡高可用性不但涉及到網絡架構、設備選型、協議選擇、業務規劃、網絡安全防護等技術問題,還受用戶現有網絡狀況、網絡投資預算、用戶管理水平等影響,所以在規劃和設計高可用性網絡的時候需要根據使用實際、網絡現狀,綜合考慮。
依據基本網絡拓撲,建議進行典型的三層結構組網模型和簡化了的二層扁平結構組網,嚴格定義各層功能模型;綜合使用各種故障檢測技術,實現網絡故障的快速檢測、上報;采用冗余設計,提供關鍵節點的冗余和鏈路冗余,并通過預留資源實現快速收斂;綜合考慮各種高可用性技術的應用部署,優化最佳收斂效果。高可用三層接入組網模型,如圖2示意。
接入層是邊緣設備、終端站和IP電話接入網絡的第一層。接入層交換機雙歸屬到兩個單獨的匯聚層交換機以實現冗余。若使用L3連接,則不會出現環路,所有上行鏈路都將有效轉發流量,并完成負載分擔。
健壯的接入層提供以下主要特性:
(1)使用冗余交換管理引擎和冗余電源獲得的系統級冗余,為關鍵用戶群提供高可用性
(2)使用冗余系統(GLBP、HSRP或VRRP的匯聚層交換機)的雙歸屬連接獲得的缺省網關冗余,支持在匯聚層的主備交換機間快速實現故障切換
(3)實施QoS為關鍵任務網絡流量分發優先級,從而盡量靠近網絡入口對流量進行分類和排隊
(4)鏈路匯聚高可用特性,提供更高的帶寬利用率,同時降低復雜性,匯聚的鏈路之間在故障發生時,正常鏈路可承擔起所有網絡流量
(5)安全服務,通過配置802.1x,端口安全性、DHCP偵聽、動態ARP檢查及IP源保護等工具來增加安全性,從而更有效地防止非法網絡訪問
在接入交換機上終結VLAN,從而針對最確定的高可用性網絡拓撲避免STP/RSTP的復雜計算和長時間收斂。如果避免了STP/RSTP,網絡的收斂是可預測、可限制的,并能夠進行可靠調試。在接入層就配置三層路由協議,可以把VLAN限制在接入端口上,從而限制了二層廣播域。與二層協議相比,接入層設備配置三層路由協議將具有更好的收斂性能,而且能夠充分使用連接鏈路進行負載分擔,提高鏈路利用效率。但接入層使用三層鏈路會增加路由設計的復雜性,而且每個三層接口都需要分配IP地址,增加了對IP地址的消耗。
匯聚來自接入層的節點,保護核心不受高密度對等關系的影響。另一個功能是創建故障邊界,在接入層發生故障時提供邏輯隔離點。負載平衡、服務質量(QoS)和易于設置等都是匯聚層的主要考慮因素。
使用相同冗余節點備份連接,實現最快速的收斂并避免黑洞產生。作為模塊化設計的分區匯聚核心,模塊內實現跨越多個接入層交換機的L2 VLAN和三層路由匯總,有利于達到最佳的OSPF收斂。當有VLAN跨越多個接入層交換機時,匯聚層設備間通過二層TRUNK鏈路連接,提供二層通路;當接入層設備沒有VLAN跨越或采用三層接入組網時,匯聚層設備間使用三層鏈路進行路由匯總,加快下層網絡故障時路由收斂速度。匯聚層作三層接入網關時,還可以通過VRRP/GLBP等協議實現網關的冗余備份和流量的負載分擔。
核心層設備作為網絡的骨干,需要能提供快速的數據交換和極高的永續性,從備份和負載分擔角度可選用雙核心或多核心;從單臺設備考慮,選用交換性能和可靠性極高的高端路由交換設備,支持雙主控、電源冗余、風扇冗余、分布式轉發等特性。并降低核心設備配置的復雜度,減少出現運行錯誤的幾率。
盡量在核心使用冗余的點到點互聯,這樣可產生最快速、最確定的收斂結果。將核心設計為只使用硬件加速業務的三層交換環境要優于二層的設計,因為在鏈路或節點故障時能提供更快的收斂速度、通過減少路由鄰接關系和網絡拓撲提高了可擴展性、通過等價多路徑提高帶寬利用率。
建設高可用性網絡,需要從網絡結構、安全、管理、優化等方面全盤綜合考慮。
在網絡規劃階段,需要細致分析用戶需求和業務模式,明確對網絡可用性影響最大的關鍵節點和鏈路。設計階段,需要合理規劃網絡結構,對關鍵節點和鏈路作充分的冗余設計,采用高可用性技術,并對網絡安全給予足夠的關注。在部署階段則需要關注設備軟硬件質量和鏈路質量。在維護階段,還需要利用合適的網絡管理工具持續對網絡業務流量進行分析,不斷優化網絡,提升網絡可用性水平;另外在進行軟硬件版本的升級和新業務部署時,需要事先詳細規劃,并制訂應急措施。