孫兵



摘要:隨著IP網絡承載業務的不斷豐富,網絡接入業務高可靠性成為關鍵需求。為達到電信級可靠性要求,用戶接入網關設備高的可靠性保證成為關鍵。通過系統研究用戶網關電信級可靠性保證方案,包括端口級/單板級/設備級1+1、N+I、N+M備份方案,設計基于二層網絡的冗余檢測備份協議(L2SP)與用戶網關業務的熱備份機制,解決用戶典型接入協議(PPPOE/802.1X/DHCP)設備間用戶信息與業務狀態熱備份難題,使設備在一年的連續運行中因各種可能原因造成的停機維護時間少于5分鐘,達成網絡設備99.999%的高可用性目標。相較于傳統設備級不帶用戶業務熱備的可靠性方案,可靠性能力提升50%以上。
關鍵詞:IP網絡設備可靠性;L2SP;用戶業務熱備份;業務可靠性
DOI:10.11907/rjdk.201172開放科學(資源服務)標識碼(OSID):
中圖分類號:TP393文獻標識碼:A 文章編號:1672-7800(2020)006-0244-04
0 引言
隨著Internet業務和IP網絡技術的不斷發展,基于Internet網絡承載電信級業務成為IP網絡發展演進的必然趨勢。IP網絡可靠性、服務質量控制技術要求越來越嚴格,IP網絡電信級業務可靠性主要包括3個層面:設備可靠性、鏈路可靠性和網絡可靠性,其中鏈路可靠性和網絡可靠性技術日趨成熟,但IP設備級可靠性技術還不完善。目前行業標準IETF VRRP(Virtual Router Redundancy Protoc01)技術是基于OSI(Open System Intereonnect ReferenceModel)三層網絡協議的設備級冗余備份檢測技術,并且VRRP僅是設備主備狀態檢測和倒換觸發協議,并未系統地定義設備間業務狀態實時備份機制。實際IP網絡中匯聚層用戶接人網關設備(如運營商網絡邊緣業務路由器、BRAS/企業網絡用戶網關)所處位置較低,基于建網成本規劃考慮,用戶終端大多通過二層網絡接人至匯聚層用戶網關設備。因此本文基于OSI二層網絡研究新一代設備級冗余檢測備份技術,以填補業界空白。
現有相關研究主要分為3種類型:①設備可靠性模型研究。文獻進行了設備可靠性場景假設并給出了模型定義,但未針對電信級實際應用場景和承載的用戶業務跨設備間熱備給出方案設計和流程機制定義;②設備內模塊級可靠性研究。重點是制定模塊級備份機制和方案,如電源模塊、微波通信模塊、傳輸模塊等,局部硬件級備份是關鍵,包括電源模塊的N+I備份、硬盤磁盤陣列M+N備份,但不涉及整個IP通信設備級及承載的業務備份;③設備可靠性應用場景及業務備份案例研究。文獻提出的通用網絡設備可靠性備份場景考慮了OSI網絡分層的抽象備份,但未就電信級IP網絡設備承載的用戶業務(認證協議、地址分配協議等)、設備間業務級備份模型擴展及實際IP承載網場景提出可靠性方案。
1 相關技術
1.1 基于二層網絡的設備冗余檢測技術
本文研究基于二層網絡的設備冗余檢測協議(LaYer-2Standby Protocol,L2SP),實現用戶接入網關設備單板內端口間/設備內單板間/設備間的3級l+1、N+1、N+M冗余備份,管理控制用戶網關設備在二層接入網絡中相應冗余狀態聯動,包括主備倒換和回切。
1.2 用戶業務熱備份技術
IP網絡廣泛存在的PPPOE/DHCP/802.1X終端接人協議業務相關技術包括:
(1)DHCP用戶業務熱備份。通過二層冗余檢測技術L2SP觸發用戶網關設備單板間和設備間的DHCP用戶熱備份,關鍵是DHCP用戶信息設備間備份和同步更新機制,實現DHCP在線用戶冗余熱備,對DHCP用戶備份協議一致性檢測性能要求較高。
(2)PPPOE/802.1X用戶熱備份,即通過二層冗余檢測技術L2SP觸發用戶網關設備單板間和設備間的PPPOE/802.1X用戶熱備份。相對于DHCP用戶熱備份,該技術主要有兩個難點:首先PPPOE/802.1X用戶屬性可從AAA(Authentication,Authorization and Accounting)服務器動態下發,設備間熱備機制需考慮與AAA服務器鏈路聯動切換;其次PPPOE和802.1X會話以序列號進行標識,會話序列號由用戶網關設備自行分配,設備間熱備需考慮兩臺或多臺用戶網關設備的PPPOE或802.1X會話序列號可能沖突的問題。因此對于PPPOE/802.IX用戶接人,設備間用戶業務熱備在解決DHCP熱備問題的基礎上,還需解決上述兩個難題。
1.3 關鍵挑戰、技術創新點與技術難點
基于二層網絡的用戶網關設備級冗余檢測,在1+1冗余備份基礎上可擴展支持N+I、M+N冗余備份,填補國內外電信設備級可靠性空白,解決運營商或企業網用戶網關設備通過二層網絡接人用戶的高可靠性難題。
用戶網關常用業務和協議包括:用戶終端接人PPPOE或802.1x協議、用戶終端地址動態分配DHCP(v4/v6),用戶網關設備間熱備需實時備份802.1x/PPPOE/DHCP協議會話狀態,并解決備份過程中會話ID沖突的難題。
PPPOE/802.1X和DHCP用戶接人在網關設備內單板間倒換切換時間小于50ms,在網關設備間倒換切換時間小于200ms。
2 用戶網關設備高可靠性組網方案與技術流程
2.1 二層冗余備份檢測技術L2SP
用戶接入網關最基本的可靠性要求是設備內單板級與端口級冗余檢測和備份。例如對于Internet上網業務,為便于基于用戶會話的靈活計費策略(時長/流量計費、預付費等),電信網絡一般采用PPPOE接人方式(也可能是DHCP方式直接IP接人),用戶接人后,終端和用戶網關之間建立PPP或IP會話,如果用戶網關端口或單板發生故障,用戶將不能正常上網。
本文研究的二層冗余備份檢測協議(Layer-2StandbyProtocol,L2SP)可用于網關設備端口間備份方案,如果主端口發生故障,則用戶業務被切換到備份端口,保證用戶PPPOE和DHCP業務不中斷、不丟包。主端口和備份端口可不在網關設備的同一塊單板上,需實現設備內單板間的用戶業務狀態備份,保證用戶接人業務可靠性和組網靈活性。
L2SP基于二層網、采用二層組播協議承載用戶網關設備間冗余備份機制。對于VOIP和IPTV業務,為了實現“即插即用”,一般采用DHCP接人方式。用戶接入網絡后,終端和用戶網關之間建立IP會話(session)。如果網絡設備或鏈路由于發生故障而切換到新的網關設備上,此時用戶終端必須與新的網關設備建立會話。在這種情況下,用戶須重啟認證客戶端軟件才能恢復業務,用戶體驗較差。本文技術方案可有效改進用戶業務體驗問題,用戶網關設備上采用L2SP+BFD聯動,對用戶業務進行實時熱備份,一旦發生設備或鏈路故障,主備網關設備間會進行平滑切換,做到用戶零感知,并且借助于BFD檢測方式,保證故障檢測時間小于50ms,實現設備平滑切換。用戶網關設備L2SP+BFD方案要點如圖1所示。
2.2 用戶與業務熱備技術
用戶接入網關設備間的PPPOE/802.1X/DHCP用戶信息備份是實現用戶業務熱備的關鍵,考慮兩種用戶會話熱備份模式:積極(Active)和消極(Pasive)模式。
(1)積極模式。備用設備主動獲得與主用設備同步的用戶會話信息,立即更新建立自己的用戶會話信息;一旦主備切換事件發生,將根據已建立的用戶會話信息進行用戶接人業務處理。
(2)消極模式。備用設備獲得與主用設備同步的用戶會話信息并進行存儲,只有當主備切換事件發生時,根據L2SP協議切換模型,找不到轉發路徑的用戶報文將被發送至備用設備處理,若備用設備判斷是原故障主用設備的用戶報文,則將先前緩存的主用設備用戶信息更新到自己的會話信息表中,此后原故障設備所有用戶業務報文均可被備用設備接管處理。
積極模式可應用于1+1備份的環境中,備份設備能容納兩臺設備轉發表,主備切換時不會丟包;消極模式可用于N+l備份的環境中,一臺設備可作為多個設備備份,一旦主設備切換,新主用設備只會將發生故障設備轉發表下發至自己的數據轉發平面。
PPPOE/802.1X/DHCP用戶信息備份協議和備份機制的工作流程為:①用戶接入網關通過二層冗余協議L2SP協商檢測獲得主備狀態;②主設備通過用戶表項備份協議將PPPOE/802.1X/DHCP用戶信息備份到備用設備;③二層冗余檢測協議L2SP基于BFD進行減速檢測,以達到50+ms級故障檢測能力;④發現用戶網關設備或接人鏈路故障、啟動主備切換;⑤故障消除后進行按需回切用戶業務,同時備份用戶信息,故障恢復后用戶業務是否回切的策略可被預先配置。
在網關設備用戶熱備協議工作過程中,由于軟件異常、鏈路通信異常等問題,主設備上的用戶信息不可避免地會出現不一致,因此用戶信息設備間實時同步是用戶信息備份協議的重要組成部分,可靈活配置實時同步時間間隔。
對于PPPOE/802.1X用戶,如果會話ID由各網關設備自主分配,則可能使不同網關間會話ID沖突,導致用戶信息異常、影響用戶正常業務。這是用戶業務跨網關設備熱備份面臨的重大挑戰,需采用集中資源管理服務器對用戶與會話ID進行統一分配管理,各用戶網關不再自主分配會話ID,防止因用戶網關會話ID資源沖突造成PPPOE用戶熱備異常。
2.3 N+I與M+N備份擴展技術
在l+l冗余備份協議基礎上,研究擴展成N+1、M+N備份方法。
首先介紹N+1的方案。1臺備用設備與N臺主用設備分別建立L2SP二層冗余檢測關系,任何一臺主用設備出現故障,均會將其它業務切換到備用設備上,如圖3所示。
備用網關設備與各個主用網關分別進行L2SP+BFD協議檢測,任何一個主用網關設備或鏈路故障均會觸發倒換動作,使其用戶業務切換到備用網關上。
M+N冗余備份技術在N+I備份基礎上進行擴展,多個備份設備組成一個備份組(Standby Group),對多個主用設備進行備份。備份組通過算法給每個備份設備標識出優先級,高優先級備用設備與各個主用設備分別進行L2SP檢測,當主用設備出現故障時,備用設備立即接管其業務,此時該備份設備主動降低自己的優先級(如降低到最低值0),備份組中其它高優先級的備份設備會與剩下的各主用設備進行L2SP冗余檢測。
如果備份組中最后一個備用設備接管了故障主用設備業務,則不降低自己的優先級,繼續與其它主用設備進行L2SP冗余檢測和備份,該情況下對于備份組中最后一個備用設備,衍化為N+2備份模式。設備間M+N備份方案如圖4所示。
備份組中的最高優先級網關設備分別與各個主用網關進行L2SP+BFD協議檢測,任何一個主用網關設備或鏈路出現故障,均將其業務切換到備份組最高優先級網關設備上。備份組中各個網關間通過選舉算法確定最高優先級設備,由其對各主用網關進行L2SP+BFD檢測和用戶業務備份。
3 結語
隨著IP技術的飛速發展,各種增值業務在互聯網上廣泛應用,對IP網絡電信級可靠性提出了很高要求。由于大量用戶通過二層網絡接人到用戶網關設備,雖然業界利用以太OAM等技術解決鏈路可靠性問題,但接入網關設備級可靠性無法得到根本保證。本文L2SP協議填補了業界用戶接入網關設備的設備級二層冗余檢測協議空白,可將接人二層用戶網絡的用戶網關設備可用性提高至99.999%,相當于設備連續運行一年,因各種可能原因造成的停機維護時間少于5分鐘。按照一個中大型企業7000臺用戶接入網關計算,每年累計可節約因設備軟硬件故障導致用戶業務中斷時間233小時。由此可見,二層設備冗余檢測和用戶業務熱備技術可提高IP網絡接人可靠性,提升運營商和企業用戶滿意度,蘊藏著巨大商機。