鄧燁飛
(北京全路通信信號就設計院集團有限公司,北京 100070)
新基建貫穿智慧經濟時代,有力支撐國內經濟的長期穩定發展。近年來,云平臺成為鐵路行業新型通信基礎設施的重要組成部分,為智能鐵路的宏大目標提供數字底座。鐵路通信云通過將計算、存儲、網絡、應用運行平臺和軟件等資源集中起來形成共享的資源池,以可度量的方式按需動態分配相應資源,提供服務。
云化規模增擴,伴之而來的是對鐵路通信云的持續性、穩定性、可靠性需求的不斷提升,鐵路通信云不僅需要穩定可靠地運行,同時需要具備快速恢復能力——系統因不可抗力等原因停止工作時,數據業務仍能保持連續性。鐵路通信云對容災方案的需求從定時發起走向實時備份、從人工干預走向自動部署,已經成為一個研究重點。
容災是指在距離較遠的異址建立功能相同的系統,系統之間可以完成數據備份遷移和應用業務切換。當一方系統因意外停止工作時,另外一方系統可以完全恢復數據或接管功能,使該系統繼續正常運行,實現數據和業務的“連續性”。
根據系統的保護程度,容災系統分為數據級容災、應用級容災和業務級容災。數據級容災強調數據的備份和恢復,通過建立異地數據系統對本地系統關鍵數據實時/ 定時復制,保證數據不丟失;應用級容災在數據級容災的基礎上再復制應用處理能力,建立一套包括數據備份系統、備用數據處理系統和備用網絡系統等的備用支撐系統,提高業務連續性;業務級容災是最高級別的災備建設,在以上兩個等級的災備基礎上,還需要考慮到通信信息系統之外的業務因素,包括備用辦公場所和辦公人員等。
衡量容災系統的主要指標有:復原點目標(Recovery Point Objective,RPO),指當業務中斷時最后一次備份數據所對應時間點,體現了能容忍的最大數據丟失量;復原時間目標 (Recovery Time Objective,RTO) ,指能夠允許的服務中斷時間長度。如圖1 所示。

圖1 RPO和RTO指標定義Fig.1 RPO & RTO indicator definition
災備模式包括以下類型。
1)生產/災備中心(Active-Standby)
生產中心提供生產管理、運營維護等業務系統主用服務,災備中心提供冷備或者熱備服務,當生產中心出現故障時,可以切換至災備中心,這種模式技術方案復雜度較低,通過生產/災備中心的資源冗余部署來提高可靠可用性,兩個中心之間業務系統的部署范圍和層次存在差異,資源利用率和業務連續性較低。
2)雙活控制中心(Active-Active)
生產中心和災備中心同時運行所有的業務系統,其中一個中心發生故障時,另一個中心可持續提供服務。這種模式下同一業務流量根據策略均衡負載于兩個中心,技術方案復雜度較高,優點是能夠提供業務高連續性和高可用性,資源也可以得到充分的利用。
鐵路通信云與現有通信網絡相適應,結合中國國家鐵路集團有限公司(簡稱國鐵集團)-鐵路局集團公司-站段的組織模式,在不同層級遵循多云、分布式架構。根據鐵路通信業務特性要求,鐵路通信云設立業務云、網管云和監測云,分別承載通信類業務和支撐類業務。
鐵路通信云具有多云多域的特點,多云是指國鐵集團和各鐵路局集團公司采用統一的技術制式和建設標準分別建設通信云。“多域”是指鐵路通信云的業務云、監測云和網管云可以根據各自承載的業務類型和需求,建設物理隔離的資源池。鐵路通信云將采用云邊協同的架構,不同業務應用場景可集中部署于核心數據中心(Data Center,DC)或下沉至網絡邊緣DC。在站段級節點按需部署邊緣云,具有數據存儲和計算能力,滿足不同的轉發、存儲和時延等要求。
結合鐵路通信云的總體架構,其容災需求如下:
1)通信云為多云、分布式架構,不同業務在應用特征、資源部署、可靠性和云安全等方面有著差異性需求。容災方案需密切結合通信云架構及業務類型,采用分布式、多樣化的容災手段。
2)通信網元虛擬化上云,通信云的處理性能應適應通信業務的低時延要求,5G 核心網、調度通信系統等與行車安全密切相關的系統部署在通信云上,應滿足高可靠性要求,在容災切換時,需要網絡的不間斷傳輸來保證應用的連續性。
鐵路通信云分別設立業務云、網管云以及監測云。其中業務云的典型應用系統包括5G 核心網、多媒體調度、綜合視頻和會議電視等;監測云的典型應用系統包括電源及機房環境監控系統、光纜監測系統、接口監測系統、鐵塔監測系統、漏纜監測系統和數據網流量監測系統等;網管云的典型應用系統包括各系統的網管。
結合通信運營維護的障礙管理需求,評估通信各系統RTO 和RPO,可將鐵路通信的各業務系統分為核心業務、重要業務和一般業務。核心業務涉及鐵路運營生產,其狀態直接影響鐵路運行,障礙恢復時間為分鐘級;重要業務指鐵路運營生產的配套業務系統、影響日常運維的支撐類業務系統等;一般業務中斷發生后對鐵路運行或日常運維無影響。其容災等級劃分如表1 所示。

表1 容災等級劃分Tab.1 Classification of disaster recovery capability levels
鐵路通信云具有多云多域的特點,在此基礎上,依照關鍵通信類業務和支撐類業務在業務應用模型、流量帶寬需求、負荷分擔方式、網絡調度能力和系統安全可靠性等方面的差異性,可靈活選擇不同的容災方式。
鐵路通信云可以采用“兩地三中心”的災備模式,即同城雙活中心加異地災備中心。架構如圖2 所示。

圖2 鐵路通信云“兩地三中心”架構Fig.2 The “two places and three centers” system architecture of railway communication cloud
同城雙活中心考慮業務云上的5G-R、多媒體調度通信、會議系統等障礙恢復時間為分鐘級的業務系統,特別是5G-R、多媒體調度通信與行車安全密切相關,實現業務級容災。雙活中心可按照國鐵集團和各鐵路局集團公司要求分別異地設置。考慮到站點間的監測、業務會話同步確認等的網絡延遲數,加上數據同步雙寫的光纖/傳輸鏈路延遲,都或多或少會影響整體業務的處理性能,距離越遠影響越明顯。因此同城雙活中心與主中心相距30 ~100 km 以內,同時也可以有效避免同址供電和小型地質災害帶來的不利影響。
異地災備中心考慮業務云上的綜合視頻監控系統和應急通信系統的災備,實現應用級容災,可按照國鐵集團和各鐵路局集團公司需求分別設置;考慮網管云、監測云的災備,實現應用級容災或數據級容災,設置地點可按照國鐵集團和各鐵路局集團公司需求分別設置,或根據維護單位設置及管理監測范圍跨路局集中設置。異地災備中心與主中心相距300 km 以上,不屬于同一個電網、同一江河流域及地震帶,有效避免大型地質災害影響。
“兩地三中心”兼顧災難備份和高可用能力,差別性制定容災備份策略,既滿足實際需求,也可以避免過度保護。
鐵路通信云采用云邊協同的架構,這一架構不僅結合了鐵路通信特有的線型廣域分布特性,同時也更為貼合鐵路下一代通信在本地側對“高速率、大帶寬、低時延”的傳輸需求。
邊緣云的災備方式目前主要采用中心云和邊緣云的容災備份,邊緣云與中心云互為災備,來確保數據的可用性和安全性。在這種傳統結構中,當光纖/傳輸鏈路過長或者跨站點讀寫頻率過高時,會存在數據延時,無法及時災備的風險。這種情況下,可在相鄰兩處邊緣云設置災備端,進行異地容災備份,快速實現邊邊數據安全備份,節省云端傳輸時間及長途鏈路的帶寬資源,實現分布式架構云平臺的高可靠性。
通信云兩地三中心及中心至邊緣云之間需要敏捷彈性的自動化、智能化網絡,以保證端到端的業務快速無阻塞轉發。其數據鏈路作為通訊介質,在要求高可用性和冗余度的同時,還需要保證通訊質量。
目前可充分利用既有光纜、光傳送網(Optical Transport Network,OTN)承載網等資源,配置冗余且相互獨立的物理隔離通道,在某一中心故障時實現快速切換。也可采用數據傳輸鏈路與集群心跳鏈路相分離的設置,提高可靠性。隨著鐵路通信網絡智能化升級,云網協同不斷推進及深化應用。未來可采用以軟件定義廣域網(Software-Defined Wide Area Network,SD-WAN)與基于IPv6 轉發平面的段路由(Segment Routing over IPv6,SRv6)為代表的智能化網絡隧道技術,傳送鏈路靈活可調度,網絡連接彈性且安全,從而實時高效地獲得網絡資源信息,實現動態的管理和快速的部署。
雙活控制中心的建立會帶來新的問題——腦裂現象,即雙中心一體化的業務系統在業務中斷或者響應時間高時,會分裂成兩個獨立的控制中心。腦裂現象導致兩個控制中心內的應用、數據庫或者操作系統同時搶占共享資源,造成數據不一致,產生重大影響。因此需要到位的監測技術,在國鐵集團和各鐵路局集團公司部署監管平臺,有效監測鏈路質量參數(如光衰、抖動和帶寬等)、雙活中心操作系統、應用和數據庫的超時參數等,及時做出合理決策,解決問題。
雙活控制中心提升了冗余的容災解決方案。本地硬件冗余方案升級為跨站點建設,無形中在系統架構中增添了不穩定的因素,降低了整體業務平臺的可靠性。因此需要應用虛擬化安全、數據安全隔離和加密、安全中間件、數據備份與恢復等云計算安全關鍵技術,建立監管范圍更大、力度更強的云安全管理。識別兩地三中心重要資產的安全狀態,對硬件設備、操作應用系統、網絡的安全機制集中管控、協同防護。
國鐵集團積極推進云計算等新一代信息技術與鐵路通信系統的深度融合。鐵路通信云是信息技術(Information Technology,IT)和通信技術(Communication Technology,CT)相融合的新架構,通信云的災備方案也有著其獨有的特性和模式。容災方案是在網元虛擬化后,對網絡安全可靠性的探索,是鐵路通信云具備快速恢復能力,實現業務連續性和高可靠可用性的有效抓手。目前,鐵路通信云仍處于起步階段,鐵路通信云的容災方案是一項長期、復雜的系統工程,需要從技術實現、經濟成本、運營模式多個方面綜合考慮,建設過程循序漸進而非一蹴而就。隨著相關標準的建立及容災技術的發展,后續仍需進一步的研究。