甘從海,尚長順
GSM-R(GSM for Railways)系統是專門為鐵路通信設計的綜合專用數字移動通信系統。它主要提供無線列調、編組調車通信、區段養護維修作業通信、應急通信、隧道通信等語音通信功能,可為列車自動控制與檢測信息提供數據傳輸通道,并可提供列車自動尋址和旅客服務。
隨著鐵路建設規模的不斷擴大,鐵路通信的安全可靠性日趨重要。由于移動交換機在鐵路網絡中的特殊地位,它往往覆蓋較大范圍的多條線路,當出現重大災難情況時,如人為操作失誤、設備故障、自然災害等,移動交換機的故障可能會導致大范圍的業務中斷,嚴重影響多條鐵路線的運營安全。因此,核心網必須具備熱備份的容災(Disaster Tolerance)能力,以確保網絡的安全性和可靠性。
軟交換GSM-R 移動通信網與傳統GSM-R 移動通信網的主要區別在于軟交換GSM-R 核心網引入了控制和承載分離的軟交換架構,將傳統網絡中的MSC(移動交換中心)分離成MSC Server 和MGW(多媒體網關),其中MSC 服務器負責信令處理、路由和業務;MGW 負責媒體流處理。軟交換GSM-R 移動通信網絡組網示意圖略。
在給出容災的定義之前,有必要先給出災難的定義。從一個信息系統的角度講,一切引起系統非正常停機的事件都可以稱為災難。大致可以分為3種類型:(1)自然災害,包括地震、火災、洪水、雷電等;(2)設備故障,包括系統的CPU、硬盤等損壞,電源中斷以及網絡故障等;(3)人為操作破壞,包括誤操作、人為蓄意破壞等。
容災就是在上述災難發生時,在保證生產系統的數據盡量少丟失的情況下,保持系統的業務不間斷地運行。
現在工業界都以數據丟失量和系統恢復時間作為標準,對某個容災系統進行評價,公認的評價標準是RPO(Recovery Point Objective)和RTO(Recovery Time Objective)。
RPO:恢復點目標,以時間為單位,即在災難發生時,系統和數據必須恢復到的時間點要求。RPO 標志系統能夠容忍的最大數據丟失量。系統容忍丟失的數據量越小,RPO 的值越小。
RTO:恢復時間目標,以時間為單位,即在災難發生后,信息系統或業務功能從停止到必須恢復的時間要求。RTO 標志系統能夠容忍的服務停止的最長時間。系統服務的緊迫性要求越高,RTO的值越小。
傳統的GSM-R MSC 組網模式下,1 個BSC(基站控制器)只能和1 個MSC 相連,因此當1 個BSC到MSC 的話務擁塞并不能將擁塞的話務疏導到其他MSC 下,可能造成話務擁阻甚至癱機。
軟交換GSM-R MSC 容災采用MSC 雙歸屬方式。MSC 雙歸屬是指MGW 與一個以上的MSC Server 連接,平常注冊到一個MSC Server 上,當該MSC Server 故障后,MGW 會自動注冊到另外一個MSC Server 上。一個MSC Server 也可以控制多個MGW。不同的MSC Server 和MGW 可以放置在不同的地域,以實現異地容災備份。
MSC 雙歸屬可以采用以下3 種不同的模式:
(1)1+1 主備用模式。2 個MSC Server,一個承擔所有的業務,而另一個不承擔業務。數據備份鏈路用來實時同步主備MSC Server 之間的數據配置、用戶數據等。心跳鏈路用來檢測配對的MSC Server 是否正常,以便判斷是否倒換。
(2)1+1 負荷分擔模式。在該模式下,2 個MSC Server 各自都承擔部分業務。正常情況下,MGW1 注冊到MSC Server1,MGW2 注冊到MSC Server2,BSC1 連接到MSC Server1,BSC2 連接到MSC Server2。如果MSC Server1 故障,則業務按如下路徑進行處理:BSC1→MGW1→MSC Server2,BSC2→MGW2→MSC Server2。該方式下2 個MSC Server 應盡量異地安裝。
(3)N+1 備份模式。在該模式下,一個MSC Server 作為另外N 個MSC Server 的備份,這個備份MSC Server 平時不承擔業務,只有當另外N 個MSC Server 其中之一故障時,才承擔故障MSC Server 的業務。
在GSM-R 網絡中,由于網絡容量不大,目前開通的軟交換MSC 只采用了1+1 主備用方式。相比1+1 負荷分擔模式,該方式的優點是邏輯上只有一個MSC,減少了維護的復雜度,避免了MSC間的切換。缺點是抗自然災害能力差。
為了保證GSM-R 核心網的安全可靠,必須對其容災能力進行測試。在成都、太原、沈陽等鐵路局,對軟交換GSM-R MSC 核心網進行了不同項目的測試,具體方法如下:
(1)主用/備用MSC Server 數據同步測試。在主用MSC Server 新開一些測試中繼鏈路進行大話務量測試,通過人機命令進行MSC Server 切換,檢查備用MSC Server 數據與主用MSC Server 數據是否一致,記錄PRO。確認大話務量測試是否正常。
(2)1+1 主備用方式(MSC Server 故障)測試。采用軟件退出服務或強制斷電方式使主用的MSC Server 處于故障狀態,檢查正在進行的通話是否中斷,可否立即建立新的呼叫。從不能立即建立呼叫記錄到可建立呼叫的時間作為恢復時間目標RTO。
(3)1+1 負荷分擔方式(MSC Server 故障)測試。采用軟件退出服務或強制斷電方式使MSC Server1 處于故障狀態,檢查正在進行的通話是否中斷,可否立即建立新的呼叫。恢復MSC Server1,待從網管上確認系統恢復正常之后,再使MSC Server2 處于故障狀態,檢查正在進行的通話是否中斷,可否立即建立新的呼叫。該方式下應不影響立即建立新的呼叫,否則可判為未滿足 MSC SERVER 負荷分擔方式。
(4)MGW 負荷分擔測試。采用分別斷開MGW1 或MGW2 與MSC Server1 的鏈路,使其中的一個MGW 工作,進行各種呼叫撥測,如MS(移動臺)?MS,MS?FAS(鐵路調度系統)用戶,MS?PSTN(公共電話交換網)用戶,保證2 個MGW 單獨工作時均能進行各種呼叫。否則可判為未滿足MGW 負荷分擔方式。
在實際測試中發現有些設備主用/備用MSC Server 數據同步功能不完善,需要人工對2 個MSC Server 同時操作,若只對其中的一個MSC Server操作,就會造成數據不同步。1+1 主備用方式也會造成系統全局業務中斷數分鐘,在目前尚未實現不影響業務完成主/備MSC Server 倒換。