許文淵
(中國鐵路上海局集團有限公司上海通信段,上海 200434)
SDH網協議路數SDH網絡中的嵌入控制信道(Embedded Control Channel,ECC)是傳送操作、管理和維護(OAMP)信息的邏輯信道。隨著鐵路各類業務需求的高速增長、不同鐵路線路的業務互聯互通,作為承載網的傳輸網網元數已經高達400~500個,SDH網絡的ECC需要管理的網元越來越多,極易導致巨型ECC網絡問題影響傳輸系統穩定性和業務的安全性。通過研究分析ECC原理、巨型ECC網絡對傳輸網絡造成的影響,提出巨型ECC網絡分割方法來解決ECC網絡風暴的問題。
SDH網絡的操作維護管理(Operation Administration and Maintenance,OAM)功能具有高度自動化水平,能根據用戶需求利用網管終端完成對管理網元的命令下發及數據查詢工作,完成準同步數字體系(PDH)系統所無法完成的業務實時調配、告警故障定位、性能在線測試等功能。鐵路SDH傳輸系統常見的網元管理組網示意如圖1所示。當SDH傳輸網管在對網元進行維護時,至少需一個網關網元(GNE1)與網管服務器進行通信(網線直連,通過TCP/IP協議),非網關網元(NE2-NE4)通過ECC與網關網元連接,進而實現與網管間的數據信息傳輸,從而實現網管對整個網絡的OAM。

圖1 網管、網關網元、網元通信關系管理組網Fig.1 Network management, gateway network element,network element communication relationship management networking
在鐵路傳輸系統中存在大量的區間點對點業務,主要為信號CTC、供電SCADA、FAS、應急、防災等業務。目前客專線傳輸系統主流保護方式為二纖雙向復用段保護環,它不僅最適用于上述分散型業務組網,同時能有效提高傳輸系統通道利用率、節約投資,如圖2所示。

圖2 某客專線傳輸系統組網示意圖Fig.2 Schematic diagram of transmission system networking of a passenger dedicated line
1)隨著鐵路傳輸網網絡規模的不斷擴大,一個傳輸網絡內ECC互通的傳輸網元數量多達400~500多個,隨著更多的網元入網,傳輸設備支持的DCC路數越來越多,如華為公司的OSN7500可支持達到160路DCC路數。無論網絡多大,ECC都能互通,通過ECC可以支持對更多網元的管理。當網關網元ECC互聯網超過一定數量的子網(為保證ECC網絡的正常性能,通常建議單個ECC子網的網元數量需不高于50個,保證基本可用需不高于64個),就可以稱為巨型ECC網絡。
2)由于管理DCN本質上是個星形網絡,其帶內帶寬最大為768 kbit/s,且不可擴展。當某個傳輸系統網元規模過于龐大,此時網絡管理DCN的拓撲也會相應變大,對網絡的路由計算速度會造成較大影響;同時,因網絡的變化造成路由廣播信息不停的在全網范圍內廣播,使得路由不斷重算,再加上網絡中每個網元的路由表收斂時間差距,就影響了管理DCN拓撲的穩定性,而且因組網規模過大,在網絡故障時因傳輸距離、告警數量導致管理DCN數據流量擴大,進而造成網絡擁塞。由于在DCN網絡中傳送的數據包是有生命期的(缺省為63),當該網絡路由因故發生變化時,數據包在傳送過程中有可能造成傳輸路徑不斷變化,如由較多網元組成的傳輸環或鏈型網絡一旦出現斷纖,相關數據包極有可能因經過較長路由使得在達到目標網元前出現丟失。在一個大型網絡某個網元脫網的路由信息廣播到整個網絡需經過一定時間,但當信息傳達到整個網絡時,可能該脫網網元又恢復可達或者該網絡其他網元又脫網了,進而造成整個網絡不停振蕩。
巨型ECC網絡易導致主機異常復位。網元主控板的內存容量是固定的,當網絡中的網元過多時,ECC網絡路由表的數據流量依然很大,當網絡發生任何變動時,會導致主控板的短期內接收到的待處理網絡信息達到峰值,嚴重時會造成主控板的異常復位。因為SNCP和TPS的倒換機制在交叉板,因此主控板復位時,這兩類保護無影響。但對于復用段保護倒換,由于倒換協議下發至交叉板完成,對設備不影響,但在主控板復位后會觸發主控板倒換,將造成網元配置下發或數據下載失敗。
巨型ECC網絡導致網元脫管。傳輸網管以每分鐘為周期向所有網元發送監視信號,若連續2次無法收到傳輸設備的返回值時,邏輯上便認定該網元的連接中斷。因此當第一次連接報文通信異常時,第二次的報文有一點時間上的延時,傳輸網管大概率就會做出傳輸設備脫管的判斷,當同一網絡內的ECC過量時,就會容易導致傳輸設備的脫管現象,直到傳輸設備再連續兩次與傳輸網管的通信正常后,脫管故障恢復,因每臺傳輸設備與網管間的跳接點長度不一,會造成傳輸設備恢復的時間和頻率也不一樣。
巨型ECC網絡的路由穩定性差。D1-D3字節的速率為固定的192 kbit/s,在所有網元開啟性能監控已經占用部分通信帶寬的情況下,當網絡變化時路由廣播信息需要在網絡中不斷廣播、不斷反復計從而算造成ECC路由不穩定。在一個大型網絡某個網元脫網的路由信息廣播到整個網絡需經過一定的時間,但當信息傳達到整個網絡時可能該脫網網元又恢復可達或者該網絡其他網元又脫網了,進而造成整個網絡不停的振蕩,期間又增加了網絡的通信量。針對華為設備的ECC收斂時間測試結果如表1所示。
通過對巨型ECC網絡進行切割優化,將一個大的ECC子網絡(管理網元數量超過400個及以上)劃分為多個小的ECC子網,并且關閉各個小的ECC子網之間互聯互通端口的ECC,把路由信息和數據限制在某個子網內傳播,不會擴散影響到其他網絡。通過合理規劃ECC子網組網,可有效避免因ECC網絡過大造成的傳輸網網絡不能正常監控和管理通道堵塞問題。
通過增加SDH網絡中網關網元的數量,將原有的大網劃分成不同的小子網,實現巨型ECC網絡分割。每個子網內建議同時設置主備用兩個網管網元,保障在ECC子網分割后的非網關網元與網關網元之間可達。這樣由于網關網元數量的增多,與網管進行DCN連接的帶寬將大大增加,每個子網內的網元都有足夠的帶寬與網管直接通信,不僅可以減少網絡維護開銷,提高整個網絡的管理水平,還能增強ECC通信網絡的穩定性。
巨型ECC網絡的分割原則:一是要保證網絡出現異常情況時,網管仍能和分割前一樣可管理所有傳輸網元,避免影響維護;二是每個ECC子網內的傳輸網元數量不能超過建議的數量范圍;三是完成ECC子網分割優化后,按分層、分域的管理原則,網絡上任何一處斷纖或其他異常情況,應確保數據包在到達目的網元前不被丟棄或消失,確保能夠達到分割前的ECC路由恢復(保護)能力。
如圖3所示,SNCP的保護方式為“首端雙發、末端選收”,正常工作狀態下,NEA到NEB的業務在NEA設備側表現為雙發,分別經過子網1(工作通道)和子網2(保護通道),同時到達NEB,NEB優先監測工作通道是否正常,若正常則從工作通道收取NEA的業務,即可完成NEA至NEB之間的業務通信。如果子網1工作通道發生中斷,NEB在監測到子網1工作通道不通后,NEB倒換從子網2的保護通道收取NEA的業務,實現正常通信,待子網1工作通道正常后,NEB再次倒換至子網1的工作通道進行通信。通過分析SNCP子網連接的保護方式可知,業務倒換的功能實現主要在起始點和終結點實現,與子網內的其他網元主要提供業務即可,無需參與倒換過程,因此即使將起始點和終結點分割在不同的ECC子網內,也不會對SNCP保護造成任何影響。
MSP復用段環的保護方式相比SNCP較復雜一些,但因其多用于分布式業務,在目前客專線傳輸系統組網中應用廣泛,MSP環的保護方式將兩個網元之間的光纖時隙資源一分為二,前一半時隙為工作,后一半時隙為保護,如圖4所示,NEA至NEC的業務經過S1工作時隙,經過NEB達到NEC,如果A-B之間光纜中斷,NEA和NEB的保護狀態由正常狀態變為倒換狀態,NED和NEC的保護狀態由正常狀態變為穿通狀態,相對應的NEA至NEC的業務將經過NED-NEC-NEB后到達NEC,在經過NED-NEC-NEB區段使用的是后一半的保護時隙,從倒換原理看,業務倒換時需要環內的所有網元共同參與才可以完成。而通過APS協議控制環內的網元在發生倒換時,需要利用APS協議,由APS協議來給一個環網內的各個網元起名字后統一管理,APS協議信息由K1、K2攜帶,目的節點標識碼(5~8 bit)。由于只有4 bit,因此一個復用段保護環上的網元數最多不能超過16個,環上網元號最小的節點編號為0,按照東發西收方向逐一為1、2、3……14、15,環網內每個網元都有對應的數字編號,當發生倒換時APS協議將指揮各個網元各司其職。ECC分割需要關斷網元間的DCC通道,關閉后兩個網元之間將無法互通,對MSP的保護倒換。
如圖5所示,按照客專線傳輸系統組網情況,將整個系統分割為黃色和紅色兩個ECC子網,子網與子網之間不可通信,分別由各自的網關網元與網管進行通信,此時原環網B-C-D-E-F因子網劃分,將網元B分離出環網,為了保障D-E之間的光纜中斷后,E-F網元也可與網管正常通信,需要在網元B設置DCC透傳,實現網元C直接與網元F進行通信。對于B-C-D-E-F環網來說,由于網元B設置了DCC穿通,該環網實際通信可達的網元變為C-D-E-F,網元B將不可達,ECC分割后對MSP環保護是否會產生影響。

圖4 二纖雙向復用段保護環(MSP)連接工作與保護示意圖Fig.4 Schematic diagram of connection and protection of two-fiber bidirectional multiplex section protection ring (MSP)

圖5 ECC分割示意圖Fig.5 ECC segmentation diagram
APS協議使用的是K1、K2字節,DCC通信使用的是D1-D3字節,K字節和D字節雖同屬于復用段開銷,但D字節用于網元網管之間、網元和網元之間OAM信息通路,K字節用于傳送自動保護倒換信令,使網絡具備自愈功能,相互之間沒有關聯,是不同的開銷字節,關閉D字節不會影響K字節的功能,反之亦然。因此針對圖5中巨型ECC網絡分割后,網元B設置的DCC穿通,雖然會造成同一MSP環內個別網元的DCC通信不可達,但不會影響APS協議中K字節的傳送,對MSP環網的保護沒有影響。
隨著鐵路行業逐漸發展,傳輸網絡的子網將會越來越大,巨型ECC網絡的影響和對網絡的危害,迫使需要進行ECC子網分割,劃分成多個小的ECC子網,以提高網絡整體運行安全性,本文對SNCP保護和MSP保護兩種情形的ECC分割方案進行分析,對巨型ECC網絡執行DCC通道關斷的方式可以實現巨網ECC的分割,以滿足當前鐵路客專的組網保護方式。此方案在京滬高鐵上海局管段已實施ECC子網分割,取得了較好效果。