馬廷博 王偉
(中車青島四方機車車輛股份有限公司,山東青島 266111)
國內各地的系統運維工作,大部分還是依靠定期與預防式檢修,此過程需消耗諸多資源投入,而且檢修結果也僅能依托于技術員與行為管理規范。一旦技術員與某個操作步驟出現失誤,反而會使地鐵設施發生故障。
地鐵實施運維的根本意圖是保障列車安全、平穩、高效地運營。安全方面是讓系統處于可控的運轉工況下,保證乘客、工作者的安全,設施完備無損。而高效方面則要求系統在基本運營效率的情況下,投入的成本及資源趨近于合理,滿足地鐵交通的服務需要。其屬于設施資產密集類的產業,涉及大量的設施與專業。
國內地鐵軌道交通正在全面發展中,交通網絡不斷完善,而在乘客分布不均、設施結構多元化、客流量不斷增加等客觀現象中,對于設施的可用性有更高標準。而大規模地運營與復雜設施體系、改造升級項目,加重相關運維工作的壓力。如今,國內現已開通的地鐵運維工作,還是會采取常規的運維方式,其特征表現在:預防及事后修理較多,缺乏預測修理;應用技術員作業,運維效率不佳;工作數據精細化及頻率均有缺陷;大數據系統及智能化的落實深度不足等。比如,某地鐵在2016年,專業列車日檢達到18萬余次;均衡修超過6千次;架大修有150多次。這種狀態持續到2020年,其每年日檢會達到40萬次;均衡修超1萬次;架大修有700次左右。對于地鐵列車的內部維修方法也大多運用人工檢測,相應的檢修工具、自動化水平等都會引起檢查結果的波動。而新建與改造的工程,會應用最新科技,和已有設施可能并不匹配。而在網絡化建設的趨勢下,軌道交通也進行相應的嘗試,提升運維工作效果。如綜合監測系統、故障預警系統等[1]。
(1)環網接入部分。系統服務器直接連接交換機,其配備雙網卡的綁定功能,分成主網卡與備網卡,各自連接到主交換機與備用交換機上。系統平常工作運行中,主網卡發揮作用,保持較為活躍的工作狀態,而備用網卡則為靜默狀態。一旦主網卡發生異常情況,備用網卡會隨即被啟動,暫時取代主網卡的位置,維持正常的環網保護運行。(2)系統交換機部分。在各個節點機柜處,都會配備2臺交換機,同樣分成主用與備用,其啟動關系與網卡類似,在主交換機發生異常,無法繼續工作時,備用交換機立即負責相應的數據傳輸轉發工作,維持系統的穩定運行,支持環網保護。2臺交換機是借助堆疊線實現連接,能傳送心跳報文以及業務信息等。(3)系統連接線路。為確保系統能穩定運行,保持平臺信息通暢,在各節點處,2臺主交換機可以進行連接,并且備用交換機也會相互連接。此外,還設有支持跨設備對接的鏈路聚合,把2條鏈路設置在某個跨設備的接口,支持鏈路之間的信息備份,保障信息流量能穩定輸送。(4)系統平臺拓撲部分。網絡拓撲是環境,依托于ERPS協議,防止形成環路,繼而引發廣播風暴。另外,在平臺發生異常狀況后能立即啟動冗余配置的備份鏈路,以保持平臺正常的網絡連接,能滿足電信級的切換標準。此種環網架構運行下,如果發生二度異常,運維業務不會終止。
(1)接入部分。系統服務器2個網卡處于不綁定的狀態,而且各網卡都是運行工作的狀態,二者各自會連接2個獨立運行的環網,通過服務器上層程序,進行雙發選收信息,以實現對運維業務的保護。(2)交換機部分。同樣會設置兩臺交換機,但不涉及主交換機及備用之分,而且二者無需相互連接以及堆疊。各自從屬于不同的環網,如果某臺設備發生運行異常情況,僅能波及到相連的環網,不會干擾到另外的環網,以此達到冗余保護的效果。(3)系統線路。按照雙環網的結構特點,各節點也會配置2條鏈路,但各自連接不同的環網,一個突發異常情況,不能對另外的環網有任何干擾,達到線路保護的目的。(4)系統拓撲。相互處于獨立狀態的環網,各自按照ERPS協議運轉,可防止在環網中出現廣播風暴,而且在故障切換中支持運維業務倒換,達到環網內部運維保護的效果。同時,2個環網信息互為備份,有效提升智能運維系統的穩定性。此種環網架構運行下,也能確保在發生二度異常時運維業務保持原狀[2]。
該結構可以說是上一種的簡化版,直接消除其中一個環網,僅留下一個環網運行。此結構不涉及接入、線路與交換機方面的冗余布置,其中僅有拓撲冗余。相較而言,其優劣勢比較明顯,優點在于:整體框架比較簡單,能省去部分設施資源的使用,使得運維平臺建造成本下降。但缺點是性能較差,運維穩定性不足。
運維平臺運行可靠性的分析方式較多,如定界法、因子分解法、圖變換、狀態枚舉法等。雖然可以較為精準地確定環網架構的可靠性,但操作過程比較繁瑣,如果在現實地鐵改造項目中運用,無疑會增加工作量。因而,建議選擇古典概型的方法,評估上述環網框架即可,相關分析過程如下:
(1)全冗余結構。根據該環網結構,可將其當成若干基礎割集相互串聯的框架。設環網中其中一條鏈路實際可靠性是λ;而其中某臺交換機運行可靠性是P;服務器的數據發送端下掛于節點1;相應數據接收端則下掛于節點k;在此環路的節點共有n個;平臺總體的運行可靠性是P1。由此:u=2λ-λ2,υ= [λP(2 -λP)],x=(1-P)·(λ+P-λP)·(λP)2,整理出以下表達式:

其中,P(La)表示在系統環路處于正常運轉狀態下,平臺信息數據流能直接按照順時針方向的鏈路La進行所需傳送任務的可靠性;P(Lb)表示在正常順時針方向的鏈路La出現異常,無法使用的情況下,信息數據流會轉而變成逆時針方向輸送,通過鏈路Lb進行數據傳送的可靠性。在可靠性評估中,為簡化計算分析的過程,可通過工程化假設處理。
一方面,把網絡拓撲分成各自獨立的子集,而主設備和主鏈路;備用設備和備用鏈路,分別看成基礎割集。在地鐵運維系統中,僅要確保其中某個割集保持通暢,便可認定相應節點和相鄰節點之間,有可用的數據傳輸渠道。另一方面,主用和備用交換機,而且具有相距不遠的堆疊線,同時鋪設于人工值守的機柜中,在發生運行異常時,能迅速替換,此過程中的檢修時長趨近于0。所以,便能不考慮此部分對于運維平臺總體可靠性的干擾問題,也就是可靠性可等同于“1”。在上述兩項假設下進行可靠性評估計算,可減少實際的運算量[3]。
(2)雙環網結構。基本思路與全冗余大致相同。設設環網中其中一條鏈路實際可靠性是λ;而其中某臺交換機運行可靠性是P;服務器的數據發送端下掛于節點1;相應數據接收端則下掛于節點k;在此環路的節點共有n個;平臺總體的運行可靠性是P2;w=P(A網)。由此可得出以下表達式:

其中,Ring1表示環網1。通過上述表達式代入整理,可得到如下表達式:
P2=2·P(A網)-P2(A網)=w(2-w)
(3)單環網結構。在單環網的系統中,僅包含一個環網,可以看成在雙環網框架下,A網的運行可靠性。把單環網平臺的總體運行可靠性設成P3。由此能得到以下表達式:
P3=P(A網)=λk+1Pk+λn-k+3Pn-k+2-λn+2Pn
(4)可靠性比較。以某市地鐵列車運行狀況為例,其網絡運行異常一般出現在光纖鏈路的部分,沒有猶豫交換機問題,出現網絡中斷的情況。按照交換機的運轉性能參數,其的平均無故障時長(MTBF)是57年;平均修復時長(MTTR)是2h,由此按照平臺可靠性的運算表達式,能得出:

由此能得出該運維系統交換機的運行可靠性(P)為0.99999,為便于后續分析便利,可靠性取值為0.99。
針對運維系統平臺光纜問題,因為故障存在明顯的偶然性與隨機性,所以需把其可靠性(λ)當成變量,取值范圍在0.9~1,基于此,評估對于傳輸網絡可靠性的干擾程度。通過分析環網架構中的節點總數;環網內服務器的接收端下掛節點,也就是從接收端至發送端之間的距離,借此評估各種環網結構的運行可靠性。經過對比探討,3種環網架構中,全冗余架構的可靠性最好,而后是雙環網、單環網。這種現象表現是因為在全冗余結構中,采取心跳線連接,構成大量的連接路徑。通過相關分析:在運維平臺設備與鏈路的工作可靠性,都能達到0.999及其以上的情況下,全冗余結構和雙環網結構相較,前者故障率能比后者減少3個數量級左右[4]。
在運維平臺發生拓撲調整及異常情況,會隨即啟動鏈路切換。而運行狀態收斂期間,環網結構、運行協議都會對切換過程的時長有影響。地鐵智能系統運行中的故障,目前分成兩個等級。
(1)一級故障。1)在節點主鏈路發生斷線時,全冗余結構的切換時長,是由鏈路聚合組內的切換情況決定,把報文設成100ms的工況下,發生此故障時,交換機會與極少數報文無法獲取,啟動鏈路切換操作。雙環網結構下,不涉及主備分別,所以切換時長是根據服務器本身的判決時長與A網運行協議的倒換時長確定。假設判決時長超過倒換時長,則接收端不能倒換至B網,直接把輸送路徑切換成倒換時長,同時該時間小于50ms。如果判決時長更短,系統服務器可隨即完成切換。在單環網結構下,切換動作完全由倒換時長確定。2)服務器的主鏈路發生斷線時,全冗余結構下,切換動作是根據網卡與備用交換機確定。在交換機處于堆疊狀態時,2個交換機地址解析協議沒有同步,在數據傳輸切換至備用設備中,應重新運行,會消耗一段時間。在雙環網結構下,切換動作是根據服務器本身與系統上層程序的處理情況確定,而后者是和服務器程序有聯系,時間通常在200ms以內。在單環網結構下,服務器直接和網絡連接,沒有任何額外的運行鏈路,所以在發生此故障時,會直接導致數據通信中斷。3)節點的主交換機宕機,全冗余結構中,會受到交換機堆疊中2臺設備切換時長影響。在備交換機從備用工況調整成主要工況后,同樣要經歷學習的過程,切換動作實現時間較長。而雙環網與單環網在遇到此種平臺故障時,表現和節點主鏈路的斷線異常相同。
(2)二級故障。1)節點互聯鏈路加上斷線故障。全冗余結構下,切換周期是由鏈路聚合組內的切換時長,還有協議倒換時長共同決定。假設遇到兩條鏈路一起斷線,會先在聚合口中進行業務切換,而后通過協議保護切換,此過程需等待較長的時間。雙環網結構下,切換動作是根據A網的保護時間確定,而B網不會對整個平臺運行產生任何干擾。單環網結構中,發生2條鏈路的異常情況時,由于其沒有配備任何保護路徑,所以會直接阻斷運維業務的正常運行。2)節點內的交換機都出現故障。全冗余結構中,面對此故障的切換處理比較復雜,包含堆疊情況、地址解析協議以及ERPF,此切換過程大約會等待5s。雙環網結構中,服務器間的判決時長會超過協議倒換動作的時間,在系統服務器察覺到此類異常前,平臺的切換動作就已經結束。在單環網結構中,沒有配置任何對于節點中的額外保護。3)節點的主交換機以及相應備用鏈路同時出現故障,全冗余架構對此故障的切換處理反應和上一種相同。雙環網結構下,2個子網都具備啟動切換的條件,而且切換時長依舊會短于服務器處理時間,導致服務器獲取到異常故障前切換動作就已完成。此外,對于此種故障現象,單環網完全不具備處理性能[5]。
總的來講,全冗余結構的收斂效率最低,其他2種架構在該項性能上的表現沒有過大差距,但后者的長期可用性更差,無法完成二級故障的系統保護。聯系上文對3種環網架構的分析,三者各有應用優劣勢。具體來說,在可靠性上,全冗余架構最佳,其次是雙環網;在拓撲構成的復雜性上,全冗余架構最為復雜,單環網是相對最簡單的一種;系統運行收斂性能上,單環網架構的反應速度最快,全冗余架構是最慢的;環網建造成本上,全冗余環網造價最高,超過單環網的2倍,而雙環網與其相差不大。
智能化的運維平臺投入到地鐵交通中,有助于優化系統運維的效果,控制資源消耗,并維系軌道交通的運行安全。通過比較不同環網架構,總結出各自的適用范圍。全冗余結構可用于系統可靠性標準極為嚴格的項目,如信號系統,雙環網則用在可靠性與延時方面無過高標準的項目中,如綜合監控系統,單環網能用在可靠性標準偏低、延時方面標準高、對于造價有要求的項目。