虎麗麗,徐 巖,陶慧青
(蘭州交通大學 電子與信息工程學院,蘭州 730070)
LTE-R無線通信系統是繼GSM-R通信系統之后應用于鐵路干線的下一代移動通信系統[1],其為列車運行提供數據傳輸支持。當列車行駛速度較快或處于較惡劣環境時,為保證車輛運行安全與鐵路通信網絡正常工作,無線通信系統應具備更高的時效性和可靠性。因此,需要對LTE-R系統安全性進行分析、評估與符合性驗證。
目前,國內外關于LTE-R系統安全性的研究較少。文獻[2]采用專家打分法和灰色算法對LTE-R系統安全性進行評價,發現專家打分法中較多人為因素會影響系統結構計算準確性。文獻[3]采用靜態故障樹和Markov法對LTE-R系統手持設備、鏈路和切換等影響因素進行安全性分析,但由于未考慮所有設備影響,因此其計算結果不能真實反映整個LTE-R系統的安全性。文獻[4]從網絡安全角度對鐵路通信系統進行安全性分析,發現基于長期演進(Long Term Evolution,LTE)的方案對下一代鐵路移動通信系統具有適用性。文獻[5]采用靜態故障樹和Markov法相結合的方法對列車之間的LTE-R系統進行可靠性分析,但未研究整體LTE-R系統。
靜態故障樹法通常用于核能、電子等關鍵領域LTE-R系統的可靠性分析[6],但其不能體現出系統設備失效時故障修復、時序相關的故障處理以及熱冷儲備等動態特性。Markov方法雖然能對系統動態特性的隨機過程進行描述,但是隨著系統規模和狀態空間指數級增長,計算過程會趨于復雜和無序[7]。將傳統靜態故障樹和Markov模型相結合可形成一種新的研究方法,即動態故障樹(Daynam Fault Tree,DFT)分析法,該方法引入具有時序邏輯關系的動態邏輯門來擴充傳統靜態故障樹,再進行動態故障樹分析,從而能對動態系統進行可靠性和安全性分析[8]。
本文提出一種基于動態故障樹的LTE-R系統可靠性分析方法。對系統冗余網絡建立DFT可靠性分析模型,采用Markov方法和二元決策圖(Binary Decision Diagram,BDD)方法分別計算模型的動態和靜態部分,根據兩部分計算結果對整個系統進行可靠性分析。
LTE-R系統主要由演進分組核心網(Evolved Packet Core Internet,EPC)、演進通用陸基無線接入網(Evolved Universal Terrestrial Radio Access Network,E-UTRAN)、用戶終端設備(User Equipment,UE)等組成[3],其網絡結構如圖1所示。其中:EPC主要由移動管理實體(Mobility Management Enity,MME)、服務網關(Serving Gateway,SGW)、分組網關(Packet Gateway,PGW)、歸屬地用戶服務器(Home Subscriber Server,HSS)、策略與計費規則功能(Policy and Charging Rules Function,PCRF)、GPRS服務節點(Serving GPRS Support Node,SGSN)以及公共數據網(Public Data Networks,PDNs)服務等組成,其主要功能是實現業務承載與LTE接入[2];E-UTRAN由射頻拉遠單元(Radio Remote Unit,RRU)和基帶處理單元(Building Baseband Unit,BBU)等eNodeB功能實體組成,用以支持LTE-R系統的無線網絡覆蓋。為實現LTE-R系統無線網絡對鐵路干線的完全覆蓋,RRU和BBU采用光纖進行帶狀連接后安置在鐵路兩側,RRU之間采用交織冗余方式連接,RRU和BBU之間存在環型、星型和線型3種組網方式[9]。

圖1 LTE-R系統網絡結構Fig.1 LTE-R system network structure
在列車高速行駛情況下,LTE-R系統在技術要求范圍內可接入下行峰值速率為100 Mb/s的無線寬帶[10]。由于LTE-R系統為扁平化結構,因此其相較GSM-R系統故障發生率更低、傳輸時延更短,且組成的網絡更有彈性。LTE-R系統的高可靠性可通過冗余組網來實現。
1.2.1 單網交織冗余結構
單網交織冗余結構是指在單網覆蓋基礎上,通過增加鐵路干線周邊相鄰小區網絡重疊覆蓋面積而形成的冗余覆蓋結構,如圖2所示。若某個基站發生故障,則由相鄰2個基站協作處理該失效基站承載的業務,列車不受單個基站故障的影響,仍能正常運行。

圖2 單網交織冗余結構Fig.2 Single network interleaved redundant structure
1.2.2 雙網交織冗余結構
為增加LTE-R系統可靠性[11],鐵路干線兩邊使用雙網交織冗余結構進行網絡覆蓋,如圖3所示。LTE-R系統利用2套基站子系統進行布網,采用1+1 EPC冗余組網方式,2個EPC互為備份且與eNodeB共同連接,若其中1個基站出現失效,則啟用另1個基站以保證通信系統正常服務。

圖3 雙網交織冗余結構Fig.3 Dual network interleaved redundant structure
1.2.3 RRU交織冗余結構
RRU交織冗余結構是指相鄰RRU之間場強覆蓋形成能滿足越區切換重疊區的結構,其中,每個RRU場強可獨立完成全覆蓋[12]。假設鐵路可使用頻率資源為nMHz,則同頻交織冗余結構中RRU頻率相同,其信道帶寬為nMHz,異頻交織冗余結構中RRU頻率不同,其信道有2個,帶寬分別為n1MHz和n2MHz,且n1+n2=n[13]。同頻交織冗余結構和異頻交織冗余結構的差別主要是網絡結構不同。
1)同頻交織冗余結構
同頻交織冗余結構采用多個RRU形成冗余,若結構中某個RRU出現失效,則相鄰RRU將代替其為基站提供服務,不會使業務出現中斷。其中,冗余RRU無線信號頻率相同會給終端設備造成同頻干擾,而由于無線信號來自不同小區,BBU在每個邏輯小區中只有1臺,小區內BBU在失效或檢修時會影響整個網絡的可用性和可靠性,因此采用多點協作和分布式基站共小區等方法避免同頻干擾。
2)異頻交織冗余結構
異頻交織冗余結構中BBU和RRU數量與同頻交織冗余結構不同,其均采用冗余技術。根據異小區原理對RRU進行冗余布置,若某個RRU失效,則由相鄰RRU代替其承擔傳輸業務;若BBU失效,則由冗余BBU代替其提供業務,從而避免發生通信中斷。圖4為RRU異頻交織冗余結構,其中,標號為1、3、5小區的RRU頻率相同,標號為2、4、6小區的RRU頻率相同,在1、3、5小區和2、4、6小區分別使用不同頻率RRU是為了避免在無線信號覆蓋重疊區產生同頻干擾,同時簡化網絡配置,保障小區邊緣速率[14]。與同頻交織冗余結構相比,采用異頻交織冗余結構可減少設備成本和維護工作量,因此,本文對RRU異頻交織冗余結構的可靠性進行建模分析。

圖4 RRU異頻交織冗余結構Fig.4 RRU cross frequency interleaved redundant structure
在工業功能安全標準IEC 61508、IEC 61511中[15],故障樹分析法使用最廣泛。故障樹分析法包括靜態故障樹分析法和動態故障樹分析法。其中,靜態故障樹分析法較常用,但該方法不能體現失效相關、序列相關和冗余等特性。動態故障樹分析法雖然可描述出系統可靠性的動態特點,但該方法在系統規模增加時,其動態過程的復雜度會呈指數級增長,并引發狀態組合空間爆炸問題,從而使計算難度加大。針對上述問題,本文建立DFT分析模型,對該模型中的動態和靜態模塊分別采用Markov方法和BDD方法進行計算和分析,最終結合兩部分結果得出整個系統的可靠性。采用上述方法可減少系統可靠性的建模復雜度,提高分析效率,而且該方法結合了冷熱備份、故障處理等多種動態特征,使得LTE-R系統的可靠性分析更加全面。
BDD分析是指將函數不交化圖形的2個不同分支組成1個節點,該節點表示為(V,N),其中,V為節點集,N為指標集[16]。節點包括葉結點和非葉結點,葉節點有明確節點值,表示為value(v)∈{0,1};非葉節點只有指標值index(v)∈N,無明確節點值。將根據節點指標形成的對應關系映射到布爾變量中,對BDD中的(V,N),設V={v1,v2,…,vm},N={1,2,…,n},給定布爾變量x1,x2,…,xn,若index(vi)=j∈N,i∈(1,2,…,m),則vi對應的布爾變量為xj,BDD和布爾函數f=f(x1,x2,…,xm)相對應。
BDD可用香農(Sannon)方法分解,計算公式為:
(1)
其中,f1=f1(x1,x2,…,xi-1,1,xi+1,…,xn),f0=f0(x1,x2,…,xi-1,0,xi+1,…,xn),xi為父節點,f0、f1分別為二叉樹結構的左、右分支。
建立LTE-R系統DFT模型時引入邏輯門,邏輯門包括“與”門和“或”門等靜態邏輯門,以及熱儲備門和冷儲備門等動態邏輯門[17]。上述邏輯門的符號和功能如表1所示。

表1 不同邏輯門的符號和功能Table 1 Symbols and functions of different logic gates
維修系統設備是提高系統可靠性常用方法之一,LTE-R系統大部分元件都具有可修復性,可靠性指標的計算與元件失效率和修復率有關。當多個元件故障可修復時,根據其失效率是否相同,設元件失效率λ和元件修復率μ均為常數且μ相同,Δt為元件修復時間間隔,分2種情況進行Markov狀態分析如下:
1)失效率相同。假設2個元件失效率λ相同,存在e0、e1、e23種狀態:e0狀態表示2個元件和整個系統都處于正常狀態;e1狀態表示其中1個元件處于失效狀態,但對系統無影響;e2狀態表示2個元件都處于失效狀態并導致系統失效。失效率相同時Markov狀態轉移過程如圖5所示。其中,各狀態之間箭頭上的表達式為狀態轉移概率。

圖5 失效率相同時Markov狀態轉移圖Fig.5 Markov state transition diagram with same failure rate
由圖5得到如下表達式:
Pe0(t+Δt)=Pe0(t)Pe0e0(Δt)+Pe1(t)Pe1e0(Δt)+
Pe2(t)Pe2e0(Δt)
(2)
Pe1(t+Δt)=Pe0(t)Pe0e1(Δt)+Pe1(t)Pe1e2(Δt)+
Pe2(t)Pe2e1(Δt)
(3)
Pe2(t+Δt)=Pe0(t)Pe0e2(Δt)+Pe1(t)Pe1e2(Δt)+
Pe2(t)Pe2e2(Δt)
(4)
對式(2)~式(4)求極限,得到矩陣如下:
[P′e0(t)P′e1(t)P′e2(t)]=[Pe0(t)Pe1(t)Pe2(t)]Q
(5)
其中,P(t)為轉移概率矩陣,Q為轉移強度矩陣。Q表示為:

(6)
2)失效率不同。假設存在2個元件,元件1失效率為λ1,元件2失效率為λ2,存在e0、e1、e2、e3、e45種狀態:e0狀態表示2個元件和整個系統都處于正常狀態;e1狀態表示元件1處于正常狀態,元件2處于失效狀態,系統處于正常狀態;e2狀態表示元件1處于失效狀態,元件2處于正常狀態,系統處于正常狀態;e3狀態表示元件1處于維修狀態,元件2處于待修狀態,系統處于失效狀態;e4狀態表示元件1處于待修狀態,元件2處于在修狀態,系統處于失效狀態。當失效率不同時Markov狀態轉移過程如圖6所示。

圖6 失效率不同時Markov狀態轉移圖Fig.6 Markov state transition diagram withdifferent failure rates
由圖6得到如下表達式:
Pe0(t+Δt)=Pe0(t)Pe0e0(Δt)+Pe1(t)Pe1e0(Δt)+
Pe2(t)Pe2e0(Δt)+Pe3(t)Pe3e0(Δt)+
Pe4(t)Pe4e0(Δt)
(7)
Pe1(t+Δt)=Pe0(t)Pe0e1(Δt)+Pe1(t)Pe1e1(Δt)+
Pe2(t)Pe2e1(Δt)+Pe3(t)Pe3e1(Δt)+
Pe4(t)Pe4e1(Δt)
(8)
Pe2(t+Δt)=Pe0(t)Pe0e2(Δt)+Pe1(t)Pe1e2(Δt)+
Pe2(t)Pe2e2(Δt)+Pe3(t)Pe3e2(Δt)+
Pe4(t)Pe4e2(Δt)
(9)
Pe3(t+Δt)=Pe0(t)Pe0e3(Δt)+Pe1(t)Pe1e3(Δt)+
Pe2(t)Pe2e3(Δt)+Pe3(t)Pe3e3(Δt)+
Pe4(t)Pe4e3(Δt)
(10)
Pe4(t+Δt)=Pe0(t)Pe0e4(Δt)+Pe1(t)Pe1e4(Δt)+
Pe2(t)Pe2e4(Δt)+Pe3(t)Pe3e4(Δt)+
Pe4(t)Pe4e4(Δt)
(11)
對式(7)~式(11)求極限并化簡后得到轉移強度矩陣如下:
(12)
有效度是系統在某個時刻t正常運行的概率,通常用A(t)表示,是表征系統性能的重要指標之一。有效度分為瞬時有效度和穩態有效度。本文假設元件失效率λ為常數,各元件生命周期為指數分布。
定義1(瞬時有效度) 在某個時刻t,待修元件正常工作的概率為瞬時有效度,其與t時刻下元件狀態有關,反映了該時刻下元件有效性[18]。瞬時有效度的表達式為:
(13)
定義2(穩態有效度) 在穩態條件下,系統達到相對穩定運行狀態時的概率為穩態有效度,其表達式為:
(14)
其中,πi表示當系統在i狀態時的概率,πi(i∈W)滿足如下條件:
(15)
對于1個元件,其穩態有效度表示為:
(16)
當2個元件失效率相同時,系統的穩態有效度表示為:
(17)
當2個元件失效率不同時,系統的穩態有效度表示為:
A=π0+π1+π2
(18)
定義3(故障頻度) 故障頻度指在[0,t]時間段內,系統發生的故障總次數除以總時間,用符號M(t)表示,其表達式為:

(19)
其中,πk(k=1,2,…,w)由式(15)計算得到,qkj為矩陣Q中的元素。
定義4(平均開工時間) 平均開工時間(Mean Up Time,MUT)是系統在穩定狀態下保持正常運行的平均時間。
定義5(平均故障時間) 平均故障時間(Mean Down Time,MDT)是系統在穩定狀態下發生故障的平均時間。
定義6(平均故障間隔時間) 平均故障間隔時間(Mean Time Before Failure,MTBF)是系統發生多次可修復故障,在每次故障維修后正常運行的平均時間。
定義7(平均故障修復時間) 平均故障修復時間(Mean Time To Repair,MTTR)是系統從發生故障到完成修復故障之間的平均時間[15]。
在使用DFT模型計算時,將可修復系統動態故障子模塊的MUT、MDT指標轉換為MTBF、MTTR指標后進行迭代計算。各指標之間的關系可表示為:
(20)
(21)
由于目前國內LTE-R系統主要應用于朔黃鐵路和京沈鐵路試驗段,在其他鐵路干線應用較少,而朔黃鐵路主要以貨運為主,因此本文以京沈鐵路試驗段為研究對象調查LTE-R系統產生故障的原因。京沈鐵路LTE-R試驗段全長約170 km,從烏蘭木圖站出發,途經阜新站、黑山北站、新民北站到達沈陽西站。LTE-R系統失效主要由EPC、eNodeB、UE、車地之間無線傳輸鏈路等失效引起。在車地之間無線傳輸鏈路中,根據列車通信系統列控業務建立車地通信系統服務質量(Quality of Service,QoS)指標[19-21],該指標對列車運行的影響如表2所示。 其中,不同指標衡量因素不同,橫杠表示該項指標參數不存在。

表2 QoS指標對列車運行的影響Table 2 Impact of QoS indexes on train operation
由表2可以看出,當列車在正常行駛狀態下,影響列車運行的主要因素是無線鏈路中斷和越區切換失敗,其他因素對列車運行影響較小,在對系統可靠性指標進行計算時可忽略不計。結合LTE-R系統網絡結構,運用DFT對LTE-R系統進行建模。根據文獻[2,4]及大唐移動通信設備公司所提供的LTE-R系統設備失效率,對LTE-R系統單網、雙網與RRU交織冗余結構可靠性指標進行對比分析。平均故障修復時間為0.5 h,LTE-R系統中不同設備失效率如表3所示。

表3 LTE-R系統中不同設備失效率Table 3 Failure rates of different equipments inLTE-R system
圖7為單網交織冗余結構可靠性DFT模型框架。使用動態邏輯門描述各子系統的交互部分故障,圖7中圓框表示底事件,方框表示頂事件或中間事件。其中,B1模塊~B2模塊、C1模塊~C5模塊為故障樹底事件,B3模塊~B4模塊為故障樹中間事件,A1模塊為故障樹頂事件。在該結構中系統故障主要由EPC、UE、RRU、BBU、越區切換及鏈路等失效引起。假設各設備修復率μ=2。在該模型中,交織冗余的BBU和RRU數量分別為1和6,不同RRU之間采用環型結構連接,光纖鏈路失效率為0。由式(2)~式(6)計算得到B3模塊失效率為1.11×10-5,將該模型中所有設備失效率代入式(1)可得單網交織冗余結構失效率為3.15×10-5,穩態有效度為99.993 69%。

圖7 單網交織冗余結構可靠性DFT模型框架Fig.7 Framework of DFT model for reliability of singlenetwork interleaved redundant structure
圖8為雙網交織冗余結構可靠性DFT模型框架。其中,C1模塊~C4模塊、C7模塊~C8模塊、D1模塊~D6模塊為故障樹底事件,B1模塊~B4模塊、C5模塊~C6模塊為故障樹中間事件。將LTE-R系統中不同設備失效率代入式(6)、式(15)和式(17)~式(21)得到:B1模塊平均開工時間為1.44×1011h,平均故障時間為0.5 h,失效率為6.93×10-12;B2模塊平均開工時間為1.00×1010h,平均故障時間為0.5 h,失效率為1.00×10-10。B3模塊冗余子網A、B分別采用環型、星型結構,其RRU和BBU數量均分別為6和1,由式(2)~式(4)、式(11)計算得到冗余子網C5的失效率為1.11×10-9,冗余子網C6的失效率為1.30×10-9,按照上述計算方法得到B3模塊的平均開工時間為6.81×1017h,平均故障時間為0.5 h,并分別作為平均故障間隔時間與平均故障修復時間代入式(1)進行迭代計算,得到雙網交織冗余結構失效率為2.78×10-6,穩態有效度為99.999 86%。

圖8 雙網交織冗余結構可靠性模型框架Fig.8 Framework of DFT model for reliability of dual network interleaved redundant structure
圖9為RRU交織冗余結構可靠性DFT模型框架。其中,B2模塊、C1模塊~C2模塊、C5模塊~C6模塊、D1模塊~D4模塊為故障樹底事件,B1模塊、B3模塊~B4模塊、C3模塊~C4模塊為故障樹中間事件。由于RRU與BBU之間以環型結構連接,因此光纖鏈路失效率為0。EPC采用熱備動態冗余方式,由式(2)~式(6)和式(17)~式(21)計算得到B1模塊平均開工時間為1.44×1011h,平均故障時間為0.5 h。冗余子網A、B中RRU和BBU數量分別為6和1,由式(7)~式(12)計算得到冗余子網A、B的失效率均為1.11×10-9,由式(2)~式(6)、式(15)和式(17)~式(21)計算得到B3模塊平均開工時間為9.00×108h,平均故障時間為0.5 h,并分別作為平均故障間隔時間與平均故障修復時間代入式(1)進行迭代計算,得到RRU交織冗余結構失效率為1.28×10-5,穩態有效度為99.997 44%。

圖9 RRU交織冗余結構可靠性模型框架Fig.9 Framework of DFT model for reliability ofRRU interleaved redundant structure
由表4可以看出,在雙網交織冗余結構中,EPC、eNodeB和UE均為并行冗余結構,在eNodeB中RRU和BBU采用星型和環型結構,提高了網絡可靠性,其穩態有效度在3種結構中最高,但該結構使用設備較多,會增加成本費用。此外,雙網交織冗余結構以接入網為切入點進行冗余以增加系統可靠性,由于同站址雙網交織冗余結構的2套基站在同一個站址中,而異站址雙網冗余結構的網絡中的2套基站安裝在不同的地址,因此同站址的安裝成本比異站址低。但如果2套基站在同一個站址中,則冗余的接入網在自然災害發生時會出現故障,并導致該區域內無線網絡停止服務,且同站址模式存在站址選擇困難、設備安裝成本高等問題。如果2個基站安裝在不同站址,則不僅在一定程度上增加系統容災能力,還能提升系統可靠性。單網交織冗余結構的穩態有效度比其他2種結構低,一旦EPC、UE和eNodeB等設備出現故障,將會引起網絡癱瘓。此外,在單網冗余交織覆蓋下,相鄰兩個小區切換處存在3個基站的信號,會產生乒乓效應增加、越區切換等問題,但單網交織冗余結構簡單,且成本較低。RRU交織冗余結構的穩態有效度位于其他兩種結構之間,該結構eNodeB中的RRU和BBU采用環型結構來保證網絡可靠性,較單網交織冗余結構可靠性更高、系統更安全。

表4 不同網絡結構的可靠性指標結果Table 4 Reliability index results of differentnetwork structures
本文提出一種基于動態故障樹的LTE-R通信系統可靠性分析法。針對LTE-R系統單網、雙網和射頻拉遠單元3種交織冗余結構建立可靠性DFT模型,采用Markov方法和二元決策圖方法分別計算模型的靜態和動態部分,根據計算結果得到整個系統的可靠性指標。分析結果表明:雙網交織冗余結構可靠性最高,單網交織冗余結構可靠性最低。在未來LTE-R系統布網選擇中,可根據鐵路場景的不同要求選用相應冗余組網方式。隨著LTE-R系統在鐵路干線的全面運用,下一步將采用實測數據對其進行可靠性分析,以使結果更準確,同時還將結合鐵路通信網絡空間安全進行系統可靠性分析。