王軍良,黃 寧,包盛花,武潤升
(1.北京航空航天大學 a.可靠性與系統工程學院,北京 100191; b.云南創新研究院,昆明 650233;2.華為技術有限公司,上海 201206)
隨著第五代移動通信技術(5th Generation Mobile Communication Technology,5G)網絡等新興網絡的出現和在各個領域的應用,網絡業務的可靠性問題越來越受到重視[1]。當前許多研究針對網絡可靠性試驗方法進行了設計[2-4],但這些研究在設計網絡試驗時,缺乏規劃網絡可靠性試驗所需要的試驗時長以及求解置信區間,導致最終的試驗結果可信度不高。
目前一些研究對于簡單網絡的置信度分析問題有相應的解決方案。如文獻[5-10]假定網絡對象的底層設備為具有未知平均故障間隔時間的指數型產品,通過設備之間的故障相互獨立且服從泊松分布,推斷整網的時延和丟包等也符合該分布特征,由此基于傳統產品的置信度分析方法計算出試驗結果置信區間。此外,文獻[11]以威布爾分布計算了網絡試驗時長和置信區間問題。但對5G網絡系統而言,各個構件產品的可靠不能保證上層網絡業務的可靠[12],且5G網絡業務具有復雜性、故障模式多樣性和部署方式動態性[13],使得5G網絡中業務的故障分布很可能不是泊松分布等固定分布形式,這就導致傳統的置信度分析方法難以再應用于5G網絡試驗中。
在這種背景下,本文提出了一種基于業務故障分布統計的5G網絡業務可靠性試驗置信度分析方法,首先通過預試驗收集5G網絡試驗數據,擬合出準確的5G網絡業務故障分布,然后在此基礎上對試驗時長進行規劃以及進行置信度分析,從而準確地求解出5G網絡業務的可靠性試驗時長及評估結果置信區間。
對于5G網絡業務故障而言,由于網絡中存在軟件的調用和業務的資源分配等,其故障分布規律往往與單純的硬件故障不同,難以直接確定故障符合何種分布規律。因此,這里首先進行一定量的預試驗,收集網絡可靠性數據;然后從預試驗的故障數據中找出理論網絡故障分布的表達式;最后進行故障分布規律的驗證。
先進行多組預實驗,收集首次5G網絡故障時的預試驗數據。該步驟的目的主要是確定預試驗的單組試驗持續時間。
為了方便故障數據的收集,在每一組預試驗中,需要統計網絡首次故障發生時間作為網絡的故障間隔時間值,進行多組預試驗后得到單組預試驗需要進行的時間。網絡首次故障發生時間的統計方法如圖1所示。圖中,Dmax為網絡試驗中故障判據的參數閾值,單位依照參數類型確定;Δt為網絡參數采樣間隔,單位為s。

圖1 預實驗數據統計方法
在多個網絡首次故障時間中,選取一個最大的網絡首次故障時間作為單次預試驗的時間T0,然后再進行m組預試驗,每一組預試驗的時間為T0。m的取值會影響故障規律的精確度,因此其與后續置信度分析相關。進行完m組預試驗后,對整個預試驗時間區間T0,統計在每一個Δt間隔內的故障發生頻率,通過常用的經驗估計法(即使用頻率來代替故障發生概率),得到預試驗數據點集G:
式中:i為點的序號;pi為經驗估計法獲得的頻率;ci為在時間段(i-1)Δt~iΔt內,有網絡故障發生的預試驗組數。顯然,Δt的取值會影響數據集G的數據量,從而影響擬合的精度。由中心極限定理,假設已經擬合得到的故障規律為F,對應真實故障規律為F*,當點集中的數據與真實分布的誤差獨立同分布,Δt的取值對擬合規律造成的誤差滿足:
式中:zC為置信度為C下的上分位數;σ為點集中pi的均方差。由式(2)可知,故障規律的擬合精度與Δt的平方根呈反相關。
此外,使用頻率代替概率,也會不可避免地引入估計誤差,導致數據點集不精準的問題。假設pi對應的真實概率值為qi,且其中狀態數k為2(正常和故障兩種),則估計誤差ε可表示為

在進行完一定量預試驗后,可以收集到少量的5G網絡可靠性試驗數據集G,這些數據需要被用來分析故障規律,同時用于對確定的故障規律進行驗證。為了保證驗證的客觀性,需要將預試驗數據集G切分出獨立的一組,即
式中:[FitSet]為擬合出的故障規律;[ValSet]為測試得到的故障規律對實際規律的擬合程度。
通常情況下需要進行多次故障規律的擬合。重復的數據利用可能會出現重復擬合和過擬合的現象,為避免出現這兩種情況,需要將[FitSet]分成多個小組,分別得到各個小組的故障規律,然后使用[ValSet]進行驗證,最后取出驗證結果最好的一個故障規律:
注意到,由于預試驗得到的試驗數據較少,如果如上述分組進行擬合,每組的數據量可能不足以得到準確的模型,這里可以使用交叉驗證的思想對數據進行充分利用,即某組擬合數據進行擬合后,可以再次被用作驗證數據。
擬合過程有兩種選擇。首選的擬合方式是根據預試驗中m組預試驗得到的故障數量統計,直接預估5G網絡故障分布所有可能的模型形式,如鐘形的曲線可以假設為符合正態分布等;然后根據這些預估的模型形式,仿照傳統的統計方案進行計算。該方法適合與傳統故障分布類似的網絡,得到的分布準確性較高,適用于可以直接套用已有分布規律的情況。

根據以上得到的網絡故障分布規律,就可以按照給定的置信度信息確定出需要進行的5G網絡可靠性試驗時長。同時,根據試驗時長和置信度信息,進一步可以得到平均無故障間隔時間等可靠性參數在該置信度下區間的上下限。
在進行試驗時長計算之前,首先規定以下符號含義:θ0為生產方可接受質量水平;θ1為使用方要求的平均無故障間隔時間(Mean Time Between Failure,MTBF);α為生產方風險;β為使用方風險。以上幾個數值在進行預實驗前需要根據客戶和網絡提供方的要求給定數值。θ為待確定MTBF的真實數值;最終的待求結果中R0為統計方案接收時的網絡故障數;T為統計方案接收時進行的試驗時長。在已經求得故障發生概率函數F(ω,t)的前提下,可以通過聯立方程求取試驗時長。
取R(ω,t)=1-F(ω,t)。根據數理統計原理,接受概率P(θ)為
依照風險系數的定義,有以下關系式成立:
在式(6)和(7)中,未知數為接收網絡故障數R0和試驗時長T,方程數與未知數相等,因此該式理論可解。通過求解方程,最終得到R0和T。
當P(θ)表達式復雜,難以直接求解方程時,可以采用迭代的方法計算R0和T。為方便計算,令拒收故障數為R1=R0+1。具體而言有以下步驟:
(1) 初始值R0= 0,R1=1。
(2) 將R0和規定的θ1與β值代入式(7)的第2個等式,得到可能的最小試驗時長T。
(3) 將T值、R1值與規定的θ0代入式(7)的第1個等式,計算出α′的值。
(4) 分支步驟。若計算出的α′大于規定值α,讓R0與R1的值都加1,并轉入步驟(2);若不大于,則轉入步驟(5)。
(5) 停止迭代,輸出要求的T、R0和R1。
通過上述迭代也可以得到R0和T。得到了這兩個數值之后,就可以合理地規劃網絡可靠性試驗并進行試驗,獲取更多的試驗數據。
一般而言,置信度C的建議值在(1-2β)×100%左右。5G網絡的試驗者也可根據客戶方面的要求適當提高或降低給定置信度,數值越高,得到的MTBF的置信區間會越大,而過大或過小的置信區間都不具備參考價值。
為了避免混淆,將上一節中得到的接受概率P(θ)設為Q(θ)。在給定置信度C后,對于待求置信下限θL和置信上限θU,滿足:
一般而言,當Q(θ)的表達式不符合泊松分布和正態分布等特殊情況時,θL和θU并不容易求得。為此,當故障規律函數F(ω,t)波動幅度不大時,根據概率統計原理,可以進行如下的近似計算:


(1) 收集可靠性試驗得到的故障時間間隔參數的點集H。在進行完試驗后,可以得到較大規模的待估計MTBF參數的樣本。
(2) 不斷從參數點集中隨機抽取樣本值,作為新的點集H*中的元素。

式中:n為收集到的故障樣本量;tC/2為C/2置信度下的t分布值。一般而言,當F(ω,t)波動不大時,建議采用直接計算的方式得到置信區間,得到的結果準確且耗費時間較少;只有當F(ω,t)波動較大時,才可采用Bootstrap方法,通過模擬抽樣,得到置信區間,其準確性依賴于點集H*的元素個數,元素越多,準確性越好,計算耗費時間越多。
以部署于洋山港的一個基于5G網絡輪胎吊(Rubber Tired Gantry,RTG)遠程控制業務的可靠性試驗為例,說明上述方法的具體應用方式。在進行可靠性試驗置信度分析之前,假定已對該網絡業務完成了網絡故障判據的確定和試驗剖面的設計?;谠撉疤幔涂梢酝ㄟ^上述方法對網絡試驗進行試驗時長計算和置信度分析。
在本節中,需要通過一定量的預試驗,確定出5G網絡上RTG遠程控制業務的故障分布規律,為之后試驗時長和置信區間的分析做準備。
圖2所示為確定網絡業務故障分布規律圖。首先進行k組實驗,對于確定累計故障分布的預實驗,實驗的組數k與每組時長N×Δt的選取要在滿足1.1節精度的要求下進行。這里k的取值為1 500次,已經滿足精度要求。

圖2 確定網絡業務故障分布規律
對于每組實驗,收集業務參數(以RTG大車定位偏差D大車為例)的具體數值作為業務的故障判據。定義采樣時間間隔為Δt,且滿足精度要求的最小Δt為1 s。若在采樣時刻,采集的定位誤差數據大于定位誤差閾值,則認為故障發生。對于每組實驗,收集其初次故障時間,然后統計這k組實驗中初次故障時間在每個時間點上出現的頻率,確定業務故障的故障概率分布。
通過累計故障率分布的統計圖,進一步可以通過數據擬合的方式,計算擬合出該曲線的函數表達。根據Han的調研文獻中有關吊車故障的數據來進行擬合[15],擬合的圖形如圖3所示,圖中,橫軸是試驗時間,縱軸是業務正常運行的頻率值p_value,粉色點為模擬的故障數據點集,擬合出的曲線(藍色曲線)趨近于水平線。

圖3 擬合故障數據
通過3.1節的預試驗故障分布規律F(ω,t),注意到該函數幾乎趨近于水平線。因此,如果其網絡故障判據只取決于一個參數(如“大車定位偏差”),則故障分布服從二項分布。而在本案例中,故障判據取決于多個參數,則其故障分布服從多維二項分布。
針對RTG遠程操控業務的可靠性,需要預先確定生產方風險α、使用方風險β、檢驗下限R1和檢驗上限R2。在本案例中,給定的α與β均為10%,R2為0.999 0。
根據2.1節中對試驗時長求取的方法描述,本案例中正式試驗所需的樣本量可通過以下方程組求得:
式中:c為接收拒收故障判據;N為正式試驗所需樣本量;r為試驗中的故障個數。N必須為整數,此聯立方程無普遍公式可解。通過對式(11)的迭代計算,可得到應得試驗樣本量為206 000。假設網絡試驗數據采樣間隔為1 s,則得到c為5,總的試驗時長為206 000×1 s即57.2 h。
通過2.2節中的分析,可以將求得的試驗時長T和接收拒收判據c代入式(12),直接得到RTG遠程控制業務的平均無故障間隔時間置信區間為

為了驗證上述結果的正確性,參考5G實際案例[16],本文構建了實際5G網絡RTG業務并進行了試驗(試驗編號為C3-C10),得到的可靠性試驗結果如圖4所示,由圖可見,試驗結果實際值基本在該區間內(即上下兩條虛線內),符合置信度分析的預期值。

圖4 可靠性試驗結果箱型圖與置信區間驗證
本文的網絡可靠性試驗置信度分析對5G網絡故障規律進行了預先的確定,在滿足精度要求的前提下,通過一定量的預試驗,擬合試驗結果數據,得到故障分布函數F(ω,t)。傳統的置信度分析中往往直接采用泊松分布計算試驗時長,并進一步分析置信區間,而對于5G網絡這類復雜的網絡而言,其動態性和耦合性等特征致使故障分布往往不符合泊松分布等傳統分布,因此傳統產品的可靠性試驗置信度分析應用于5G網絡時,必然會導致不精確的結果,而本文所提方法通過預試驗和故障規律的擬合,得到了相對精確的故障規律,由此通過置信度分析得到的試驗時長和結果置信區間等更為精確,更具可信性。