李 波,張炳森,張 寧
(1.中鐵第四勘察設計院集團有限公司,武漢 430063;2.北京城建設計發展集團股份有限公司,北京 100037;3.東南大學智能運輸系統研究中心軌道交通研究所,南京 210018)
現如今大客流已成為軌道交通的常見現象,這造成軌道交通的高強度運行,增加設備的使用時間,使得設備單元發生失效或故障的頻率增高。自動售檢票系統(Automatic Fare Collection, AFC)是軌道交通中不可缺少的系統,該設備直接服務于乘客,其狀態的好壞直接影響著城市軌道交通的服務水平。盡管單從1臺設備、1個車站來看,設備的可靠性較高,故障率很低,但對于形成網絡的城市軌道交通系統來說,小概率的故障事件在形成工程規模后其影響比較突出[1]。
目前AFC設備檢修策略主要有故障維修和定期維修[2],故障維修可以使設備的有效壽命達到最大化,但維修不及時,設備可靠性低;定期維修關鍵在于如何確定合適的維修周期,周期過長將導致維修不足,過短將導致維修過剩。現有設備維修策略的優化措施主要在于管理模式、管理條例、人員技能[3],這種基于固定維修模式的維修策略已愈加難以滿足當下線網運營管理的實際需求。對于目前維修策略的不足,基于狀態的維修策略因其能夠綜合考慮安全和資源有效利用,受到國內許多地鐵運營企業的關注。而設備無故障運行時間作為可靠性狀態的一個關鍵指標,可以為基于狀態的維修策略提供重要的決策依據。
因此,本論文提出一種基于生存分析的設備無故障運行時間預測方法,首先對AFC終端設備故障機理進行分析,再對設備無故障運行時間進行預測,得出設備的可靠性,并以自動檢票機為例,為維修管理提供新的思路。
AFC終端設備包括自動售票機、自動檢票機、半自動檢票機等,其中自動檢票機主要由主控單元、通道阻擋裝置、乘客顯示器、票卡回收裝置等組成,由于其結構非常復雜,故障形式多樣,對設備的故障分類、故障影響因素進行分析是進行無故障預測的必要前提。
故障率曲線反映設備發生故障的內在機理和規律[4]。經過統計分析發現,大多機械部件的故障率曲線類似浴盆形狀的曲線,稱為浴盆曲線,如圖1所示,設備經歷早期故障、偶發故障期和耗損故障期3個階段。

圖1 設備故障浴盆曲線Fig.1 Bathtub curve of equipment failure
除浴盆曲線外,一些電子類元器件及復雜設備在實際運用中,故障規律往往是以下一種或幾種的組合[5],如圖2所示。
從定性分析中可以看出,故障率與設備部件材質有很大關系,所以在進行自動檢票機無故障運行時間預測之前,首先從故障屬性上將設備故障分為機械類故障和電氣類故障。
除AFC終端設備自身結構設計缺陷因素之外,導致設備故障的影響因素還涉及多個方面,如客流因素、乘客行為、使用環境、維保水平等,以下結合實際故障數據對設備無故障運行時間的影響因素進行分析。

圖2 現代設備5種故障率曲線Fig.2 Five failure rate curves of modern equipment
1)人員特征影響因素分析
人員對設備安全的影響至關重要,影響設備安全的人員分為內部人員和外部人員。內部人員指維修人員,維修人員的技術水平和責任心直接影響到維修徹底程度,技術水平高、責任心強的維修人員,可以使設備的可靠性達到或接近初始水平,大大提高設備的無故障運行時間,反之則降低設備的使用壽命。外部人員主要是指乘客,乘客的正常使用會造成設備磨損,高強度客流及乘客的違規操作會加速設備故障。
2)環境特征影響因素分析
環境是設備故障的重要影響因素之一,既包含外部大環境,例如降雨、地震、大風等自然災害,又包含內部小環境,即設備的位置、運行溫度、濕度、灰塵等。不同季節時設備的故障次數如圖3所示,可以看出設備故障與季節因素有較強的相關性。
3)設備自身狀況特征影響因素分析
設備自身質量的好壞也是影響設備故障的一個重要因素,設備自身的不良設計、安全裝置的缺陷以及非正常狀態運行等都直接或間接降低設備的使用壽命。設備無故障運行時間與故障次數的關系如圖4所示,可以看出隨著故障次數的累積,設備無故障運行時間呈現降低的趨勢。

圖3 不同季節設備發生的故障數Fig.3 Number of equipment failures in different seasons

圖4 設備無故障時間與故障次數的關系Fig.4 Relation between equipment fault-free time and failure times
綜上分析,設備的故障受到客流、環境及自身狀況等影響,在進行故障預測時,需將這些特征影響因素考慮在內,并進行量化,起到準確預測的效果。
生存分析是一種對持續時間進行分析的統計技術,也稱為風險模型,不僅能夠探索持續時間的分布模式,量化相關因素對持續時間的影響[6],還可以預測一個事件未來某個時間點終止的概率。此外,在模型的訓練速度和準確性方面,生存分析也具有良好的性能[7],因此本文選擇生存分析用來研究設備無故障運行時間。
生存分析通過建立風險函數來研究無故障運行時間的分布規律。風險函數可以表示設備在進行無故障運行時間t的情況下,設備將在下一個極短時間段[t,t+△t]內結束的概率。風險函數具體變換過程如下。
對于一個隨機時間變量T,其累計分布函數可以表示為:

公式(1)中,F(t)表示持續時間T小于無故障運行時間t的概率,S(t)為生存函數,表示設備無故障運行時間超出t的概率,也稱為生存率;f(t)為概率密度函數,表達式為:

概率密度函數給出設備在時間[t,t+Δt]內結束的瞬時概率。根據風險函數的定義,可以得到風險函數的表達式h(t)為:

生存分析函數的關系如圖5所示,在F(t)、f(t)、S(t)和h(t) 4個函數中已知任何一個,則可以推導得出其他3個函數。

圖5 生存分析模型函數Fig.5 Survival analysis model function
軌道交通設備故障具有非線性及非確定性的特點,無故障運行時間受到多種自然因素和人為因素的影響。在生存分析中,比例風險(Proportion Hazards, PH)模型和加速失效時間(Accelerated Failure Time, AFT)模型是常用的多因素分析方法,前者是半參數估計方法,后者是參數估計方法,參數模型比半參數模型更為精確,且對結果的解釋更加簡單直觀[8]。所以選取AFT模型對設備無故障運行時間進行預測。
AFT模型將線性回歸模型的建模方法引入到生存分析領域,協變量是通過與時間變量的乘積引起持續時間變化,其條件風險函數和生存函數的具體表達形式為:
公式(4)、(5)中,ψ=EXP(-β'X)表示一組協變量向量,β’表示與協變量對應的一組估計參數向量的轉置,β’X=β0+β1x1+…βnxn,h0(·)、S0(·)分別表示在所有協變量為零(X=0)時的基準風險函數和基準生存函數。在生存分析中,預測值一般取累積生存率曲線上的中位值,即設備故障間隔時間位于預測值兩側的概率都是50%。根據中位值預測方法,設備在經歷時間T條件下的無故障時間預測值可以表示為:

公式(6)中,tMedian│T表示無故障時間的條件預測值,是在時間T條件下累積生存率所對應的時間坐標值的一半。
參數模型具有多種具體的形式(如不同的概率分布函數、變量選擇),需要對各種模型的擬合優度進行比較。選取赤池信息量準則(Akaike’s Information Criterion, AIC)作為評價準則[9],它基于熵的概念提出,可用來權衡模型擬合數據的優良性,是一種準確有效的評價方法,其表達式為:

公式(7)中,L是模型的最大自然函數值,n是模型中所有參數的數目,包括協變量系數和模型分布系數,赤池信息量準則表明,AIC的值越小,模型越優。
本文選取南京地鐵2號線油坊橋車站的自動檢票機為研究對象,油坊橋車站設立16臺自動檢票機,并選取2016年全年的自動檢票機設備故障記錄數據作為設備無故障運行時間預測的原始數據集。
首先對故障數據進行規格化處理,在記錄的全年故障數據中,對同一種偶然故障在24 h內累計達3次記為一次關聯性故障;對由于未真正修復而又再次出現的故障,和原來的故障合并,記為同一次故障;故障修復后累計工作不足24 h,再次發生同一故障時,只記錄一次故障。經過數據處理,共得到730條故障數據,其中機械類故障388條,電子類故障342條。選取編號1至12號設備的故障數據作為訓練無故障運行時間預測的原始數據集,13至16號設備的故障數據集對模型進行性能評價,并以機械類故障為例進行建模分析。
建模過程中需要的環境特征影響因素和設備狀態特征影響因素,通過系統和人工記錄獲得。客流特征、設備狀況特征及環境特征三方面與設備無故障運行時間相關的影響因素,為模型變量的選取和賦值提供有利的參考依據。通過量化這3類特征因素得到預測模型的潛在協變量如表1所示。

表1 潛在協變量及賦值說明Tab.1 Description of potential covariates and assignments
1)模型分布函數選擇
對機械故障數據集分別使用Loglogistic、Weibull、Logistic、Lognormal、Normal 5 種 常用的生存分析分布函數依次進行回歸分析,得到各自的AIC值如表2所示。根據AIC值越小越好的原則,選取Weibull為基準分布構建加速失效模型。

表2 各分布的AIC對比Tab.2 AIC comparison of each distribution
2)模型參數估計
采用逐步回歸法對模型的輸入變量進行選擇。一般常用0.05作為顯著性水平的臨界值,但考慮到模型要能夠反映更全面的信息,在本文中認為在不大于0.1時仍然是有效的。通過回歸分析剔除干擾模型的變量,可以得到無故障運行時間預測模型的協變量選擇及參數估計結果如表3所示。

表3 變量選擇及參數估計表Tab.3 Variable selection and parameter estimation table
根據數理統計原理,Weibull分布的概率密度函數為:

公式(8)中,λ,p分別為Weibull分布的尺寸參數和形狀參數,可以推導出Weibull分布的風險函數及生存函數表達式分別為:

根據表3模型參數的估計結果,就可以得到設備無故障運行時間的風險函數、生存函數以及在經歷時間T的條件下設備無故障運行時間預測值的表達式為:

為了更直觀的看出設備無故障運行時間的生存規律,在設備無故障運行時間預測模型中(訓練數據集的平均值)時的生存函數和風險函數如圖6所示,可以看出設備無故障運行時間的風險率是單調遞增的,其增長速度由緩到快,生存率曲線與風險率曲線大致呈現一種對稱的關系,隨著時間的運行,設備的生存率下降,當運行一定時間段時,設備生存率低于一定程度,說明極有可能發生故障。

圖6 基于Weibull-AFT模型的生存函數和風險函數Fig.6 Survival function and risk function based on Weibull-Aft model
根據公式(13),對于無故障運行時間預測模型,在T=0條件下,預測值t為設備無故障運行時間預測值,選取平均絕對百分比誤差(MAPE)作為模型準確性的評價指標,表達式為:

公式(14)中,n為樣本個數;Xi為實際觀測值;為預測值。
為了進一步驗證該模型的預測性能,基于同樣的機械類故障數據,在故障影響因素標準化處理的基礎上,建立多元線性回歸模型,進而對設備無故障運行時間進行預測,在MAPE的評價指標下,對比兩種模型的預測性能。
MAPE的值越小,表明預測模型具有更好的準確性。MAPE的各種取值范圍與其所表示模型準確程度的對應關系如表4所示[10]。

表4 MAPE值對應的預測準確性程度Tab.4 Accuracy degree of prediction corresponding to MAPE value
基于生存分析和基于回歸分析的設備無故障運行時間預測的MAPE值分別為7.42%、12.75%,表明基于生存分析的預測模型具有非常準確的預測性能。盡管基于回歸分析的預測模型也具有良好的預測性能,但基于生存分析的預測模型預測性能明顯更優,能夠更有效的反映設備的故障規律,為維修策略提供更準確的參考。
自動檢票機設備是一個涉及到多專業的復雜設備,現在的維修管理策略存在資源浪費等缺點,引入基于狀態的策略是實現科學合理維修的良好手段。本文提出的基于風險的設備無故障運行時間預測方法,不僅實現了對設備使用壽命的準確預測,也體現出設備在生命周期過程中出現故障的可能性。采用南京地鐵油坊橋車站設備故障數據對方法進行估計和驗證,并與基于回歸分析的方法進行比較,結果顯示該模型具有非常準確的預測性能,表明該方法具有較好的實用價值。