吳強,屈利杰
(中車南京浦鎮車輛有限公司,江蘇 南京 210000)*
截至2019年9月30日,我國內地累計有39個城市開通運營,軌道交通線路總計6333.3 km,新增運營線路571.9 km.城市軌道交通的迅猛發展,設備的安全性也備受關注.車輛是其重要載體,目前對車輛的研究技術在不斷的改進和加強,牽引、輔逆、制動、車門、空調等系統日趨復雜,因而發生故障的類型更加多樣化,如何基于車載和軌旁系統數據來提前進行故障預警預測,是PHM系統成功與否的關鍵所在.國內外研究機構和企業都在這一領域做了大量的嘗試與驗證.在故障預測的研究方面,早期研究多關注單個設備部件.近年來,隨著軌道交通行業數據的積累,基于深度學習的智能運維逐漸興起[1-2].
目前常用的故障預警方法有:
(1)固定閾值法[3-4]:通常根據專家經驗知識設定閾值范圍.該方法優點是簡單,缺點是需要大量依賴人工經驗,不適用于周期性變化的數據,維護困難,準確性較差.
(2)基于數據驅動的預測技術[5-6],是通過設備生命周期中大量的數據信息,通過學習獲得輸入和輸出的映射關系,并在內部建立非透明、非線性和不針對特定目標的預測模型,實現對設備未來狀態的預測.對于復雜系統來講,因其本身結構的復雜性,使得建立與之相對應的物理模型是很困難的.
(3)基于統計分析的預測[7-8],利用實際生產中積累的經驗數據對產品進行分析,得到參數信息,并利用設備性能數據統計出各類故障概率密度函數,形成動態模型,同時使用性能數據對參數信息持續性修正,不斷提高預測精度.
(4)基于時間序列的預測:李向前等人[9-10]提出了檢測時間序列中異常值的方法.此外,當前流行的異常檢測算法還有:基于分類,基于聚類,基于最近鄰,基于信息理論,這些方法應用到不同領域的異常檢測中,能有效提高檢測的準確度.
但是以上方法在目前軌道交通領域都只能部分借鑒,原因是現有系統采集的數據量少,故障時的負樣本更少.本文提出了利用XGBoost和ARIMA算法來預測某類模擬量的趨勢,并給出相應的預警信息.
(1)采用XGBoost算法擬合各工況下輔逆溫度變化曲線;
(2)利用擬合曲線與實際值偏差做正態分布,定義警告閾值線和錯誤閾值線;
(3)ARIMA算法預測后三天的趨勢走向,并通過與警告閾值線和錯誤閾值線的比較給出相關預警的信息提示.
由于XGBoost模型可以控制模型的復雜度,防止模型過擬合,并且在樣本缺失時,可以自動學習分裂方向,本文通過綜合比較,引入XGBoost模型.XGBoost在迭代過程中通過樹的深度和數量自適應擬合輔逆系統溫度變化情況,并在迭代過程中,通過正則項,防止模型過擬合,提高預測輔逆系統溫度的準確性.因此,本文采用基于XGBoost算法的輔逆系統溫度預測模型,公式如下所示:
(1)

XGBoost訓練優化的目標公式如下:
(2)
(3)


本文所采用的原始數據來自于某條實際運營的地鐵車輛,共包含11列車載數據集,時間跨度為2019年02月01日~2019年06月30日,數據采樣周期為0.5 s,文件大小約為380 GB.
車載數據通過4G物聯網傳輸,采樣周期應為0.5s,但是傳輸不穩定導致時間記錄不連續,數據存在大量缺失和異常值.為了解決原始數據集質量和存儲問題,對數據進行整理,剔除缺損值,只選取測點數量較為完整的文件,共1654個文件,通過優化數據存儲類型,可降低內存消耗,提高算法的收斂速度.
利用專家經驗、機理研究和前期的數據探索,發現輔逆溫度的變化與列車的外部溫度、空壓機的運行情況、空調的運行情況等有著直接的關系,數據探索情況見圖1.在曲線擬合的過程中,選取了數據集里的CTDU_空調_列車外部溫度,HC1CT_空調_A1車外部溫度,HC2CT_空調_B1車外部溫度,CTPCBC_制動_空壓機組1運行,CTDC_空調_A1車空調能耗值,CTDC_空調_B1車空調功率等,來擬合輔逆溫度的變化曲線,并與實際值AC1CT_輔助_A1車逆變模塊溫度做比較分析,對比結果見圖2.
在算法生成過程中,采用分車交叉驗證,應對不同列車自身數據分布差異,提供算法的魯棒性和泛化能力.


(a)輔逆溫度與空調功率之間的關系


(b)輔逆溫度與輔逆功率之間的關系


(c)輔逆溫度與空壓機啟停之間的關系


(d)輔逆溫度與制動電阻風機啟停之間的關系

圖2 輔逆溫度擬合曲線與實際曲線的對比
本文采用決策樹、隨機森林、梯度提升樹算法、XGBoost分別擬合輔逆系統溫度變化曲線,結果如表1所示,其中R2代表絕對系數,MAE表示預測結果絕對誤差的平均值,MSE表示均方誤差.通過比較表1中的數據發現,采用XGBoost模型預測輔逆系統溫度時的R2更接近于1,為0.952 3,說明采用XGBoost模型擬合輔逆系統溫度效果更好;運用XGBoost模型預測輔逆系統溫度時MAE值最小,為1.046,說明采用XGBoost模型預測輔逆系統溫度有更好的魯棒性;采用XGBoost模型預測輔逆系統溫度時MSE值最大,為1.998,說明采用XGBoost模型預測輔逆系統溫度有更好的精確度.所以,經過對比發現,使用XGBoost算法預測輔逆系統溫度時的精確度更高,魯棒性更好.

表1 不同算法之間的比較
選取2019年4~5月的車載數據集作為樣本集,采用已訓練好的XGBoost算法擬合出輔逆溫度的曲線,以天為單位,計算出實際輔逆溫度和擬合輔逆溫度之間的偏差,繪制偏差分布如圖3所示.

圖3 實際值與擬合值偏差的分布
計算統計所有列車偏差分布,提取殘差分布的統計特征,整體分布均值0.021 2,標準差為1.31,中位數為-0.069 6,數值范圍在[-9.15, 7.87],近似服從正態分布.因此,使用正態分布的標準差判斷逆變模塊溫度是否存在異常趨勢.
本文定義誤差超過均值±2倍標準差之外的點判定為預警點,誤差超過均值±3倍標準差之外的點判定為誤差點.
通過以上定義,統計測試該時間段內每列車每天對應異常數據點的比例,尋找趨勢線,為確保統計數據的有效,要求當天數據滿足以下條件:①剔除異常的溫度數據;②要求當天滿足列車速度大于0的數據大于50個采樣點.
求取以上異常點的比例,作為下一步時間序列預測的基礎數據.
ARIMA模型[11](差分自回歸移動平均模型,Auto-regressive Integrated Moving Average Model),是一種較高精度的時間序列預測分析方法,模型簡單,只需要內生變量,不需要借助其它外生變量,是20世紀70年代美國統計學家GEP-Box和英國統計學家GMJenkins建立的一種隨機時間序列模型.基于預測對象隨時間變化形成的數據序列,建立數學模型.模型通過后,利用建立的方程中的過去值來預測下一個時間段的數據.
ARIMA(p,d,q)的公式:
(4)
本文以異常點比例日線作為待預測目標,使用ARIMA進行建模.經過ADF-Test等平穩性檢驗,警告閾值線、錯誤閾值線均需要進行一階差分后趨于平穩.通過對ACF圖和PACF圖的分析,得到ARIMA參數如下:
警告閾值線:ARIMA(6,1,1)
錯誤閾值線:ARIMA(5,1,1)
利用ARIMA模型預測各列車輔逆溫度的趨勢,如圖4所示.根據測試結果可知,T4編組、T6編組、T8編組、T10編組預測的警告閾值線和錯誤閾值線整體都在設定的警告閾值線和錯誤閾值線之下,均未報出異常,與實際列車運營情況相吻合.后期會持續針對實際運行數據樣本對模型進行預測.

(a)T4

(b)T6

(c)T8

(d)T10
本文提出了XGBoost和ARIMA算法來預測列車輔逆系統溫度變化趨勢,并通過數據探索、曲線擬合、時序預測等方法進行實踐,預測的整體結果與實際情況相吻合.但是由于輔逆超溫的異常數據樣本極少,后期還需要結合更多的樣本進行訓練,來提高算法的魯棒性和泛化能力.此方法對列車運營過程中存在的負樣本較少的實際應用提供了一種新的探索方法,對健康診斷系統故障預測有借鑒和指導意義.