梁師嵩
(中車南京浦鎮車輛有限公司, 210031, 南京∥高級工程師)
地鐵列車牽引系統的冷卻裝置故障關系到列車的運行安全。列車牽引系統的冷卻裝置風機濾網若發生臟堵,將對牽引系統的正常運行產生重要影響[1]。列車牽引部件(如變流器、變壓器等)的濾網若未及時清洗、除塵,容易降低列車運行可靠性,造成安全隱患[2]。因此,如何建立準確、有效的濾網臟堵預警模型,用以指導濾網臟堵的預測維修,是亟需解決的問題。
為保證列車牽引變流器的工作可靠性,應確定合理的濾網維修方式與維修周期。目前,對于濾網的運用維修仍以計劃預防修為主,并結合換件修、集中修,以確保濾網的維護質量。但經驗表明,列車運行的外界環境變化對計劃修的影響非常大,對一級修的影響尤為顯著[1]。因此,列車的運用維修應結合外部運行環境,適當縮短或延長各部件的維修周期,以避免因不及時維修造成的系統可靠性隱患或頻繁維修增加的額外維修成本。為此,利用數據挖掘技術,在列車現有數據上構建系統預測模型,以推動由計劃修到狀態修、再到預測修的進程,是近年的發展熱點;利用預測維修理論,能夠有效降低維修成本、縮短維修周期,且能夠更有針對性地進行維修處理[3-4]。
根據故障清單的樣本條件,可將列車牽引變流器濾網部件的故障預測方法分為兩類:一是依靠異常檢測的方法[5-6]。該類方法完全基于健康狀態歷史數據進行預測模型的正常域標定,如文獻[3]構建了油冷卻器的油溫、溫升、溫差等加權特征指標,并通過無臟堵健康數據確定指標正常邊界。與性能退化模型相比,基于閾值參數判別的檢測方法的性能相對更依賴歷史數據集的大小,故異常識別結果受閾值參數取值變化的影響較大。二是利用歷史故障數據擬合性能指標的退化軌跡,該類方法需建立在足夠的故障試驗數據基礎上。文獻[1]基于不同臟堵程度的模擬數據標定風機電流值,采用設定多級電機電流控制門限的方式,以進一步減少故障誤判;文獻[7]利用多任務深度學習技術,擬合出變流器性能退化的曲線,實現臟堵程度的量化。
事實上,列車的外界環境多變(如受沙塵天氣等影響),且濾網臟堵程度量化指標的定義依賴主觀經驗,缺乏確切的定義標準,因此,如何基于現階段的列車牽引系統實時采集數據來實現濾網臟堵預警,仍需進一步探討。
本文在不增加傳感設備的前提下,利用列車歷史數據,采用聚類方法進行濾網臟堵的異常檢測,并對臟堵程度完成了量化。首先,根據變流器濾網的計劃修清洗記錄對列車采集的歷史數據標簽進行處理,并利用隨機森林模型進行特征權重分析,以篩選出模型特征;其次,利用孤立森林模型構建牽引變流器濾網臟堵預警模型,并對模型的參數進行設定。本文所構建的孤立森林模型的模型分數能夠直接反映變流器濾網的臟堵程度,可用于濾網臟堵的維修決策。
列車牽引變流器主要包括逆變整流模塊、熱交換器、風機等部件,其散熱的原理是:冷卻水在流經熱交換器依靠風機換風降溫后,再次回流至冷卻水管路,完成循環降溫。顯然,相同的外界環境條件下,如果變流器濾網發生嚴重臟堵,必然導致定功率、或風機的有效換風面積減小,進而可能引發柜體溫度上升、柜體內外溫差增大等問題。
在建立預警模型時,一方面需要考慮外部環境變化、濾網清洗標準控制等差異,低信噪比數據并不利于復雜回歸模型的擬合效果;另一方面,還要認識到故障數據標簽不足的現狀。本文利用冷卻水進口和出口的溫度差、壓力差等特征向量,構建孤立森林模型,以確定濾網臟堵的正常域邊界。
如表1所示,模型的輸入數據至少應包括冷卻風機狀態、列車參考速度、環境溫度、冷卻水進出口溫度、冷卻水進出口壓力等方面。

表1 濾網臟堵預警模型的輸入數據類型
為降低外部環境、列車運行狀態等因素對模型的干擾,本文將列車以大于50 km/h的速度運行時的數據作為歷史數據集,并設定數據樣本篩選的條件為:① 列車參考速度大于50 km/h;② 冷卻風機為運行狀態(即狀態信號為“1”);③ 冷卻器出水口、入水口的壓力無明顯異常(基于設定參考閾值);④ 冷卻器出水口、入水口的溫度無明顯異常(基于設定參考閾值)。
將隨機森林分類器的分類準確率作為可分性判據進行特征的重要性度量,這是機器學習中經典的特征評價策略[8]。因此,為明確特征變量對于區分濾網臟堵與潔凈狀態的貢獻度大小,應確定構建模型使用的輸入特征。本文利用隨機森林分類模型來量化特征變量的重要性。
2.2.1 數據準備
每次進行濾網清洗維護時,濾網在臟堵程度、清洗標準均不可避免地存在一定的差異性[9],但濾網物理臟堵程度的主觀量化值差異性水平并不會對分類的準確性產生根本性影響,因此,本文認為清洗前1 d采集的數據可以作為濾網臟堵的故障數據,清洗維修后次日采集的數據可以作為濾網的健康數據。根據該原則,本文隨機選取了2次濾網清洗過程,記錄清洗前1 d和清洗后1 d的數據,依次對數據進行篩選和標簽處理。
2.2.2 特征生成
所構建的數據特征包括原始物理特征、再生物理特征的統計特征。其中:原始物理特征參數包括柜體溫度、環境溫度、進水口溫度、出水口溫度、進水口壓力、出水口壓力和列車參考速度;再生物理特征參數包括柜體溫度和環境溫度的差值、進水口溫度和出水口溫度的差值、進水口壓力和出水口壓力的差值。再生物理特征指基于原始物理特征形成的數學特征,包括最大值、中位值、平均值、差分值等。
2.2.3 特征篩選
上述數據經標簽處理、特征提取后得到特征變量數據。本文針對雙路冷卻水構成的冷卻系統(存在進口1、進口2和出口1、出口2),利用隨機森林分類模型進行強分類能力特征變量篩選,得到特征變量的權重分布如圖1所示。由圖1可知:區分濾網臟堵與清潔的主要特征變量重要性按照從大到小排序,前6位分別為:柜體溫度和環境溫度差值的中位值、柜體溫度和環境溫度差值的平均值、冷卻水進口1壓力和出口1壓力差值的平均值、冷卻水進口2壓力和出口2壓力差值的平均值、冷卻水進口1溫度和環境溫度差值的平均值、冷卻水進口2溫度和環境溫度差值的平均值。因此,本文將選定這6個特征變量作為模型特征。

圖1 濾網臟堵預警模型特征變量的權重分布Fig.1 Weight distribution of characteristic variables of filter fouling early warning model
本文選擇某列車的A、B兩節車廂作為研究對象進行對比分析。如圖2所示,以測試當日作為時間參照,A車在測試日的前1 d未進行濾網清洗,B車在測試日的前1 d進行了濾網清洗。從測試當日柜體溫度和環境溫度差值的變化曲線可以看出:A車的溫度差值明顯大于B車的溫度差值。

圖2 濾網清洗(B車)和濾網未清洗(A車)的 車輛柜體溫度和環境溫度差值的對比
如圖3所示,另選某個檢測日,在該檢測日前累計7 d內A、B車均未進行過清洗,此時A、B車在檢測當日柜體溫度和環境溫度的差值變化曲線非常接近。這說明柜體溫度和環境溫度的差值是關聯濾網清洗與否的直接、關鍵的變量,這與本文特征篩選得到的結論相符。

圖3 累計7 d未進行濾網清洗的車輛柜體溫度和 環境溫度差值的對比
由于故障標簽的數據量不足,應結合所構建的特征建立孤立森林的異常檢測模型,用以作為濾網臟堵預警模型。本文結合列車的實際維修清洗記錄,默認僅有極少數日期發生過濾網嚴重臟堵的情況,即異常點占總樣本量比例極小。根據該原則,選定2020年3月、4月列車白天的運行數據作為訓練樣本,在綜合實際檢修記錄數據的基礎上確定模型孤立異常點的比例值。
濾網臟堵預警模型的整體輸入為當前時刻的列車參考速度、柜體溫度、環境溫度、冷卻水進出口溫度、冷卻水進出口壓力等數據;模型的整體輸出為當前時刻濾網臟堵的模型分數,其取值范圍為0~100,數值上等于異常樣本數占總樣本數的比例。因此,該分值越高,則表面濾網的臟堵情況越嚴重。圖4為濾網臟堵預警模型的計算流程。

圖4 濾網臟堵預警模型的計算流程Fig.4 Calculation process of filter fouling early warning model
如圖4所示,濾網臟堵預警模型的訓練流程為:
1) 數據處理模塊。篩選滿足上文所述條件的列車數據,目的是通過數據清洗規則排除非運行狀態的干擾噪聲。
2) 特征工程模塊。針對處理后的數據,生成柜體溫度和環境溫度差值的中位值、柜體溫度和環境溫度差值的平均值、冷卻水進口1壓力和出口1壓力差值的平均值、冷卻水進口2壓力和出口2壓力差值的平均值、冷卻水進口1溫度和環境溫度差值的平均值、冷卻水進口2溫度和環境溫度差值的平均值。
3) 模型訓練模塊。以上述6個特征變量作為孤立森林算法的輸入,在訓練集上進行網格搜索,并結合經驗,對孤立森林模型超參數作進一步的優化。
4) 模型分數模塊。計算檢測當日異常數據的比例,并將異常樣本比例作為濾網臟堵的預警模型分數結果輸出,將結果進行記錄,如表2所示。

表2 訓練數據集中清洗日期前后的模型分數對比
根據檢修記錄,2020年的3月18日和4月24日列車在完成載客任務回庫后,在夜間進行了濾網清洗。表2的實際檢修結果顯示,濾網在3月18日、4月24日白天處于臟堵狀態。
表2數據表明,3月18日(清洗前)的模型分數明顯高于3月19日(清洗后)的模型分數,4月24日(清洗前)的模型分數同樣高于4月25日(清洗后)的模型分數。這說明所建立模型的輸出分值能夠真實地反映濾網的清潔狀態。
本文選定某3列車(T1、T2、T3)2020年的5月17日至5月22日的歷史數據,用以驗證濾網臟堵預警模型的準確性。預警模型在測試數據上的模型分數如表3所示,其中:T1的濾網清洗時間為5月18日夜間和5月20日夜間;T2的濾網清洗時間為5月17日夜間和5月19日夜間;T3的濾網清洗時間為5月17日夜間、5月19日夜間和5月21日夜間。
由表3可以看出:
1) 以T1為例,濾網清洗當日(清洗前)所得的濾網臟堵預警模型分數顯著高于次日(清洗后)的模型分數,這表明本文建立的孤立森立模型分數能夠反映濾網臟堵程度的狀態變化,即臟堵越嚴重,模型分數越高;

表3 濾網臟堵預警模型在測試集上的模型分數
2) 以T2、T3為例,清洗前、后模型分數差值幅度差異的原因可能在于清洗前的濾網臟堵程度受當日環境因素影響,或清洗前濾網有效流通面積存在差距,但這些差異并不影響臟堵程度模型分數符合預期規律;
3) 對T3在5月21日濾網清洗維護后臟堵評分的情況進行原始物理特征觀測,發現目標對象在濾網清洗后1 d內列車參考速度偏小,該原因或導致冷卻牽引變流系統的散熱效果變差。
綜上所述,本文所建立的濾網臟堵預警模型,其在測試數據集上的模型分數變化能夠表征濾網清洗的數據變化規律,可有效地反映濾網的臟堵程度。
本文針對列車牽引變流器冷卻系統的濾網臟堵問題,提出了基于機器學習的變流器濾網臟堵預警模型,用以指導濾網的預測維修決策。
1) 基于特征工程與特征權重分析手段,確定采用柜體溫度和環境溫度差值的中位值、柜體溫度和環境溫度差值的平均值、冷卻水進口1和出口1壓差的平均值、冷卻水進口2和出口2壓力差的平均值、冷卻水進口1和出口1環境溫差的平均值、冷卻水進口2和出口2環境溫差的平均值等6個變量作為判別濾網臟堵的強分類能力特征變量。采用這些特征變量進行預警分析,在提升模型效果的同時也降低了濾網臟堵異常預警模型的復雜度。
2) 本文建立了基于孤立森林的濾網臟堵預警模型,該模型能夠在歷史數據集上較好地反應當前列車牽引變流器的濾網臟堵狀態,并能有效識別濾網清洗前后的故障狀態。
3) 目前影響濾網臟堵預警模型所輸出的臟堵程度量化指標準確性的因素包括訓練集數據量的限制、外界環境變化的不可控性、計劃清洗作業規范性的主觀影響等。如何提高輸出指標的準確性,是未來進一步研究的方向之一。