趙 珂,彭清暢,劉光俊
?
大數據實時流計算的高鐵轉向架數據過濾算法研究
趙 珂1,彭清暢2,劉光俊2
(1. 昆明理工大學 城市學院,云南 昆明 650051;2. 中車青島四方機車車輛股份有限公司,山東 青島 266111)
為解決高鐵轉向架數據過濾在大數據流計算中受多工況影響的計算效率低下和精準度不高的問題。在高鐵大數據實時流計算中使用多判據因子方差斜率算法進行特征提取多工況數據,并結合交路線上相應GPS坐標點上的權重參考值進行數據過濾。通過高鐵實際項目運行驗證:該方法能有效降低數據干擾,提升數據過濾準確率到95%以上,實現準確監控和預測高鐵轉向架故障,大幅降低了高鐵轉向架的檢修工作量,提高了檢修效率;同時能滿足實時流計算每秒上百萬的計算效率。
高鐵;數據過濾;多判據因子;轉向架;流計算
在高鐵、飛機等交通工具的高速運行中,故障管理和檢測是系統運行保障的重要環節[1],為監測高速交通運行設備的健康度需要進行傳感器數據采集、數據解析、算法運算、安全監控、預測挖掘、分析統計等大數據處理。其中,在高鐵動車組故障監控和預測中轉向架、車輪等核心部件是系統健康運行監測系統的重要對象[2],動車轉向架傳感器數據由于其外部的工況隨時在變化(如:京廣線的高鐵在夏天運行過程中要經過40℃~50℃的高溫,也會經過10℃~20℃的低溫,溫濕度和海拔等也在隨車變化),采用單一軸溫閥值監控系統運行健康度,會導致錯誤報警率較高。為提高系統監測精度,需結合多系統多工況進行大數據實時分析處理。在高實時性要求的設備安全監控業務場景中,需要秒級完成海量數據運算,這個過程首先需要對大數據中的高價值數據進行快速、準確地計算和監控,并實時進行清洗、容錯處理。同時實時流計算的過濾算法需要簡單、實用、高效,但簡便的算法不能保障數據過濾精度,采用復雜的計算又需要更多的計算資源。
在大數據的流計算中,常用的數據過濾和數據特征提取方法有匹配過濾、偏最小二乘法、線性判斷分析等方法。羅元劍等[3]提出了基于有限狀態機的RFID流數據過濾與清理技術;賈連鎖[4]提出的數據過濾方法是基于靜態匹配表的查找過濾;劉健男等[5]提出基于布隆過濾器的數據過濾方法以減少內存的查詢時間,提高了流計算的實時性;但文獻[3-5]的數據過濾技術都不適用于多工況的實時大數據過濾處理。姜文超等[6]提出了一種基于相似度過濾的大數據保序匹配與檢索算法,主要適用于預測平穩系統,利用歸約后數據計算相似度后過濾,該方法不適用于突變數據檢測系統和故障數據預測。延婉梅[2]提出了基于網格LOF離群點檢測算法對動車數據進行清洗,這種算法適合在部件系統內部進行健康監控,而無法達到故障預測的業務多工況因素分析要求。文獻[7-10]提出了幾種基于特征提取、分類集成的聚類算法識別高鐵工況數據的方法,但這些方法都是基于實驗室的選擇,也是采用基于時間窗口的聚類算法,在實際高鐵運行系統中此類方法都會影響流計算中的業務效果和計算效率。文獻[11-12]提出了魯棒性增量主成分的分析法,通過在線特征提取、滑動窗口數據更新動態,針對過濾后的異常數據點進行增量主成分的分析,實現了滿足大數據處理的實時性及一定精度的要求。文獻[13]提出了用權重法對主成分回歸分析進行補償后動態監測數據的方法。這些方法不能解決高鐵軸溫多工況的數據有效過濾和精度要求。本文在大數據流計算中提取各種復雜工況數據特征,分析了上千列高鐵的轉向架軸溫異常數據,采用離線訓練得到的GPS坐標參考值結合流計算中的多判據因子權重算法的方法,既能實現所有實時運行的高鐵在多工況下的數據高效過濾處理,又能提高數據過濾的精度。
基于大數據平臺的數據采集發現,高鐵在不同的天氣、海拔、速度、內外溫度等多工況的情況下,轉向架傳感器軸溫數據不定時出現數據幀跳變如表1中溫度突變數據所示,跳變數據可能是傳感器故障引起,也可能是多工況導致的正常跳變數據,或者是需要向系統報警的高價值有用數據。因在實時流計算中常出現數據幀跳變,如果采用較復雜算法會增加系統資源額外開銷,影響實時處理效率。
表1 轉向架軸溫數據跳變示例

Tab.1 Example of jumping data of bogie axle temperature data
表1中采集的轉向架傳感器軸溫數據樣本采集時間精確到200毫秒,正常軸溫數據處于30~38℃,由于多工況與傳感器故障等情況的干擾,高鐵回庫后,檢修人員在實際業務數據論證后發現表1中溫度標記為①③是錯誤數據;標記為②是工況異常導致的轉向架傳感器溫度跳變,業務上屬于應報警處理的數據;標記為④的是傳感器故障導致出錯數據,也屬于應報警處理的數據。可見多工況實時數據具有數據量大、復雜性高、難辨識等特征,需要依據多工況業務經驗結合特定算法來辨識數據價值,不能采用單一算法或固定閾值進行監控處理。
多工況的實時數據過濾首先使用方差斜率算法,基于離線數據的主成分回歸分析訓練的GPS坐標多工況判據因子權重列表,在實時流計算中使用多工況權重算法進行計算,才能滿足高鐵數據過濾的效率與精度要求。
大數據平臺實時流計算需要采集上千個傳感器和開關數據,每個數據包含轉向架定子軸溫、小齒輪軸箱溫度、大齒輪箱溫度、速度、加速度、天氣溫度、軸振動頻率、交流電壓、直流電壓、風壓、海拔、GPS坐標等多工況數據。判斷軸溫健康監控數據,采用多判據因子實時權重的方法過濾工況干擾項,其主要判據因子權重比例見表2。
表2 軸溫多判據因子權重表

Tab.2 Multi factor weighting table for axle temperature
在高速運行的高鐵轉向架健康監控中,由于列車線路不同、工況不同,導致每列動車采集的傳感器軸溫有所差異,因此需要按照交路運行的GPS坐標點劃分交路點Ln和判據因子權重比UY才能進行計算,一般動車數據過濾選擇表2中前八個工況作為判據因子,高寒動車需增加濕度和海拔判據因子權重。各個判據因子的權重比需要結合列車線路的實際路況,采用統計學和機器學習算法反復訓練,并結合歷史數據經驗參考值得到合適的權重比以保證實時數據過濾的精準度和設備監控及健康預測管理的業務效果。
在計算資源有限的條件下,大數據流計算中選擇復雜的數據過濾算法會導致數據積壓,不能滿足實時監控的秒級應用。在實踐應用對比以后,使用方差斜率算法結合實時軸溫監控算法的主成分多判據因子計算,計算0與1兩個時間點的傳感器方差值與時間的斜率作為基礎判據主因子算法,如圖1所示。

圖1 方差斜率示意圖



通過使用Flume方式采集離線全量數據,并寫入hadoop的hdfs,使用hive轉換成Map和Reduce的任務進行傳感器數據包的合并、解析、split拆分、集合分類、數據連續性稽核、最后根據交路GPS點的特征使用主成分權重算法得到實時流計算過濾所需要的權重值,計算流程見圖2。
圖2中實際運行需要根據交路上的所有列車運行的實際站臺、岔口、海拔、橋梁、隧道、彎道等交路特征選擇每日歸檔的全量工況數據才能進行主成分回歸分析,并結合業務經驗反復訓練和驗證得到合理的權重值。交路特征變化小的情況下列車勻速運行,其工況表現變化較小,但在遇不同交路特征時工況差異變化較大,因此需要將多工況離線權重值與交路線GPS坐標點進行標注關聯,實時流計算中直接根據GPS坐標點讀取多工況權重值進行數據過濾處理。


將表2中排名前幾位的工況判據因子作為主要因素用于計算實時多工況權重C0,見公式3:


圖2 離線經驗值大數據訓練流程圖
在實時流計算中列車運行到這個點的時候動態選擇相應的多個工況權重值,多工況的算子和權重標注示例如圖3所示。

圖3 交路GPS坐標Ln點判據因子與權重標注圖

數據實時計算過程中如果使用海量多工況判據因子數據,會導致計算效率低下。因此只能使用離線訓練的多工況判據因子數據的過濾權重值,并需結合高鐵運行工況樣本數據反復訓練驗證分析。項目通過高鐵1年離線數據經過上百次的主成分回歸分析訓練和修訂,得到能滿足實時流計算精度要求的判據因子權重值列表。
采用支持向量機(Support Vector Machine, SVM)算法訓練模式[14-15]能發現數據的工況原因和機理原因,但很難保障數據過濾精度,因此只能將各種判據因子作為機器學習的算法訓練方式,迭代補充判據因子算法,確保算法更加精準、高效。
訓練驗證數據過濾算法的有效性和高效性需要在流計算中固定算法處理邏輯,其驗證程序實現邏輯流程見圖4。

圖4 線路上GPS坐標點的實時程序流程圖
實時采集列車運行到交路GPS坐標的傳感器數據,采用大數據的流計算技術,計算當前數據T1與上包數據T0方差斜率。如果是高寒動車交路線上,其天氣因子的權重將自動排名靠前,根據圖4的程序流程得到多工況判據因子主成分回歸分析排名等權重值列表。最后計算相關因子權重占比,從而過濾出高價值的預判/預警/報警。
軸溫交路的權重經驗值是基于前一日的離線全量數據,采用主成分回歸分析法[18]進行訓練,最小二乘法回歸算法主要用于主成分累計貢獻率的殘差推導。在不考慮長編組和連掛的情況下,1列車8節車廂,每節車廂36個軸溫傳感器,以200毫秒1個數據包來計算,1天數據量=8節×36個×24小時×60分鐘× 60秒×5包/秒=1.244億個軸溫樣本,剔除檢修調試數據最少有幾千萬的樣本,在進行經過離線大數據模型算法篩選后標記進交路的GPS坐標上,形成交路的軸溫工況權重算法參考值數據。
為保障高鐵在不同工況的軸溫健康監控的準確率,需要對軸溫斜率算法和參考值進行長期訓練與優化,通過多輪算法與實際應用論證,基于交路坐標上采用主成分回歸分析算法訓練多工況數據的累計貢獻率,通過降維后對多工況的不確定因素使用最小二乘法回歸進行推導得到排名靠前的多工況因子權重列表。
步驟1:利用主成分回歸分析擬合1年內所有列車在相同GPS點的軸溫與多工況因子數據集合。
對個自變量進行主成分回歸分析,假設表2中軸溫相關的速度、加速度、外溫、海拔等個樣本值,聚合1年所有高鐵經過這個GPS坐標指標集合為,得到所有坐標的主成分累計貢獻值集合:

=,,,, …,(4)
公式4中代表GPS坐標序號,根據貢獻值排名得到因子的主成分列表,由于排名靠后的因子對軸溫的影響累計貢獻率比較低,因此在這個GPS點上不作選擇,而當GPS坐標發生變化時,由線路特征和工況發生變化,其因子的選擇列表也會自動根據累計貢獻率進行調整。所有歷史數據進行主成分回歸分析,并將所有主成分累計值進行均值運算,再進行排名提取因子列表,這樣保證列車的主成分的因子成分貢獻率的穩定性。
步驟2:采用最小二乘法回歸算法對因變量進行多元線性回歸計算:


步驟3:流計算中將各個判據因子方差斜率與GPS坐標的影響因子權重值列表進行權重值占比擬合訓練。對比分析業務故障機理原因,推導出合理的權重占比值列表,采用權重值之和大于90%以上的判據因子列表作為數據過濾條件。
全國兩千多列高鐵因建造時間不同,車上傳感器種類不同、敏感性不同,采集的數據會存在差異。故每列車的機理模型還需根據具體列車特點推導、訓練和驗證。選擇京廣線上1列標動為例,根據交路工況特點在流計算中動態調整機理模型,進行數據和算法擬合驗證故障預測效果。多工況機理模型需要采用高鐵運行速度≥330 km/s的相同情況下,在固定的運行交路進行推導和驗證。
實驗前期采用了很多單一算法進行驗證分析(如:同側軸溫均值算法,溫升斜率算法,線性回歸算法,小波分析算法等等)都很難提升精準度和滿足業務部門要求的數據預測,其系統實現的多工況單一算法機理分析如圖5、6所示。

圖5 軸溫與速度單一算法機理分析系統效果圖

圖6 多工況的單一算法機理分析系統效果圖
在圖5、6中是高鐵監控與故障預測系統中流計算使用單一過濾算法的系統效果圖,單一算法只能對標注點進行監控提示。因每種工況機理表現和數值都不一樣,單一算法無法進行數據擬合和多工況因子針對性選擇,只能分析機理現象。單一算法的標注提示后需要工程師通過業務經驗進一步尋找故障發生時的機理原因,故障監控/預測不夠準確,也容易增加檢修工作量。
采用交路GPS坐標的多工況權重分析能解決業務部門轉向架的數據分析難度,并有效提升效率。為驗證算法的精準性,使用多種機器學習算法進行對比驗證,其效果如表3所示。
表3 孤立森林模型估計結果

Tab.3 Estimation results of isolated forest models
在表3中采用3584例樣本,其中車載異常數25例。采用孤立森林算法過濾出567例異常數據,One-Class SVM算法過濾出1934例異常數據,Robust Covariance算法過濾出1134例異常數據。使用多工況權重算法僅過濾出40例異常數據,進一步通過業務確認出全部25例真實異常數據。隨機派單的5例異常數據中,權重比例之和全部達到95%以上,回庫檢修部門核查原因是轉向架齒輪箱黃油過量導致軸溫與其它工況出現數據異常,屬于檢修不合規導致異常,轉向架正常沒有故障,清理過多黃油后故障隱患排除。
可見前三種機器學習算法過濾出較多的非標 記異常數據,采用多工況權重算法有效數據過濾提升明顯。
實時多工況權重算法在某列車某日16點48分52秒發生車載軸溫報警的情況下,車載軸溫預警分析如表4。
表4 軸溫預警故障數據

Tab.4 Axle temperature warning fault data
表4中為體現軸溫變化差異性,將數據按照30秒頻率進行初步過濾對比,車上預警的控制策略是軸端溫度大于100℃,車載預警模型發出預警故障。異常溫度值只結合外溫、不間斷溫升、最大溫差、連續溫升等軸溫相關因子并不能準確預測故障。軸溫故障預警需綜合多工況因素考慮分析。多工況權重擬合多工況運行到這個GPS坐標點軸溫相關工況因子原始數據見表5。
針對列車運行到16點48分52秒的數據表進行實時流計算,參照離線主成分回歸訓練的多工況權重值列表如表6。
根據業務權重數據過濾規則,此時表6中多工況權重值合為62.84%<90%,流計算中報警過濾標記為0。業務經人工實際驗證以后沒有故障,因此流計算中多工況權重算法計算結果是正確的,車載預警標記為預警故障是不準確的,實驗證明使用多工況權重算法可以減少了檢修部門很多無效工作量。
表5 軸溫多工況原始變化表

Tab.5 Original table of axle temperature and multiple working conditions
表6 車上軸溫多工況權重算法驗證表

Tab.6 Verification table of weight algorithm for axle temperature and multi working conditions
在高鐵轉向架軸溫的大數據實時流計算中,數據過濾算法的精度受限于不同工況環境中的影響,本文采用多判據因子方差斜率算法結合離線主成分回歸分析訓練的多工況權重值列表進行實時流計算處理,得到以下結論:
(1)數據過濾計算效率既能滿足高鐵軸溫過濾的秒級性能指標要求,又能從上千列高鐵全天9.96億條多工況傳感器數據中過濾出高價值數據。
(2)在實際項目運行測試中轉向架健康監控和預測數據的精準度從85%提升到95%左右,有效減少了動車的實時監控運營誤判率,降低了10%的檢修運維工作量。
因受集群規模和計算資源的影響,實時數據過濾的難度主要在于簡單的算法在海量歷史數據中進行在線計算很難實現簡單高效的計算,實驗發現數據量越大,算法復雜度和運算效率是一對矛盾體,因此多工況的大數據過濾需要反復訓練和調整算法,才能保障運算效率和過濾精度。
[1] 張春. 基于大數據的動車組故障關聯關系規則挖掘算法研究與實現[D]. 北京: 北京交通大學, 2017
[2] 延婉梅. 動車組大數據清洗關鍵技術研究與實現[D]. 北京: 北京交通大學, 2015.
[3] 羅元劍, 姜建國, 王思葉. 基于有限狀態機的RFID流數據過濾與清理技術[J]. 軟件學報, 2014, 25(8): 1713-1728.
[4] 賈連鎖. 一種數據過濾方法: 中國, 201610877127. 0[P]. 2016-12-21.
[5] 劉健男, 黃曉峰. 一種用于流計算的數據處理方法與設備: 中國, 201410679749. 3[P]. 2016-06-22.
[6] 姜文超, 林德熙, 孫傲冰等. 一種新的基于相似度過濾的大數據保序匹配與檢索算法[J]. 計算機工程與科學, 2017, 39(7): 1249-1256.
[7] 饒齊, 楊燕, 滕飛等. 基于多視圖加權聚類集成的高速列車工況識別[J]. 中國科學技術大學學報, 2018, 48(1): 35-41.
[8] 郭超, 楊燕江, 永全等. 基于多視圖分類集成的高鐵工況識別[J]. 山東大學學報(工學版), 2017, 47(1): 7-14.
[9] 陳云風, 王紅軍, 楊燕. 基于聚類集成的高鐵故障診斷分析[J]. 計算機科學, 2015, 42(6): 233-238.
[10] B. Zhang, H. Wang, Y. Tang et al. Residual Useful Life Prediction for Slewing Bearing Based on Similarity under Different Working Conditions[J]. Experimental Techniques, 2018, 42(3): 215-227.
[11] 孔憲光, 章雄, 馬洪波等. 面向復雜工業大數據的實時特征提取方法[J]. 西安電子科技大學學報(自然科學版) , 2016, 43(5): 70-74.
[12] Nicholas Tsagkarakis, Panos P. Markopoulos, George Skli-vanitis et al. L1-norm Principal-Component Analysis of Com-plex Data[J]. IEEE Transactions on Signal Processing, 2018, 66(12): 3256-3267.
[13] Zhengshun Fei, Kangling Liu. Online process monitoring for complex systems with dynamic weighted principal comp-onent analysis[J]. Chinese Journal of Chemical Engineering, 2016, 49(6): 775-786 .
[14] Xiaochen Zhang, Dongxiang Jiang, Te HanRotating et al. Rotating Machinery Fault Diagnosis for Imbalanced Data Based on Fast Clustering Algorithm and Support Vector Machine[J]. Journal of Sensors, 2017, 57(2): 1-15.
[15] Optimization of Multi Kenerl Parallel Support Vector Machine based on Hadoop[C]// PROCEEDINGS OF 2016 IEEE ADVANCED INFORMATION MANAGEMENT, COM-MU-NICATES, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE. New York: IEEE Press, 2016: 1602-1606.
[16] 楊連報, 李平, 薛蕊等. 基于不平衡文本數據挖掘的鐵路信號設備故障智能分類[J]. 鐵道學報, 2018, 40(2): 60-66.
[17] 李兆興, 馬自堂等. 面向批量處理的大數據檢索過濾模型研究[J]. 計算機科學, 2015, 42(9): 70-74.
[18] 王惠文, 王劼, 黃海軍. 主成分回歸的建模策略研究[J]. 北京航空航天大學學報. 2008年6月(6): 661-664.
Data Filtering Algorithm for High Speed Bogie Based on Real-time Data Stream Computation
ZHAO Ke1, PENG Qing-chang2, LIU Guang-jun2
(1. City College, Kunming University of Science and Technology, Kunming 650051, China; 2. China Railway Rolling Stock Corporation Qingdao Sifang Co. LTD, Qingdao 266111, China)
In order to solve the problem of low efficiency and low accuracy of data filtering for high-speed railway bogie, which is affected by many working conditions in large data stream calculation. Multi-criterion factor variance slope algorithm is used to extract multi-condition data in the real-time stream calculation of high-speed railway large data, and the data is filtered by combining the weight reference values of the corresponding GPS coordinate points on the routing. Through the actual operation of high-speed rail projects, the method can effectively reduce data interference, improve the accuracy of data filtering to more than 95%, achieve accurate monitoring and prediction of high-speed rail bogie faults, greatly reduce the maintenance workload of high-speed rail bogies, and improve the maintenance efficiency. At the same time, it can satisfy the computation efficiency of real-time computation of millions of streams per second.
High-speed rail; Data filtering; Multiple criteria factor; Bogie; Stream computing
TP273.5
A
10.3969/j.issn.1003-6970.2018.11.021.
趙珂(1978-),女,碩士,講師,主要研究方向:信號與信息處理、大數據挖掘;劉光俊(1993-),男,本科,助理工程師,主要研究方向:數據統計分析,大數據挖掘;彭清暢(1985-),男,本科,信息工程師,主要研究方向:軟件工程、大數據架構。
趙珂,彭慶暢,劉光俊. 大數據實時流計算的高鐵轉向架數據過濾算法研究[J]. 軟件,2018,39(11):88-95