趙 珂,彭清暢,劉光俊
?
大數(shù)據(jù)實時流計算的高鐵轉(zhuǎn)向架數(shù)據(jù)過濾算法研究
趙 珂1,彭清暢2,劉光俊2
(1. 昆明理工大學(xué) 城市學(xué)院,云南 昆明 650051;2. 中車青島四方機車車輛股份有限公司,山東 青島 266111)
為解決高鐵轉(zhuǎn)向架數(shù)據(jù)過濾在大數(shù)據(jù)流計算中受多工況影響的計算效率低下和精準(zhǔn)度不高的問題。在高鐵大數(shù)據(jù)實時流計算中使用多判據(jù)因子方差斜率算法進行特征提取多工況數(shù)據(jù),并結(jié)合交路線上相應(yīng)GPS坐標(biāo)點上的權(quán)重參考值進行數(shù)據(jù)過濾。通過高鐵實際項目運行驗證:該方法能有效降低數(shù)據(jù)干擾,提升數(shù)據(jù)過濾準(zhǔn)確率到95%以上,實現(xiàn)準(zhǔn)確監(jiān)控和預(yù)測高鐵轉(zhuǎn)向架故障,大幅降低了高鐵轉(zhuǎn)向架的檢修工作量,提高了檢修效率;同時能滿足實時流計算每秒上百萬的計算效率。
高鐵;數(shù)據(jù)過濾;多判據(jù)因子;轉(zhuǎn)向架;流計算
在高鐵、飛機等交通工具的高速運行中,故障管理和檢測是系統(tǒng)運行保障的重要環(huán)節(jié)[1],為監(jiān)測高速交通運行設(shè)備的健康度需要進行傳感器數(shù)據(jù)采集、數(shù)據(jù)解析、算法運算、安全監(jiān)控、預(yù)測挖掘、分析統(tǒng)計等大數(shù)據(jù)處理。其中,在高鐵動車組故障監(jiān)控和預(yù)測中轉(zhuǎn)向架、車輪等核心部件是系統(tǒng)健康運行監(jiān)測系統(tǒng)的重要對象[2],動車轉(zhuǎn)向架傳感器數(shù)據(jù)由于其外部的工況隨時在變化(如:京廣線的高鐵在夏天運行過程中要經(jīng)過40℃~50℃的高溫,也會經(jīng)過10℃~20℃的低溫,溫濕度和海拔等也在隨車變化),采用單一軸溫閥值監(jiān)控系統(tǒng)運行健康度,會導(dǎo)致錯誤報警率較高。為提高系統(tǒng)監(jiān)測精度,需結(jié)合多系統(tǒng)多工況進行大數(shù)據(jù)實時分析處理。在高實時性要求的設(shè)備安全監(jiān)控業(yè)務(wù)場景中,需要秒級完成海量數(shù)據(jù)運算,這個過程首先需要對大數(shù)據(jù)中的高價值數(shù)據(jù)進行快速、準(zhǔn)確地計算和監(jiān)控,并實時進行清洗、容錯處理。同時實時流計算的過濾算法需要簡單、實用、高效,但簡便的算法不能保障數(shù)據(jù)過濾精度,采用復(fù)雜的計算又需要更多的計算資源。
在大數(shù)據(jù)的流計算中,常用的數(shù)據(jù)過濾和數(shù)據(jù)特征提取方法有匹配過濾、偏最小二乘法、線性判斷分析等方法。羅元劍等[3]提出了基于有限狀態(tài)機的RFID流數(shù)據(jù)過濾與清理技術(shù);賈連鎖[4]提出的數(shù)據(jù)過濾方法是基于靜態(tài)匹配表的查找過濾;劉健男等[5]提出基于布隆過濾器的數(shù)據(jù)過濾方法以減少內(nèi)存的查詢時間,提高了流計算的實時性;但文獻[3-5]的數(shù)據(jù)過濾技術(shù)都不適用于多工況的實時大數(shù)據(jù)過濾處理。姜文超等[6]提出了一種基于相似度過濾的大數(shù)據(jù)保序匹配與檢索算法,主要適用于預(yù)測平穩(wěn)系統(tǒng),利用歸約后數(shù)據(jù)計算相似度后過濾,該方法不適用于突變數(shù)據(jù)檢測系統(tǒng)和故障數(shù)據(jù)預(yù)測。延婉梅[2]提出了基于網(wǎng)格LOF離群點檢測算法對動車數(shù)據(jù)進行清洗,這種算法適合在部件系統(tǒng)內(nèi)部進行健康監(jiān)控,而無法達到故障預(yù)測的業(yè)務(wù)多工況因素分析要求。文獻[7-10]提出了幾種基于特征提取、分類集成的聚類算法識別高鐵工況數(shù)據(jù)的方法,但這些方法都是基于實驗室的選擇,也是采用基于時間窗口的聚類算法,在實際高鐵運行系統(tǒng)中此類方法都會影響流計算中的業(yè)務(wù)效果和計算效率。文獻[11-12]提出了魯棒性增量主成分的分析法,通過在線特征提取、滑動窗口數(shù)據(jù)更新動態(tài),針對過濾后的異常數(shù)據(jù)點進行增量主成分的分析,實現(xiàn)了滿足大數(shù)據(jù)處理的實時性及一定精度的要求。文獻[13]提出了用權(quán)重法對主成分回歸分析進行補償后動態(tài)監(jiān)測數(shù)據(jù)的方法。這些方法不能解決高鐵軸溫多工況的數(shù)據(jù)有效過濾和精度要求。本文在大數(shù)據(jù)流計算中提取各種復(fù)雜工況數(shù)據(jù)特征,分析了上千列高鐵的轉(zhuǎn)向架軸溫異常數(shù)據(jù),采用離線訓(xùn)練得到的GPS坐標(biāo)參考值結(jié)合流計算中的多判據(jù)因子權(quán)重算法的方法,既能實現(xiàn)所有實時運行的高鐵在多工況下的數(shù)據(jù)高效過濾處理,又能提高數(shù)據(jù)過濾的精度。
基于大數(shù)據(jù)平臺的數(shù)據(jù)采集發(fā)現(xiàn),高鐵在不同的天氣、海拔、速度、內(nèi)外溫度等多工況的情況下,轉(zhuǎn)向架傳感器軸溫數(shù)據(jù)不定時出現(xiàn)數(shù)據(jù)幀跳變?nèi)绫?中溫度突變數(shù)據(jù)所示,跳變數(shù)據(jù)可能是傳感器故障引起,也可能是多工況導(dǎo)致的正常跳變數(shù)據(jù),或者是需要向系統(tǒng)報警的高價值有用數(shù)據(jù)。因在實時流計算中常出現(xiàn)數(shù)據(jù)幀跳變,如果采用較復(fù)雜算法會增加系統(tǒng)資源額外開銷,影響實時處理效率。
表1 轉(zhuǎn)向架軸溫數(shù)據(jù)跳變示例

Tab.1 Example of jumping data of bogie axle temperature data
表1中采集的轉(zhuǎn)向架傳感器軸溫數(shù)據(jù)樣本采集時間精確到200毫秒,正常軸溫數(shù)據(jù)處于30~38℃,由于多工況與傳感器故障等情況的干擾,高鐵回庫后,檢修人員在實際業(yè)務(wù)數(shù)據(jù)論證后發(fā)現(xiàn)表1中溫度標(biāo)記為①③是錯誤數(shù)據(jù);標(biāo)記為②是工況異常導(dǎo)致的轉(zhuǎn)向架傳感器溫度跳變,業(yè)務(wù)上屬于應(yīng)報警處理的數(shù)據(jù);標(biāo)記為④的是傳感器故障導(dǎo)致出錯數(shù)據(jù),也屬于應(yīng)報警處理的數(shù)據(jù)。可見多工況實時數(shù)據(jù)具有數(shù)據(jù)量大、復(fù)雜性高、難辨識等特征,需要依據(jù)多工況業(yè)務(wù)經(jīng)驗結(jié)合特定算法來辨識數(shù)據(jù)價值,不能采用單一算法或固定閾值進行監(jiān)控處理。
多工況的實時數(shù)據(jù)過濾首先使用方差斜率算法,基于離線數(shù)據(jù)的主成分回歸分析訓(xùn)練的GPS坐標(biāo)多工況判據(jù)因子權(quán)重列表,在實時流計算中使用多工況權(quán)重算法進行計算,才能滿足高鐵數(shù)據(jù)過濾的效率與精度要求。
大數(shù)據(jù)平臺實時流計算需要采集上千個傳感器和開關(guān)數(shù)據(jù),每個數(shù)據(jù)包含轉(zhuǎn)向架定子軸溫、小齒輪軸箱溫度、大齒輪箱溫度、速度、加速度、天氣溫度、軸振動頻率、交流電壓、直流電壓、風(fēng)壓、海拔、GPS坐標(biāo)等多工況數(shù)據(jù)。判斷軸溫健康監(jiān)控數(shù)據(jù),采用多判據(jù)因子實時權(quán)重的方法過濾工況干擾項,其主要判據(jù)因子權(quán)重比例見表2。
表2 軸溫多判據(jù)因子權(quán)重表

Tab.2 Multi factor weighting table for axle temperature
在高速運行的高鐵轉(zhuǎn)向架健康監(jiān)控中,由于列車線路不同、工況不同,導(dǎo)致每列動車采集的傳感器軸溫有所差異,因此需要按照交路運行的GPS坐標(biāo)點劃分交路點Ln和判據(jù)因子權(quán)重比UY才能進行計算,一般動車數(shù)據(jù)過濾選擇表2中前八個工況作為判據(jù)因子,高寒動車需增加濕度和海拔判據(jù)因子權(quán)重。各個判據(jù)因子的權(quán)重比需要結(jié)合列車線路的實際路況,采用統(tǒng)計學(xué)和機器學(xué)習(xí)算法反復(fù)訓(xùn)練,并結(jié)合歷史數(shù)據(jù)經(jīng)驗參考值得到合適的權(quán)重比以保證實時數(shù)據(jù)過濾的精準(zhǔn)度和設(shè)備監(jiān)控及健康預(yù)測管理的業(yè)務(wù)效果。
在計算資源有限的條件下,大數(shù)據(jù)流計算中選擇復(fù)雜的數(shù)據(jù)過濾算法會導(dǎo)致數(shù)據(jù)積壓,不能滿足實時監(jiān)控的秒級應(yīng)用。在實踐應(yīng)用對比以后,使用方差斜率算法結(jié)合實時軸溫監(jiān)控算法的主成分多判據(jù)因子計算,計算0與1兩個時間點的傳感器方差值與時間的斜率作為基礎(chǔ)判據(jù)主因子算法,如圖1所示。

圖1 方差斜率示意圖



通過使用Flume方式采集離線全量數(shù)據(jù),并寫入hadoop的hdfs,使用hive轉(zhuǎn)換成Map和Reduce的任務(wù)進行傳感器數(shù)據(jù)包的合并、解析、split拆分、集合分類、數(shù)據(jù)連續(xù)性稽核、最后根據(jù)交路GPS點的特征使用主成分權(quán)重算法得到實時流計算過濾所需要的權(quán)重值,計算流程見圖2。
圖2中實際運行需要根據(jù)交路上的所有列車運行的實際站臺、岔口、海拔、橋梁、隧道、彎道等交路特征選擇每日歸檔的全量工況數(shù)據(jù)才能進行主成分回歸分析,并結(jié)合業(yè)務(wù)經(jīng)驗反復(fù)訓(xùn)練和驗證得到合理的權(quán)重值。交路特征變化小的情況下列車勻速運行,其工況表現(xiàn)變化較小,但在遇不同交路特征時工況差異變化較大,因此需要將多工況離線權(quán)重值與交路線GPS坐標(biāo)點進行標(biāo)注關(guān)聯(lián),實時流計算中直接根據(jù)GPS坐標(biāo)點讀取多工況權(quán)重值進行數(shù)據(jù)過濾處理。


將表2中排名前幾位的工況判據(jù)因子作為主要因素用于計算實時多工況權(quán)重C0,見公式3:


圖2 離線經(jīng)驗值大數(shù)據(jù)訓(xùn)練流程圖
在實時流計算中列車運行到這個點的時候動態(tài)選擇相應(yīng)的多個工況權(quán)重值,多工況的算子和權(quán)重標(biāo)注示例如圖3所示。

圖3 交路GPS坐標(biāo)Ln點判據(jù)因子與權(quán)重標(biāo)注圖

數(shù)據(jù)實時計算過程中如果使用海量多工況判據(jù)因子數(shù)據(jù),會導(dǎo)致計算效率低下。因此只能使用離線訓(xùn)練的多工況判據(jù)因子數(shù)據(jù)的過濾權(quán)重值,并需結(jié)合高鐵運行工況樣本數(shù)據(jù)反復(fù)訓(xùn)練驗證分析。項目通過高鐵1年離線數(shù)據(jù)經(jīng)過上百次的主成分回歸分析訓(xùn)練和修訂,得到能滿足實時流計算精度要求的判據(jù)因子權(quán)重值列表。
采用支持向量機(Support Vector Machine, SVM)算法訓(xùn)練模式[14-15]能發(fā)現(xiàn)數(shù)據(jù)的工況原因和機理原因,但很難保障數(shù)據(jù)過濾精度,因此只能將各種判據(jù)因子作為機器學(xué)習(xí)的算法訓(xùn)練方式,迭代補充判據(jù)因子算法,確保算法更加精準(zhǔn)、高效。
訓(xùn)練驗證數(shù)據(jù)過濾算法的有效性和高效性需要在流計算中固定算法處理邏輯,其驗證程序?qū)崿F(xiàn)邏輯流程見圖4。

圖4 線路上GPS坐標(biāo)點的實時程序流程圖
實時采集列車運行到交路GPS坐標(biāo)的傳感器數(shù)據(jù),采用大數(shù)據(jù)的流計算技術(shù),計算當(dāng)前數(shù)據(jù)T1與上包數(shù)據(jù)T0方差斜率。如果是高寒動車交路線上,其天氣因子的權(quán)重將自動排名靠前,根據(jù)圖4的程序流程得到多工況判據(jù)因子主成分回歸分析排名等權(quán)重值列表。最后計算相關(guān)因子權(quán)重占比,從而過濾出高價值的預(yù)判/預(yù)警/報警。
軸溫交路的權(quán)重經(jīng)驗值是基于前一日的離線全量數(shù)據(jù),采用主成分回歸分析法[18]進行訓(xùn)練,最小二乘法回歸算法主要用于主成分累計貢獻率的殘差推導(dǎo)。在不考慮長編組和連掛的情況下,1列車8節(jié)車廂,每節(jié)車廂36個軸溫傳感器,以200毫秒1個數(shù)據(jù)包來計算,1天數(shù)據(jù)量=8節(jié)×36個×24小時×60分鐘× 60秒×5包/秒=1.244億個軸溫樣本,剔除檢修調(diào)試數(shù)據(jù)最少有幾千萬的樣本,在進行經(jīng)過離線大數(shù)據(jù)模型算法篩選后標(biāo)記進交路的GPS坐標(biāo)上,形成交路的軸溫工況權(quán)重算法參考值數(shù)據(jù)。
為保障高鐵在不同工況的軸溫健康監(jiān)控的準(zhǔn)確率,需要對軸溫斜率算法和參考值進行長期訓(xùn)練與優(yōu)化,通過多輪算法與實際應(yīng)用論證,基于交路坐標(biāo)上采用主成分回歸分析算法訓(xùn)練多工況數(shù)據(jù)的累計貢獻率,通過降維后對多工況的不確定因素使用最小二乘法回歸進行推導(dǎo)得到排名靠前的多工況因子權(quán)重列表。
步驟1:利用主成分回歸分析擬合1年內(nèi)所有列車在相同GPS點的軸溫與多工況因子數(shù)據(jù)集合。
對個自變量進行主成分回歸分析,假設(shè)表2中軸溫相關(guān)的速度、加速度、外溫、海拔等個樣本值,聚合1年所有高鐵經(jīng)過這個GPS坐標(biāo)指標(biāo)集合為,得到所有坐標(biāo)的主成分累計貢獻值集合:

=,,,, …,(4)
公式4中代表GPS坐標(biāo)序號,根據(jù)貢獻值排名得到因子的主成分列表,由于排名靠后的因子對軸溫的影響累計貢獻率比較低,因此在這個GPS點上不作選擇,而當(dāng)GPS坐標(biāo)發(fā)生變化時,由線路特征和工況發(fā)生變化,其因子的選擇列表也會自動根據(jù)累計貢獻率進行調(diào)整。所有歷史數(shù)據(jù)進行主成分回歸分析,并將所有主成分累計值進行均值運算,再進行排名提取因子列表,這樣保證列車的主成分的因子成分貢獻率的穩(wěn)定性。
步驟2:采用最小二乘法回歸算法對因變量進行多元線性回歸計算:


步驟3:流計算中將各個判據(jù)因子方差斜率與GPS坐標(biāo)的影響因子權(quán)重值列表進行權(quán)重值占比擬合訓(xùn)練。對比分析業(yè)務(wù)故障機理原因,推導(dǎo)出合理的權(quán)重占比值列表,采用權(quán)重值之和大于90%以上的判據(jù)因子列表作為數(shù)據(jù)過濾條件。
全國兩千多列高鐵因建造時間不同,車上傳感器種類不同、敏感性不同,采集的數(shù)據(jù)會存在差異。故每列車的機理模型還需根據(jù)具體列車特點推導(dǎo)、訓(xùn)練和驗證。選擇京廣線上1列標(biāo)動為例,根據(jù)交路工況特點在流計算中動態(tài)調(diào)整機理模型,進行數(shù)據(jù)和算法擬合驗證故障預(yù)測效果。多工況機理模型需要采用高鐵運行速度≥330 km/s的相同情況下,在固定的運行交路進行推導(dǎo)和驗證。
實驗前期采用了很多單一算法進行驗證分析(如:同側(cè)軸溫均值算法,溫升斜率算法,線性回歸算法,小波分析算法等等)都很難提升精準(zhǔn)度和滿足業(yè)務(wù)部門要求的數(shù)據(jù)預(yù)測,其系統(tǒng)實現(xiàn)的多工況單一算法機理分析如圖5、6所示。

圖5 軸溫與速度單一算法機理分析系統(tǒng)效果圖

圖6 多工況的單一算法機理分析系統(tǒng)效果圖
在圖5、6中是高鐵監(jiān)控與故障預(yù)測系統(tǒng)中流計算使用單一過濾算法的系統(tǒng)效果圖,單一算法只能對標(biāo)注點進行監(jiān)控提示。因每種工況機理表現(xiàn)和數(shù)值都不一樣,單一算法無法進行數(shù)據(jù)擬合和多工況因子針對性選擇,只能分析機理現(xiàn)象。單一算法的標(biāo)注提示后需要工程師通過業(yè)務(wù)經(jīng)驗進一步尋找故障發(fā)生時的機理原因,故障監(jiān)控/預(yù)測不夠準(zhǔn)確,也容易增加檢修工作量。
采用交路GPS坐標(biāo)的多工況權(quán)重分析能解決業(yè)務(wù)部門轉(zhuǎn)向架的數(shù)據(jù)分析難度,并有效提升效率。為驗證算法的精準(zhǔn)性,使用多種機器學(xué)習(xí)算法進行對比驗證,其效果如表3所示。
表3 孤立森林模型估計結(jié)果

Tab.3 Estimation results of isolated forest models
在表3中采用3584例樣本,其中車載異常數(shù)25例。采用孤立森林算法過濾出567例異常數(shù)據(jù),One-Class SVM算法過濾出1934例異常數(shù)據(jù),Robust Covariance算法過濾出1134例異常數(shù)據(jù)。使用多工況權(quán)重算法僅過濾出40例異常數(shù)據(jù),進一步通過業(yè)務(wù)確認(rèn)出全部25例真實異常數(shù)據(jù)。隨機派單的5例異常數(shù)據(jù)中,權(quán)重比例之和全部達到95%以上,回庫檢修部門核查原因是轉(zhuǎn)向架齒輪箱黃油過量導(dǎo)致軸溫與其它工況出現(xiàn)數(shù)據(jù)異常,屬于檢修不合規(guī)導(dǎo)致異常,轉(zhuǎn)向架正常沒有故障,清理過多黃油后故障隱患排除。
可見前三種機器學(xué)習(xí)算法過濾出較多的非標(biāo) 記異常數(shù)據(jù),采用多工況權(quán)重算法有效數(shù)據(jù)過濾提升明顯。
實時多工況權(quán)重算法在某列車某日16點48分52秒發(fā)生車載軸溫報警的情況下,車載軸溫預(yù)警分析如表4。
表4 軸溫預(yù)警故障數(shù)據(jù)

Tab.4 Axle temperature warning fault data
表4中為體現(xiàn)軸溫變化差異性,將數(shù)據(jù)按照30秒頻率進行初步過濾對比,車上預(yù)警的控制策略是軸端溫度大于100℃,車載預(yù)警模型發(fā)出預(yù)警故障。異常溫度值只結(jié)合外溫、不間斷溫升、最大溫差、連續(xù)溫升等軸溫相關(guān)因子并不能準(zhǔn)確預(yù)測故障。軸溫故障預(yù)警需綜合多工況因素考慮分析。多工況權(quán)重擬合多工況運行到這個GPS坐標(biāo)點軸溫相關(guān)工況因子原始數(shù)據(jù)見表5。
針對列車運行到16點48分52秒的數(shù)據(jù)表進行實時流計算,參照離線主成分回歸訓(xùn)練的多工況權(quán)重值列表如表6。
根據(jù)業(yè)務(wù)權(quán)重數(shù)據(jù)過濾規(guī)則,此時表6中多工況權(quán)重值合為62.84%<90%,流計算中報警過濾標(biāo)記為0。業(yè)務(wù)經(jīng)人工實際驗證以后沒有故障,因此流計算中多工況權(quán)重算法計算結(jié)果是正確的,車載預(yù)警標(biāo)記為預(yù)警故障是不準(zhǔn)確的,實驗證明使用多工況權(quán)重算法可以減少了檢修部門很多無效工作量。
表5 軸溫多工況原始變化表

Tab.5 Original table of axle temperature and multiple working conditions
表6 車上軸溫多工況權(quán)重算法驗證表

Tab.6 Verification table of weight algorithm for axle temperature and multi working conditions
在高鐵轉(zhuǎn)向架軸溫的大數(shù)據(jù)實時流計算中,數(shù)據(jù)過濾算法的精度受限于不同工況環(huán)境中的影響,本文采用多判據(jù)因子方差斜率算法結(jié)合離線主成分回歸分析訓(xùn)練的多工況權(quán)重值列表進行實時流計算處理,得到以下結(jié)論:
(1)數(shù)據(jù)過濾計算效率既能滿足高鐵軸溫過濾的秒級性能指標(biāo)要求,又能從上千列高鐵全天9.96億條多工況傳感器數(shù)據(jù)中過濾出高價值數(shù)據(jù)。
(2)在實際項目運行測試中轉(zhuǎn)向架健康監(jiān)控和預(yù)測數(shù)據(jù)的精準(zhǔn)度從85%提升到95%左右,有效減少了動車的實時監(jiān)控運營誤判率,降低了10%的檢修運維工作量。
因受集群規(guī)模和計算資源的影響,實時數(shù)據(jù)過濾的難度主要在于簡單的算法在海量歷史數(shù)據(jù)中進行在線計算很難實現(xiàn)簡單高效的計算,實驗發(fā)現(xiàn)數(shù)據(jù)量越大,算法復(fù)雜度和運算效率是一對矛盾體,因此多工況的大數(shù)據(jù)過濾需要反復(fù)訓(xùn)練和調(diào)整算法,才能保障運算效率和過濾精度。
[1] 張春. 基于大數(shù)據(jù)的動車組故障關(guān)聯(lián)關(guān)系規(guī)則挖掘算法研究與實現(xiàn)[D]. 北京: 北京交通大學(xué), 2017
[2] 延婉梅. 動車組大數(shù)據(jù)清洗關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 北京: 北京交通大學(xué), 2015.
[3] 羅元劍, 姜建國, 王思葉. 基于有限狀態(tài)機的RFID流數(shù)據(jù)過濾與清理技術(shù)[J]. 軟件學(xué)報, 2014, 25(8): 1713-1728.
[4] 賈連鎖. 一種數(shù)據(jù)過濾方法: 中國, 201610877127. 0[P]. 2016-12-21.
[5] 劉健男, 黃曉峰. 一種用于流計算的數(shù)據(jù)處理方法與設(shè)備: 中國, 201410679749. 3[P]. 2016-06-22.
[6] 姜文超, 林德熙, 孫傲冰等. 一種新的基于相似度過濾的大數(shù)據(jù)保序匹配與檢索算法[J]. 計算機工程與科學(xué), 2017, 39(7): 1249-1256.
[7] 饒齊, 楊燕, 滕飛等. 基于多視圖加權(quán)聚類集成的高速列車工況識別[J]. 中國科學(xué)技術(shù)大學(xué)學(xué)報, 2018, 48(1): 35-41.
[8] 郭超, 楊燕江, 永全等. 基于多視圖分類集成的高鐵工況識別[J]. 山東大學(xué)學(xué)報(工學(xué)版), 2017, 47(1): 7-14.
[9] 陳云風(fēng), 王紅軍, 楊燕. 基于聚類集成的高鐵故障診斷分析[J]. 計算機科學(xué), 2015, 42(6): 233-238.
[10] B. Zhang, H. Wang, Y. Tang et al. Residual Useful Life Prediction for Slewing Bearing Based on Similarity under Different Working Conditions[J]. Experimental Techniques, 2018, 42(3): 215-227.
[11] 孔憲光, 章雄, 馬洪波等. 面向復(fù)雜工業(yè)大數(shù)據(jù)的實時特征提取方法[J]. 西安電子科技大學(xué)學(xué)報(自然科學(xué)版) , 2016, 43(5): 70-74.
[12] Nicholas Tsagkarakis, Panos P. Markopoulos, George Skli-vanitis et al. L1-norm Principal-Component Analysis of Com-plex Data[J]. IEEE Transactions on Signal Processing, 2018, 66(12): 3256-3267.
[13] Zhengshun Fei, Kangling Liu. Online process monitoring for complex systems with dynamic weighted principal comp-onent analysis[J]. Chinese Journal of Chemical Engineering, 2016, 49(6): 775-786 .
[14] Xiaochen Zhang, Dongxiang Jiang, Te HanRotating et al. Rotating Machinery Fault Diagnosis for Imbalanced Data Based on Fast Clustering Algorithm and Support Vector Machine[J]. Journal of Sensors, 2017, 57(2): 1-15.
[15] Optimization of Multi Kenerl Parallel Support Vector Machine based on Hadoop[C]// PROCEEDINGS OF 2016 IEEE ADVANCED INFORMATION MANAGEMENT, COM-MU-NICATES, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE. New York: IEEE Press, 2016: 1602-1606.
[16] 楊連報, 李平, 薛蕊等. 基于不平衡文本數(shù)據(jù)挖掘的鐵路信號設(shè)備故障智能分類[J]. 鐵道學(xué)報, 2018, 40(2): 60-66.
[17] 李兆興, 馬自堂等. 面向批量處理的大數(shù)據(jù)檢索過濾模型研究[J]. 計算機科學(xué), 2015, 42(9): 70-74.
[18] 王惠文, 王劼, 黃海軍. 主成分回歸的建模策略研究[J]. 北京航空航天大學(xué)學(xué)報. 2008年6月(6): 661-664.
Data Filtering Algorithm for High Speed Bogie Based on Real-time Data Stream Computation
ZHAO Ke1, PENG Qing-chang2, LIU Guang-jun2
(1. City College, Kunming University of Science and Technology, Kunming 650051, China; 2. China Railway Rolling Stock Corporation Qingdao Sifang Co. LTD, Qingdao 266111, China)
In order to solve the problem of low efficiency and low accuracy of data filtering for high-speed railway bogie, which is affected by many working conditions in large data stream calculation. Multi-criterion factor variance slope algorithm is used to extract multi-condition data in the real-time stream calculation of high-speed railway large data, and the data is filtered by combining the weight reference values of the corresponding GPS coordinate points on the routing. Through the actual operation of high-speed rail projects, the method can effectively reduce data interference, improve the accuracy of data filtering to more than 95%, achieve accurate monitoring and prediction of high-speed rail bogie faults, greatly reduce the maintenance workload of high-speed rail bogies, and improve the maintenance efficiency. At the same time, it can satisfy the computation efficiency of real-time computation of millions of streams per second.
High-speed rail; Data filtering; Multiple criteria factor; Bogie; Stream computing
TP273.5
A
10.3969/j.issn.1003-6970.2018.11.021.
趙珂(1978-),女,碩士,講師,主要研究方向:信號與信息處理、大數(shù)據(jù)挖掘;劉光俊(1993-),男,本科,助理工程師,主要研究方向:數(shù)據(jù)統(tǒng)計分析,大數(shù)據(jù)挖掘;彭清暢(1985-),男,本科,信息工程師,主要研究方向:軟件工程、大數(shù)據(jù)架構(gòu)。
趙珂,彭慶暢,劉光俊. 大數(shù)據(jù)實時流計算的高鐵轉(zhuǎn)向架數(shù)據(jù)過濾算法研究[J]. 軟件,2018,39(11):88-95