曹孟曉,孟曉亮,何越磊
(上海工程技術大學城市軌道交通學院,上海 201620)
CRTSII 型無砟軌道板是我國高鐵應用廣泛的無砟軌道板,其服役狀態關乎高鐵列車的行車安全。CRTSII型無砟軌道板在線監測系統,其主要功能是監測軌道板結構健康狀態,在軌道板內部放置溫度傳感器,以收集軌道板不同深度的溫度數據,實時連續地監控軌道板結構溫度變化,及時發掘軌道板內部的病害狀況,進而正確地向用戶終端反饋軌道板實時結構狀態以及預測服役壽命[1-3]。
在軌道板性能監測系統線上測試的過程中,數據采集模塊收集到的板溫數據往往混有各類異常數據,其中軌道板內部溫度的數據異常將導致在線監測系統的后端處理系統的預警誤判[4-5]。因此,亟待開發一種能夠處理軌道板內部溫度數據中數據異常的智能化清洗手段來提高在線監測數據的質量,進而提高整個系統的預警性能。
基于軌道板在線監測數據中的數據異常問題,將分析軌道板在線監測數據中的數據異常情況以及其特點;依據在線監測系統監測數據異常情況以及環境氣象數據與軌道板內部溫度數據之間的關聯性,提出一種基于NARX 帶外源輸入的非線性自回歸神經網絡的智能化清洗方法以提高數據異常點的識別精度;最后對所提出的數據清洗方法進行驗證。
CRTSII 型軌道板狀態在線監測系統前端數據采集模塊在軌道板不同深度布置溫度傳感器,溫度傳感器測點布置如圖1所示。

圖1 軌道板狀態在線監測系統溫度傳感器布設
由圖1 溫度傳感器測點布置情況可知,溫度傳感器在系統運行過程中必受到環境溫度變化、軌道板荷載變化等外因的影響,因此所采集到的原始板溫數據不可避免地混入各類異常數據,導致數據的可用性降低,影響整個數據分析的過程[6]。將對監測數據中的數據異常情況進行分析。
針對軌道板在線監測數據中板溫數據的數據異常問題,對原始板溫數據進行初步的數據質量分析。監測數據的質量問題是在線監測系統的核心問題,也是數據清洗研究的重要內容。對于在線監測數據的質量通常評估從完整性、有效性這兩個方面進行分析[7-9]。
數據完整性是指數據是否有缺失的情況,是數據質量最基礎的評估標準。對實測軌道板溫度數據做初步的缺失數據檢索,結果如表1所示。

表1 軌道板在線監測數據缺失情況
由表1可知,軌道板在線監測數據中板溫數據有不同程度的數據缺失問題,原始的板溫數據是不完整的。
數據的有效性是指數據是否真實可靠,即數據中是否存在錯誤。軌道板溫度數據不可避免地混有一定數據量的數據錯誤,且最常見的錯誤包括明顯偏離整體變化趨勢的數據跳點和頻率幅度明顯不同于正常信號的隨機噪音。
綜上所述,原始軌道板在線監測數據是不完整且失真的,其中混有數據缺失、數據跳點和數據噪音等問題,故需根據各類數據異常的特征開發軌道板在線監測數據的智能化清洗方法以恢復在線監測數據的完整性和有效性。
針對那些存在于軌道板在線監測數據中各類數據異常,依據其中異常數據的特點以及監測數據的結構,本文提出一種基于NARX 神經網絡的板溫數據清洗方法,以提高在線監測系統中板溫數據的數據質量。
基于上文的研究內容,本文提出一種基于NARX神經網絡的數據清洗方法,其原理是先用干凈的數據訓練NARX 神經網絡,計算待清洗板溫數據的估計模型,再將所估計的數據模型與原始數據一一對比,標記殘差較大的數據為錯誤數據,后參考估計模型替換數據錯誤并填補數據缺失。模型殘差的計算為:
其中,δ為模型殘差,y為實測值為模型估計值。對于板溫數據的具體數據清洗步驟如下:
Step1篩選出原數據中的缺失數據,臨時用中位數替換。
Step2以歷史數據庫中干凈的氣象數據為輸入板溫實測數據為輸出訓練NARX 網絡,進而建立基于氣象參數的板溫數據模型。
Step3將待清洗的板溫數據對應的氣象數據輸入板溫數據模型輸出板溫數據預測值,計算預測值與原數據的殘差。
Step4進行拉伊達原則分析,甄選板溫數據中的異常值。
Step5利用預測值替換缺失值與異常值,得到干凈的板溫數據。
⑴軌道板在線監測數據關聯性分析
數據之間的關聯性是數據模型建立的重要依據之一。已有的研究表明[10-11],氣象參數變化是軌道板內部溫度變化的主要因素,由此可得,在軌道板狀態在線監測系統的監測數據中,板溫數據與環境氣象數據有相關性。利用SPSS 軟件計算實測數據變化之間的相關系數以驗證各個監測量之間的關聯性,結果如表2所示。

表2 氣象數據與板溫數據之間的相關性
由表2 所示,軌道板各個深度的板溫數據變化趨勢與當地的氣象參數變化趨勢高度相關,根據不同監測量之間的相關性,即可建立氣象數據與板溫數據的關系模型用于數據異常識別與缺失值估計。
⑵板溫數據NARX神經網絡模型的建立
NARX神經網絡是一種用于描述非線性離散模型的動態神經網絡。相較于普通的bp 神經網絡,NARX神經網絡通過設置外部反饋將神經網絡的輸出值和歷史輸出值以及歷史輸入值作為新的變量引進到輸入中,可以記錄時間跨度更長的歷史狀態和實時狀態信息。
本文選取2019 年12 月到2020 年12 月的干凈的氣象數據和軌道板內部溫度數據進行模型建立。基于氣象參數的板溫數據NARX 神經網絡模型根據氣象數據與板溫數據間的相關性建立,以不包含數據異常的氣象參數、歷史氣象參數和歷史板溫數據作為模型的輸入,各深度的板溫數據作為輸出進行訓練,對數據進行歸一化處理,并按數據總數的70%、15%、15%將數據分為訓練集、驗證集和測試集,隱藏層神經元設置25 個神經元、傳播算法選擇Levenberg—Marquardt 算法。基于氣象參數的板溫數據NARX 模型結構如圖2所示。

圖2 板溫數據NARX模型結構
針對數據異常的識別,本文通過利用拉伊達原則識別NARX 神經網絡回歸擬合的模型與實測數據之間殘差突變值方式來實現對那些分布在正常范圍內但偏離數據趨勢的異常數據的鑒別。
在NARX 神經網絡進行預測估計過程中,如果待清洗數據中出現數據跳點、數據噪音等異常時,NARX神經網絡所估計的數據與原數據會出現殘差值突變的情況,如圖3所示。

圖3 數據模型殘差變化圖例
可見,對于軌道板在線監測系統數據異常的甄選即可通過對數據模型殘差中的突變數據的甄別來實現。拉伊達法則是一種甄選數據離群值的方法,其內容是對于一組數據,若有數據分布在范圍外,則可以判定該數據為統計學意義上的離群值,式中為該組數據平均值,為該組數據的標準差。拉伊達法則對于正態分布的數據離群值識別效果較好,因此選用拉伊達法則來判定殘差中的突變數據。對于缺失值與異常值的替換利用估計模型替換。
為驗證基于NARX 神經網絡的軌道板在線監測數據智能化清洗方法的有效性,本文選取2019 年12月1 日至2020 年12 月1 日實測數據中的一部分完整數據作為樣本數據進行實驗驗證。為方便驗證數據清洗的效果,本文選擇向樣本數據中預設異常數據再清洗最后將數據清洗的結果與原數據對比的方式進行驗證。圖4是樣本數據的分布。

圖4 樣本數據分布
向其中預設一部分數據異常,標記在圖上,如圖5所示。

圖5 預設數據異常的數據
后對所提出的數據清洗方法進行驗證并標記數據中的異常值,如圖6所示。

圖6 所提出數據清洗方法異常甄別驗證
由圖6 可知,本文所提到的基于NARX 神經網絡的數據清洗方法識別板溫數據中已標注的53 個數據異常點中的47個數據異常點,準確率為88.68%。
將預測值加殘差平均值替換識別出的異常值,圖7是異常數據填補的結果與原樣本數據分布對比。

圖7 異常數據替換驗證
通過計算清洗后的數據與原樣本數據的誤差均方差與相關系數反映數據清洗后數據恢復的效果。經測驗,板溫數據清洗后的數據與原樣本數據誤差均方誤差為1.10℃,相關系數為94.50%。經清洗后所得數據基本還原樣本數據的信息。
對于同一樣本數據刪去一部分數據以人工制造數據缺失的情況,并利用本文所提數據填補方法進行數據填補估計,缺失數據填補結果如圖8所示。

圖8 缺失數據填補驗證
對比填補后的數據與原樣本數據,板溫數據均方誤差為0.0063℃,相關系數為99.98%,基本與原數據吻合。
綜上,本文軌道板在線監測數據清洗方法相較原有的數據預處理方法識別數據異常準確率更高,清洗后的數據基本還原數據的信息,對于缺失數據填補也能基本恢復原數據的變化趨勢。經驗證,該數據清洗方法能有效清洗軌道板在線監測數據中的數據缺失、數據錯誤等問題,進一步提高在線監測數據的數據質量。
本文依據軌道板狀態在線系統中存在的數據異常清洗以及各個數據之間的相關性,提出一種基于NARX 神經網絡回歸模型的智能化板溫數據清洗方法,并測試其數據清洗效果,可以得出以下結論:
⑴軌道板狀態在線監測數據中板溫數據的主要數據異常類型是缺失值、數據跳點和數據噪音,需開發相應的數據清洗方法以消除這類數據異常對監測數據質量的影響。
⑵本文建立基于NARX 神經網絡模型的智能化清洗方法,建立不同數據之間的NARX 神經網絡模型,基于估計模型殘差識別數據異常,并用已建立的數據模型估計預測缺失值。
⑶經驗證,本文數據清洗算法識別板溫數據中的異常數據準確率達到88.68%,對缺失數據的填補也能夠恢復板溫數據99.98%的信息,能有效提高數據質量,進而提高在線監測系統的工作性能。