王楠
摘 要:在計算機技術飛速發展的大數據時代背景下,運用數據挖掘的方法對龐大的軌道檢測數據分析并觀測其變化是提高檢測效率的重要手段。本文基于K-means算法對檢測數據進行聚類挖掘對鐵路軌道質量進行預測和評判,為線路日常維修提供依據。
關鍵詞:數據挖掘;K-means算法;聚類挖掘
我國既有鐵路營業線總里程不斷增加,安全風險也隨之增加,維修天窗時間短,檢測任務繁重。針對鐵路軌道設備病害的實時監控主要依靠車載信息、人工添乘信息以及軌檢車數據信息。月度軌檢車檢測數據、便攜式添乘儀和車載信息,以及日常人工巡檢數據匯集成了一個多層次,多架構的軌道檢測數據體系。
每月數次的軌檢車數據,也僅僅作為日常查尋病害的工具,通過軌檢車波形圖幅查找水平加速度和垂向加速大值信息及晃車的原因。人工分析工作量大,效率低,出錯率高已經不能滿足生產的需要,軌檢車數據并未充分利用,導致大量有價值的信息浪費。為了尋找這些不同種類數據間的關聯性,從而得到更有價值的關聯信息,對指導日常維修,合理安排大修具有重要的意義。通過運用數據挖掘技術,選擇有效的算法,對數據進行聚類挖掘,找到參數間的相關性,并對線路設備現狀客觀地評估和預測。并以此作為依據,合理分配大中修資源,節約過度維修產生的成本。
一、數據挖掘系統
數據挖掘技術吸取信息科學、統計學、人工智能、可視化、機器學習、數據庫、模式識別、神經網絡、圖像與信號處理、空間數據分析等眾多領域的精髓并對目標原始數據進行計算、延展、創新,對決策具有可靠的指導意義。根據基于計算機運算、編程軟件平臺,利用新算法從數據中獲得、吸取、理解隱藏在大數據背后復雜的、信息豐富的、有價值的信息。數據挖掘包含的學科中,統計學和機器學習是其中兩門重要的學科,其中統計學源于數學,它強調數學邏輯的嚴密性。而機器學習更偏向于人工智能,找出數據間的共性,不斷歸納,不斷完善的過程。傳統意義上講,數據挖掘分為兩類:預測性數據挖掘和描述性數據挖掘。預測性數據挖掘是生成已知數據集描述系統模型,而描述性數據挖掘是在可用數據集的基礎上生成新的、有價值的信息。
有效的數據講究時效性,對未知事物的預測建立在時間的坐標軸上,時間序列的特征是數據集中數據之間存在著時間上的關系,時間是時間序列的關鍵屬性,時間序列數據挖掘是預測性數據挖掘最重要的分支,數據挖掘的方法和算法都可以應用在時間序列數據挖掘上,不同的是必須考慮數據集中數據間存在的時間關系。根據普速鐵路線路修理規程中的有關規定,鐵路線路大中修周期按照規定的線路累計通過總重確定,并可根據各線條件的實際設備狀況,線路條件、運輸條件和自然條件等具體情況調整。
數據挖掘的核心在于算法,基于不同的數據挖掘方法相關的算法更是多達十余種。其中聚類方法包括K-means和BIRCH等算法;選取不同的算法,往往會得到不同的結果,下面集合鐵路軌道檢測數據,運用聚類挖掘K-means算法對線路狀態進行預測。
二、運用K-Means算法對軌道不平順原始數據進行挖掘
鐵路軌道合理的外形尺寸與平順的幾何線形是保障列車安全運行的重要前提,在軌道投入運營后,鋼軌表面長期承受輪軸動力的反復作用,路基或地面可能產生區域性沉降從而引發軌道累積變形,需定期檢測軌道靜態幾何狀態的穩定性。以京廣線安陽至鄭州段線路為例,國家I級鐵路,60kg/m溫度應力式無縫線路,混凝土枕,碎石道床,養護標準為vmax≤ 160km/h,每年該段線路線搗、線磨、覆蓋一遍,因此鋼軌使用周期得到延長。在動態檢測方面,軌檢車數據存在著很大的離散性,從整體分析,線路質量狀況隨著時間的不同發生著變化,變化的快慢和幅度,也隨著時間節點的不同而改變。同一地點的軌道幾何及動力學參數存在關聯特性,所以對該段的檢測數據采集,時間節點的選取尤為重要。有砟道床狀態不易保持,維修周期較短,線路變化明顯,觀測數據有限并不能得到理想的預測結果,但是高速鐵路“嚴檢慎修”的特點對高速鐵路軌道的擾動較小,對長期采集數據加以分析,效果較好。
軌道結構動態檢測每個月上下旬分別檢查兩次,歷次檢測數據構成軌道不平順性時間序列數據,在軌道狀態檢測過程中,沿列車運行方向每隔0.25m取檢測實時數據,檢測項目有:軌距、水平、左高低、右高低、左軌向、右軌向、三角坑七個基本分項指標,長短波不平順、軌距變化率和曲率變化率暫且不考慮。就某一單項指標隨時間變化而變化可以看作一元時間序列數據。如果將這七個基本檢測指標作為某一測點集合狀態的七個維度,那么所形成的時間序列數據就形成了多元時間系列數據,因此軌道不平順序列數據是一種多元時間序列數據,屬于一種在時間上的離散數據。
根據2015年9月該段線路大修后到現在經歷50次軌檢車的檢測數據,對波形圖進行統計,以橫軸為檢測基本項目,縱軸為檢測時間,豎軸為檢測幅值大小。
京廣線下行K519+000-K520+000區段4000個點在在2014年4月至2016年12月兩年多時間,50次軌檢車檢測數據進行聚類分析,運用K-Means算法數據矩陣中對象之間的距離采用相互相關距離,變量間鏈接采用最小方差算法。這種分析并不能得到清晰的結果,所以改變思路從分析數據著手進行模式分析,其中分析數據包括統計分析數據和轉換分析數據。將目標公里分割成40個小單元區段,對每個小單元標準差變化情況進行分析。40個單元段50次檢測數據水平標準差按照所觀測的時間長短進行統計,本文以水平參數為例,將數據進行依次統計數據在250天以前離散性較大,據資料查詢線路在250天左右進行了大機清篩道床,大機搗固作業,使得線路狀態較為穩定。
通過計算分析可以發現各區段軌道水平不平順性標準差值隨時間變化呈現差異性趨勢,在這個差異周期內標準差呈上升趨勢。根據上述已經劃分好的40個單元段采用K-Means算法,數據矩陣中對象之間的距離采用互相關距離,變量之間鏈接采用最小方差法,從而得到聚類結果
由聚類結果的水平標準差可以發現,各單元段軌道狀態變化呈現重復性趨勢,各聚類中心將各單元段軌道狀態變化特點進行劃分。相對而言第四種聚類方式,能更加直觀地反映出線路維修帶來的離散差異性,在聚類結果圖中曲線在某個周期間發生驟降。由于軌道在大機維修作業期間對存在不平順超過限值的單元段會隨時進行臨修作業,因此個別單元軌段不平順狀態會出現區別于整個研究區段整體變化的特征,而整體上呈現的是分階段上升變化的趨勢特征。
三、總結
本文介紹了基于K-means算法分析軌道在正常使用期間的變化情況,發現軌道不平順性變化周期性與周期內的惡化趨勢,通過對數據挖掘概念及算法的研究,對軌道不平順時間序列數據進行聚類分析,發現軌道不平順時間序列變化的特征,并通過軌道不平順數據挖掘實例中基于原始數據聚類和標準差數據聚類對軌道不平順時間序列聚類結果進行對比分析,通過這種方法可以簡單預測軌道結構狀態變化,從而合理安排維修。
參考文獻:
[1]中華人民共和國鐵道部.鐵運【2016】146號.鐵路線路修理規范[M].北京:中國鐵道出版社,2017.
[2]WISHART D.K-means clustering with outlier detection[A],Munich: University of Munich,2001.