呂五一 劉仍奎 張秋艷 吳霞
(1.北京交通大學(xué)交通運(yùn)輸學(xué)院,北京 100044;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司電子計(jì)算技術(shù)研究所,北京 100081)
軌道幾何狀態(tài)是反映軌道質(zhì)量的重要指標(biāo)。軌道幾何形位偏差過(guò)大會(huì)引起軌道不平順,從而影響行車(chē)安全、行車(chē)速度和乘坐舒適性[1]?,F(xiàn)階段軌道交通運(yùn)營(yíng)企業(yè)對(duì)于軌道幾何狀態(tài)的管理比較粗放,維修管理模式主要以周期修、故障修為主[2]。通過(guò)科學(xué)的手段掌握軌道幾何狀態(tài),準(zhǔn)確預(yù)測(cè)其狀態(tài)劣化趨勢(shì),可為管理者優(yōu)化維修計(jì)劃提供更智慧的決策支持,實(shí)現(xiàn)維修模式向預(yù)防修、狀態(tài)修的轉(zhuǎn)變。
軌道整體不平順的評(píng)價(jià)方式為:采用軌檢車(chē)每?jī)蓚€(gè)月對(duì)軌道的左右軌向、左右高低、水平、軌距和三角坑7 項(xiàng)軌道幾何參數(shù)進(jìn)行檢測(cè),計(jì)算每200 m 軌道單元的各單項(xiàng)軌道幾何參數(shù)的標(biāo)準(zhǔn)差之和,即軌道質(zhì)量指數(shù)(Track Quality Index,TQI)[3]。TQI 值越大表明軌道整體越不平順,質(zhì)量狀態(tài)越差。各軌道交通運(yùn)營(yíng)企業(yè)的企業(yè)規(guī)范規(guī)定了相應(yīng)的TQI管理值。如果某軌道單元區(qū)段的TQI 值低于相應(yīng)的管理值,說(shuō)明該區(qū)段整體軌道質(zhì)量狀態(tài)合格(TQI 合格),否則說(shuō)明該區(qū)段整體軌道質(zhì)量狀態(tài)失格(TQI失格)。
目前,國(guó)內(nèi)外對(duì)于軌道幾何狀態(tài)預(yù)測(cè)的研究主要可分為三大類(lèi),分別為機(jī)理類(lèi)模型、統(tǒng)計(jì)方法類(lèi)模型和機(jī)器學(xué)習(xí)類(lèi)模型。
機(jī)理類(lèi)模型主要是在軌道動(dòng)力學(xué)等理論的基礎(chǔ)上,通過(guò)室內(nèi)模擬仿真試驗(yàn)研究車(chē)輛與軌道之間的作用關(guān)系來(lái)預(yù)測(cè)軌道幾何狀態(tài)。文獻(xiàn)[4]建立了具有二系懸掛的車(chē)輛-軌道耦合動(dòng)力學(xué)模型并與軌道下沉變形相聯(lián)系,利用計(jì)算機(jī)仿真技術(shù)研究移動(dòng)車(chē)輛荷載下軌道的累積下沉量和軌道狀態(tài)變化來(lái)預(yù)測(cè)軌道不平順的發(fā)展趨勢(shì)。
統(tǒng)計(jì)方法類(lèi)模型又可分為隨機(jī)性統(tǒng)計(jì)模型和確定性統(tǒng)計(jì)模型。隨機(jī)性統(tǒng)計(jì)模型將軌道幾何狀態(tài)劣化視為一個(gè)隨機(jī)過(guò)程,通?;谲壍缼缀螤顟B(tài)歷史檢測(cè)數(shù)據(jù)利用概率性方法構(gòu)建軌道狀態(tài)劣化預(yù)測(cè)模型。文獻(xiàn)[5]考慮了影響軌道幾何劣化的因素在軌道全生命周期內(nèi)的不確定性,建立預(yù)測(cè)軌道幾何劣化的貝葉斯模型。確定性統(tǒng)計(jì)模型通常利用回歸分析等方法,基于軌道狀態(tài)歷史檢測(cè)數(shù)據(jù)建立軌道狀態(tài)與其影響因素之間的函數(shù)關(guān)系來(lái)預(yù)測(cè)軌道幾何狀態(tài)。文獻(xiàn)[6]構(gòu)建了軌道不平順短期狀態(tài)預(yù)測(cè)模型(TI-SRPM),對(duì)軌道單元區(qū)段相鄰兩次維修周期之間的未來(lái)一個(gè)軌檢車(chē)檢測(cè)周期內(nèi)的各項(xiàng)軌道幾何形位要素的每日峰值進(jìn)行了預(yù)測(cè)。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)類(lèi)模型被引入軌道交通基礎(chǔ)設(shè)施管理研究領(lǐng)域。文獻(xiàn)[7]利用主成分分析法分析了影響軌道幾何狀態(tài)的關(guān)鍵因素,并利用支持向量機(jī)(Support Vector Machine,SVM)、線(xiàn)性判別分析、隨機(jī)森林等機(jī)器學(xué)習(xí)方法對(duì)軌道幾何病害進(jìn)行了預(yù)測(cè)。文獻(xiàn)[8]利用人工神經(jīng)網(wǎng)絡(luò)和支持向量回歸預(yù)測(cè)了直線(xiàn)和曲線(xiàn)上的軌距偏差值。
上述模型各有優(yōu)缺點(diǎn)和獨(dú)特的適用場(chǎng)景,由于影響軌道幾何劣化的異質(zhì)性因素較多,難以保證模型的普遍適用性。本文首先從概率分布方法、回歸分析方法、機(jī)器學(xué)習(xí)分類(lèi)方法三個(gè)不同的角度,分別利用Gamma 過(guò)程、二項(xiàng)logistic 回歸、支持向量機(jī)構(gòu)建三個(gè)TQI預(yù)測(cè)模型,然后利用Stacking集成學(xué)習(xí)算法將這三個(gè)模型進(jìn)行組合,形成新的TQI預(yù)測(cè)集成模型。
以200 m 軌道單元為研究對(duì)象,利用多次歷史TQI 檢測(cè)數(shù)據(jù),預(yù)測(cè)其TQI 值是否會(huì)在下一次檢測(cè)前劣化為失格狀態(tài)。
集成學(xué)習(xí)的基本原理是構(gòu)建并結(jié)合多個(gè)個(gè)體學(xué)習(xí)器來(lái)完成指定的學(xué)習(xí)任務(wù)。與單個(gè)學(xué)習(xí)器相比,集成學(xué)習(xí)器通常有更好的預(yù)測(cè)性能和泛化性能,即適用于新樣本的能力。集成學(xué)習(xí)器預(yù)測(cè)效果的好壞取決于每個(gè)個(gè)體學(xué)習(xí)器的準(zhǔn)確性和多樣性。準(zhǔn)確性是指?jìng)€(gè)體學(xué)習(xí)器的預(yù)測(cè)精度。多樣性是指各個(gè)體學(xué)習(xí)器之間應(yīng)該存在一定的差異,即好而不同,從而實(shí)現(xiàn)不同個(gè)體學(xué)習(xí)器的強(qiáng)強(qiáng)聯(lián)合及優(yōu)勢(shì)互補(bǔ)[9]。因此在構(gòu)建集成模型時(shí),選擇概率分布方法、回歸分析方法和機(jī)器學(xué)習(xí)分類(lèi)方法來(lái)構(gòu)建預(yù)測(cè)軌道區(qū)段不平順質(zhì)量狀態(tài)的個(gè)體學(xué)習(xí)器,選擇Stacking 集成學(xué)習(xí)法進(jìn)行集成。Stacking 算法是Wolpert于1992年提出的一種集成學(xué)習(xí)算法[10]。不同于Boosting和Bagging等采用相同分類(lèi)算法訓(xùn)練出單個(gè)學(xué)習(xí)器的集成學(xué)習(xí)算法,Stacking算法通過(guò)結(jié)合多種不同學(xué)習(xí)算法以保證個(gè)體學(xué)習(xí)器的多樣性,往往具有更高的預(yù)測(cè)精度和更低的過(guò)擬合風(fēng)險(xiǎn)[11]。
模型整體結(jié)構(gòu)如圖1所示。

圖1 模型整體結(jié)構(gòu)
為研究TQI 隨時(shí)間的劣化程度,用變量ηT表示軌道單元區(qū)段檢測(cè)時(shí)刻T時(shí)的TQI 合格或失格,變量ηT+1表示軌道單元區(qū)段檢測(cè)時(shí)刻T+ 1 時(shí)的TQI 合格或失格,并根據(jù)軌道單元區(qū)段連續(xù)兩次檢測(cè)的TQI 值定義變量Y。ηT和Y的取值分別為


本文只考慮當(dāng)前TQI 處于合格狀態(tài)的某特定200 m 軌道區(qū)段是否會(huì)在未來(lái)一個(gè)檢測(cè)周期內(nèi)劣化為失格狀態(tài),Y=2 和Y=3 的情況不在本文研究范圍內(nèi)。因此,Y根據(jù)下一次檢測(cè)時(shí)TQI合格或失格取值,即

處于不同位置的軌道單元區(qū)段,即使承受相同的列車(chē)荷載,其軌道幾何狀態(tài)的劣化規(guī)律也各不相同[1]。這是由于軌道幾何狀態(tài)的劣化受到眾多因素的影響,包括軌道所在線(xiàn)路的地質(zhì)類(lèi)型、平縱斷面、最大允許速度以及軌道的通過(guò)總重、軌道部件的規(guī)格型號(hào)等。以往的研究一般考慮異質(zhì)性因素較少,例如只考慮通過(guò)總重等。本文為發(fā)揮機(jī)器學(xué)習(xí)處理高維數(shù)據(jù)的優(yōu)勢(shì),在建模時(shí)充分考慮異質(zhì)性因素的影響,選取曲線(xiàn)半徑、最大坡度、道床類(lèi)型、鋼軌類(lèi)型和是否處于加減速區(qū)段5種具有代表性的異質(zhì)性因素作為軌道區(qū)段的特征屬性,提高軌道幾何劣化規(guī)律建模的準(zhǔn)確性。
對(duì)于某200 m 軌道單元,設(shè)置模型構(gòu)建所需的變量。
①X1:相鄰兩次TQI檢測(cè)值的差。
②X2:當(dāng)前TQI檢測(cè)值與管理值的差。
③X3:軌道單元內(nèi)最小曲線(xiàn)半徑R的變換值。對(duì)于小半徑曲線(xiàn),即R≤800 m 時(shí),取X3= 1-R/800;當(dāng)R>800 m時(shí),取X3=0。
④X4:軌道單元內(nèi)最大坡度G的變換值。X4=G/Gmax,Gmax為所有軌道區(qū)段中最大坡度值。
⑤X5:道床類(lèi)型。對(duì)于整體道床,X5=1;對(duì)于碎石道床,X5=0。
⑥X6:判斷鋼軌是否為50 kg/m 鋼軌,若是,則X6=1,否則X6=0。
⑦X7:判斷鋼軌是否為60 kg/m 鋼軌,若是,則X7=1,否則X7=0。
⑧X8:判斷軌道單元是否處于臨近車(chē)站的加減速區(qū)段,若是,則X8=1,否則X8=0。
自1975年被引入可靠性研究領(lǐng)域以來(lái),Gamma過(guò)程經(jīng)常被用于描述嚴(yán)格單調(diào)的隨機(jī)劣化過(guò)程,如磨損、疲勞、腐蝕等[12]。在本模型中,模型的輸入變量為某200 m 軌道單元當(dāng)前TQI 值與管理值的差X2,輸出為下一次檢測(cè)時(shí)失格(Y=1)的概率。
假設(shè)相鄰兩次TQI 檢測(cè)值的差X1服從形狀參數(shù)v>0且尺度參數(shù)u>0的Gamma過(guò)程{ }X1(t),t≥0 ,t為T(mén)QI累積劣化時(shí)間,則其概率密度函數(shù)為

Gamma 過(guò)程{X1(t),t≥0} 的均值和方差分別為E(X1) =v/u,V(X1) =v2/u。利用極大似然估計(jì)方法對(duì)參數(shù)v和u進(jìn)行求解。假設(shè)X1的歷史檢測(cè)數(shù)據(jù)為x1k,k= 1,2,...,n,其似然函數(shù)Ln為

v和u的極大似然估計(jì)值由lnLn和lnLn解出。由此可以計(jì)算出當(dāng)前狀態(tài)為合格的某特定200 m軌道區(qū)段的TQI 在下一次檢測(cè)時(shí)達(dá)到失格狀態(tài)的概率P(Y= 1 ),即

式中:FX1為Gamma過(guò)程的分布函數(shù)。
為構(gòu)建集成模型,假設(shè)P(Y= 1)>0.5時(shí),Y=1。
二項(xiàng)logistic 回歸模型屬于概率型回歸,作為廣義線(xiàn)性回歸模型的一類(lèi),主要用于描述和推斷二分類(lèi)因變量與一組解釋變量的關(guān)系,在許多科研領(lǐng)域已得到非常廣泛的應(yīng)用[9]。利用二項(xiàng)logistic 回歸輸出0/1 值的特性構(gòu)建logistic回歸模型。模型輸入為某200 m軌道單元的特征變量X2,X3,...,X8,輸出為下一次檢測(cè)時(shí)TQI合格或失格(Y)。模型表達(dá)式為

式中:β0為常數(shù)項(xiàng);β2,β3,...,β8依次為變量X2,X3,...,X8的回歸系數(shù)。
與Gamma 過(guò)程類(lèi)似,利用TQI 歷史檢測(cè)數(shù)據(jù)采用極大似然估計(jì)法對(duì)logistic回歸模型的參數(shù)進(jìn)行估計(jì)。
支持向量機(jī)是在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上提出的一種應(yīng)用較為廣泛的機(jī)器學(xué)習(xí)分類(lèi)算法[9]。SVM的核心是要尋找最優(yōu)的劃分超平面(ω,b),ω為劃分超平面的法向量,決定了超平面的方向;b為位移項(xiàng),決定了劃分超平面與原點(diǎn)之間的距離,使得樣本空間中距離超平面最近的訓(xùn)練樣本到超平面的距離最大。當(dāng)訓(xùn)練樣本線(xiàn)性不可分時(shí),SVM 可利用核函數(shù)將樣本特征從原始空間映射到高維空間,使得樣本在高維特征空間內(nèi)線(xiàn)性可分,本文核函數(shù)采用徑向基函數(shù)。為了有效避免過(guò)擬合,采用軟間隔支持向量機(jī)模型以允許某些樣本不滿(mǎn)足約束。
模型的約束條件為

式中:xi為第i個(gè)樣本的特征向量,xi=(X2,X3,...,X8);Yi為第i個(gè)樣本的標(biāo)簽
通過(guò)對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),求解得出ω和b,而后輸入X2,X3,...,X8,即可得到模型輸出Y。
Stacking 集成學(xué)習(xí)算法是一種常用的通過(guò)某個(gè)個(gè)體學(xué)習(xí)器來(lái)結(jié)合其余個(gè)體學(xué)習(xí)器的集成學(xué)習(xí)方法。被結(jié)合的個(gè)體學(xué)習(xí)器稱(chēng)為初級(jí)學(xué)習(xí)器,用于結(jié)合的個(gè)體學(xué)習(xí)器稱(chēng)為次級(jí)學(xué)習(xí)器。
Stacking 集成方法的基本原理是先利用初級(jí)學(xué)習(xí)算法和初始數(shù)據(jù)集訓(xùn)練出初級(jí)學(xué)習(xí)器,然后利用次級(jí)學(xué)習(xí)算法和初級(jí)學(xué)習(xí)器產(chǎn)生的新數(shù)據(jù)集來(lái)訓(xùn)練次級(jí)學(xué)習(xí)器。將初級(jí)學(xué)習(xí)器的輸出作為新數(shù)據(jù)集中樣例的輸入特征,初始樣本的標(biāo)記仍然作為樣例標(biāo)記[9]。Stacking算法的偽代碼參見(jiàn)文獻(xiàn)[9]。
本文將Gamma 過(guò)程和SVM 作為初級(jí)學(xué)習(xí)算法,將二項(xiàng)logistic 回歸作為次級(jí)學(xué)習(xí)算法,構(gòu)建基于Stacking 的軌道幾何狀態(tài)短期預(yù)測(cè)集成模型。模型結(jié)構(gòu)如圖2所示。

圖2 Stacking集成學(xué)習(xí)模型結(jié)構(gòu)
選取北京地鐵1號(hào)線(xiàn)實(shí)測(cè)數(shù)據(jù),對(duì)Stacking集成學(xué)習(xí)模型進(jìn)行訓(xùn)練與測(cè)試。
北京地鐵1號(hào)線(xiàn)上下行各31.04 km,共分為310個(gè)200 m 軌道單元區(qū)段。采集從2016年10月21日至2019年4月19日間的16 次TQI 檢測(cè)數(shù)據(jù)和相應(yīng)的線(xiàn)路設(shè)備數(shù)據(jù),結(jié)合QB(J)BDY(A)XL003—2015《工務(wù)維修規(guī)則》規(guī)定的TQI 管理值(表1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并剔除維修擾動(dòng)的影響,得到4672 個(gè)樣本。采用分層隨機(jī)抽樣,按照3∶1 的比例將樣本劃分成訓(xùn)練集和測(cè)試集。訓(xùn)練集包括3504 個(gè)樣本,測(cè)試集包括1168個(gè)樣本。

表1 軌道質(zhì)量指數(shù)(TQI)管理值
模型的求解主要利用Python3.0 中的scikit-learn包來(lái)完成。選擇分類(lèi)正確率和接受者操作特性(Receiver Operating Characteristic curve,ROC)曲線(xiàn)下方的面積大小AUC 值(Area Under Curve)作為模型的評(píng)價(jià)指標(biāo)。分類(lèi)正確率表示被正確預(yù)測(cè)類(lèi)別的樣本數(shù)占樣本總數(shù)的比例,體現(xiàn)模型整體的分類(lèi)精度。AUC 值通常被用來(lái)判斷二分類(lèi)器的好壞,通過(guò)計(jì)算模型ROC 曲線(xiàn)下的面積得到。AUC 值綜合體現(xiàn)出了模型的正例分類(lèi)精度和反例分類(lèi)精度,其取值一般在0.5 ~1,越接近1 說(shuō)明學(xué)習(xí)器的分類(lèi)效果越好[13]。利用訓(xùn)練集樣本對(duì)所建立的模型進(jìn)行訓(xùn)練學(xué)習(xí),并對(duì)測(cè)試集樣本進(jìn)行預(yù)測(cè),而后與實(shí)際歷史數(shù)據(jù)進(jìn)行對(duì)比,計(jì)算出模型預(yù)測(cè)結(jié)果的分類(lèi)正確率和AUC 值。各模型的預(yù)測(cè)結(jié)果見(jiàn)表2。

表2 不同模型預(yù)測(cè)結(jié)果
從表2可以看出,Stacking集成模型的分類(lèi)正確率和AUC值較其他模型均有顯著提升。說(shuō)明Stacking集成模型能夠更加準(zhǔn)確地預(yù)測(cè)TQI 變化趨勢(shì),同時(shí)具有更優(yōu)的泛化性能。Stacking 集成模型能夠較好地對(duì)短期的軌道幾何狀態(tài)進(jìn)行預(yù)測(cè),可以有效地輔助管理者針對(duì)安全風(fēng)險(xiǎn)高的軌道區(qū)段提前采取維修措施,從而保障軌道交通的安全平穩(wěn)運(yùn)行,為管理者更好地掌握軌道質(zhì)量狀態(tài)提供了一種新的思路。
本文從概率分布方法、回歸分析方法和機(jī)器學(xué)習(xí)分類(lèi)方法三個(gè)不同的角度構(gòu)建了三個(gè)TQI 預(yù)測(cè)模型,利用Stacking 集成學(xué)習(xí)技術(shù)將三個(gè)單一模型進(jìn)行組合,形成了新的TQI 預(yù)測(cè)集成模型。在模型的建立過(guò)程中選擇了多種影響軌道交通TQI 劣化的異質(zhì)性因素,以提高建模的科學(xué)性。
利用北京地鐵1號(hào)線(xiàn)的實(shí)測(cè)數(shù)據(jù)對(duì)所建模型進(jìn)行訓(xùn)練和測(cè)試,通過(guò)對(duì)比不同模型的分類(lèi)正確率和AUC值,驗(yàn)證了本文建立的模型有效且具有較高的預(yù)測(cè)精度。
在未來(lái)的研究中將進(jìn)一步研究利用該模型預(yù)測(cè)軌道局部不平順問(wèn)題以及使該模型與維修優(yōu)化模型結(jié)合,為軌道的維修養(yǎng)護(hù)提供科學(xué)依據(jù)。