李茂圣,王大彬
(1.云南南天電子信息產業股份有限公司,昆明 650000; 2.昆明地鐵運營有限公司,昆明 650000)
隨著人民生活水平提高和科技不斷發展,方便、環保的城市地鐵逐漸向網絡化運營階段發展。地鐵軌道是列車安全運行的基礎,需要在日常工作中保證連續平滑的軌道幾何形狀,否則會導致列車振蕩,不僅降低了乘客的舒適度,嚴重時甚至出現列車側翻等危險[1-2]。所以,實時了解地鐵軌道狀態,掌握軌道狀態變化規律,這對于提高乘客的舒適度、保障地鐵列車的安全運行具有重要意義。
考慮到地鐵的軌道狀態具有不確定性和異質性,常規的檢測技術和量化標準很難對其進行精準描述,這就引出了許多急需解決的難題:如何實時精準掌握地鐵軌道的運行狀態,并且形成科學合理的維修決策方案,進一步實現軌道狀態的安全預警等[3]。目前,類似于機器學習、深度學習等人工智能技術飛速發展,強化學習、集成學習和神經網絡預測等技術也得到了越來越多的關注,這就為地鐵軌道狀態智能感知、全方面深入分析和軌道狀態發展規律提供了科學合理的方法和途徑[4-6]。
目前國內外研究團隊在構建維修決策優化模型時通常只針對軌道占用時間和質量監測,然而對于軌道異常狀態的維修決策主要以維修成本為主,所以在考慮軌道異常狀態時需將維修成本作為目標函數。越來越多的人工智能技術和大數據分析技術被應用到軌道的基礎設施建設和日常運行維護中。然而,國內外研究團隊在制定或優化地鐵軌道的異常狀態時存在較大的方法局限性,通常只是局限于固定的模型參數,比如,常規MDP方法的規劃周期內采用固定不變的狀態轉移概率。該方法無法實現自適應學習,在軌道運維狀態的智能感知和常規預測中很難捕捉軌道劣化機理,最終很難實現科學、規范和完善的維修決策和規劃。所以,通過深度挖掘、分析軌道運行和維護的海量數據,利用機器學習形成個性化和具有較強針對性的模型來更準確地預測軌道狀態,才能使得維修策略更具有針對性和科學性。
為提高地鐵軌道智能化管理水平,設計了樸素貝葉斯分類器、Logistic回歸分類器和支持向量機分類器,并構建了基于Stacking集成的軌道狀態預測模型。進一步,基于Stacking-SVM集成模型,引入自適應學習的馬爾可夫決策過程(AL-MDP)構建了軌道維修決策優化模型。
分別構建基于樸素貝葉斯、Logistic回歸以及支持向量機的單體學習器,并對其進行兩兩組合構建集成預測模型[7-8]。
1.1.1 樸素貝葉斯分類器(NBC)
定義A和B為隨機概率事件,A=A1∪A2∪…∪An,且Ai∩Aj=φ(i≠j),則Ai引發B的概率:
定義類標記y,其類先驗概率為P(y),某樣本Xi的類條件概率為P(Xi∣y),對軌道全線劃分若干單元區間Ni,若已知其特征屬性值Xi=(xi1,xi2,…,xi18),則預測下一時刻的軌道狀態等級y(y∈Y)的概率為:

1.1.2 Logistic回歸分類器(LRC)
考慮到軌道狀態預測為多分類問題,將其劃分為多個二分類問題的求解,訓練多個二分類器并通過測試輸出最終預測結果,如圖1所示。共劃分4個軌道狀態類別C1,C2,C3,C4,定義任意類別Ci的數據樣本為正,其他三類為負且用來訓練分類器,若測試中存在唯一預測為正的分類器,且其余3個分類器預測為負,則最終預測結果為正。

圖1 “一對其余”拆分示意圖(OvR)
若已知單元區間Ni的特征屬性值Xi=(xi1,xi2,…,xi18),由于Logistic回歸函數只會輸出0或1,因此將所有二分類器均構建為Logistic回歸分類器,則輸出Ni的正概率P(y=1∣Xi)和負概率P(y=0∣Xi)分別為:
P(y=0∣Xi)=1-P(y=1∣Xi)=
定義正概率和負概率比值為odds,則正負概率比odds表達式為:

1.1.3 支持向量機分類器(SVM)
考慮到支持向量機適用于二分類問題,因此同樣根據OvR策略構建支持向量機分類器。在此定義任意樣本i的特征向量為Xi=(xi1,xi2,…,xi18),并用Yi=0或1分別定義正例和反例標簽;C代表樣本約束常數,若C有限,則部分樣本可以不滿足約束條件,若C無窮大,則任意樣本均滿足約束條件,任意樣本i不滿足約束條件的松弛變量為ξi,SVM表示為:
s.t.Yi(ωTxi+b)≥1-ξi,ξi≥0,i=1,2,…,n

Stacking集成學習算法能夠對單體學習器進行訓練并集成。基于“1.1單體學習器”的3種單體學習器,隨機選擇兩個構建初級學習器,剩余一個為次級學習器,兩兩組合構建3種基于Stacking集成的狀態預測模型[9-10],如圖2所示。在此定義,以樸素貝葉斯分類器(NBC)為次級學習器的Stacking集成預測模型為“Stacking-NBC”,以Logistic回歸分類器(LRC)為次級學習器的Stacking集成預測模型為“Stacking-LRC”,以支持向量機分類器(SVM)為次級學習器的Stacking集成預測模型為“Stacking-SVM”。

圖2 3種基于Stacking集成的狀態預測模型
1.3.1 樣本數據
收集XX地鐵1號線、2號線和6號線的設備數據、檢測數據和維修數據驗證模型的有效性。共截取XX三條地鐵線路540個軌道單元區段,每個區段長度為200 m,同時收集2015-2021年總計174次檢測數據(其中包括23 050條TQI數據)、8025條設備數據和7年間的維修數據。設備數據包括坡度、道床類型、鋼軌型號、曲線半徑、加減速區段和鋼軌接頭數量等11個特征信息xi1~xi11;維修數據決定了下次檢測時的維修活動類型xi12~xi14;軌道質量指數(TQI,track quality index)檢測數據、TQI管理值和TQI等級劃分標準共同決定某一單元區段在當前時刻和下一時刻的地鐵軌道狀態等級xi15~xi18和標記值yi。上述18項特征共同構成任意單元區段Ni的特征向量Xi=(xi1,xi2,…,xi18)。數據預處理后共獲得22 128個數據樣本,訓練集和測試集的劃分比例為3:1。表1為軌道TQI狀態等級劃分標準和樣本數量分布。

表1 等級劃分標準及樣本分布
1.3.2 模型的評價分析
對3個單體學習器和3個集成模型分別進行評價分析,內容包括精度(Accuracy)、F1值和AUC值,結果如圖3所示。精度(Accuracy)方面,地鐵軌道狀態的預測結果為:Stacking-SVM>Stacking-LRC>Stacking-NBC>LRC>SVM>NBC,Stacking-SVM的預測精度比單體學習器平均提高了13.6%。F1值方面,預測結果為:Stacking-SVM>Stacking-LRC>Stacking-NBC>SVM>LRC>NBC,Stacking-SVM的F1值比單體學習器平均提高了18.5%。AUC值方面,預測結果為:Stacking-SVM>Stacking-LRC>Stacking-NBC>SVM>LRC>NBC,Stacking-SVM的AUC值比單體學習器平均提高了13.9%。綜合來看,3個集成模型的狀態預測效果均優于單體學習器,且以SVM為次級學習器的Stacking集成模型具有個性化和較高的準確性,為智慧城市軌道提供管理和維修參考。

圖3 不同模型評價結果

四元組定義馬爾可夫決策過程[11]:
狀態空間S:定義機器在空間中感知環境的所有狀態s構成空間S,本文中為地鐵軌道狀態等級;
動作空間A:定義機器所有應對的動作a構成動作空間A,在本文中為地鐵軌道維修活動類型;
轉移概率P:定義當前狀態s通過某個動作a轉移到另一個狀態的概率矩陣P,在本文中為地鐵軌道狀態從當前狀態等級到另一狀態的轉移概率;
轉移獎勵R:定義系統在通過動作a發生狀態轉移時依據獎勵函數R(s,a)所獲得的獎勵R,在本文中為采用維修活動a對狀態s的地鐵軌道進行維修時產生的費用R(s,a)。
MDP的基本原理為:若機器處于狀態si∈S的系統中,對其采取維修活動a,機器以轉移概率P由狀態si轉移至下一狀態si+1,并獲得獎勵R(s,a)。機器通過學習若干個狀態轉移過程和轉移獎勵,能夠自主判斷系統狀態并采取相應的維修活動類型以得出最優決策策略,以獲得最多的總獎勵[12]。
2.2.1 決策變量

2.2.2 目標函數

2.2.3 約束條件
定義軌道狀態為約束條件,下一決策時刻T+1時不能處于吸收態S,并設置S的剩余價值[13]為-∞:
2.2.4 自適應學習機制
為了提高軌道狀態的智能感知和準確預測,并且以此作為依據制定更加合理的維修優化決策,首先要對軌道運行和維護狀態進行準確預測。同時,為了使模型能夠針對海量檢測數據和歷史運行數據進行自適應學習,深入挖掘軌道劣化機理,應該基于合理準確的預測結果進行維修決策優化。因此,本文結合“1.3模型預測結果”,以樸素貝葉斯分類器(NBC)和Logistic回歸分類器(LRC)作為雙單體初級學習器,以SVM分類器作為次級學習器,對三者集成并構建Stacking-SVM模型,在模型引入了自適應學習機制。


圖4 Stacking-SVM模型的自適應學習過程



步驟5:計算軌道單元k在決策時刻τ的最優維修決策:

步驟6:返回步驟3;
步驟7:判斷t是否等于T。若t=T,則算法結束;若t≠T,令t=t+1,進入步驟1。
隨機選取第43號軌道單元,采用上述方法對規劃周期內30個決策時刻的狀態等級和最優維修策略進行分析,結果如圖5所示[18-19]。其中,狀態等級包括:C1、C2、C3和C4,維修策略包括:a0為不維修、a1為經常維修和a2為綜合維修,初始決策時刻為t1,周期末決策時刻為t30。
狀態等級C1:時刻t1~t24,43號軌道單元的維修決策為a1,需采取經常維修活動;時刻t25~t31,維修決策為a2,需采取綜合維修活動。狀態等級C2:時刻t1~t9、t14~t22,維修決策為a1,需采取經常維修活動;時刻t10~t13、t23~t30,維修決策為a2,需采取綜合維修活動。狀態等級C3:時刻t1~t3、t7~t8、t13~t14、t18~t19,維修決策為a1,需采取經常維修活動;時刻t4~t6、t9~t12、t15~t17、t20~t30,維修決策為a2,需采取綜合維修活動。狀態等級C4:所有時刻t1~t30,維修決策均為a2,需采取綜合維修活動。

圖5 規劃周期內最優維修策略

由XX地鐵2015年至2021年的維修數據可知,XX地鐵1、2和6號線任意軌道單元的平均維修成本為2.25萬。基于MDP和AL-MDP對43號軌道單元完成500次MC模擬后的規劃周期總成本如圖6所示。分析圖6可知,規劃周期總成本方面,MDP模擬結果的最小值和最大值分別為1.450萬和2.573萬,AL-MDP模擬結果的最小值和最大值分別為1.291萬和1.678萬;MDP模擬結果的四分位數分別為2.144萬和1.858萬,AL-MDP模擬結果的四分位數分別為1.946萬和1.678萬;MDP模擬結果的平均數和中位數分別為2.001萬和1.996萬,AL-MDP模擬結果的平均數和中位數分別為1.803萬和1.789萬。MDP和AL-MDP的平均規劃周期總成本(2.001萬、1.803萬)均小于實際成本2.25萬,這表明加入馬爾可夫決策過程的兩個模型均可降低維修成本,但AL-MDP在各項參數上均優于MDP,獲得最優維修策略和最優規劃周期總成本。

圖6 規劃周期總成本箱型圖
與MDP模型相比,AL-MDP模型在Stacking-SVM集成模型的基礎上加入了自適應學習機制,能夠根據當前預測結果不斷更新下一時刻的預測過程,進一步降低地鐵軌道的維修成本。同時,AL-MDP能夠實時掌握地鐵軌道的運作狀態,給管理者和工作者提供精細化、個性化、更科學的維修優化決策,對維修成本和軌道安全實現雙重精準控制。
本文所設計的“智慧地鐵軌道管理系統”共包括8個主要功能模塊,其中:軌道數據管理、狀態監測管理、檢查分析管理、生產運維管理、系統安全管理、設備綜合管理、決策輔助管理以及系統綜合管理,如圖7所示。不同模塊的功能存在相互關聯,比如狀態監測管理和檢查分析管理協同包含病毒檢測、健康評估、壽命分析、任務編制和多設備一體化等不同的子功能[21]。

圖7 系統總體設計圖
基于上述系統的總體設計框架,本文融合利用“基于自適應學習的Shaping-SVM模型”,實現了兩大主體功能——“軌道狀態預測”和“軌道狀態維修決策優化”。在地鐵軌道預測中需要實現對軌道狀態等級、分布、變化趨勢和短期內的工作狀態預測等功能,在軌道狀態維修決策優化中需要制定地鐵軌道的維修優化決策、預測規劃周期內的狀態變化趨勢,并對未來某時刻的軌道狀態進行安全預警[22]。系統的功能設計如圖8所示。

圖8 系統功能結構圖
4.3.1 評定軌道狀態等級
基于XX地鐵的狀態等級分布標準,本文以200 m為一個軌道單元,按照狀態等級完成對軌道路線的所有單元的評定,通過實時數據掌握當前軌道運行狀態,并對未來某時刻的軌道狀態進行預測。該功能可對XX地鐵任意線路的所有單元進行狀態等級評定,使管理者實時掌握軌道單元狀態等級,內容包括軌道單元序號、里程點、TQI值及狀態,如圖9所示。

圖9 軌道狀態等級評定
4.3.2 制定維修決策
為智能感知地鐵軌道異常狀態和精準捕捉劣化規律,進一步對軌道異常狀態提供更合理、更科學的維修優化決策,結合所有單元的軌道狀態數據和海量歷史檢測數據,本文采用第1章節和第2章節的模型,對規劃周期內的任意單元狀態進行預測并制定優化后的軌道維修決策策略。管理用戶可得到指定規劃周期的一條線路所有軌道單元的蒙特卡洛模擬下的規劃周期總成本,如圖10所示。可通過MC模擬出任意軌道單元在決策周期內的維修決策優化結果,經常維修C1和C2的軌道單元,綜合維修C3和C4的軌道單元。分析圖10可知,指定初始決策時刻為2020年5月,通過基于AL-MDP的軌道維修決策優化模型對所有軌道單元進行蒙特卡洛模擬。已知實際成本為2.25萬元,蒙特卡洛模擬所得全線軌道的規劃周期內總成本為280.75萬元,經過AL-MDP的優化模型后,任意軌道單元的平均規劃成本為1.81萬元。

圖10 制定維修決策
4.3.3 預警軌道安全狀態
基于前文地鐵軌道在規劃周期內的狀態變化趨勢預測功能,通過指定某一決策時刻,對未來某一時刻的地鐵軌道單元狀態進行狀態檢測。通過歷史數據的狀態變化趨勢,結合目前軌道單元的運行狀態提出安全預警,保證地鐵管理人員和維修人員能夠及時掌握軌道運行狀態,并且為未來可能存在或即將出現的危險狀態提供運維保證和決策參考。管理用戶可得到查詢條件下的軌道單元狀態安全預警表。在該系統中可獲得任意軌道單元在2個月后的MC模擬結果,如圖11所示。地鐵軌道工作者或管理者能夠根據預警信息對軌道單元的未來狀態進行等級評定和狀態預警,給管理者制定維修措施提供決策參考。

圖11 軌道狀態安全預警
設計了樸素貝葉斯分類器、Logistic回歸分類器和支持向量機分類器,并構建了基于Stacking集成的軌道狀態預測模型。綜合來看,以SVM為次級學習器的Stacking集成模型具有個性化和較高的準確性,為智慧城市軌道提供管理和維修參考。
基于Stacking-SVM集成模型,引入自適應學習的馬爾可夫決策過程(AL-MDP)構建了軌道維修決策優化模型。AL-MDP能夠進一步降低地鐵軌道的維修成本,實時掌握地鐵軌道的運作狀態,給管理者和工作者提供精細化、個性化、更科學的維修優化決策,對維修成本和軌道安全實現雙重精準控制。