余 磊
(北京錦源匯智科技有限公司,北京 102206)
在軌道交通日常運營中,故障設備維修的時效性、可靠性、經濟性等直接影響運行的質量和安全。故障設備深度維修作為軌道交通電子設備全生命周期管理中的一個關鍵環節,歷來受到行業內的高度重視。但是當前各種解決措施或方案均側重于事后維修,對設備運行狀態及故障預測等缺乏有效手段。本文旨在通過探索深度維修數據收集的標準化、維修數據整合方法、設備狀態評估數據模型等方面來說明大數據分析對設備深度維修的意義。
區別于一線維修以板卡或部件為整體更換單元的作業模式,深度維修(二線維修)是以電子元器件作為最小可更換單元的作業模式。通過深度維修,技術人員能更全面地了解設備原理,提升對設備所屬系統的認識,促進維修策略的不斷優化,不斷提升運營保障質量,降低備件庫存等運營成本。
軌道交通行業設備涉及的專業、品類、品牌、型號均較多,設備標準化程度低,再加上設備廠家的技術封鎖等,限制深度維修在行業內的發展,導致現在無論是業主還是第三方服務商的維修團隊大都規模較小、能力建設不足,跟不上軌道交通快速發展的實際需求。經過前期調研,我們發現推動深度維修主要有以下困難:
(1)設備多且雜,技術資料匱乏,維修標準化程度低,維修質量和維修周期難以保證;
(2)深度維修技術門檻高、前期成本投入高、能力建設周期長,再加上維修力量分散,資源投入的風險高、費效比低,限制了維修工藝、維修技術的改進和創新;
(3)維修管理數字化程度低,維修過程信息收集不全,技術沉淀嚴重不足;
(4)一、二線維修脫節,導致設備維修的針對性不足,造成人力、物力的浪費。
如此可見,行業內設備的深度維修亟需探索新的維修模式。通過維修過程的數字化再造,運用大數據分析的方法,可以在深度維修模式創新上帶來新的嘗試與發展。
大數據可以在宏觀上體現被測對象的共性行為和特性,通過對有規律可循的數據進行分類、整理,研究人員可以預期個體的未來表現,由此提出慣性化的預防性解決方案。
在維修作業中,通過對維修案例的積累,往往可以觀測到故障點和故障原因較為集中的現象,將兩者進行因果關聯,最終可以掌握故障發生的內部機理,這種因果關聯符合大數據應用的特點,因此,在深度維修中使用大數據技術可提升維修能力。
將大數據技術應用于維修,最直接的好處是可以將以往的維修經驗轉化為維修能力,降低維修門檻,加快維修效率,提高維修質量;還可以預測未來發生故障的可能性和可能的故障點,為后續維保和更新決策提供依據。
數據只有經過分析、應用才有價值,這也是數據收集的最終目標。維修數據可以運用在以下場景。
(1)人才培養。針對同類部件的相同故障表現,智能分析并推送最可能的故障原因和建議的檢測、修復方法,可使維修人員通過直觀的故障表現快速定位故障元器件,進行快速維修,同時新人的培養難度也會大大降低。
(2)設備改進。通過橫向對比不同硬件方案的優劣,得出當前場景下的最優硬件方案,可針對部分設計缺陷產品進行技術改造。通過對比同規格元器件的故障率情況,可在未來的生產工作中優先采購穩定性更好的產品或部件,以保障質量。
(3)維修能力建設。雖然部件的組成結構千差萬別,但落實在硬件研發層面依然可分解為數字輸入、數字輸出、模擬輸入、模擬輸出、放大、濾波、反饋等有限的若干個基本模塊。將故障點與同一功能的電路或相同功能但不同品牌的部件進行對應,在維修對象中進行共性提煉,并將這樣的維修經驗擴展到新部件的維修作業中,有利于新產品故障件維修攻關中的故障點定位。
(4)設備狀態評估。將維修數據與必要的理論測試相結合,建立關鍵點故障率與運行時間的關系,在維修作業中,不光替換故障元器件,同時也對其老化點進行維護,最終使部件整體達到健康狀態,降低未來發生故障的可能性。該經驗可應用于大修、架修及改造作業中,通過提出針對電子板卡的深度維修方案,避免欠修和過修,最終實現部件的全生命周期健康管理。
隨著維修的信息化程度越來越高,對維修過程的數字化記錄越來詳細,數據類型越來越多,數據量也越來越大。雖然各維修單位的維修過程記錄側重點不同,但關鍵信息一般包括部件名稱、序列號、部件所處系統、應用場景、故障表現、測試方法、故障原因、故障元器件、修復情況、各環節作業人等信息。維修數據的收集匯總是挖掘維修數據價值的基礎,也是最為關鍵和繁瑣的環節。
為保證維修數據的真實性和時效性,數據通常由維修工作各個環節的負責人實時錄入。數據錄入工作涉及到的崗位、人員多,由于每個人的責任心、理解能力不盡相同,相同故障情況的記錄也難免存在差異,對后期的數據分析造成很大困難。因此,維修數據的格式規范化、標準化就顯得尤為重要,同時也需要利用智能技術對之前所記錄的非標準化數據進行整理和維護。
此外,由于當前維修作業標準化程度低,維修數據紛繁雜亂,導致數據積累的越多,可讀性反而越差,不能有效反應故障之間的關聯性,數據分析的難度大,數據的價值大大降低。因此,在運用信息化手段對電子部件從制造出廠、投入使用直到報廢的全生命周期實施數字化管理的過程中,需要設備廠家、使用單位與維修單位溝通協作,以開放的心態來共同推動維修數據的規范化和標準化。
標準化的維修數據應該至少具備3個特性:分類明確,可讀性強,便于提煉共性。這樣才能充分發揮數據的價值,提升維修的質量和時效性,推動維修模式的創新。
標準化的維修數據首先是標準化表述,以表1中3 個維修案例為例,其故障元件均為電源電路中的1 000 uF輸出濾波電容,但因為維修人員的不同表述,最終故障數據被記錄成3種不同的形式。因此,當技術人員在對數據進行分析整理時就可能將同一類故障區分對待,最終導致分析結果出現偏差。因此,必須保證基礎數據的準確性和規范性。

表1 故障修復情況示例
其次是便于提煉共性,當前最常用的方法是通過部件名稱對故障進行分類,完全相同的部件歸為一類,但這樣做,難免遇到樣本不足,或同一故障類型卻需要獨立進行分析的困境。
例如,圖1中A、B部件為同一品牌的不同兩款產品,雖然應用場景不同,但均有相同的電路模塊m,因此,在一定條件下,發生在A、B兩種部件上m的共性故障可以在分析中歸為一個整體,以擴大樣本數量,使分析更準確。A、C為相同功能的不同品牌產品,m、n模塊雖然設計原理不同,但在部件中承擔相同的作用,因此,分析m、n的故障率,就可獲知兩者設計的優劣,并在技術改造作業中考慮采用故障率較低的設計替代故障率較高的設計,以降低故障率。

圖1 故障分析舉例
因此,良好的分類應該不僅依照部件的名稱劃分,更應從部件的使用場景和內部結構出發進行分類,便于分析人員提取數據庫中的共性信息,擴大樣本數量,進行橫向比較。
實踐證明大多數電子部件的故障率是時間的函數,典型故障率曲線稱為浴盆曲線,因此,使用浴盆曲線描述電子部件的故障率模型,如圖2所示。
浴盆曲線是指產品從投入使用到報廢為止的整個生命周期,它是以使用時間為橫坐標,以故障率為縱坐標的曲線,具有明顯的階段性,故障率隨使用時間變化分為3個階段:早期故障期、偶然故障期和耗損故障期。圖1中λ為偶然故障期的故障率,λ*為允許的最大故障率。
早期故障期(磨合期)一般已由生產廠家在產品出廠前消除了,我們進行維修大數據統計分析,以公式(1)計算故障率λ(t),計算時剔除使用不當、人為錯誤等異常情況導致的故障,公式(1)中的“使用的電子部件總數量”通常指某一型號在某種使用場合的部件總數量。

通過故障率計算分析,可以比較不同廠家同類產品的質量;尤其是分析故障率變化趨勢,可判斷電子部件故障率曲線是否處于圖2中的[t1,t2 ]區間,從而提示運維部門對該批部件開展狀態維修,或稱可靠性維修,即提前更換性能差的元器件,以減少運營正線的設備故障率,提升運營服務質量。
我們在電子部件維修過程中積累了大量維修數據,統計分析某一型號電子板件的故障元器件,可以獲得該型號電子板各元器件發生故障的概率λ(t),該概率一般與電子板的使用時間有關系。元器件的故障模型同樣符合浴盆曲線模型,當某一元器件使用T時間后的失效概率明顯增大時,此時間點T應該是處于圖2中的[t1,t2 ]區間,表明該元器件已接近壽命期。所以說,通過大數據挖掘分析,可以獲得電子板中元器件的壽命期。維修人員在維修故障電子部件時首先檢查已到或接近壽命期的元器件,其次檢查故障率較高的元器件,以提高維修效率。

圖2 電子部件典型故障率曲線
維修大數據應包括關鍵元器件和電路模塊的性能參數,通過這些關鍵參數,可評估電子部件的健康狀態,預測電子部件的健康狀態變化趨勢,進而通過優化設備維修策略降低設備故障率,達到降低正線運營成本、提升運營服務質量的目的。
4.2.1 隱馬爾可夫模型(HMM)
電子部件的健康狀態是很難被直接觀測到的(即隱藏的),能夠觀測到的常常是電子部件若干與其健康狀態相對應的性能參數,實際中只能依靠元器件或電路模塊的關鍵性能參數去反應或推理出部件的健康狀態,因此,利用HMM來描述電子部件的狀態是很合適的。
大多數電子部件的狀態從正常到故障是緩變過程,其健康狀況是逐漸下降的,因此,在正常狀態與故障狀態之間可以再細分為若干中間故障狀態。而這些中間故障狀態是無法直接觀測到的,需要通過能觀測到的性能參數進行推理(即間接判斷)。
電子系統的故障程度是隨著使用時間逐漸加深,從正常態到故障態的轉變具有不可逆變性,因此,應采用左右型的HMM來監測和診斷電子系統的狀態,其原理見圖3。
在圖3中,將電子部件的狀態分為4類:正常態(0),弱故障態(1),中間故障態(2),完全故障態(3)。中間故障態包含了2類:狀態1,狀態2。aij(i,j= 0,1,2,3)表示狀態間的轉移概率值,Ok(k= 0,1,2,3)表示在各種狀態下觀測到的數據序列(即故障征兆)。由此看出,采取該左右型HMM的模型結構,能真實反映故障發展的不可逆性及其最終發展為完全故障的過程,也同時反映電子系統健康狀況不斷下降的過程。

圖3 電子系統的HMM結構
4.2.2 HMM 健康狀態評估
HMM具有良好的模式識別能力,基于HMM的狀態評估結構見圖4。

圖4 HMM的狀態評估結構
利用HMM進行狀態評估主要分為3個步驟。
(1)數據采集和特征處理。原始故障特征常常具有冗余性與高維性的特點,對故障特征進行去除冗余和降維處理是必要的。
(2)模型的訓練。采用Baum-Welsh算法,利用觀測序列對HMM的參數進行訓練,使得此觀測序列的似然概率值P(O|λ)最大。該算法的詳細描述不再贅述,請讀者參考HMM相關資料。
(3)健康狀態決策。為準確判斷待測電子部件的健康狀態,需要將其當前的故障特征送入已經訓練好的各個HMM,利用Viterbi算法計算各個HMM產生的P(O|λ),該值最大的HMM所對應的狀態就表示該待測電子部件的狀態類型。Viterbi算法的詳細描述不再贅述,
深度維修大數據的積累和分析不僅可以應用于維修本身,更可應用于部件的全生命周期管理:轉化為故障率,可對新線招標提供品牌指導;轉化為維修經驗,可提高維修效率,保障維修質量,降低維修門檻;轉化為故障預測,可用于預防性維修,保障運營質量;轉化為穩定性指標,可應用于技術改造,保障技術改造方向的準確性。
當前軌道交通設備的大修、架修及改造都是采取計劃修模式,不同程度存在維修過度或維修不足的情況,或者造成大量的資源浪費,或者造成重大質量事故隱患。要解決這一難題,關鍵是如何準確地評估設備的健康狀態。根據前面論述,可以通過深度維修大數據分析,確定影響設備狀態的關鍵性能參數,通過對這些參數產生的數據,有效整合一、二線的維修數據并進行分析,才能更準確地評判設備的健康狀態。在此基礎上,優化維修保障策略,提升設備維修管理工作的針對性、準確性、及時性,降低設備故障率,延長設備使用壽命,有效降低軌道交通運營成本。
當前維修行業對維修數據的挖掘還是比較初級的,但隨著數據的逐漸積累和數據分析的逐步深入,從業人員將從深度維修大數據中發現更大的價值。維修作業和維修數據應用形成閉環時,維保產業將會進入高效率作業期。