左旭濤,李世明,程中國,岳 陽,叢龍斌
(1. 青島地鐵集團有限公司,山東青島 266045,2. 東軟集團股份有限公司,遼寧沈陽 110179)
機電設備故障特征是指機電設備從使用到報廢的整個生命周期中故障的發生、發展和變化特征。機電設備故障分為如下3個階段。
(1)初期故障期(DFR型)。這個階段的故障主要由材料質量問題、設計和制造質量缺陷、人員操作上的錯誤、裝配失誤等引起,故障率從高到低發生變化,并隨著時間的推移趨于穩定。
(2)偶發故障期(CFR型)。設備正常運行,狀態穩定且故障率低,大致來說不會發生故障狀態,故障主要是由意外因素造成的,如維護不當和操作錯誤。故障的發生是隨機且不可預測的。這一時期是設備的最佳工作期。
(3)磨損故障期(IFR型)。在此期間,設備故障率急劇上升,主要是因為設備已經使用了很長時間,部分零件老化且磨損嚴重,有效使用壽命結束。設備已經處于異常狀態,應重點進行預防性維護工作。
目前,在機電設備的運行過程中,大多數傳感器均會產生實時生產數據。但傳統的監控報警系統僅通過閾值預警等方式,接收個別傳感器的報警信息,很難識別整個生產數據的異常組合,無法對設備運行過程中的隱性異常做出預警。
基于機電設備的大量運行數據,設備運行數據實時異常檢測模型通過運用數據降維、高斯混合模型等算法,實時發現機電設備運行數據信號間的異常組合并觸發預警,實現機電設備實時的異常檢測,提前發現問題并進行人工篩查,降低因機電設備故障而引發的突發事故概率。
本文設備運行數據實時異常檢測模型所應用的核心算法為主成分分析方法和高斯模型。
(1)主成因分析方法(Principal Component Analysis,PCA)。這是被廣泛使用的數據降維算法之一。數據集預處理手段有降維、均值插補、高維映射等手段,降維的目的是減少冗余信息,提高計算處理速度并適當提高計算精度,從而節省大量的時間和經濟成本。PCA是降維的主要手段之一。
(2)高斯混合模型(Gaussian Mixture Model,GMM)。其由多個子分部的概率模型組成。通過觀察數據在總體的概率分布,采用高斯概率密度函數(正態分布曲線)準確量化事物。高斯混合模型可以使用任何的概率分布,具有良好的計算性能,并且其分布具備準確的數據性質,可尋找出小概率出現的數據,該部分數據認為是異常數據。
機電設備的性能衰減、壽命降低是由量變到質變的動態過程。設備健康及狀態評估通過對機電設備的運行狀態進行監視與評估,分析設備微觀和動態損傷過程中的演變過程、特點和規律,及時預測設備的使用壽命,實現事前預防、過程監控、動態養護等。
本文采用的機電設備健康及狀態評估模型核心算法為威布爾分布算法。威布爾分布算法是可靠性分析和壽命檢驗的理論基礎,作為一種連續的分布,它能夠描述各種類型機電設備零部件故障數據的分布規律。威布爾分布在機電設備可靠性工程中被廣泛應用,尤其適用于機電類設備的磨損累計失效的分布形式。由于它可以利用概率值很容易地推斷出數據的分布參數,因而被廣泛應用于各種壽命試驗的數據處理。威布爾分布是連續性的概率分布,其函數模型為:

式(1)中,t為時間;m是形狀參數;η是標準參數;γ是位置參數。
機電設備的故障期主要分為初期故障期(DFR型)、偶發故障期(CFR型)、磨損故障期(IFR型)3種。結合威布爾分布函數模型的推算,故障率的曲線函數模型圖如圖1所示。

圖1 故障率的曲線函數模型圖
(1)當m<1時,設備部件處于初期故障期(DFR型),設備運行前期多做計劃檢修,保障設備正常運行,后期故障數趨于穩定后,可降低檢修頻率。
(2)當m= 1時,設備部件處于偶發故障期(CFR型),故障多是偶發,所以多做監視,總結規律,合理安排計劃檢修。
(3)當m>1時,設備部件處于磨損故障期(IFR型),由于設備老化而導致的故障率增長,應增加檢修次數,計算出未來年份發生的故障數量。根據故障數量做好備件儲備,同時加強季度檢修狀態檢測,對故障備件及時更換。
對于不同的機電設備,除預測設備使用年限外,通過大數據技術計算,還可以預測包括設備累計運行小時數、設備累計啟動次數、故障分類、剩余使用年限等設備可靠性相關指標。
設備關聯分析又稱設備關聯挖掘,是在設備生產數據、運行數據等信息載體中,發現不同設備之間的聯系。各類設備故障之間可能存在不易發現的關系,在機電設備故障模型中,通過對各機電設備故障情況進行關聯分析,得到與故障情況相關聯的設備,結合實際分析與故障相關聯的原因。后續做設備分析時,可以根據這種關聯,在設備發生故障時,關注所關聯設備的故障情況,提前做好預警工作。
設備關聯分析的核心算法是Apriori算法,該算法是一種挖掘關聯規則的頻繁項集的算法,其核心思想是通過2個階段挖掘頻繁項集,分別是候選集生成和封閉檢測階段,其中最小支持度和數據集是該算法的2個必要參數。通過采集綜合監控設備的故障時間、設備故障時工作狀態等數據,并根據該算法對設備數據進行分析,計算出2個或2個以上設備之間的故障關聯信息,從而對設備故障進行預警。
通過對同一車站多個時間粒度的綜合監控歷史數據進行分析,可以得出不同設備之間發生故障的相互影響程度,發現各設備故障之間可能存在但不易發現的關系,從而對維修工作安排進行輔助指導。例如,對各站點的故障率進行分析,得出需要重點關注的站點以及與故障情況有關聯的設備。當某設備類別發生故障時,與其關聯的類別也可能發生故障,此時需重點關注并提前預警。
當前機電設備的安全報警方式主要有2種:①設備控制柜的儀表或報警燈報警;②現場的監控系統報警。這2種方式目前均為基于閾值的報警,當故障發生時,機電設備已經發生故障造成停機或損失,無法提前預警。
為解決這類問題,在機電設備故障模型中,基于設備運行數據,在設備運行過程中對數據做實時趨勢分析,在產生趨近設備閾值的時候提出預警,報告何種指標將要超出閾值,并預測其將在多長時間后超出閾值,從而實現事前的趨勢預警,并為調整設備和解決故障提供足夠的時間,使設備運營過程更可控,提升維保效率。
故障趨勢預測的核心算法是指數平滑法,該方法是一種時間序列分析的預測手段,它是在移動平均法的基礎上衍生出來的,是通過計算指數平滑值,并與某個時間序列預測模型合作來預測該現象的未來。其原理主要是任意的平滑結果都是本期實際數據與前一期平滑數據加權計算的結果,其特點是,時間更近的數據具有更高的權重,以能夠使預測值迅速反應當前的市場情況。權重之間按等比級數減少,此級數之首項為平滑常數α,公比為(1 -α);指數平滑法對于觀測值給出的權重是靈活的,可以采用不同的值來更改權重的變化率,并調整時間序列中觀察值的一致性。
據業務場景不同,當時間數列無明顯的趨勢變化時應使用一次指數平滑法,當時間序列呈線性規律時應采用二次指數平滑法。
(1)一次指數平滑預測,其計算公式為:

(2)二次指數平滑是在一次指數平滑的結果基礎上再次平滑。根據機電設備運行特點,利用該方法對其進行故障預測較為合適。其計算公式為:

預測未來T期的預測值公式為:

(3)三次指數平滑預測,是二次平滑基礎上的再平滑,其計算公式為:

預測未來T期的預測值公式為:

指數平滑的預測結果為舊數據與新數據的加權和,所以為應對實時變化,應對不同的數據給予不同的權。新數據給與較大的權,舊數據給與較小的權。
在指數平滑法中,預測是否準確的關鍵是α值的選擇,α值決定了新數據與舊數據在預測中所占比例。α值越大,新數據所占的比重就越大,原預測值所占比重就越小,反之亦然。當時間序列呈穩定的水平趨勢時,α應取較小值;當時間序列波動較大,長期趨勢變化的幅度較大時,α應取中間值;當時間序列具有明顯的上升或下降趨勢時,α應取較大值。
隨著大數據技術的普及,傳統的設備維修、維護模式將逐步被智能維修所取代,通過對設備狀態的實時監測與分析,能夠提前預測并發現設備故障以實現提前準備并預警,最大程度減少因設備故障所產生的損失。同時,實時監控故障狀態也可以減少人工巡檢的工作任務,提高工作效率。青島地鐵集團有限公司作為國內首個基于大數據技術搭建線網中心的地鐵公司,建立了設備故障監測與智能診斷系統,為對易損機械部件及關鍵設備進行實時智能故障診斷,對設備故障狀態進行提前預測、預警,制定預測性檢修方案和輔助人工決策,以及后續的機電設備智能運維提供了可靠依據。