彭牡林,肖 宏,肖逸軍,張 翼
(中國石油西南油氣田分公司通信與信息技術中心,成都 610000)
目前,已建成的設備相關信息系統有設備綜合管理系統、生產數據平臺、ERP系統、作業區數字化管理平臺、管道與場站管理系統、凈化總廠設備完整性管理系統等,涉及電力、通信、集輸凈化、鉆井試油、安全、環保、消防等專業領域設備信息,數據涵蓋設備基礎臺賬信息、設備運轉記錄、故障信息、維護管理記錄等,實現了設備的全生命周期管理,積累了大量的供研究和挖掘的歷史數據。
近些年,隨著微處理器或計算機的儀器儀表的迅速發展,以及維護管理系統的不斷完善,尤其是先進以現場總線和工業以太網等通訊技術的高速發展和普及,國內外各大廠商推出了各種先進的預測性維護技術。油氣井管道站庫生產運行安全環保預警可視化管理系統研究與應用項目組對設備完整性及檢維修預警也進行了研究,研究人員使用灰色預測模型對壓力容器厚度進行灰色動態擬合,找出厚度隨時間的變化規律,求時間序列函數,預測下一次檢測值,以及基于多參數的設備故障預警就是通過綜合分析與設備故障狀態相關聯的多個工況參數的變化情況,實現預警。
決策樹分析法是指分析每個決策或事件(即自然狀態)時,都引出兩個或多個事件和不同的結果,并把這種決策或事件的分支畫成圖形,這種圖形很像一棵樹的枝干,故稱決策樹分析法。
下面以決策樹構建中的ID3算為例說明決策樹構建步驟[2]。
第一步:收集數據,數據包括樣本數據、驗證數據,樣本數據用于構建決策樹、驗證數據用于驗證決策樹的準確率。
第二步:數據構建,確定根據哪幾個屬性進行分類,及確定分類類別。
第三步:決策樹構建。
為方便構建模型我們選取兩種設備狀態:正常和非正常。
首先,選取樣本集,樣本集分兩類,一類為構建決策樹,二類為驗證決策樹。

表1 設備預測性決策樹構建樣本數據集

6 1990-2010年 高 是 是 否7 2010年以后 高 是 是 是8 1990年以前 中 否 否 否9 1990年以前 高 是 否 是10 1990-2010年 中 是 否 是11 1990年以前 中 是 是 是12 2010年以后 中 否 是 是13 2010年以后 低 是 否 是14 1990-2010年 中 否 是 否
通過公式計算數據集的信息熵為:I(正常,非正常)=0.9406;
生產日期:條件熵=E(樣本集,生產日期)=0.6936,信息增益=Gain(樣本集,生產日期)=I(正常,非正常)-E(樣本集,生產日期)=0.247;
工作時的溫度:生產日期:條件熵=E(樣本集,工作時的溫度)=0.9111,信息增益=Gain(樣本集,工作時的溫度)=I(正常,非正常)-E(樣本集,工作時的溫度)=0.0295;
是否經常使用:生產日期:條件熵=E(樣本集,是否經常使用)=0.7886,信息增益=Gain(樣本集,是否經常使用)=I(正常,非正常)-E(樣本集,是否經常使用)=0.152;
是否經常維保:生產日期:條件熵=E(樣本集,是否經常維保)=0.8955,信息增益=Gain(樣本集,是否經常維保)=I(正常,非正常)-E(樣本集,是否經常維保)=0.0484;
由此可見,若以“生產日期”作為分裂屬性,所得信息增益最大,于是根據該屬性的三個取值,將數據集分為三個子集:

圖1 數據子集構建
(1)數據集1

表2 數據集1
(2)數據集2

表3 數據集2
(3)數據集3

表4 數據集3
數據集2對應子集全部樣本都屬于同一個類別,因此它成葉子節點,不再分裂。采用同樣的方法,分別對數據集1和3進行分裂,直到所得子集的全部樣本屬于同一個類別,得到全部葉子節點。最終得到的決策樹如圖2所示:

圖2 最終得到的決策樹
由此構建完成設備預測性維護決策樹,接下來需要用驗證樣本集對結果進行驗證。驗證的方法為將樣本數據的屬性通過決策樹進行分類,所得到的葉節點的分類即為決策樹分類結果,然后將得到的結果與實際情況進行比較,計算驗證樣本集的決策樹分類準確率。
設備的預測性維護需要IT技術與業務的深度結合,為保證預測性維護的準確性和及時性,建議如下:一是注重設備基礎資料的管理,涉及設備廠商、生產日期、規格型號等出廠參數;二是加強設備運行狀態數據的收集整理,尤其是壓力、溫度等直接反映設備運行狀態的參數的收集,包括故障和正常運行狀態;三是建立設備預測性維護知識庫,引入專家驗證機制,提高設備預測性維護的準確率。
決策樹在設備預測性維護方面應用比較多,但是決策樹本身也存在一些缺點,ID3僅維護單一的當前假設,這樣就失去了表示所有一致假設帶來的優勢,而且ID3算法在搜索中不進行回溯,每當在樹的某一層次選擇了一個屬性進行測試,它不會再回溯重新考慮這個選擇,所以它是收斂到局部最優的答案,而不是全局最優的。但是對于其中的不足,可以結合其他算法或者對其本身進行改進來達到全局最優效果。