摘 要:針對裝備在不同配置及使用環境的條件下運行的故障率等級差異,詳細介紹并分析了現有各貝葉斯分類器的特點和構建算法。在此基礎上,提出了基于貝葉斯網絡的產品故障分類模型建模方法用于指導實際分類任務的模型建立和應用。通過法國某裝備生產企業的實例分析,實驗結果證明在所有的貝葉斯網絡分類器及傳統的決策樹C4.5分類器中,樹型樸素貝葉斯分類器能夠取得最好的分類效果,并為后續的維修資源配置及產品運行能力優化提供有效的理論支持。
關鍵詞:維護保障; 故障率等級; 分類器; 貝葉斯網絡
中圖分類號:TP202文獻標志碼:A
文章編號:1001-3695(2009)09-3307-03
doi:10.3969/j.issn.1001-3695.2009.09.030
Research of product failure rate based on Bayesian network classifiers
CAI Zhi-qiang1, 2, SUN Shu-dong YANNOU Bernard 2 , SI Shu-bin
(1.School of Mechatronics, Northwestern Polytechnical University, Xi’an 710072, China; 2.Laboratoire Genie Industriel, Ecole Centrale Paris, Chatenay-Malabry 92290, France)
Abstract:For identifying the product failure rate grade with diverse configuration and different operation condition, introduced the useful Bayesian networks classifiers. Also described their algorithms and characters in detail. On the basis of these classifier models, listed the procedure of building product failure rate grade classifier for guiding the modeling and application the actual cases. Carried out the France enterprise case study and the results show that, with the comparison to other Bayesian networks classifiers and traditional decision tree C4.5, the tree augmented nave-Bayes classifier get the best general performance with highest precision, which can build a firm keystone for later maintenance resource distribution and operation optimization.
Key words:maintenance management; failure rate; classifier; Bayesian network
0 引言
近年來,由于系統安全、運行效率以及全壽命周期費用等多方面的需求,我國復雜裝備維護保障部門已經在裝備維修管理方面有了長足的進步。在實施保障服務過程中,計算機管理信息系統都積累了大量的、以不同形式存儲的數據資料。由于這些資料十分繁雜,要從中發現有價值的信息或知識,預測裝備運行故障率,為維修決策提供數據支持,是非常艱巨的任務。
貝葉斯網絡[1]作為一種直觀、高效、可靠的數據挖掘分類預測工具,在不確定性研究和應用領域一直得到極大的重視。Friedman等人[2]在比較了樸素貝葉斯分類器 (nave-Bayes, NB) 和無監督貝葉斯網絡分類器 (general Bayesian network, GBN) 分類能力及模型復雜度的基礎上,提出了一種新型的樹型樸素貝葉斯分類器 (tree augmented nave-Bayes, TAN),通過與決策樹C4.5比較,證明可以取得較好的分類效果。Cheng等人[3]提出了一種基于條件互信息的貝葉斯網絡學習方法并應用于分類器的構建,實驗結果證明其建立的貝葉斯網絡樸素貝葉斯分類器 (BN augmented nave-Bayes, BAN) 和GBN能夠達到很好的分類精度。Madden[4]提出了一種全新的部分貝葉斯網絡 (partial Bayesian network, PBN) 結構,并詳細描述了網絡的構建規則。PBN以分類節點為核心,直接搜索其馬爾可夫覆蓋(Markov blanket, MB)節點并加入網絡,與其他貝葉斯網絡分類器的比較證明其在某些領域能夠取得更好的分類效果。但是,由于故障數據集的多樣性,研究人員往往需要針對實際案例和數據集進行具體分析才能找到最合適的模型和建模方法。Baesens等人[5]就利用NB、TAN、GBN、Multinet等多種貝葉斯網絡分類算法來預測客戶消費生命周期內,長期客戶的消費趨勢坡度,即后續購買欲望的概率,通過與C4.5、LDA、QDA等傳統分類算法的比較,表明了GBN最能滿足實際預測的要求。
1 貝葉斯網絡分類器及建模
應用貝葉斯網絡分類器進行分類主要分成兩階段:第一階段是貝葉斯網絡分類器的學習,即從樣本數據中構造分類器,包括結構學習和概率分布參數學習;第二階段是貝葉斯網絡分類器的推理,即計算類節點的條件概率,對分類數據進行分類。這兩個階段的時間復雜性均取決于特征值間的依賴程度,甚至可以是NP完全問題,因而在實際應用中,往往需要對貝葉斯網絡分類器進行簡化。
1.1 常用貝葉斯分類網絡模型
1)NB分類器
NB分類器[6]是最簡單的一種情形,如圖1所示。其假定各特征變量X在給定目標變量C時,是相對獨立的,即P(X1=x1,…,Xn=xn|C=cl)=∏ni=1P(Xi=xi|C=cl),而通過機器學習可以很容易得到各特征變量的條件概率分布P(Xi=xi|C=cl)。因此,當輸入一組特征變量觀測值(X1=x1,…,Xn=xn)時,可以利用貝葉斯公式計算目標變量的后驗分布,實現目標變量分類。其計算公式為
P(C=cl|X1=x1,…,Xn=xn)=P(C=cl)P(X1=x1,…,Xn=xn|C=cl)/P(X1=x1,…,Xn=xn)=P(C=cl)∏ni=1P(Xi=xi|C=cl)/P(X1=x1,…,Xn=xn)(1)
雖然各變量條件獨立的假設在許多應用領域未必能完全滿足,但這種簡化的貝葉斯分類器在許多實際應用中往往得到了較好的分類精度。
2)TAN分類器
TAN分類器[2]對NB分類器進行了擴展,通過計算特征變量兩兩之間的條件互信息I(Xi;Xj|C),描述了當給定C時,Xj向Xi提供的信息量。其中條件互信息的定義如下:
I(Xi;Xj|C)=∑xi,xj,clP(Xi=xi,Xj=xj,C=cl)×
log(P(Xi=xi,Xj=xj|C=cl)/(P(Xi=xi|C=cl)P(Xj=xj|C=cl)))(2)
TAN利用特征變量間的互信息,松弛了各特征變量條件獨立假設,允許特征變量所對應的節點構成一棵樹,能夠得到更好的分類效果,如圖1所示。
3)GBN分類器
GBN是一種無監督的貝葉斯網絡分類器,與前兩類貝葉斯網絡分類器有較大區別。在網絡構建過程中,前兩類分類器中均將目標變量作為一個特殊的節點,即是各特征節點的父節點。而GBN中將目標變量作為一普通節點,利用通用的貝葉斯網絡學習算法建立關于所有變量的貝葉斯網絡。本文使用EQ算法[7]在可行的貝葉斯網絡等價類結構中搜索最優結構,并采用最短描述長度(minimum description length, MDL)評分函數[8]評價候選貝葉斯網絡表述及還原原始數據的能力。在評分函數DL(BN,D)=DLgraph(G)+DLtable(Θ)+DLdata(D)中,DLgraph(G)表示描述一個待評分貝葉斯網絡結構G所需的字符數,DLtable(Θ)代表了描述此貝葉斯網絡節點間條件概率分布Θ的存儲量,DLdata(D)表示利用貝葉斯網絡存儲訓練數據集D所需位數。可以看到,前兩項代表了所得貝葉斯網絡的復雜度,結構越復雜存儲容量越大;后一項衡量了貝葉斯網絡的準確度,而MDL在兩者之間進行了很好的平衡,避免了過度擬合。最后,以目標節點為中心搜索最優貝葉斯網絡的MB節點如圖1所示。在給定MB時,目標節點條件獨立于MB之外的所有節點,大大降低了貝葉斯網絡分類器模型的復雜度。
1.2 基于貝葉斯網絡的產品故障分類模型建模方法
目前在產品故障預測領域有兩種主要的預測技術。應用最廣的、效果最明顯的一種是利用當前產品狀態感應參數以及現階段運行任務剖面來預測部件的有效剩余壽命;第二種方法是利用產品狀態參數和任務剖面來預測產品在規定的運行時間段(如下一個檢查周期)內,無故障運行的概率[9]。在本文中,筆者更關注某一產品家族中的某種配置產品投入到不同市場時,有效預測其運行故障率等級及分布,以便于為維修備件供應管理、維修人員配置、維修策略決策及產品運行能力優化提供有效的理論支持。基于貝葉斯網絡的產品故障分類模型的基本建模步驟如下:
a)對于生產企業的整個產品家族,確定其中第i系列的產品為故障率分類研究對象Pi(i=1,2,…)。
b)針對每個要分析的產品系列Pi,從歷史故障數據庫中搜索與產品系列代碼相匹配的故障信息(包括產品配置使用狀態信息集合C,故障率等級R等參數),搜索到的故障信息標記為Dij=(Cij,Rij),j=1,2,…,n。
c)為了避免過度擬合,使模型對新數據有較好的分類精度,把Di按照2/3和1/3的比例隨機抽樣,分別形成訓練故障數據集Ditrain和測試故障數據集Ditest。
d)基于訓練故障數據集Ditrain,采用上述NB、TAN和GBN等算法構建貝葉斯網絡結構G并計算先驗條件概率參數Θ。
e)利用測試故障數據集Ditest驗證并評價所構建的各種貝葉斯網絡分類器的準確度及可靠度。
f)選出分類效果最好的模型作為最終產品故障率等級分類模型,輸入新的產品配置使用狀態信息集合Cnew,利用模型計算其目標節點的后驗概率分布即可得到其故障率等級Rnew。
2 實例研究
2.1 實例數據
本文的研究案例數據來自于法國某裝備制造企業,記錄了在某一個調查周期內,同一系列裝備在各種配置及使用環境下的故障率級別。其目標變量是故障率類別,特征變量包括用戶國家、產品類型、使用類別、空調系統、動力裝置和變速箱配置,各變量的具體取值及描述如表1所示。出于商業秘密緣故,某些特征變量的取值通過特殊映射方式作了相應替換,但未改變其實際分布。最后,為了進行有效驗證,根據建模步驟c)進一步將所有的故障數據隨機分割,其2/3作為訓練數據集,剩下的1/3作為測試數據集用于驗證最終分類模型的分類效果。表2列出了故障數據集的特性。
2.2 評價標準
目前,評價分類模型最有效的方式就是混淆矩陣。混淆矩陣的定義如下:P=[pij](i,j=1,2,…,n)。其中:n表示目標變量的類別數;pij表示分類器將屬于i類的對象劃入j類的記錄數,當i=j時,pij表示劃分正確的記錄數,模型總體分類精度為total=(∑ni=1pii)/(∑ni=1∑nj=1pij)。另外,本文還定義準確度Pij=pij/∑nx=1pix(i,j=1,2,…,n)和可靠度Rij=pij/∑ny=1pyj(i,j=1,2,…,n)兩個參數來詳細描述靈敏度(true-positive rate)、特異度(true-negative rate)、誤判率(1-positive rate)和漏判率(1-negative rate)分布。
針對本實例數據目標變量的二分性,本文引入ROC(receiver operating characteristic)曲線用于分類效果的分析與評價。其基本原理是通過目標變量判別閾值的移動,獲得多對靈敏度和誤判率取值。然后以靈敏度為縱軸,以誤判率為橫軸,連接各點繪制曲線并計算曲線下的面積。將繪成的曲線與斜45°的直線對比,若差不多重合,說明特征變量對目標變量的判斷價值很差;若越遠離斜45°的直線即曲線下的面積越大,說明特征變量對目標變量的判斷價值越好,即根據特征量可以較為正確地判斷目標變量[10]。
2.3 結果分析
利用BayesiaLab [11]仿真軟件,按照1.2節所示的建模方法建立了基于NB、CBN和GBN算法的分類器模型,并測試了其分類結果。為了與其他通用分類器對比,本文也利用同樣的數據集建立了決策樹C4.5并測試其分類效果。所有貝葉斯分類器的網絡結構模型如圖2所示,分類結果混淆矩陣列表如表3所示,貝葉斯分類器的ROC曲線如圖3所示。
從上述結果可以看到,表現最差的是NB網絡,分類精度只有70.89%,這是因為某些特征變量之間存在強烈的關聯關系,而NB忽略了這些關聯;C4.5表現一般,與其他的貝葉斯網絡分類器有一定差距;GBN模型結構最簡單,但是忽略了太多的特征變量,性能也只能算中等;而TAN由于考慮了變量間的關聯,能取得最好的分類結果,總體分類精度達到81.01%,其ROC曲線下面積也與表現最好的GBN相差不大。
3 結束語
針對裝備在不同配置及使用環境條件下運行的故障率級別預測問題,本文比較分析了NB、TAN和GBN等貝葉斯網絡產品故障率分類模型。實例分析結果證明TAN與其他的貝葉斯網絡分類器及傳統的決策樹C4.5分類器相比,在提高分類準確度的同時有效降低了兩類錯誤率,能夠滿足維修備件供應管理、維修人員配置、維修策略決策及產品運行能力優化等后續工作需求。
參考文獻:
[1]JENSEN F V. An introduction to Bayesian networks [M]. London: UCL Press, 1996.
[2]FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers [J]. Machine Learning, 1997,29:131-163.
[3]CHENG Jie, GREINER R. Comparing Bayesian network classifiers[C]//Proc of the 15th Annual Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 1999:101-108.
[4]MADDEN M G. A new Bayesian network structure for classification tasks[C]//Proc of the 13th Irish International Conference on Artificial Intelligence and Cognitive Science. London: Springer-Verlag, 2002: 203-208.
[5]BAESENS B, VERSTRAETEN G, POEL D van den, et al. Baye-sian network classifiers for identifying the slope of the customer lifecycle of long-life customers [J]. European Journal of Operational Research, 2004, 156(2):508-523.
[6]DUDA R O, HART P E. Pattern classification and scene analysis [M]. New York:Wiley, 1973.
[7]MUNTEANU P, BENDOU M. The EQ framework for learning equivalence classes of Bayesian networks[C]//Proc of IEEE International Conference on Data Mining. Washington DC: IEEE Computer Society, 2001: 417-424.
[8]FRIEDMAN N, GOLDSZMIDT M. Learning Bayesian networks with local structure[C]//Proc of the 12th Annual Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 1996: 252-262.
[9]JARDINE A K S, LIN D, BANJEVIC D. A review on machinery diagnostics and prognostics implementing condition-based maintenance [J]. Mechanical Systems and Signal Processing, 2006,20(7):1483-1510.
[10]BAMBER D. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph [J]. Journal of Mathematical Psychology, 1975,12: 387-415.
[11]Bayesia Limited Company. BayesiaLab academic edition[BP/OL]. (2008) [2008-12-25]. htttp://www.bayesia.com.