杜冠洲,韋古強,凌俊斌
(1.都城偉業集團有限公司,北京 100020;2.國網江蘇省電力公司經濟技術研究院,江蘇 南京 210008)
基于數據挖掘技術的風電設備可靠性分析
杜冠洲1,韋古強1,凌俊斌2
(1.都城偉業集團有限公司,北京 100020;2.國網江蘇省電力公司經濟技術研究院,江蘇 南京 210008)
本文以風電設備可靠性為研究對象,分別運用C5.0決策樹和貝葉斯信念網絡建立風電設備可靠性評價模型,并對兩種分類算法的準確性進行了評估,對比分析得出,貝葉斯信念網絡模型的分類性能更好,能更好地應用于風電設備可靠性的智能評價,從而為企業的決策、發展提供科學的參考依據。
風電設備可靠性;C5.0;貝葉斯信念網絡
近年來,我國風電產業發展迅速。2015年,我國新增安裝風電機組16740臺,新增裝機容量30753MW,同比增長32.6%;累積安裝風電機組92981臺,累積裝機容量145362MW,同比增長26.8%。風電產業已經成為我國電力產業的重要組成部分。隨著風電機組裝機容量越來越大,系統越來越復雜,設備故障率也隨之增長,導致風電機組的運行、維護成本增加。
目前,我國風電機組的運行、維護主要借鑒火電機組的運維策略,采用定期維護和事后維護的方式。但是,由于風電機組和火電機組在結構、運行環境和運行方式之間的差異,從而導致風電機組運維無法準確、有效地監控設備的運行狀況,容易出現各種設備故障。
為了提高風電機組的運維水平,發展易維護、高可靠性、高質量的機組,本文通過構建風電設備可靠性指標體系,運用C5.0決策樹、貝葉斯信念網絡等數據挖掘技術建立風電設備可靠性分析模型,并利用混淆矩陣和ROC曲線對模型進行評估,擇優選取分類性能優異的模型作為實踐應用的工具,從而實現風電設備可靠性控制的實時化、智能化、可預測化,為風電機組運維提供科學的參考依據。
2.1 風電機組狀態劃分
風電機組(以下簡稱機組)狀態劃分如圖1。
2.2 風電設備可靠性指標體系
本文根據某集團公司新能源發電產業的實際情況,利用散點圖觀察、相關性分析和協方差分析等方法,從風力發電設備可靠性評價規程所給出的指標清單中篩選出10個指標,作為本文進行風電設備可靠性評估的指標體系。10個指標分別為:可用系數、等效可用系數、出力系數、強迫停運率、等效強迫停運率、暴露率、平均無故障可用小時、啟動可靠度、平均啟動間隔小時、檢修費用、計劃停運系數。

圖1 風電機組狀態劃分
3.1 模型概述
本文基于風電設備可靠性指標體系,擬采用C5.0決策樹算法和貝葉斯信念網絡等分類算法建模。
(1)決策樹是一種類似于流程圖的樹結構,其結構是一棵倒置的樹,它主要圍繞生長和剪枝兩大核心問題展開。決策樹獲取的知識,用樹的形式表示出來,其中包括分類樹和回歸樹,分類或預測的結果均體現在決策樹的葉節點上。分類樹葉節點所含樣本中,其輸出變量的眾數類別就是分類結果;回歸樹葉節點所含樣本中,其輸出變量的平均值就是預測結果。決策樹直觀易懂且其歸納學習和分類步驟簡單快速,并且具有很好的準確率。C5.0可用來處理數值型或分類型的資料,它的分類預測是基于邏輯的,即通過對輸入變量取值的布爾比較實現對輸出變量的分類預測,在眾多的輸出變量中選擇一個當前最佳的分組變量,并從分組變量的眾多取值中找到一個最佳的分割點。并且為了清楚地表示分析結果,可用決策樹(decision trees)或是 if- then 的關系顯示。
(2)貝葉斯信念網絡是說明聯合條件概率分布。它允許在變量的子集間定義類條件獨立性。它提供一種因果關系的圖形模型,可以在其上進行學習。訓練后的貝葉斯信念網絡可以用于分類。貝葉斯信念網絡有兩個成分定義——有向無環圖和條件概率表。有向無環圖每個節點代表一個隨機變量,每條弧表示一個概率依賴。如果一條弧由節點Y到Z,則Y是Z的雙親或直接前驅,而Z是Y的后代,給定雙親后,每個變量條件獨立于圖中它的非后代。
對于貝葉斯信念網絡當中的每一個變量都有一個條件概率表(ConditionalProbabilityTable,CPT)。變量Y的CPT說明條件分布P(Y|Parents(Y)),其中Parents(Y)是Y的雙親。
1.3.2 利率標準突破難,商業銀行不愿貸。利率市場化后,商業銀行吸儲成本上升,中長期貸款實行基準利率往往會出現存貸成本倒掛的情況。商業銀行普遍認為執行基準利率偏低,按基準利率放貸,銀行會出現虧損;再加上貸款期限長,商業銀行擔心風險較大。在政策性銀行和國有銀行(農行)不貸的情況下,沒有商業銀行愿意承貸。
設X=(x1, …, xn)是被變量或屬性Y1, …, Yn描述的數據元組。這時,信念網絡用下式提供存在的聯合概率分布的完全表示:

其中,P(x1, …, xn)是X的值的特定組合的概率,而P(xi|Parents(Yi))的值對應于Yi的CPT的表目。
網絡內的節點可以選作“輸出”節點,代表類標號屬性。可以有多個輸出節點。多種推斷和學習算法都可以用于這種網絡。分類過程不是返回單個類標號,而是可以返回概率分布,給出每個類的概率。
3.2 模型構建
本文擬選取99臺風電機組設備可靠性指標數據進行建模,因評價指標間存在量綱不統一的問題,因此,首先利用IBM SPSS Statistics軟件對指標數據進行標準化處理,然后,借助IBM SPSS Modeler14.1軟件,運用C5.0決策樹算法和貝葉斯信念網絡算法建模,對設備可靠性進行評價。最后,利用混淆矩陣和ROC曲線,選定分類性能較好的算法,應用于實踐。最終構建模型如圖2所示。

圖2 風電設備可靠性模型

圖3 決策樹模型
3.2.1 C5.0決策樹模型
(1)C5.0決策樹模型運行結果如圖3所示。根據上圖可知:對于可用系數小于等于93.516的機組,平均啟動間隔小時決定實際鑒定結果,對于可用系數大于93.516的機組,等效可用系數決定機組的實際鑒定結果。
(2)C5.0模型實際鑒定結果的混淆矩陣如表1所示。

表1 C5.0模型實際鑒定結果的混淆矩陣
由表1可知,C5.0模型的分類準確率為87.88%,實際鑒定結果為一級被誤判為二級結果的出現2次,被誤判為四級結果的出現1次;實際鑒定結果為三級被誤判為一級結果的出現2次,被誤判為四級結果的出現2次;實際鑒定結果為二級被誤判為一級結果的出現2次,被誤判為三級結果的出現2次;實際鑒定結果為四級被誤判為一級結果的出現1次。
3.2.2 貝葉斯信念網絡模型
(1)貝葉斯信念網絡模型的結構類型使用TAN算法,參數學習方法使用最大似然法,最終構造出的有向無環圖如圖4所示。

圖4 有向無環圖
由圖4可知,可用系數在所有指標中,對實際鑒定結果起著決定性的作用,是最重要的指標。
(2)貝葉斯信念網絡模型實際鑒定結果的混淆矩陣如表2所示。

表2 貝葉斯信念網絡模型實際鑒定結果的混淆矩陣
由表2可知,貝葉斯信念網絡模型的分類準確率為98.99%,實際鑒定結果為四級被誤判為二級結果的出現1次。
3.3 模型評價
對比C5.0決策樹和貝葉斯信念網絡的分類準確率,可以看出,貝葉斯信念網絡的分類準確率較高。為進一步評估模型分類的性能,采用ROC曲線對兩者進行評估,如圖5、圖6所示。

圖5 C5.0決策樹的ROC曲線

圖6 貝葉斯信念網絡的ROC曲線
通過圖5、圖6可以看出,對于實際鑒定結果為一級,貝葉斯信念網絡的ROC曲線較C5.0決策樹的ROC曲線更加靠近單位方形的左上角,貝葉斯信念網絡ROC曲線下的面積更大,說明貝葉斯信念網絡的分類性能較好,能夠用于風電設備可靠性評價。
對于設備密集型企業來說,設備的可靠性關系著企業的生存發展。對于發電企業來說尤其重要。本文是以大數據技術為基礎進行建模、分析,實現自動智能識別鑒定,對風電設備可靠性的研究預期目標和成果如下。(1)借助大數據技術手段,研究利用C5.0決策樹算法和貝葉斯信念網絡,對風電設備的可靠性進行分析預測,從而更好地對風電設備的可靠性進行有針對性、有方向性的控制。(2)利用C5.0決策樹和貝葉斯信念網絡進行對比分析,使得預測鑒定結果最大程度與指標的實際鑒定結果相符,從而擇優選用準確率更高的貝葉斯信念網絡作為實踐應用的分類器。
[1]陳樹勇,戴慧珠,白曉民,等.風電場的發電可靠性模型及其應用[J].中國電機工程學報,2000,20(03).
[2]吳義純,丁明.基于蒙特卡羅仿真的風力發電系統可靠性評價[J].電力自動化設備,2004,24(01).
[3]李輝,李學偉,胡姚剛,等.風電機組運行狀態參數的非等間隔灰色預測[J].電力系統自動化,2012,36(09).
[4]王海超,魯宗相,周雙喜.風電場發電容量可信度研究[J].中國電機工程學報,2005,25(10).
[5]張瑞君. 風力發電機組性能考核方法探討[J].能源技術經濟,2011,23(11).
[6]蘇寅生.電力設備可靠性數據收集統計述評[J].南方電網技術,2015,09(03).
TM774
A
1671-0711(2017)06(下)-0092-03
國家電網公司科技項目《多業務生產數據智能監測與分析一體化平臺研究及示范應用》,(編號:[2015] 709-37)。