袁智勇
(江西贛能股份有限公司抱子石水電廠,江西 修水 332400)
水電廠是電力系統的重要組成部分,其運行狀態會受到電廠的各種影響因素和外界環境等,所以,對水廠進行合理、有效得調整,使之能夠適應不斷變化的外部環境影響,因此對整個電網進行在線監測、狀態診斷和預測是十分必要。隨著我國經濟水平的不斷提高以及國家政策對節能減排力度加大等因素影響下,火力發電廠在未來將會有越來越多的機組出現故障。而傳統方法在分析數據時存在很多問題:如僅依靠經驗判斷無法準確的確定某個具體電廠運行情況,數據的處理方法比較單一,無法實現對故障類型進行分析,不能準確地揭示出機組運行過程中所存在問題。基于此,本文提出了一種針對水電廠運行狀態進行故障診斷的方法,該技術通過對數據集和處理方式以及相關算法分析來實現。
數據挖掘技術是指從海量的、復雜多變的非結構化信息中提取有價值信息的技術,它是基于數據挖掘理論和技術的應用,能夠幫助人們發現隱藏在信息中的有用價值,從而提高企業的經濟效益,同時也能夠幫助人們在復雜多變環境中更好地生存和發展。
數據挖掘的任務分為以下幾點:
(1)將復雜、冗余性強的信息進行整理,并在其基礎上對原始決策變量和潛在觀測信號進行預測,建立了基于粗糙集的水電廠狀態檢修模型。該方法是根據決策變量和潛在觀測信號,通過對原始數據進行去噪,得到一個最佳估計,從而提高預測精度。
(2)找出描述并區分數據類或概念的模型,以便能夠使用模型預測類標記未知的對象類,并將其分類到一個新的、可解釋的對象類中,從而達到描述和區分數據變量之間關系,實現模型預測。
(3)聚類是把數據劃分到不同組中,進行組合而產生的一種數據處理技術,它能夠將一些具有相同屬性的對象分類,對同一組中不同元素之間關系進行分析,并找出其對應的規律,從而使數據能夠更加準確。
(4)關聯分析的任務是找出數據記錄中字段之間的關系,并利用其對數據進行處理。通過關聯分析可以發現系統中的問題,并且能夠找到事物之間聯系,從而提高故障診斷和預測決策過程的效率,進而降低系統的故障率。通過關聯分析可以發現事物之間聯系,并且能夠利用其進行預測,從而為決策者提供有效信息。
在傳統的數據挖掘中,主要是通過對原始信息進行抽取,進而得到大量具有特定規律性和預測價值的數據。而隨著時間推移以及科技發展進步、技術不斷完善等因素都會產生越來越多與之相關且復雜關系較大的異常樣本,這些隨機變量可能包括許多不同類型,同時由于一些隨機過程中不能夠被量化處理過,導致無法得到有效挖掘出規律性和預測價值的數據信息。數據挖掘的過程如圖1 所示。

圖1 數據挖掘過程示意圖
(1)數據選擇。數據選擇是對原始數據進行篩選,將有相同屬性的樣本集按照一定規則排列進同一堆中,以獲得不同的結果。通過對數據進行處理,得到一組具有良好性能和特點的信息,從而將其分類、歸類,建立模型并對其進行分類,得到不同的結果,最終將故障對象分為一類,從而分析系統中各類信息之間關系。
(2)數據預處理。數據預處理是將實際的信息轉化為可利用、有效和直觀表達出來,并能對原始信息進行描述的過程,它是數據挖掘技術的一個重要分支,其主要目的在于利用某種算法對原始信息進行處理,并將這些分析結果轉換為可應用于工程實際過程中的有用知識。
(3)模式發現。傳統的模式發現多用于人工神經網絡,而現在已經有了人工智能,主要是針對模型中不同類型數據進行處理和分析。在實際應用過程中,可以使用多種算法對這些數據信息進行挖掘,從而得到有效的結果,并針對這些數據進行分析,進而獲得決策。
(4)模式評估。通過某種度量得出真正代表知識的模式,從而為其提供改進依據,并根據模型的實際情況來對系統進行評估,得出最優結果。通過數據挖掘算法能夠得到一個有效的模式評估值。
(5)知識表示。傳統的模式評估方法是基于歷史數據和模型進行判斷,而對于實際情況來說,往往需要對原始指標進行一定程度上的簡化處理,而傳統的模式評估方法是基于歷史數據進行判斷,這就使得預測結果與實際情況有很大差異,從而導致誤差較大。為了降低這些問題帶來的影響和影響,改進了水電廠狀態檢修系統中常用到一些指標來對原始信息進行處理分析。
數據預處理模塊將在線監測所得的數據進行前期處理,并將其進行預處理,然后對這些數據的特點及規律性進行分析,從而得出結論。在實際應用中發現:某發電廠汽輪發電機組狀態監測和優化系統是基于人工神經網絡技術、支持向量機等算法實現。該方法能夠有效地提高電廠運行過程中設備維護與檢修效率以及可靠性,通過改進后的水電機組狀態診斷模型可以為故障原因準確預測提供依據,通過數據挖掘算法對異常情況進行分析,進而得出結論并提出改善措施以降低風險發生率及損失率。本文引入的數據標準化處理方法可以解決度量單位不一致的問題,具體方法如下:
(1)計算平均的絕對偏差值的方法如式(1)所示:
其中,x1f,…,xnf是f 的n 個特征值,mf是f 的平均值,具體計算如公式(2)所示:
(2)計算標準化的特征值,具體計算如公式(3)所示:
標準化方法將特征項的平均值轉化到0,將標準偏差轉化為1。
(3)通過公式(4)產生歸一化結果。
數據挖掘算法主要是利用數據中的特征來構建相應模型,將一些具有不同特點且不相關、未知量少等問題進行分析,從而對這些事物或現象做出預測和描述。
(1)K-means 算法。K-means 算法是一種面向機器學習的數據挖掘方法,它以人工智能技術為基礎,將計算機語言作為研究對象,基于其在模式分類、聚類等理論之上建立模型。通過對原始狀態變量進行再處理和參數估計來實現對問題信息的提取。K-means 算法主要是用來解決數據挖掘中存在的一些問題。它可以將處理過程進行簡化,從而提高分析結果的效率。K-means 算法的處理流程如下:首先,隨機地選擇k 個對象,對其進行分析,然后將k 個對象的函數作為訓練集,并根據所選擇的方法建立一個模型,通過K-means 算法處理過程可以得到參數,并將其與實際對象的函數進行比較,從而得出結論。通過K-means 算法發現系統中存在大量的故障信息;其次,對原始數據進行預處理和清洗后得到一組新特征點集(即異常指標);最后,根據所獲取到的是某一個特定屬性點集(或參數)與另一個特定簇之間比較結果,并計算出當前最優閾值及該最佳閾范圍,判斷當前最優閾值是否滿足該特征點集。通常采用平方誤差準則,其定義如公式(5)所示:
(2)改進的K-means 算法。對于k 均值聚類算法來講,初始質心的選擇會對聚類運算結果產生很大的影響,如果選擇不恰當,不僅會增加算法的時間和空間復雜度,影響最終結果的質量,而且對算法運行時間和系統性能都有很大的限制。為了使得初始化選擇能夠更加合理,提高算法的運行時間和性能,本文針對原來隨即選取k 個質心的質心選擇算法作了一定的優化,設計了一個新的質心選擇算法,使得每次的算法計算結果更優,從而實現了改進后k 均值聚類法在水電廠狀態檢修系統中的應用,實現改進器的多類診斷,提高了系統性能。
本文從公開發表的期刊中搜集已經確定故障類型的161 組變壓器特征氣體數據,選擇9 組特征氣體含量和比值編碼作為標準故障樣本,具體如表1 所示。

表1 標準故障樣本數據
根據上述故障可以得到想要的故障診斷,具體的故障類型診斷結果如表2 所示。

表2 故障類型診斷結果表格
由此可以看出,采用改進的K-means 算法,對氣體數據進行聚類分析,可以比較有效地將各種類型的故障診斷出來,其結果可以用來對機組、變壓器等設備進行故障分析。
電力系統的狀態檢修工作是一項比較復雜、系統性很強且綜合性較強的工程,它要求對電廠運行和管理全過程進行監測,以發現影響設備安全穩定運行以及電網正常供電情況下故障隱患。本文主要探討了基于改進數據挖掘算法的水電廠狀態檢修系統,通過分析其應用背景、基本原理和技術,提出了一種基于改進數據挖掘算法進行故障診斷與預測等方面研究,可以很好地對電廠的智能檢修提供完整有效的指導,具有很強的應用價值。