國家電投集團內蒙古能源有限公司 高建民
由于火電機組設備的狀態數據來源廣泛,經常會出現數據統計口徑不同、數據錄入員輸入錯誤等問題,又因為缺少檢測機構而造成間歇性的數據異常,這些異常數據會直接影響到電力數據傳輸的準確性。為能夠準確整理這些電力數據,電力中心大多采用聚類分析的方法對這些火電機組設備的狀態數據進行整理和分析,從中判斷出異常數據。目前已有很多火電機組設備的狀態異常數據的檢測方法,如基于統計的火電機組設備狀態數據檢測、基于近鄰模型的火電機組設備狀態數據檢測等,但這些方法大多準確性很低,在檢測異常值的過程中經常出錯。
為得到具備高準確性的檢測方法,本文提出了基于密度峰值聚類的火電機組設備狀態檢修技術改進方法。首先需基于密度峰值聚類算法計算兩個樣本點的基礎參數,并根據這兩個參數進行火電機組設備狀態數據的類間距離進行優化。通過樣本點與聚類中心的距離集合構建決策圖,有了決策圖后,就能直接計算密度峰值聚類算法的無標簽歸類,以此判斷故障數據并應用于火電機組設備狀態檢修技術中。最后設計實驗,驗證本文算法的準確性與優越性。
密度峰值聚類算法是一種新的基于數據挖掘的密度聚類方法,該算法的中心思想在于對中心聚類點的描述[1]。在該算法中通常可尋找一些本身就具備相當大的目的的樣本點,這些樣本點與聚類中心相對距離較遠,位置上對聚類中心呈包圍狀。樣本點通常具備密度和距離兩種特征值,密度通常作為特征點的基本特征,距離則表示該組數據的特征點與聚類中心間的聯系緊密度。因此,通過優化火電機組設備狀態數據的類間距離,形成檢修的決策圖,完成聚類中心在樣本點中的選擇,其特征離散屬性與連續屬性的定義式如下所示:


其中,i表示特征離散的樣本點,j表示特征連續的樣本點;χ表示樣本點離散分布的分布規律;dij表示樣本點i到j之間的距離;dc表示兩個樣本點間的截斷距離[2]。當數據集集中于樣本點即理想密度切割時,可通過將樣本i與局部密度間的距離獲取類間密度的最大樣本式(3),此時的類間密度最大樣本即為最大距離,則該樣本點就會被自動識別為聚類中心。因此,對于數據集的所有樣本點,均可通過(ρi,δi)的坐標設置二維平面圖,這個二維平面圖又可稱為決策圖[3]。
在決策圖中有著諸多樣本點與聚類中心之間的關聯信息,通過決策圖就能直接找到最優的火電機組設備狀態數據類間距離。在利用決策圖進行計算時需額外考慮變量γi,通過ρi和δi能得到一個綜合性的變量信息,其表達式為式(4),式中i屬于整個樣本集。且根據定義式,γi的值越大則該樣本點越有可能成為聚類中心。當該點成為聚類中心后,其他樣本點則自動成為具備最優類間距離的類簇點。通過該方法對原始的密度峰值聚類算法進行一定的優化,得到了一個能夠容納極大體量、空間結構也相對復雜的算法結構。


得到基本的算法結構后,就需集中計算密度峰值聚類算法的無標簽歸類,將該算法的幾種情況分別用數據表達出來[4]。在這個算法中主要有兩種思想為基礎:一是聚類中心與周圍的樣本點相對密度較低,二是聚類中心與其他相對密度較高的樣本點距離較大。基于此,每個樣本點進行無標簽歸類前提是得到公式(1)和公式(3)的基礎參數。當該聚類中心所在的空間z被曲線和高維數據點填充滿后,就能夠構造出一個相對簡單的二維空間。
此時為推導出樣本點的標簽歸類,可對火電機組設備的狀態數據即理想樣本采樣,設樣本為S,樣本點i與樣本點j之間的間隔為z,對多個間隔進行排序,同時將這些間隔構建為一個樣本點集K={n1,n2,n3,…,nn-1}。同時,還需要將這些樣本集K中的數據進行統計,取出上限和下限以及平均數和眾數。按照標準火電機組設備的狀態數據分組復制,求出其標準參數[5]。
綜上所述,此時將最大密度的火電機組設備狀態的標準值劃分到其他標簽中,并求出區分標準,即密度峰值聚類算法的標準參數與劃分依據,通過這些數據可直接帶入到火電機組設備故障檢測中,得到其檢修的改進技術。
利用上文中推導出的密度峰值聚類算法進行火電機組設備狀態故障數據檢測,需盡量排除聚類簇的影響,也不能使檢測結果受到聚類中心周邊樣本點個數的影響,因此密度峰值聚類算法的檢測精度十分依賴于dc的數值[6]。在考慮樣本類間密度和距離的前提下,將整個數據集的局部特征和數據異常的規則判斷明確地表示出來,就能得到較為理想的結果。首先需構造一個原始的樣本集,并計算該樣本集的聚類中心與其他樣本點間的歐式距離d(xi,xj)。將所有距離結果按照升序排列容納進一個數據集,此時第n個距離結果可表示為Nn(xi)。可通過距離結果的集合計算樣本點之間的局部密度,此時的距離近鄰公式可表示為:N(xi)={j∈X|d(xi,xj)≤d(xiN(xi))}(5),式中N(xi)表示樣本點與聚類中心距離的集合,j表示某一樣本點,X表示樣本點的樣本集。這時可計算火電機組設備狀態檢修的兩個參數并確定其中的異常值。
在計算機中設計算法時,需要首先根據公式(1)和公式(3)計算兩個基礎參數,并求出樣本集中各樣本點的歐式距離,此時可集中進行歸一化處理。然后將所有樣本點與聚類中心的位置信息集結為一個集合,并根據局部距離因子是否小于1判斷是否需要計算相對密度[7]。若小于1,則可直接將樣本點的相對密度賦值為0;若大于1,則需要根據公式(3)計算相對密度。得到故障樣本點之間的相對密度之后,就能夠根據公式(5)距離近鄰公式得到樣本點的相對距離,并以此繪制樣本空間的決策圖,并通過決策圖直接判斷異常點的位置信息。
本實驗通過對比分析,驗證上文中設計的基于密度峰值聚類的火電機組設備狀態檢修改進技術是否能夠更好地進行火電機組設備故障點的檢測,與其他傳統檢測算法相比是否更具備優越性。
本實驗通過python軟件實現仿真設計,先后在該仿真軟件上運行本文基于密度峰值聚類改進算法、基于統計的火電機組設備狀態數據檢測算法、基于近鄰模型的火電機組設備狀態數據檢測算法。通過這三種算法在運行過程中的對比,得到其算法準確度的優劣比較,驗證本文的研究目的是否實現。實驗中的數據來源于某電力公司的一臺火電機組設備,每0.5h采樣一次,測得其所有有功功率,即每日采集樣本48個。如此一月后將所有樣本整合,得到正常的樣本點1023個、異常樣本點417個。在其中抽取20個樣本點,其中正常樣本點15個、異常樣本點5個,分散在仿真軟件的程序中。
通過計算火電機組設備狀態的數據情況,驗證該樣本點是否為異常樣本,計算公式為:其中表示經過歸一化處理后的火電機組設備狀態的數據負荷值,取值區間為[0,1];i表示該火電機組模型中的樣本點個數,該實驗中取20;Pi表示單次計算該火電機組模型的電力數據波動值。對標準化后的數據利用上文所述三種算法進行異常值檢測,對比實驗結果的準確性,判斷三種算法的優越性。

表1 實驗結果
當負荷值大于0.3340時檢測結果為異常,否則為正常,因此得到如表1所示的三種算法的檢測結果。由實驗結果可知,本文設計的基于密度峰值聚類的火電機組設備狀態檢修改進技術在20個樣本點中均沒有錯誤發生,而其他兩種傳統算法均產生了檢測結果的錯誤,正確率均為90%。由此可知,本文的算法改進所得到的檢測結果均與標準數據相吻合,沒有錯檢或漏檢的情況發生,確實能夠解決傳統算法檢測準確性低的問題。然而密度峰值聚類改進算法還存在一定的局限性,雖然在數據的準確度上有所提高,但是卻在一定程度上降低了運算效率,接下來可以根據這方面進行一定的研究。