(華北電力大學電力工程學院,北京市,102200) 劉鈺蕊
變電設備作為變電站的核心部分,其日常維護與管理,對提高變電運行的可靠性與安全性有重大意義,而電力設備中玻璃材料的老化問題正亟待解決。聚類分析是將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,在玻璃材料研究領域有良好適用條件,能準確分類總結玻璃化學成分及其風化規律,為后續相關電力設備的維護提供可靠依據。
聚類是將數據分類到不同的類或者簇這樣的一個過程,一個類簇內的實體是相似的,不同類簇的實體是不相似的。一個類簇是測試空間中點的會聚,同一類簇的任意兩個點間的距離小于不同類簇的任意兩個點間的距離,類簇可以描述為一個包含密度相對較高的點集的多維空間中的連通區域,它們借助包含密度相對較低的點集的區域與其他區域(類簇)相分離[1]。
聚類是一個無監督的分類,它沒有任何先驗知識可用,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS 等,本文中主要利用SPSS 軟件進行分析[2]。
采用聚類分析的方法對電力設備玻璃材料進行分類研究,可以準確清晰地獲取玻璃材料的分類概況,為進一步研究其類別規律,解決玻璃老化問題提供依據。
對于所獲取的玻璃樣品數據,關鍵在于分析玻璃類型與各化學成分含量之間的關系,從而進一步對已有類型的樣本進行進一步分類,但是變量過于冗余,因此可以將相關性高的分為一類,對各化學成分進行降維處理,也就是對各個反應產物進行分類合并處理,考慮到高鉀類玻璃和鉛鋇類玻璃性質上的不同,利用SPSS軟件的聚類分析功能對高鉀類樣本和鉛鋇類樣品的相關數據分別進行聚類分析,針對樣品中各化學成分的含量進行分類。由聚類分析可知:對于高鉀類樣品,可以將二氧化硅含量歸為一類作為主要化學成分,而將其余化學成分的總含量歸為一類稱為次要化學成分,從而實現數據的降維。因此在14種化學成分中,只需要考慮二氧化硅含量以及其余化學成分總含量這兩類指標與玻璃類型之間的關系,將其作為高鉀類樣品的分類依據。
對于鉛鋇類樣品:可以將二氧化硅含量、氧化鉛含量、氧化鋇含量分別歸為一類,得到三類主要化學成分。而將其余化學成分的總含量分為一類稱為次要化學成分,故只需要考慮二氧化硅含量、氧化鉛含量、氧化鋇含量以及其余化學成分總含量這四類指標與玻璃類型之間的關系即可,將其作為鉛鋇類樣品的分類依據。
分析高鉀玻璃和鉛鋇玻璃的分類依據,同時考慮到樣品類型和風化情況對于樣品化學成分的影響,將高鉀和鉛鋇兩種類型的樣品進一步細分為高鉀未風化,高鉀風化,鉛鋇未風化,鉛鋇風化四種類型,對這四種類型樣品中各化學成分的含量范圍進行統計,并繪制多因子箱形圖如圖1 所示。以此來對比分析風化狀態相同時高鉀玻璃和鉛鋇玻璃中各化學成分含量分布的不同以及兩者在風化前后各化學成分比例變化情況的差異。

圖1 不同類型樣品各化學成分分布箱形圖
由圖1統計可知,在風化狀態相同時,高鉀和鉛鋇兩種類型的樣品中二氧化硅、氧化鉛、氧化鋇三者的成分含量范圍分布均相對集中,且兩者無重合部分。即在風化情況一定時,高鉀類與鉛鋇類玻璃中這三種材料的成分含量存在顯著差異,所以這三種化學成分在區分不同玻璃類型中起到重要作用。其中,高鉀類樣品中二氧化硅的含量在風化后急劇上升且無論風化前后,高鉀類樣品中二氧化硅的含量均高于鉛鋇類樣品。同時可以看出,氧化鉛、氧化鋇集中分布在鉛鋇類樣品中,在高鉀類樣品中幾乎沒有。除此之外還可以注意到,高鉀類玻璃風化前氧化鉀的含量很高,風化后氧化鉀的含量有相對明顯的下降,而鉛鋇玻璃在風化前后氧化鉀的含量均相對較低,沒有明顯變化。
對高鉀玻璃和鉛鋇玻璃進一步進行亞類劃分,采用系統聚類法,系統聚類法可以直接對所有項目進行綜合比較、分類和評價。系統聚類法中最佳聚類數的選定采用肘部法則。肘部法則的計算原理是成本函數,成本函數是類別畸變程度之和,每個類的畸變程度等于每個變量點到其類別中心的位置距離平方和,若類內部的成員彼此間越緊湊則類的畸變程度越小,反之,若類內部的成員彼此間越分散則類的畸變程度越大。在選擇類別數量上,肘部法則會把不同聚類數對應的總畸變程度以圖表的形式表現出來,即繪制聚合系數折線圖。隨著值的增大,平均畸變程度會減小;每個類包含的樣本數會減少,于是樣本離其重心會更近。但是,隨著值繼續增大,平均畸變程度的改善效果會不斷減低。值增大過程中,畸變程度的改善效果下降幅度最大的位置對應的值就是肘部,依據肘部即可確定最佳聚類數[3]。下面以高鉀類樣品為例來進行分析。
首先依據前期聚類分析得到的四個指標,采用系統聚類法對處理后的高鉀類樣品進行聚類,隨后根據肘部法則的原理,將聚類數k 從1 開始依次增加,統計總畸變程度與聚類類別數k的關系,繪制聚合系數折線圖如圖2所示。

圖2 高鉀類樣品聚合系數折線圖
由圖可知,類數從1增加到3,總畸變程度下降速度較快,類數超過3 以后,總畸變程度變化變緩。因此k=3 為總畸變程度的“肘部”,最佳的樣品聚類數即為3。通過結合肘部法則和系統聚類分析,綜合分析比較所有項目,可以將高鉀類樣品進一步劃分為三類,分類結果采用柱形圖來展示每一亞類各自的特征,其對應的柱形分析圖如圖3 所示。對于鉛鋇類樣品,其分類的具體過程與高鉀類樣品相同。

圖3 高鉀類樣品亞類分析圖
對于高鉀類樣品:三種類別中,二氧化硅含量有著相對明顯的區別,由第一類至第三類,其二氧化硅的含量呈現下降趨勢,故可以依據樣品中二氧化硅的含量將高鉀類樣品進一步分為:高硅、中硅、低硅三類。
對于鉛鋇類樣品:對比五種類別,其二氧化硅的含量有明顯的的差異,而隨著二氧化硅含量的減少,樣品中鉛鋇的總含量總體呈現上升趨勢,且在鉛鋇總含量上升的過程中,鉛鋇含量之間的占比大小關系也在發生著變化。由第一類至第五類,其二氧化硅的含量呈現下降趨勢,而鉛鋇總含量總體呈現上升趨勢,且鉛鋇含量占比大小關系發生了大于-近似相等-大于-近似相等-大于的變化,可以認為該五種類別是按照樣品風化程度進行劃分的。依據以上的分析,可以根據每一類樣品的特點將鉛鋇類樣品進一步分為:高硅、低硅、低鉛、鉛鋇、高鉛五類。
對于亞分類的結果,可以用圖4 的思維導圖來展示。

圖4 樣品分類示意圖
對通過系統聚類分析得到的亞分類結果進行檢驗,主要衡量其合理性和敏感性。通過觀察分類結果,找出系統聚類分析所分類別的分類方法,故其具有一定合理性。對于其敏感性,采用啟用擾動項,設置擾動范圍,將結果代回模型進行計算,分析其與原始聚類中心點坐標的歐氏距離,與真實值進行比較得出模型的準確率,設定干擾度變化分別為5%,10%,15%,20%,25%得出當擾動范圍為25%時模型的準確率為93.2%,因此在一定程度上反映了分類的準確性[4]。
綜上所述,聚類分析法在數據降維以及數據分類方面應用廣泛,對簡化變量以及研究各類因素之間的關系具有一定參考價值。在用聚類分析法對玻璃類別進行分類評價的工作中,反映出了高鉀類和鉛鋇類玻璃在成分含量上的差異,同時揭示了玻璃風化對其成分含量的影響,這對于進一步研究玻璃在不同狀態下化學成分的構成規律有一定作用。因此,該方法可為解決電力設備玻璃老化問題提供思路,在電力設備維護方面具有重要作用與意義,將為未來電網的建設與發展作出貢獻。