基于多源數(shù)據(jù)融合與模糊聚類的電力工程數(shù)據(jù)處理方法研究

2023-12-18 05:54:04柯霖

電子設(shè)計工程 2023年24期

柯霖

（武漢中超電網(wǎng)建設(shè)監(jiān)理有限公司，湖北武漢 430000）

電力工程針對電力系統(tǒng)的發(fā)輸配變環(huán)節(jié)進(jìn)行建設(shè)或改造，對保障系統(tǒng)安全、可靠運行具有重要意義[1-2]。隨著用電服務(wù)需求的提升，電網(wǎng)公司對電力工程的精準(zhǔn)投資及高效管理也越發(fā)重視。但目前其對于電力工程項目的風(fēng)險管控主要以事后控制為主，這一管控方式不僅被動且效率較低，因此無法從根本上解決風(fēng)險問題[3-5]。而電網(wǎng)公司在推進(jìn)電力工程項目的過程中積累了海量數(shù)據(jù)，如何利用這類數(shù)據(jù)實現(xiàn)對工程項目的風(fēng)險識別與智能管控，也是亟需解決的關(guān)鍵問題[6]。

針對上文所述，文中基于電力工程多源數(shù)據(jù)融合方法，通過將模糊C均值聚類（Fuzzy C-Means，F(xiàn)CM）、改進(jìn)螢火蟲算法（Improve Firefly Algorithm，IFA）與支持向量機(jī)（Support Vector Machine，SVM）相結(jié)合，實現(xiàn)了對電力工程項目風(fēng)險的精準(zhǔn)識別，并有效提升了相關(guān)項目監(jiān)理管控的智能化水平。

1 電力工程風(fēng)險識別指標(biāo)體系

為了利用電力工程數(shù)據(jù)智能處理系統(tǒng)實現(xiàn)對多源數(shù)據(jù)的分析，對工程項目的風(fēng)險進(jìn)行精準(zhǔn)識別并保障項目的質(zhì)量，該文構(gòu)建了如圖1 所示的風(fēng)險識別指標(biāo)體系。該體系包括環(huán)境風(fēng)險、技術(shù)風(fēng)險、經(jīng)濟(jì)風(fēng)險與管理風(fēng)險四個方面的18 個關(guān)鍵技術(shù)指標(biāo)。

圖1 風(fēng)險識別指標(biāo)體系框架

2 基于FCM-IFA-SVM 的工程項目風(fēng)險識別方法

該文提出一種融合了FCM、IFA 及SVM 算法的電力工程項目風(fēng)險識別方法，其結(jié)構(gòu)如圖2 所示。該方法首先采用FCM 對多源異構(gòu)數(shù)據(jù)樣本進(jìn)行聚類分析，以減少不同簇類特征差異對后續(xù)風(fēng)險識別過程的干擾；然后利用IFA 算法對SVM 模型的懲罰系數(shù)與核函數(shù)參數(shù)進(jìn)行優(yōu)化，從而提高SVM 模型的風(fēng)險識別準(zhǔn)確率；將聚類完成的數(shù)據(jù)輸入優(yōu)化完成的SVM 模型中，從而實現(xiàn)對電力工程項目風(fēng)險的精準(zhǔn)識別。

圖2 FCM-IFA-SVM算法結(jié)構(gòu)

由于FCM 具有計算過程簡便、場景適應(yīng)性較強(qiáng)以及收斂速度快等特點[7-9]，故其在高緯度、大規(guī)模的多源數(shù)據(jù)融合分析中應(yīng)用廣泛。

假設(shè)輸入數(shù)據(jù)集共有N個數(shù)據(jù)樣本，每個數(shù)據(jù)樣本維度為D維，則數(shù)據(jù)集可用矩陣的形式描述如下：

式中，X為輸入數(shù)據(jù)矩陣。

FCM 算法經(jīng)過聚類最終得到c個簇類，而各個簇類的中心為：

其中，zc為第c個簇類的中心，其定義為：

FCM 算法與其他聚類算法的不同之處在于，每個數(shù)據(jù)樣本xn并非嚴(yán)格地劃分至某一簇類，而是以模糊隸屬度值的形式描述其歸屬于某一簇類的可能性。且數(shù)據(jù)樣本之間的模糊隸屬度滿足以下關(guān)系：

式中，vnc為數(shù)據(jù)樣本xn劃分為簇類中心zc的可能性，即模糊隸屬度；同時，每個數(shù)據(jù)樣本歸屬于所有簇類的可能性之和為1。

因此，聚類迭代過程的目標(biāo)即為令目標(biāo)函數(shù)取值最小：

式中，β為權(quán)重參數(shù)；hnc為數(shù)據(jù)樣本xn與簇類中心zc的笛卡爾距離，其計算方式如下：

其中，xnd和zcd分別為數(shù)據(jù)樣本xn與簇類中心zc的d維特征值。

FCM 算法的基本過程為：從數(shù)據(jù)樣本中隨機(jī)選取初始化簇類中心；再根據(jù)模糊隸屬度對其進(jìn)行計算并更新；從而使式（5）中的目標(biāo)函數(shù)達(dá)到最小。該算法流程如圖3 所示。

圖3 FCM算法流程

FCM 算法主要步驟如下：

1）參數(shù)初始化：輸入FCM 算法簇類個數(shù)C及權(quán)重參數(shù)β，并計算代數(shù)上限G、精度閾值ε。

2）初始化模糊隸屬度與簇類中心：隨機(jī)選取C個數(shù)據(jù)樣本作為簇類中心，且隨機(jī)初始化模糊隸屬度，進(jìn)而令計算代數(shù)g=1。

3）根據(jù)模糊隸屬度更新簇類中心：

4）根據(jù)簇類中心更新模糊隸屬度，同時計算目標(biāo)函數(shù)值：

目標(biāo)函數(shù)值的計算方式如下：

5）判斷是否滿足終止條件，若是，則結(jié)束計算；否則，跳至步驟3）。終止條件為：

6）經(jīng)過FCM 迭代計算后，得到最終的簇類中心及每個數(shù)據(jù)樣本所屬聚類中心的模糊隸屬度值。再選取最大模糊隸屬度所對應(yīng)的簇類作為數(shù)據(jù)樣本最終的歸屬：

式中，cn為數(shù)據(jù)樣本xn所屬的簇類，且其簇類中心為zc。

傳統(tǒng)的FA 算法是模擬螢火蟲利用光強(qiáng)度進(jìn)行信息傳遞的行為機(jī)制[11-12]，且螢火蟲的光強(qiáng)度越大，對其他螢火蟲的吸引力便越強(qiáng)。其中，螢火蟲的吸引力計算方式為：

式中，φ0為初始吸引力；λ為光吸引參數(shù)；rij為位置在xi和xj螢火蟲之間的距離，其計算方式如下：

式中，‖?‖為二范數(shù)，d為待求解問題的解空間維數(shù)。

FA算法根據(jù)下式來計算并更新螢火蟲所處位置：

在該次所采用的IFA 算法中，光強(qiáng)較弱的螢火蟲將不斷向光強(qiáng)較強(qiáng)的螢火蟲移動，并使得所有螢火蟲最終聚集到光強(qiáng)較強(qiáng)的個體附近，從而得到最優(yōu)解。在算法前期，螢火蟲之間的距離較遠(yuǎn)，可通過式（14）中的固定步長進(jìn)行搜索，令搜索速度降低。但當(dāng)算法進(jìn)入后期，螢火蟲之間的距離較小，固定步長易使螢火蟲在移動過程中越過最優(yōu)解，且出現(xiàn)收斂速度慢、在最優(yōu)解附近來回震蕩的現(xiàn)象。因此，文中針對式（14）加以改進(jìn)，將固定步長改進(jìn)為與螢火蟲之間距離呈正相關(guān)的自適應(yīng)步長。IFA 算法中，螢火蟲位置的更新機(jī)制如下：

此次所采用SVM 算法[13]的核心思想是通過函數(shù)?(x)將非線性數(shù)據(jù)樣本映射至高維空間，從而將非線性問題轉(zhuǎn)化為線性問題。SVM 算法可描述為求解如下所述的數(shù)學(xué)規(guī)劃問題：

式中，J為損失函數(shù)，w為斜率；b為截距；η為懲罰系數(shù)；κq為松弛因子。

?(x)通常為徑向核函數(shù)：

其中，σ為核函數(shù)參數(shù)。由上述討論可知，η和σ對SVM 算法的計算準(zhǔn)確性具有較大影響，但對二者的選取通常存在隨機(jī)性[14-16]。為了提高電力工程項目風(fēng)險識別的準(zhǔn)確性，該文采用IFA 算法對這兩個關(guān)鍵參數(shù)進(jìn)行優(yōu)化，實現(xiàn)了如圖2 所示的FCMIFA-SVM 算法。

3 算例分析

為驗證所提FCM-IFA-SVM 算法在電力工程項目中的風(fēng)險識別準(zhǔn)確性，從某省電網(wǎng)的電力工程數(shù)據(jù)智能處理系統(tǒng)中篩選出580 條數(shù)據(jù)作為訓(xùn)練樣本集，并進(jìn)行了相關(guān)的仿真分析。

3.1 IFA算法性能對比

傳統(tǒng)FA 算法與文中所提IFA 算法，對SVM 模型中的懲罰系數(shù)η及核函數(shù)參數(shù)σ進(jìn)行優(yōu)化的迭代過程，如圖4所示。可見IFA算法相比于FA算法具有更快的收斂速度，且其在第13 次迭代計算時已經(jīng)達(dá)到最優(yōu)值，而傳統(tǒng)FA算法在第24次迭代時才開始收斂。

圖4 算法迭代過程

FA 算法與IFA 算法的優(yōu)化結(jié)果，如表1 所示。結(jié)合圖4 可知，IFA 算法的最終誤差比FA 算法更小，優(yōu)化結(jié)果更為理想。因此，SVM 模型的懲罰系數(shù)η及核函數(shù)參數(shù)σ分別取為32.8 和0.012。

表1 兩種算法對參數(shù)優(yōu)化的結(jié)果對比

3.2 風(fēng)險識別結(jié)果對比

進(jìn)一步將相同數(shù)據(jù)樣本作為輸入，對比分析SVM、FCM-SVM 與FCM-IFA-SVM 算法的電力工程項目風(fēng)險識別準(zhǔn)確度，結(jié)果如表2 所示。由表可知，F(xiàn)CM-IFA-SVM 算法的識別結(jié)果明顯優(yōu)于其他兩種算法，其風(fēng)險識別平均準(zhǔn)確率可達(dá)92.4%。相比于其他兩種算法的識別結(jié)果，分別提升了7.1%和2.9%。

表2 不同算法風(fēng)險識別結(jié)果對比

與SVM 相比，F(xiàn)CM-SVM 算法通過FCM 實現(xiàn)了對具有相同特征數(shù)據(jù)樣本的聚類分析，并降低了樣本間的簇類差異對于風(fēng)險識別結(jié)果的干擾，所以其具有更高的風(fēng)險識別準(zhǔn)確度。而FCM-IFA-SVM 相比于FCM-SVM 算法，其利用IFA 來完成對SVM 模型中懲罰系數(shù)η與核函數(shù)參數(shù)σ的優(yōu)化選取，從而進(jìn)一步提升了SVM 模型對風(fēng)險識別的準(zhǔn)確度。

3.3 應(yīng)用效果分析

將本算法應(yīng)用于10 個電力工程項目的風(fēng)險識別中，所得結(jié)果如表3 所示。表中“1”代表電力工程項目風(fēng)險識別屬于該風(fēng)險等級，“0”則代表不屬于該風(fēng)險等級。

表3 實際電力工程項目風(fēng)險識別結(jié)果

從表3 可看出，10 個電力工程項目中，風(fēng)險等級為“較低風(fēng)險”及以下的有8 個，占比達(dá)到80%。而項目2 和項目9 為“中風(fēng)險”，故需加強(qiáng)對這兩個項目的監(jiān)理管控。

4 結(jié)束語

利用電力工程中產(chǎn)生的多源數(shù)據(jù)，該文結(jié)合模糊聚類與機(jī)器學(xué)習(xí)算法實現(xiàn)了對電力工程項目風(fēng)險的精準(zhǔn)識別。所提FCM-IFA-SVM 算法通過FCM 降低了樣本數(shù)據(jù)簇類之間差異對風(fēng)險識別結(jié)果的干擾，利用IFA 算法優(yōu)化了SVM 模型的參數(shù)，進(jìn)而提高了模型的分類性能。與經(jīng)典算法相比，該文算法的電力工程項目風(fēng)險識別準(zhǔn)確率顯著提高。在某省電網(wǎng)實際應(yīng)用中，其能夠準(zhǔn)確評估電力工程項目的風(fēng)險等級，這對于電力工程項目的智能管控而言具有重要的工程意義。但所提算法僅能評估風(fēng)險等級，無法實現(xiàn)對風(fēng)險來源的獲取及識別，這將在下一步研究中開展。