方 明,胡 龍
(廣東電網有限責任公司廣州供電局,廣東廣州 510600)
電網工程是指電力系統的發、輸、配、變環節的建設工程[1-4]。在智能電網建設過程中,電網公司對電網工程項目的管理粗獷、形式單一,急需向智能高效、精益化的電網工程項目管理的方向轉變[5-6]。
電網工程的可行性研究、初設、施工圖等各階段蘊含豐富的數據信息。電網公司掌握了豐富的電網工程項目技經數據,但未深入挖掘數據的價值[7-9]。如何深層次挖掘數據價值,提升電網工程造價分析和預測水平,提高電網公司投資決策能力是有待研究的重要方向。因此,文中基于電網工程投資造價智能評估分析系統,結合模糊C均值聚類(Fuzzy C-Means,FCM)與最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)算法,開展電網工程數據智能分析與評價方法研究。
電網工程投資造價智能評估分析系統架構如圖1 所示。其主要包括首頁展示、項目管理、輔助評審、評審意見&質量評分、統計分析、造價控制指標測算、定額管理、造價分析、資源管理、現場輔助評審工具等共10 個模塊,部分模塊實現的主要功能如下。

圖1 電網工程投資造價評估分析系統架構
1)首頁展示。實現未評審和已歸檔主/配網項目的匯總統計及情況展示,展示維度包括橫向與縱向維度,橫向維度為可研、初設和施工圖預算;縱向維度為不同工程類型、不同項目類型或不同項目版本等。
2)項目管理。對主/配網項目進行分類管理,包括可研、初設、預算等階段,實現項目數據同步、智能檢測、列表/詳情展示、資料歸檔等功能,并幫助專家實現便捷的檢索瀏覽。
3)輔助評審。提供未評審項目的展示列表和鏈接接口,自動根據評審資料及評審規則完成合規性的對比檢查,統計評審結果數據并提供便捷查詢。
基于電網工程投資造價評估分析系統,該文開展了電網工程數據的智能分析與評價方法研究。將系統平臺的項目工程數據作為輸入,采用FCM 對大量電網工程數據進行聚類;然后將聚類后的結果作為LSSVM 進行回歸分析,實現電網工程的造價預估。文中所提基于FCM 與LSSVM 的電網工程數據智能分析和評價方法步驟如圖2 所示。

圖2 數據智能分析與評價方法
模糊集理論在聚類分析中的應用較為廣泛,其中模糊C 均值聚類使用方便、收斂迅速,能夠適應高維度、數據量大的場景[10-11]。
FCM 的核心思想是:首先隨機選取若干個數據作為初始聚類中心;然后所有的數據樣本均具有與聚類中心相關的模糊隸屬度;最終以最小化所有數據樣本到聚類中心的距離與模糊隸屬度的綜合值為目標,不斷進行迭代,更新聚類中心。當達到最大迭代次數或滿足精度要求時,結束迭代,輸出最優的聚類中心。

式中,X為數據樣本矩陣,其規格為n×m,其每一行為一個數據樣本,共有n個數據樣本,每個數據樣本共有m個特征值。
FCM 方法將樣本總數為n的數據集分為c類,假設c個聚類中心為:

式中,第i個聚類中心為:

在FCM 中,對于任意數據樣本xk,其并不是嚴格地屬于某一分類,而是具有一定的隸屬度值屬于某一聚類中心代表的分類,該隸屬度值滿足以下關系:

式中,uik為k個數據樣本屬于i個分類的隸屬度。
迭代過程中的目標函數為:

式中,U=(uik)c×n表示隸屬度矩陣,dik為k個數據樣本與i個分類的聚類中心歐式距離,F(U,V)表征所有數據樣本到聚類中心的平方距離加權和,權重系數是k個數據樣本屬于i個分類的隸屬度h次方。
dik的計算方式如下:

式中,‖ ‖· 表示二范數運算;xkj為第k個數據樣本的第j個特征值;vij為第i個聚類中心的第j個特征值。
FCM 聚類的基本思路是求取U、V,使得式(6)中F(U,V)取最小值,其具體實現流程如圖3 所示,主要步驟如下:

圖3 模糊C均值聚類算法流程
1)輸入FCM 算法參數,包括聚類中心個數c,最大迭代次數Lmax,冪指數h,最小精度ε。
3)根據下式計算第l次迭代的聚類中心V(l):

4)更新第l次迭代的隸屬度矩陣U(l),并計算出第l次迭代的目標函數值J(l):

5)判斷是否滿足精度要求或達到最大迭代次數,即|J(l)-J(l-1)|<ε或l>Lmax。若是,則停止迭代;否則,令l=l+1,轉至步驟3)。
經過FCM 的迭代計算,可以得到滿足精度要求的隸屬度矩陣和聚類中心,并使得目標函數值達到最小。進一步根據每個數據樣本屬于某類的隸屬度大小,將數據樣本歸類于隸屬度值最大的類,即當時,數據樣本xk歸屬于第j類。
對于數據(x1,y1),(x2,y2),…,(xl,yl),通過非線性映射:φ(·)將數據樣本映射到高維特征空間,并尋找最優決策函數y(x)=wφ(x)+b,從而實現將非線性擬合函數轉換為高維空間的線性擬合函數[12-14]。
最小二乘支持向量機的目標是優化誤差的二次項,優化問題為:

其中,γ為懲罰因子;ξi為松弛因子。
用Lagrange 法求解原優化問題轉化[15-16]:

其中,αi為拉格朗日乘子。
L分別對變量w、b、ξk、αk求偏導,并令其等于0,得到下式:

消除上式中的w和ξi可得到:

采用核函數代替高維空間的內積計算:

通過最小二乘法求取α、b,從而得到基于最小二乘向量機的回歸分析結果:

為驗證該文所提方法的正確性和有效性,采用電網工程投資造價評估分析系統的數據。電網工程數據共計413 條,來源于南方電網某供電局。以架空線路工程為例,影響其造價的主要因素如表1 所示。

表1 架空線路造價影響因素
為評估FCM 聚類的效果,以Xie-Beni 指數作為有效性指標,其計算方法如下:

ηXB的取值越小,FCM 聚類效果越好。
將電網工程數據集作為FCM 輸入,令聚類數c在2~14 范圍內變化,得到Xie-Beni 指數變化情況,如圖4 所示。由此可知,當聚類數c=6 時,Xie-Beni指數最小,因此最佳聚類數為6。

圖4 Xie-Beni指數變化情況
為驗證該文所提基于FCM-LSSVM 算法的電網工程造價智能評估算法的性能,設置以下兩種方案:
方案1:電網工程數據不經過聚類分析,直接作為LSSVM 算法的輸入;
方案2:使用文中所提算法,電網工程數據經FCM 聚類后,將聚類結果作為LSSVM 算法的輸入。
算法的計算時長如表2 所示,以10 個實際的電網工程數據測試該文所設計算法的準確性,計算結果如表3 所示。

表2 算法計算時長

表3 算法的準確性對比
由表2可知,在計算時長方面,方案1大于方案2。這是因為方案1 輸入數據規模較大,增加了算法的計算時長;而方案2 雖然FCM 算法耗費一定的計算時間,但通過將具有相似特征的數據樣本進行聚類分析,將聚類結果作為LSSVM 算法輸入,大幅度提高了算法的計算速度。
由表3 可知,在準確性方面,對于10 個測試例來說,方案2 的誤差均小于方案1。這是因為方案2 中經過FCM 的聚類分析,實現了數據樣本的特征提取,減少了次要因素的影響干擾,使得LSSVM 算法能夠充分挖掘電網工程造價與數據樣本特征的關系,提高了電網工程造價評估的準確性。
文中基于電網工程投資造價評估分析系統,結合FCM 與LSSVM 算法,開展電網工程造價評估研究。通過算例分析表明,文中所提算法經過FCM 算法,實現特征相似的電網工程數據聚類,減少了LSSVM 算法處理數據的規模,大幅縮短了計算時長。同時FCM 算法實現了特征的提取,提高了電網工程造價評估的準確性。