黃亞飛,陳青云,張遼,龐杰
(1.國網甘肅省電力公司,甘肅蘭州 730030;2.國網白銀供電公司,甘肅白銀 730400;3.國網酒泉供電公司,甘肅 酒泉 735000)
近年來隨著各類自動化及信息設備越發齊全,對電力工程投資的合理性、精準化要求也愈加嚴苛。科學測算電力工程數據和經濟指標,且分析影響工程投資的關鍵因素,有利于輔助后期施工,并及時進行管控,從而預測風險、避免損失[1-2]。
最初的電力工程數據分析手段為基于類比與回歸思想的傳統成本估算法,包括生產能力指數法(Productivity index method)和朗格系數法(Lange coefficient method)。20 世紀80 年代,基于現代數學理論的電力工程數據分析方式逐漸興起。其主要包含蒙特卡洛法(Monte Carlo Method,MCM)及模糊數學法(Fuzzy Mathematics Method,FMM)等[3-4]。但上述方法構建的模型均較為復雜,且運算量也偏大,因此應用效果并不理想。而人工智能技術的發展,為電力工程數據的分析及應用帶來了新思路[5]。采用智能算法來分析電力工程數據,以提高分析效率及準確性成為了當前的研究熱點。
針對上述問題,該文基于融合多特征參數技術,開展了電力工程數據應用智能算法設計,進而實現對工程數據的準確分析。
電力工程數據參數較多,諸如工程所在地、建筑面積、工程數量、建設單位及人工單價等。過于龐大的參數會對智能算法的效率造成影響,甚至導致模型失去準確性。
因此,該文提出采用線性判別分析(Linear Discriminant Analysis,LDA)來提取電力工程數據的特征參數,實現主成分分析。由此既保留了變量的主要信息,又簡化了智能算法模型輸入的數據量,從而提高算法的效率及準確性。
LDA 是數據分析中最經典的方法之一,其主要目的是減少數據的維度,并使數據信息盡可能多的被保留[6]。
假設原始數據集B=(x1,y1)(x2,y2),…,(xn,yn),其中xn為m維向量。原始數據集B可被分為K個類別B1,B2,…,Bk,…,BK,Bk中包含Nk個數據樣本。則LDA算法包括以下幾個步驟:
1)分別計算K個類別及整個原始數據樣本的均值,計算方式如下:
式中,μk為第k個類別數據樣本的均值;υ則為整個原始數據樣本的均值。
2)計算整體、類內及類間共3個散度矩陣,則有:
式中,At為整體散度矩陣,Ak為第k個類別的類內散度矩陣,Aw是所有類別的類內散度矩陣之和,Ab為類間散度矩陣。
3)求解Aw-1Ab矩陣特征值。其計算方式為:
式中,λ為Aw-1Ab矩陣的特征值。
4)計算投影矩陣。將Aw-1Ab矩陣的特征值按從大到小排序,篩選出前h個特征值λ1,λ2,…,λh。并計算其特征向量w1,w2,…,wh,從而實現m維數據向h維數據的映射:
式中,x′為降維后的數據。
該文設計了遺傳算法(Genetic Algorithm,GA)優化極限學習機(Extreme Learning Machine,ELM)的電力工程數據應用智能算法,其具體框架如圖1 所示。

圖1 智能算法框架設計
該算法首先通過線性判別分析來融合多特征參數的電力工程數據,并消除參數間的相關性且實現指標變量的降維。其次通過GA-ELM 構建電力工程數據預測模型,同時遺傳算法會優化極限學習機的初始權值與偏置。最終,在保證預測精度的情況下實現對電力工程數據的預測。
極限學習機具有單隱層前饋型網絡結構,其特點是可隨機生成隱含層參數。且在初始化完成后,僅需調整隱含層神經元的個數即可滿足相應的計算需求[7-8],其主要結構如圖2 所示。而傳統的BP(Back Propagation)神經網絡則需根據誤差反饋不斷調整輸出層權重,故相較而言ELM 的訓練速度更快且過程也較為簡潔。

圖2 單隱層前饋型網絡結構
假設樣本訓練集個數為n,隱含層數量為l,神經網絡的輸出Y=[y1,y2,…,yk] 。設圖2 中的輸出函數為F(a,x,η)為輸出函數,對于線性疊加型隱藏層節點有F=f(aixj+ηi),則輸出矩陣Y為:
其中,f為核函數,n表示輸出變量的個數,ai表示輸入權重,γin表示輸出權重,ηi表示第i個隱含層的閾值。
將樣本的訓練集輸入到初始的人工神經網絡中,便可得到隱含層輸出矩陣為D。進一步得到輸出權值γ為D+Y,其中D+為D的偽逆矩陣。
由于ELM 隨機生成輸入層與隱含層的連接權值及隱含層的閾值,所以在訓練過程中易受隨機性的影響而導致其穩定性較差。而遺傳算法受種群進化模式的啟發,通過優勝劣汰的規則,最終獲得最優解[9-10]。因此,可采用GA 算法對ELM 的輸入層與隱含層的連接權值、隱含層閾值進行尋優,從而優化網絡結構并提高ELM 的性能[11-13]。GA-ELM 的建立步驟如下:
1)初始化遺傳算法的相關參數。設置最大迭代次數、染色體基因上下界限、變異因子。由ELM的初始輸入層連接權值ωi、隱含層初始閾值bi組成染色體。
2)計算第i個染色體適應度fi>F。ELM 中引入染色體對應的輸入層連接權值及隱含層初始閾值,通過樣本訓練得到預測值,進而獲得初始化種群單個染色體的均方誤差(MSE),即為染色體適應度。
3)比較每個染色體當前適應度fi>F與最佳位置Fb。若fi>Fb,則當前適應度較高,故將用當前適應度Fb更新群體所發現的最佳位置Fb。
4)進行變異、交叉和選擇操作,更新每個染色體基因。當最佳適應度達到設定閾值,即停止尋優過程。通過GA 算法得到的最優輸入連接權值a與初始閾值η后,再利用γ=D+Y即可計算出模型預測值。
綜上所述,文中所設計的電力工程數據智能算法求解流程如圖3 所示。

圖3 智能算法求解流程
文中以2020 年某省200 個配電工程數據為樣本,建立了基于所提智能算法的電力工程數據分析模型。并按4∶1 的比例將數據劃分為訓練集和測試集,且將15 個影響配電工程數據結果的因素作為輸入變量。
采用數據處理工具SPSS(Statistical Product and Service Solutions)[14]對200 個樣本及15 個影響因素進行分析。通過計算15個影響因素的特征值,并將其從大到小進行排序,再提取前h個特征值,從而確定提取的主要影響因素。15 個影響因素的對應的特征值計算結果,如表1 所示。需要說明的是,由于前7 個影響因素的特征值均大于1,而后8 個影響因素的特征值則小于1,故提取前7 個影響因素作為特征參數。

表1 影響因素對應特征值
在Matlab 環境下[15-16],利用所提的GA-ELM 算法訓練神經網絡。以樣本集中的160 項配電工程數據作為訓練樣本,剩余40 項則作為測試樣本。先通過訓練集樣本來訓練網絡,再將測試集樣本輸入至訓練好的網絡中對模型性能進行測試。圖4 為模型的擬合曲線,其中橫坐標為電力工程數據測試集樣本編號,縱坐標則是樣本數據分類號,二者均為無量綱的值。由圖可知,測試樣本預測值與真實值誤差較小,預測值曲線與真實值曲線的趨勢大致相同,且吻合良好。

圖4 模型的擬合曲線
為了驗證該文算法的優越性,與其他3 種算法的性能進行比較。對比算法包括LDA-ELM 算法、未經過LDA 數據預處理的ELM 算法以及GA-ELM算法。4 種算法的擬合曲線,如圖5 所示。可以看出,ELM 和LDA-ELM 模型的預測值與真實值差距大于其他兩種算法。而GA-ELM 模型的擬合程度雖與前兩種算法相比較高,但仍低于該文算法模型。由此可知,文中模型的預測精度最高。

圖5 多種模型擬合曲線
利用訓練好的網絡對影響電力工程數據結果因子的靈敏度進行分析,以考察各因素對電力工程數據指標預測值的影響程度,分析結果如表2 所示。通過對預測值改變量的絕對值進行排序,可見第3 個主成分對于電力數據的預測影響最大。

表2 靈敏度分析結果
綜合上述分析結果,證明了基于LDA 主成分分析及GA-ELM 電力數據的分析模型具有良好的預測精度、穩定性及泛化能力。
文中利用線性判別分析融入電力工程多特征參數,構建了一種融合遺傳算法與極限學習機的電力工程數據分析模型。通過仿真分析表明,所提智能算法模型在電力工程數據分析方面的性能優于對比算法。且該算法在實際應用中能夠準確監測電力工程施工投資所涉及的各項數據,并進行預測分析,從而為企業的投資決策提供技術指導。但由于文中構建的電力工程數據分析模型,所融合的智能算法有限。因此在下一步研究中,將融入更多的智能算法對電力工程數據進行分析。