劉士李,周遠科,施曉敏,高 象
(1.國網安徽省電力有限公司經濟技術研究院,安徽合肥 230601;2.國網安徽省電力有限公司,安徽合肥 230061)
隨著我國電網建設工程需求的持續增長,當前電力基礎設施建設工程的竣工結算管理狀況已難以滿足實際需要。低壓配電網中電力設備數量較多,所產生的海量數據信息通常需要編制人員不斷重復開展數據統計、處理與審核工作,進而嚴重縮減了電網主業員工進行低壓配電網故障分析、架構規劃及項目實施的有效時間,且在一定程度上影響了低壓配電網建設及改造工程的最終結果。此外,低壓配電網自身的復雜結構使得其建設工程也較為繁雜,大幅增加了竣工結算的難度[1-3]。
在當前低壓配電網的結算管理過程中,施工單位主要承擔結算文件編制的工作,而業主項目部則承擔結算審核工作。但從實際結算工作來看,主要存在以下問題:1)施工單位缺少高水平配電網技經人員,且業主項目部的相關人員也較為緊缺,故無法滿足各區縣配電網工程編制及審核的需求。因此,容易出現配電網結算工程量與實際工程量不遵從、一級線下表格不統一的現象;2)低壓配電網建設工程較為復雜,編制文件涵蓋的內容也較多。在工程計量過程中會由于精度不統一而造成一定的偏差,并產生異常數據。若未及時發現異常會導致結算誤差嚴重,從而不利于低壓配電網工程項目的建設;3)當前編制低壓配電網結算文件所必需的數據收集、審核校驗、統計計算與進度管理主要通過人工手動完成,難以適應當前電網建設的長短期發展規劃需求。因此,有必要在低壓配電網結算管理過程中開展對工程信息識別技術的研究。該文針對這一問題通過改進隨機森林算法,經過特征提取及特征識別完成對工程信息的有效識別,從而甄別出工程信息中的異常數據,避免誤差的產生;同時還改善了傳統人工方式的低效性,提升了低壓配電網建設的質量。
低壓配電網的工程信息主要包括項目運營信息、施工監管信息、施工進度信息、合同信息、安全監管信息、物料設備信息及預結算編制信息等[4-7]。
項目運營信息是對低壓配電網建設項目集中整合管理所獲取的信息,主要包括計劃編制、項目存儲與項目資金計劃下發等內容;施工監管通常是對施工前的準備工作開展統一管理,所涵蓋的信息包含施工期間的日常監管記錄、準備材料和結束后的竣工驗收材料等內容;施工進度信息主要追蹤工程進展,通常包含總工程計劃起始日期、實際起始日期、責任部門、責任人及分包子工程的相關信息;合同信息的主要作用是保障甲乙雙方及法人的合法權益,并協商達成書面合同資料,通常包含合同編號、名稱、類型及總金額等;安全監管信息通常涵蓋低壓配電網建設工程施工期間的安全標準、防護手段與處理措施,主要包括安全資料臺賬、安全管理條例、工作票信息等;物料設備信息主要確保施工期間設備材料的充足,涵蓋物料設備的倉儲信息、出入庫信息、物資采購計劃、領料與報廢信息,其核心是物料定額關系;預結算編制信息通常用于對工程造價開展評估,并概算出低壓配電網建設工程的基本預算,主要包括施工預算信息、工程勞務結算信息、施工決算信息與工程毛利潤等。
根據以上分析可以看出,低壓配電網建設工程信息較為復雜且數據量龐大,僅憑借人工記錄易出現誤差。而所記錄的數據由于類目過多,通常難以進行核驗。故需提取工程信息的主要特征,并通過特征分類識別信息的異常情況。因此,該文引入核主成分分析(Kernel Principal Components Analysis,KPCA)算法進行特征提取。
KPCA 是一種在主成分分析算法基礎上變遷而來的非線性特征降維方法,主要利用非線性映射函數對原始數據開展變換并提取主要成分實現數據的充分降維。設低壓配電網工程信息的數據訓練集為X={x1,x2,…,xM},?表示非線性映射函數并滿足,則定義協方差矩陣為:
對協方差矩陣實行特征分解可得:
其中,V={?(x1),?(x2),···,?(xM)} 表示數據的特征向量,且μ>0,則可將式(2)改寫為:
因Vr可視為?(x)的線性組合,因此可得到:
對r維協方差矩陣實行歸一化,使得則映射的投影為:
令G(x)表示非線性的主成分,則可獲得投影向量為:
通過KPCA能夠有效提取低壓配電網工程信息的特征,將其組成特征向量并用于分類識別能夠發現工程信息中的異常數據。該文采用隨機森林作為基礎的分類模型,對所獲取的工程信息特征向量進行分類識別。
隨機森林(Random Forest,RF)算法是在引導聚集算法Bagging(Bootstrap aggregating,Bagging)的基礎上延伸而來。該算法同時具備對所訓練樣本實行有放回的抽選及針對不同屬性實行無放回的抽選兩種功能,從而有效提升了全局搜索性能并獲得較高的分類準確率。RF 算法所應用的弱分類器即為決策樹,每個決策樹均應用Bagging 算法完成訓練樣本的采樣工作,同時還可基于隨機子空間算法完成屬性的采樣。此外,由于RF 中任一決策樹均獨立且各不相同,因此對于訓練樣本具有較強的適應性[8-11]。
RF 算法流程如圖1 所示,具體流程如下:

圖1 RF算法流程
步驟1:設定RF 完成訓練的初始參數、訓練集的樣本及決策樹的數量N,隨機化屬性并設定數量為I,確定決策樹在訓練過程中的剪枝閾值;
步驟2:針對訓練集中的樣本進行有放回的抽選,直至選出與訓練集樣本容量一致的集合并將其作為單個決策樹訓練過程中的使用樣本;
步驟3:針對屬性集實行無放回的抽選,當選夠I個屬性后,僅留存I個屬性并將其對應的數據劃分為訓練所用的樣本;
步驟4:將步驟2-3 所產生的訓練樣本輸入至單個決策樹中進行訓練;
步驟5:基于剪枝的閾值對完成訓練的決策樹實行剪枝;
步驟6:若完成訓練的決策樹數目低于N,則回到步驟2 繼續迭代;反之,則基于投票原則將N個決策樹進行級聯以構成RF。
RF 算法中基于投票原則將多個決策樹的分類結果進行歸類,并選擇其中的眾數輸出為RF 的分類結果,其數學表達式為:
式中,FRF(x) 表示樣本經RF 計算后的分類結果,A(·)表示符合式(9)的數目,=χ表示第n個決策樹經運算后的分類結果為χ。c表示RF 的類目數量,其中χ隸屬于c中的一類。
在傳統的RF 投票原則中,各決策樹可自行為自身分類結果投票。這導致性能存在差異的決策樹具有相同的投票權重,進而對最終的分類結果產生不利影響,且若產生票數相等的情況則難以進行抉擇。因此該文為了改進RF 算法,采用精準加權對投票過程進行賦權,從而提升RF 算法的分類準確率。
該文依據各決策樹的分類性能來設置相應權重,該理論的核心在于一部分訓練集的樣本仍應用于傳統RF,并對全部決策樹進行訓練,其余部分則作為分類預測的試驗樣本。當該部分訓練完畢后再對全部決策樹加以測試,并輸出分類準確率。整個流程的數學表達式為:
將ω設定為相應決策樹的權重,RF 中各決策樹在投票時需加以賦權,則RF的輸出可由式(10)改寫為:
將RF 的投票過程進行精準加權便能避免不平衡,也無需進行平衡性調整。因此可直接將各決策樹對于預測試驗樣本的分類準確率作為權重,從而提升運算效率。
在RF 算法中,其基本參數的設置對于最終的輸出結果具有較大影響。但RF參數通常是基于人工經驗選取,故容易導致最終分類結果產生誤差。因此為了獲取全局最優參數,該文將決策樹的剪枝閾值、決策樹數量與預測的試驗樣本選取概率組成目標向量。并將其設定為粒子群(Particle Swarm Optimization,PSO)算法中的單個粒子,再通過算法實現全局尋優獲取最優粒子,從而得到最適宜的RF參數[12-13]。
粒子群算法優化RF 流程如圖2 所示,具體步驟如下:

圖2 粒子群算法優化RF流程
步驟1:初始化RF 參數,隨機化目標向量元素值,并設定屬性數目的初始值為log2(L+1)[14-16];
步驟2:基于Bagging算法對待分類樣本實行采樣,隨機產生N個訓練集并選取用于預測試的試驗樣本;
步驟3:將各訓練集的剩余樣本用于生成N個決策樹,并從屬性集合中篩選M個屬性作為節點屬性;
步驟4:當節點樣本個數低于剪枝閾值時,則將此節點作為葉節點并傳遞回所求屬性的眾數,當作該樹的分類結果,反之則返回步驟1;
步驟5:生成全部決策樹后,開展預測試并保存正確率數據;
步驟6:應用式(9)計算RF 分類結果;
步驟7:計算步驟6中的分類結果以得到準確率,應用粒子群算法實現RF 參數尋優并確定最優參數,從而生成最終的RF 模型。
通過粒子群改進后的RF 對經過KPCA 所提取的低壓配電網工程信息特征向量進行分類,能夠有效識別異常數據,從而避免了人工核驗的困難。
該文實驗部分主要通過Matlab 2018B 編程來實現改進隨機森林算法,并對某省2018—2020 年低壓配電網工程信息進行了識別。實驗室的計算環境配置如表1 所示。

表1 實驗室的計算環境
實驗數據中有關低壓配電網工程信息的內容主要包括項目運營信息、施工監管信息、施工進度信息、合同信息、安全監管信息、物料設備信息及預結算編制信息,如表2 所示。

表2 數據集信息
將該文提出的改進RF 算法應用于低壓配電網工程信息,從而實現對異常信息的識別。并與BP(Back Propagation)神經網絡、SVM(Support Vector Machine)、RBF(Radial Basis Function)神經網絡算法及用PSO 優化后的算法進行對比,所得的識別結果如表3 所示。

表3 識別結果
從表3 中可以看出,相比于其他算法,RF 算法對于屬性與類別較多的低壓配電網工程信息能夠實現更為準確的識別,且其訓練集和測試集的識別準確率分別達到90.2%和86.5%。相比于其他算法具有較大的優勢,但仍難以滿足實際工程的需要。當采用PSO 優化以上分類算法時,各分類算法的分類準確率均得到顯著提升。其中,PSO-RF 算法訓練集與測試集識別準確率分別達到93.8%和91.0%,能夠滿足實際工程中的識別要求。盡管其他算法也在優化后得到提升,但仍與PSO-RF 算法存在一定差距。因此,說明了該文提出的改進RF 算法可有效識別低壓配電網工程信息,并實現對異常信息的發掘。該算法在一定程度上有效避免了人工核驗的繁瑣,有助于推動低壓配電網的建設與改造。
文中針對當前低壓配電網工程建設過程中信息管理面臨的繁雜問題,在改進隨機森林算法的基礎上,設計了一套低壓配電網工程信息識別技術方案。利用KPCA 算法提取了工程信息的特征,并將隨機森林作為基礎分類模型完成對特征的識別。為了有效提升分類識別準確率,采用精準加權改進投票原則,并利用粒子群算法完成隨機森林的參數尋優,從而得到改進的隨機森林模型。所提出的方法相比于其他方法具有較高的識別準確率,可精確地完成低壓配電網工程信息的識別,具有較好的工程實用價值。