基于多因素特征分析的電力工程數據處理與預測模型

2021-10-10 03:55:48劉偉

電子設計工程 2021年19期

劉偉

（新疆天富集團有限責任公司，新疆石河子 832000）

電力輸電工程建設具有資金投入大、產出周期長等特點，因此造價管控是工程管理的核心內容[1-2]。而輸電工程造價又是一個多變量、非線性、非平衡性的系統，難以通過經驗進行指導及管控[3]。靜態投資是輸電工程的主要經濟技術指標，因此，投資方和施工單位迫切需要利用已建輸電工程的數據信息對靜態投資進行準確的預測，以便合理制定建設方案，提高工程管控效率和質量。

文獻[4]重點分析了影響電力工程靜態投資的設備材料因素，但未建立模型進行預測；文獻[5]針對電力工程建設過程中的靜態投資偏差進行監控及分析，并提出了相應的解決方案，也未建立預測模型；文獻[6]建立了基于BP 神經網絡算法的電力工程靜態投資預測模型，但預測效果并不理想。

針對以上文獻的不足，文中通過對多因素特征進行Pearson 相關系數[7-8]分析，選取主要因素進行標準化處理。基于GBDT 算法[9-11]提出了一種輸電工程靜態投資的預測方法，實現對投資的精準預測。

1 電力工程數據信息處理

電力工程數據信息由于大多依靠人為記錄，且并未進行數據校核等工作，因此存在一定的異常情況[12]。輸電工程數據中的異常主要分為語法類異常、語義類異常、覆蓋類異常。語法類異常指的是表示實體具體的數據值和格式的錯誤，比如靜態投資字段有的用“元”作為單位，有的用“萬元”作為單位；語義類異常指數據不能全面、無重復地表示客觀世界的實體，比如塔材價格字段應該大于0，但有的塔材價格值小于0；覆蓋類異常指的是值的缺失。

需要對以上異常數據信息進行處理，剔除數據中的異常值，保證數據的完整性、全面性、合法性。一般異常值可視為缺失值處理。缺失值處理一般包含三大類：刪除、填補、不處理。刪除法簡單易行，但是其可能會刪除隱藏的有效信息，且會浪費大量資源。填補法是用一定的值（均值、眾數、中位數等）填補空值，從而使信息表完備化。

2 多因素特征分析

輸電線路在整個電網運行中承擔著電能輸送和分配的任務[13]。輸電工程的主體建設主要由導線、地線、桿塔、絕緣子、拉線、金具6 部分組成[14]。通過搜集處理某地區125 組輸電工程，可得數據信息共計56 個影響因子[15-16]。由于影響因子較多，因此可能存在潛在的維數災害，從而造成預測模型性能變差或過擬合、無法擬合等問題。因此，通過Pearson相關系數對影響因子與預測目標靜態投資進行相關性分析，篩選出核心影響因子作為最終研究數據，代入預測模型。

Pearson 相關系數ρX,Y表達式如下：

式中，X、Y表示比較的兩個變量，σX、σY表示標準差，μX、μY表示均值，E(·)表示數學期望。ρX,Y值介于-1 與1 之間，大于0 表示正相關，小于0 表示負相關，絕對值越接近1 表示相關性越高。一般相關系數大于0.6 就屬于強相關，但考慮到大于0.6的影響因子仍較多，且有些影響因子存在高度共線性的情況，因此選取相關系數絕對值大于0.8的影響因子，如表1 所示。

表1 核心影響因子表

3 預測模型研究

3.1 GBDT算法

梯度提升迭代決策樹（GBDT）是以決策樹為基評估器的一種Boosting 算法。GBDT 要求弱學習器必須是CART 模型，且GBDT 在模型訓練時，要求模型預測的樣本損失盡可能小。簡單而言，若每一輪預測和實際值有殘差，則下一輪根據殘差再進行預測，最后將所有預測相加即為結果，如圖1 所示。

圖1 GBDT訓練原理

GBDT 模型可以表示為決策樹的加法模型：

其中，T(x;θm)表示基評估器（決策樹）；θm表示基評估器的參數；M表示基評估器的數量。采用前向分布算法，首先自定義初始基評估器f0(x)=0，第m步的模型是：

采用經驗風險結構極小化的方法確定下一個基評估器的參數，即使殘差盡可能小，從而找出最優劃分點：

L(·)是損失函數，回歸算法選擇的損失函數一般是均方差(最小二乘)或絕對值誤差。

3.2 數據準備

篩選出的核心影響因子由于量綱和數值的量級不同，因此需要對原始數據進行min-max 標準化處理，得到[0，1]區間的數據集，使不同影響因子對預測目標具有相同的尺度。

式中，max 表示數據樣本中的最大值，min 表示數據樣本中的最小值。處理后的數據如表2所示。

表2 輸電工程數據標準化結果

將標準化處理后的數據樣本進行數據集的劃分。一般完整的流程會劃分為訓練集、驗證集和測試集3 個集合。其中，訓練集的作用是將其樣本代入GBDT 模型進行訓練；驗證集的作用是為了初步評估GBDT 模型的預測性能。在模型訓練過程中，會單獨留出一些樣本作為驗證集，同時針對性能差的模型進行參數調優；測試集用來測試、驗證、評估最終GBDT 模型是否過擬合或者欠擬合，即模型的泛化能力。文中隨機抽取80%的數據樣本即100 組輸電工程數據作為訓練集和驗證集，剩余25 組數據作為測試集。驗證采取5 折交叉驗證法，將100 組數據平均分成5 份，每份20 組數據樣本，依次將其中4份（80 組數據樣本）作為訓練集，剩余一份（20 組數據樣本）作為驗證集，計算每次驗證集的評價指標分數。最終GBDT 模型預測性能的評價指標分數為5次結果的均值，如圖2 所示。

圖2 交叉驗證原理

3.3 模型建立

表2 為輸電工程數據標準化后的結果，根據GBDT 算法原理，建立靜態投資預測模型，流程如圖3 所示，x表示核心影響因子。在模型建立過程中，需要進行調參，以優化輸出效果。GBDT的參數主要分為兩類：Boosting 框架參數以及基評估器參數。

圖3 預測模型建立流程

基評估器的參數較多，常用的包括max_features最大特征數、max_dept 最大樹深、min_samples_split內部節點再劃分所需最小樣本數、min_weight_fraction_leaf 葉子節點最小的樣本權重和max_leaf_nodes 最大葉子節點數，這樣可以避免產生過擬合。

4 實驗結果分析

4.1 評價指標

評價輸電工程靜態投資預測模型的預測效果時，需要通過量化的指標對預測值和真實值進行比較。文中選取了預測模型常用的MAE 以及MAPE作為評價指標。

MAE是指真實值和預測值的誤差絕對平均值，表示偏離程度。值越小，預測模型效果越好，表達式為：

式中，yi為真實值，為預測值，n為樣本量。

MAPE是指真實值和預測值誤差率的絕對平均值，不同輸電工程的基數標準可能相差較大，其公式為：

MAPE的取值范圍為[0,+∞)，一般MAPE大于10%表示劣質模型。

4.2 評價結果

將100 組輸電工程數據代入GBDT 模型進行訓練，5 折交叉驗證后得到MAE為8.743 8 萬元，MAPE為3.92%，模型訓練效果較好。將25 組測試集樣本代入模型進行靜態投資預測，預測結果（部分）如表3所示。

表3 測試集靜態投資預測結果表（部分）

靜態投資預測值與真實值結果如圖4 所示，靜態投資誤差與誤差率如圖5 所示。真實值與實際值的最大誤差為19.517 9 萬元，最小誤差為0.335 7 萬元，最大誤差率為10.52%，最小誤差率為0.33%。MAE為9.660 4 萬元，MAPE為4.39%，相比訓練集的MAE、MAPE有所增加，后期可通過搜集更多樣本訓練模型進行優化。實驗驗證了所選取核心影響因子的合理性及預測模型的準確性。

圖4 測試集樣本預測值與真實值結果

圖5 測試集樣本靜態投資誤差與誤差率

5 結束語

文中分析了輸電工程靜態投資的影響因子，采用Pearson 相關系數篩選出大于0.8的極強相關因子，通過標準化處理將數據樣本劃分為訓練集、驗證集、測試集，基于GBDT 算法利用5 折交叉驗證的方法進行模型調優及初步評估，最后通過測試集驗證了所提預測模型的正確性，MAPE低至4.39%，對于項目投資具有一定的參考價值。由于數據樣本較少只有125 組，因此測試集的性能低于驗證集，后期將通過搜集更多數據樣本對預測模型進行訓練優化，提升測試集樣本的預測準確性。