劉偉
(新疆天富集團(tuán)有限責(zé)任公司,新疆石河子 832000)
電力輸電工程建設(shè)具有資金投入大、產(chǎn)出周期長等特點(diǎn),因此造價管控是工程管理的核心內(nèi)容[1-2]。而輸電工程造價又是一個多變量、非線性、非平衡性的系統(tǒng),難以通過經(jīng)驗進(jìn)行指導(dǎo)及管控[3]。靜態(tài)投資是輸電工程的主要經(jīng)濟(jì)技術(shù)指標(biāo),因此,投資方和施工單位迫切需要利用已建輸電工程的數(shù)據(jù)信息對靜態(tài)投資進(jìn)行準(zhǔn)確的預(yù)測,以便合理制定建設(shè)方案,提高工程管控效率和質(zhì)量。
文獻(xiàn)[4]重點(diǎn)分析了影響電力工程靜態(tài)投資的設(shè)備材料因素,但未建立模型進(jìn)行預(yù)測;文獻(xiàn)[5]針對電力工程建設(shè)過程中的靜態(tài)投資偏差進(jìn)行監(jiān)控及分析,并提出了相應(yīng)的解決方案,也未建立預(yù)測模型;文獻(xiàn)[6]建立了基于BP 神經(jīng)網(wǎng)絡(luò)算法的電力工程靜態(tài)投資預(yù)測模型,但預(yù)測效果并不理想。
針對以上文獻(xiàn)的不足,文中通過對多因素特征進(jìn)行Pearson 相關(guān)系數(shù)[7-8]分析,選取主要因素進(jìn)行標(biāo)準(zhǔn)化處理。基于GBDT 算法[9-11]提出了一種輸電工程靜態(tài)投資的預(yù)測方法,實(shí)現(xiàn)對投資的精準(zhǔn)預(yù)測。
電力工程數(shù)據(jù)信息由于大多依靠人為記錄,且并未進(jìn)行數(shù)據(jù)校核等工作,因此存在一定的異常情況[12]。輸電工程數(shù)據(jù)中的異常主要分為語法類異常、語義類異常、覆蓋類異常。語法類異常指的是表示實(shí)體具體的數(shù)據(jù)值和格式的錯誤,比如靜態(tài)投資字段有的用“元”作為單位,有的用“萬元”作為單位;語義類異常指數(shù)據(jù)不能全面、無重復(fù)地表示客觀世界的實(shí)體,比如塔材價格字段應(yīng)該大于0,但有的塔材價格值小于0;覆蓋類異常指的是值的缺失。
需要對以上異常數(shù)據(jù)信息進(jìn)行處理,剔除數(shù)據(jù)中的異常值,保證數(shù)據(jù)的完整性、全面性、合法性。一般異常值可視為缺失值處理。缺失值處理一般包含三大類:刪除、填補(bǔ)、不處理。刪除法簡單易行,但是其可能會刪除隱藏的有效信息,且會浪費(fèi)大量資源。填補(bǔ)法是用一定的值(均值、眾數(shù)、中位數(shù)等)填補(bǔ)空值,從而使信息表完備化。
輸電線路在整個電網(wǎng)運(yùn)行中承擔(dān)著電能輸送和分配的任務(wù)[13]。輸電工程的主體建設(shè)主要由導(dǎo)線、地線、桿塔、絕緣子、拉線、金具6 部分組成[14]。通過搜集處理某地區(qū)125 組輸電工程,可得數(shù)據(jù)信息共計56 個影響因子[15-16]。由于影響因子較多,因此可能存在潛在的維數(shù)災(zāi)害,從而造成預(yù)測模型性能變差或過擬合、無法擬合等問題。因此,通過Pearson相關(guān)系數(shù)對影響因子與預(yù)測目標(biāo)靜態(tài)投資進(jìn)行相關(guān)性分析,篩選出核心影響因子作為最終研究數(shù)據(jù),代入預(yù)測模型。
Pearson 相關(guān)系數(shù)ρX,Y表達(dá)式如下:

式中,X、Y表示比較的兩個變量,σX、σY表示標(biāo)準(zhǔn)差,μX、μY表示均值,E(·)表示數(shù)學(xué)期望。ρX,Y值介于-1 與1 之間,大于0 表示正相關(guān),小于0 表示負(fù)相關(guān),絕對值越接近1 表示相關(guān)性越高。一般相關(guān)系數(shù)大于0.6 就屬于強(qiáng)相關(guān),但考慮到大于0.6的影響因子仍較多,且有些影響因子存在高度共線性的情況,因此選取相關(guān)系數(shù)絕對值大于0.8的影響因子,如表1 所示。

表1 核心影響因子表
梯度提升迭代決策樹(GBDT)是以決策樹為基評估器的一種Boosting 算法。GBDT 要求弱學(xué)習(xí)器必須是CART 模型,且GBDT 在模型訓(xùn)練時,要求模型預(yù)測的樣本損失盡可能小。簡單而言,若每一輪預(yù)測和實(shí)際值有殘差,則下一輪根據(jù)殘差再進(jìn)行預(yù)測,最后將所有預(yù)測相加即為結(jié)果,如圖1 所示。

圖1 GBDT訓(xùn)練原理
GBDT 模型可以表示為決策樹的加法模型:

其中,T(x;θm)表示基評估器(決策樹);θm表示基評估器的參數(shù);M表示基評估器的數(shù)量。采用前向分布算法,首先自定義初始基評估器f0(x)=0,第m步的模型是:

采用經(jīng)驗風(fēng)險結(jié)構(gòu)極小化的方法確定下一個基評估器的參數(shù),即使殘差盡可能小,從而找出最優(yōu)劃分點(diǎn):

L(·)是損失函數(shù),回歸算法選擇的損失函數(shù)一般是均方差(最小二乘)或絕對值誤差。
篩選出的核心影響因子由于量綱和數(shù)值的量級不同,因此需要對原始數(shù)據(jù)進(jìn)行min-max 標(biāo)準(zhǔn)化處理,得到[0,1]區(qū)間的數(shù)據(jù)集,使不同影響因子對預(yù)測目標(biāo)具有相同的尺度。

式中,max 表示數(shù)據(jù)樣本中的最大值,min 表示數(shù)據(jù)樣本中的最小值。處理后的數(shù)據(jù)如表2所示。

表2 輸電工程數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果
將標(biāo)準(zhǔn)化處理后的數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)集的劃分。一般完整的流程會劃分為訓(xùn)練集、驗證集和測試集3 個集合。其中,訓(xùn)練集的作用是將其樣本代入GBDT 模型進(jìn)行訓(xùn)練;驗證集的作用是為了初步評估GBDT 模型的預(yù)測性能。在模型訓(xùn)練過程中,會單獨(dú)留出一些樣本作為驗證集,同時針對性能差的模型進(jìn)行參數(shù)調(diào)優(yōu);測試集用來測試、驗證、評估最終GBDT 模型是否過擬合或者欠擬合,即模型的泛化能力。文中隨機(jī)抽取80%的數(shù)據(jù)樣本即100 組輸電工程數(shù)據(jù)作為訓(xùn)練集和驗證集,剩余25 組數(shù)據(jù)作為測試集。驗證采取5 折交叉驗證法,將100 組數(shù)據(jù)平均分成5 份,每份20 組數(shù)據(jù)樣本,依次將其中4份(80 組數(shù)據(jù)樣本)作為訓(xùn)練集,剩余一份(20 組數(shù)據(jù)樣本)作為驗證集,計算每次驗證集的評價指標(biāo)分?jǐn)?shù)。最終GBDT 模型預(yù)測性能的評價指標(biāo)分?jǐn)?shù)為5次結(jié)果的均值,如圖2 所示。

圖2 交叉驗證原理
表2 為輸電工程數(shù)據(jù)標(biāo)準(zhǔn)化后的結(jié)果,根據(jù)GBDT 算法原理,建立靜態(tài)投資預(yù)測模型,流程如圖3 所示,x表示核心影響因子。在模型建立過程中,需要進(jìn)行調(diào)參,以優(yōu)化輸出效果。GBDT的參數(shù)主要分為兩類:Boosting 框架參數(shù)以及基評估器參數(shù)。

圖3 預(yù)測模型建立流程
基評估器的參數(shù)較多,常用的包括max_features最大特征數(shù)、max_dept 最大樹深、min_samples_split內(nèi)部節(jié)點(diǎn)再 劃分所需最小樣本數(shù)、min_weight_fraction_leaf 葉子節(jié)點(diǎn)最小的樣本權(quán)重和max_leaf_nodes 最大葉子節(jié)點(diǎn)數(shù),這樣可以避免產(chǎn)生過擬合。
評價輸電工程靜態(tài)投資預(yù)測模型的預(yù)測效果時,需要通過量化的指標(biāo)對預(yù)測值和真實(shí)值進(jìn)行比較。文中選取了預(yù)測模型常用的MAE 以及MAPE作為評價指標(biāo)。
MAE是指真實(shí)值和預(yù)測值的誤差絕對平均值,表示偏離程度。值越小,預(yù)測模型效果越好,表達(dá)式為:

式中,yi為真實(shí)值,為預(yù)測值,n為樣本量。
MAPE是指真實(shí)值和預(yù)測值誤差率的絕對平均值,不同輸電工程的基數(shù)標(biāo)準(zhǔn)可能相差較大,其公式為:

MAPE的取值范圍 為[0,+∞),一 般MAPE大 于10%表示劣質(zhì)模型。
將100 組輸電工程數(shù)據(jù)代入GBDT 模型進(jìn)行訓(xùn)練,5 折交叉驗證后得到MAE為8.743 8 萬元,MAPE為3.92%,模型訓(xùn)練效果較好。將25 組測試集樣本代入模型進(jìn)行靜態(tài)投資預(yù)測,預(yù)測結(jié)果(部分)如表3所示。

表3 測試集靜態(tài)投資預(yù)測結(jié)果表(部分)
靜態(tài)投資預(yù)測值與真實(shí)值結(jié)果如圖4 所示,靜態(tài)投資誤差與誤差率如圖5 所示。真實(shí)值與實(shí)際值的最大誤差為19.517 9 萬元,最小誤差為0.335 7 萬元,最大誤差率為10.52%,最小誤差率為0.33%。MAE為9.660 4 萬元,MAPE為4.39%,相比訓(xùn)練集的MAE、MAPE有所增加,后期可通過搜集更多樣本訓(xùn)練模型進(jìn)行優(yōu)化。實(shí)驗驗證了所選取核心影響因子的合理性及預(yù)測模型的準(zhǔn)確性。

圖4 測試集樣本預(yù)測值與真實(shí)值結(jié)果

圖5 測試集樣本靜態(tài)投資誤差與誤差率
文中分析了輸電工程靜態(tài)投資的影響因子,采用Pearson 相關(guān)系數(shù)篩選出大于0.8的極強(qiáng)相關(guān)因子,通過標(biāo)準(zhǔn)化處理將數(shù)據(jù)樣本劃分為訓(xùn)練集、驗證集、測試集,基于GBDT 算法利用5 折交叉驗證的方法進(jìn)行模型調(diào)優(yōu)及初步評估,最后通過測試集驗證了所提預(yù)測模型的正確性,MAPE低至4.39%,對于項目投資具有一定的參考價值。由于數(shù)據(jù)樣本較少只有125 組,因此測試集的性能低于驗證集,后期將通過搜集更多數(shù)據(jù)樣本對預(yù)測模型進(jìn)行訓(xùn)練優(yōu)化,提升測試集樣本的預(yù)測準(zhǔn)確性。