基于多維特征和GBDT模型的輸電線路線損率預測

2022-07-12 14:03:32余佶成王江儲謝從珍岳長喜楊建華

計算機應用與軟件 2022年6期

余佶成周峰王江儲謝從珍* 岳長喜朱凱楊建華

1(中國電力科學研究院有限公司湖北武漢 430074) 2(華南理工大學電力學院廣東廣州 510641) 3(國家電網公司華中分部湖北武漢 430077)

0 引言

線損率綜合反映了電網的規劃、生產和管理水平，是考核電力部門的重要標準[1]。然而理論線損率計算的誤差會導致報表不準，難以反映實際線損情況，給線損管理帶來極大障礙。隨著線損精細化管理工作的推進，亟需精準的線損率計算方法。

目前理論線損率計算方法[2-4]主要應用電流法，包括最大負荷損耗時間法、損失因數法、代表日均方根電流法、電量法、負荷曲線特征系數法、等值電阻法、電壓損失法和改進潮流法等。但由于輸電線路的運行方式、桿塔參數及位置都不同，僅考慮電流、電壓等參數的理論線損率計算方法對于不同線路的泛用性有待研究。

近年來，隨著智能電網的不斷發展，理論線損率計算方法對元件參數、運行數據的精細化要求使其不再適應智能電網下線損率計算快速性、泛用性的特點，基于統計分析、機器學習的新方法，例如回歸分析、神經網絡、支持向量機等開始受到關注，并得到了一些應用。

文獻[5]基于改進極限學習機算法構建線損計算模型，通過蟻群算法對極限學習機模型進行優化構建多維參量數據與線損的擬合模型，但該方法沒有克服蟻群算法可能造成的局部性問題。文獻[6]考慮到不同線路網架結構之間的關聯知識，采用聚類算法對線路進行分類提取線路類別特征，并根據類別的不同分別構建神經網絡模型，但經過聚類后單個聚類模型訓練數據的數量減少，得到的模型泛化性降低。文獻[7]通過層次分析算法選取部分強關聯因素，采用多灰色模型擬合關聯因素與線損率的關系，但層次分析法為主觀賦權的數據融合方式，難免存在一定的主觀局限性。以上方法通過分析供電量、線路長度等理論線損率計算參量對線損率的影響構建了回歸模型，但缺少對于歷史線損率、電壓等時序數據趨勢變化以及桿塔信息等多維信息的深度挖掘，模型學習的數據知識不完備，模型計算精度存在提升空間。

針對目前線損率計算方法存在的問題，本文提出一種基于多維特征和GBDT模型的輸電線路線損率預測方法。針對線損率計算中存在的線損率信息、電壓電流等時序信息及線路本體信息，通過特征工程構建能夠細致描述線路狀態的多維特征；然后通過GBDT模型擬合特征與線損率的關聯關系，建立輸電線路線損率預測模型，最后利用某省500 kV輸電線路實際數據驗證該方法的有效性。

1 數據來源

本文采用數據為某省31條500 kV以上輸電線路的實際線損相關信息，主要包括電能計量數據、氣象數據、潮流數據及線路本體數據四類。其中電能計量數據包括數據采集日期、供電量和線損等電能表計量關聯數據；氣象數據包括始末電站的小時內降水量、溫濕度、風速風向和氣壓數據；潮流數據包括母線端的電壓、電流、有功功率和無功功率數據；線路本體數據包括投運時間、電壓等級、線路總長度、桿塔呼稱高、桿塔檔距以及桿塔相序等。數據采集日期為2017年9月—2019年4月，總計10 200條數據。部分數據樣本如圖1所示。

圖1 數據樣例

線路數據按式(1)計算線損率并用以替換線損數據，得到原始數據。

(1)

2 基于多維信息特征工程的輸電線路線損率計算理論

2.1 考慮線損率信息的EWMA特征構建

指數加權移動平均(Exponential Weighted Moving Average,EWMA)方法[8]通常用于計算中短期時間序列的發展趨勢，其在考慮高權重的近期數據的同時，通過逐漸減小數據的權重，補充遠期數據反映的整體性趨勢。

考慮線損率信息的EWMA特征構建流程如下：

對于某條線路的日線損率序列L=[l0,l1,…,ln]，n為線損率序列樣本數，第i天線損率的EWMA特征ei由式(2)計算。

(2)

式中：α為平滑參數，α取值范圍為(0,1]。采用差分進化法[9]最小化目標函數以得到最優α值，目標函數θ計算如下：

(3)

由式(2)可知，若日線損率序列按日期順序排序，第n+1天后的EWMA特征將不變，難以描述3天以后的線損率情況。

考慮到線損率與供電量峰谷的時間分布的相關性，將線損率序列數據按星期情況拆分為星期一、星期二、星期三、星期四、星期五與周末六類，每類數據按式(2)計算，得到六類EWMA特征，再次按日期順序拼接六類EWMA特征，得到變化的計算日后7天內的EWMA特征[en+1,en+2…,en+7]。

2.2 時序信息的統計量特征構建

氣象、電壓和電流等信息為時序數據，挖掘時序數據在一定時窗內的統計量特征能夠細化描述當時線路的實際線損情況。

(4)

(5)

每類影響量拓展為4類統計量特征，圖2為電流拓展的統計量特征。

圖2 統計量特征樣例

2.3 線路本體信息的線路特征構建

線路本體信息是多類異構數據的集合，其中線路信息如電壓等級、投運時間等為固定參數，能夠直接作為線路特征描述線路狀況，而線路桿塔信息則存在數值型信息如呼稱高、檔距等，以及類別型信息如相序、桿塔地形地質等，且線路中每基桿塔的信息不完全一樣，無法直接作為線路特征。

對于數字型信息，提取平均值作為線路特征，例如線路呼稱高特征為線路內所有基桿塔呼稱高的平均值。

對于類別型信息，采用獨熱編碼[10]構造線路特征。獨熱編碼采用不同位的狀態寄存器來對多個狀態進行編碼，任意時刻只有一位有效。對于類別型信息K，K存在NK個狀態，K參數處于l狀態的第i條線路的第j基桿塔在經過獨熱編碼后得到序列Kij如下：

(6)

將線路每條桿塔的狀態位對應加和，得到線路特征Ki，如式(7)所示，其中Ntower為線路桿塔數。

(7)

例如，相序信息總計包含“ABC”“BCA”“CAB”“ACB”“BAC”和“CAB”總計6類狀態，則對于有4基桿塔的線路的相序線路特征如表1所示。

表1 4基桿塔線路的相序線路特征構建

2.4 GBDT模型

由于上文中構建的多維特征不僅有電壓、電流等數值型數據，也存在如桿塔類型、相序等類別型數據。本文采用能夠靈活處理各種類型數據的GBDT模型作為機器學習擬合模型，GBDT模型[11]是一種融合多個樹模型計算結果，不斷減少模型在訓練過程中產生的殘差以實現數據的分類或回歸的集成模型。相比于依賴數值型數據，優化高維特征空間距離的常見機器學習算法，GBDT模型每次對一個特征進行劃分，對于類別型數據也有很好的擬合效果。

對于給定線損率預測數據D=[ZT,yT]，N為樣本數量，Z=[Z1,Z2，…,Zi,…，ZN]為輸入的多維信息特征，i=1,2，…，N，y=[y1,y2,…，yN]為輸出線損率值。GBDT預測模型的構建流程如下：

(1) 初始化模型。估計使損失函數L(yi,γ)最小的模型參數γ，將其作為初始模型f0(Zi)，即:

(8)

(2) 設T為迭代次數，對于第t次迭代，t=1,2,…，T，執行以下步驟①-步驟④。

① 按下式計算當前模型損失函數與模型的負梯度rit，即殘差:

(9)

② 將rit作為樣本Zi新的標簽，得到新的樣本數據集[(Zi,rit),i=1,2,…，N]，將其作為新的訓練數據，擬合得到下一棵回歸樹模型，新的樹模型由葉子節點Rjt(j=1,2,…，J)組成。J為回歸樹模型的葉子節點數。

③ 對每個葉子節點Rjt，計算樣本的最佳擬合值γjt。

(10)

④ 更新第t次迭代的模型：

(11)

式中:I(Zi∈Rjt)為指示函數，當樣本Zi屬于葉子節點Rjt時，該函數值為1，否則為0。

(3) 輸出最終模型fT(Zi)。

(12)

如圖3所示，通過T棵樹的迭代、組合，得到最終的GBDT回歸模型。

圖3 GBDT模型示意圖

3 輸電線路線損預測模型建模流程

基于多維特征和GBDT模型的輸電線路線損率預測模型建模流程如圖4所示。

圖4 輸電線路線損率預測建模流程

3.1 數據預處理

數據預處理首先對31條輸電線路原始數據去除異常值。根據線損理論，設置線損率在[-10%,10%]為正常值。去除異常值后對數據集劃分訓練集及測試集，對每條線路數據按時間提取2019年3月后的數據作為測試集，剩余為訓練集，訓練集總計9 434條，測試集總計677條。記錄測試集的線損率數據作為模型驗證依據，將其統一賦值為0用于測試。

3.2 特征工程

按2.1節-2.3節所述統一對訓練集和測試集計算EWMA特征、統計量特征及線路特征，形成模型的訓練數據及測試數據。

3.3 建模與測試

本文基于lightgbm[12]庫構建GBDT線損率預測模型。針對模型的過擬合問題，本文通過控制訓練參數實現，包括回歸樹的最大深度、葉子節點數等。其次，在建模訓練過程中采用31條不同的輸電線路數據進行訓練，引入多條不同環境工況特征的輸電線路數據相當于實現數據增強，減小過擬合的情況。相應的訓練參數如下：回歸樹最大深度為5；回歸樹的葉子節點數量為31；學習率為0.05；采用均方根誤差(RMSE)作為損失函數。

4 算例驗證

采用第3.2節得到的測試數據作為算例驗證。采用均方根誤差ERMSE作為驗證誤差指標，計算公式如下：

(13)

式中:Vobservedi為第i個樣本的實際值；Vpredictedi為預測的線損率；N為樣本總數。

為了驗證模型有效性，構建以下模型作為對比：

(1) 不考慮多維特征的支持向量機模型，訓練參數如下：采用徑向基核函數訓練，懲罰因子C設為100，r為0.1。輸入為原始電能計量數據、氣象和潮流數據，輸出為線損率，簡稱支持向量機模型。

(2) 不考慮多維特征的GBDT模型，訓練過程如3.3節所述，輸入為原始電能計量數據、氣象和潮流數據，輸出為線損率，簡稱原始GBDT模型。

驗證結果如表2所示，模型在部分驗證數據的計算情況如圖5所示。

表2 模型驗證測試結果

圖5 模型驗證結果

根據表2和圖5可知，GBDT模型相較于傳統的支持向量機在模型擬合上有較大優勢。而相比于原始GBDT模型，采用了多維特征的本文模型在模型精度上有了進一步的提升，線損率誤差指標下降15.1%，線損率誤差降至0.703%，而相對于支持向量機模型，線損率誤差減少84.5%，能夠滿足實際業務計算需求，驗證了本文方法的有效性。

5 結語

多維信息的高效利用是線損率計算模型精度的提升的關鍵，本文利用特征工程方法，構建輸電線路線損率信息的多維特征，并利用GBDT模型構建輸電線路線損率預測模型。主要結論如下：

(1) 提出了一種針對輸電線路多維特征構建方法。該方法對多維信息進行挖掘，構建線損率EWMA特征、時序數據統計量特征以及線路本體的線路特征，從更精確、更細致的角度描述輸電線路的實際工況及線損率的趨勢情況。

(2) 結合特征工程挖掘的多維特征，通過GBDT模型對輸電線路線損率進行模型擬合，構建輸電線路線損率預測模型。

(3) 以某省31條500 kV輸電線路實際數據為例，構建輸電線路線損率預測模型。結果表明，該預測模型的線損率誤差為0.703%，相比于支持向量機模型，均方根誤差下降84.5%，相比于無多維特征的GBDT模型，均方根誤差下降15.1%。