遙感數據驅動的電力污穢等級XGBOOST 預測模型

2024-01-09 07:50:18周仿榮朱龍昌楊可意

地理空間信息 2023年12期

關鍵詞：模型

周仿榮，文剛*，馬儀，張輝，朱龍昌，楊可意，韓舸

（1.電力遙感技術聯合實驗室（南方電網公司云南電網電力科學研究院），云南昆明 650217；2.武漢大學遙感信息工程學院，湖北武漢 430079）

近年來，通過大量實驗室和自然環境的實驗發現，電力污穢來源于絕緣子所處環境大氣中的污染物。宿志一[6]證實大氣污染是引起污閃事故的重要原因；胡霽[7]等發現利用PM2.5濃度觀測可以提高絕緣子等值鹽密（ESDD）的建模精度；熊宇[8]等將大氣質量指數（AQI）引入ESDD 動態累積模型，成功提高模型預測精度；高嵩[9]等定量分析了降雨對污穢積累的沖刷作用。目前在單點尺度上利用大氣環境數據和氣象數據對電力污穢的積累預測取得較好的進展。但是，利用這些驅動因子進行區域性評估和電力污穢等級制圖尚需要進一步探索[8,10]。要形成一種準確的電力污穢等級圖繪制手段，還存在較大的差距[11-12]。

針對這一問題，本研究提出一種多源數據融合的電力污穢等級預測模型。在前人研究的基礎上進一步引入夜間燈光遙感數據作為人類活動強度的量化指標，同時利用記錄污染源信息的文本數據生成空間化的污染源核密度，并采用網格化排放清單表征多種大氣污染物的排放量。以云南地區作為研究對象，利用形成的高維輸入屬性集合，以現有污區圖為目標，采取XGBOOST 進行建模以完成污穢等級空間預測。

1 研究區與數據源

1.1 研究區概況

云南省位于我國西南部，大氣環境質量在全國屬于上游水平[13]，因此云南省與現有電力污穢累積研究有很大的區別。云南省2018—2020年大氣PM2.5數據顯示，其全省年最大PM2.5質量濃度僅為53.2 μg/m3。由此可見PM2.5或AOD 不可能是該地區電力污穢的主要驅動因子，這為建立預測模型帶來了巨大挑戰。但也正是由于研究區的特殊性，在本地區能夠適用的建模方法具有更強的移植能力。

1.2 實驗數據

本文搜集到的多源數據信息主要分為四大類：遙感數據（包括夜間燈光數據[14]、歸一化植被指數數據、大氣環境數據）污染排放企業位置文本數據、氣象數據、污染物網格化排放清單。本研究目標是建立面域預測模型，需要對原始數據進行預處理。將具有空間屬性的衛星遙感數據和網格化排放清單統一到1 km的分辨率和相同的坐標系，以獲得一致的空間數據。氣象數據采用克里金插值轉換為1 km分辨率的柵格型空間數據。污染企業信息將文本類型屬性轉換為點狀矢量數據，再利用核密度分析和距離分析轉換為1 km分辨率的柵格數據，并使用排放強度作為權重。

2 流程與方法

多源環境數據融合的電力污穢評估模型流程為：①搜集多源異構數據。為了完成污穢的空間評估，要求所有建模數據是時空數據。搜集到的數據中表征排放源信息的數據是文本類型，主要包括經緯度、排放強度分級和影響范圍分級數據。本研究采用核密度分析和距離分析的空間分析手段將文本數據轉換為空間數據。②對所有數據進行時空配準并進行數據清洗并剔除異常值。③使用2020 版云南省污區圖作為標簽圖層，利用XGBOOST 建立輸入數據到標簽的映射關系，并采用十折交叉驗證法訓練和驗證模型。④為了消除重采樣排放清單數據以及某一變量重要性較高引起的鋸齒效應，我們將采用引導濾波進行平滑處理，以獲得云南全省污染等級的最終空間預測結果。

XGBOOST 是一種由GBDT(gradient boosting decision tree)算法發展而來的機器學習算法[15]，其在集成學習的基礎上，結合梯度信息，完成了對目標函數的優化，獲得最優解。相比于GBDT，XGBOOST除了運用了損失函數的一階導數信息外，還通過對損失函數的泰勒展開，獲取損失函數二階導數信息，更快獲得最優解[16]。XGBOOST算法由一系列決策樹組合而成：

式中，FS（forest sets）為決策樹集合；xi為第i條數據的特征值所組成的向量；fn(xi)為第n個獨立決策樹，其中包含樹的結構和權重信息；N為決策樹的總量；為第i條數據的預測值。

XGBOOST 定義了損失函數Loss，通過訓練集提供的數據訓練，可以獲取決策樹的相關信息。

式中，L(yi,)為預測值和真實值yi間的損失函數，根據任務需求不同，選取的損失函數種類不同，本研究中選取multi-softmax作為預測值和真實值yi間的損失函數。M為訓練集數量，Ω(fn)為決策樹的正則項，防止樹結構過于復雜，產生過擬合現象。

XGBOOST通過多輪迭代獲取最優解，其中第t輪的損失函數可表示為公式（3）。

為了方便后續求導過程，將公式（4）代入公式（3）可獲得t輪的損失函數的簡便表示。

為求取第t輪損失函數中葉子權重的最優解，對第t輪迭代的損失函數Losst進行二階泰勒展開可以得到公式（6）：

式中，Δft(xi)為第t輪預測值與第t-1 輪迭代的增量；gi和hi分別為L(yi,? )的一階導數和二階導數；Ij={i|q(xi=j)}為第j顆樹所有葉子的權重；為Ω(ft)的代數形式。

在公式（6）的基礎上對w求偏導，可以得到第j棵樹的葉子權重在第t輪的迭代情況下的最優數值

通過設定迭代次數和決策樹的結構信息，我們可以獲得在給定數據集情況下訓練好的XGBOOST 模型

引導濾波（guided filtering）和雙邊濾波（BF）、最小二乘濾波（WLS）是三大邊緣保持（edge-perserving）濾波器[17]。他們在保持邊緣的基礎上，對圖像進行了平滑操作。

引導濾波定義了在給定引導圖像I 和原始圖像p的條件下，輸出圖像q 可以表示為公式（8），其中wk為濾波核大小，ni為噪聲。

通過求解代價函數E(ak,bk)，可獲得ak和bk，其中為正則約束項。

分別對ak和bk進行求導，可以獲得給定濾波窗口wk范圍內的最優估計值

3 結果分析

本文使用十折交叉驗證法對構建完成的數據集進行訓練，利用XGBOOST 模型在測試集上進行驗證，最終取得了87%的精度。圖1~3 展示了電力系統現行的污區圖、基于多源遙感數據的XGBOOST 模型直接輸出結果以及采用引導濾波后的結果。

圖1 云南省2021年電力系統污區圖（審圖號：GS(2019)1822號）

對比圖1~3，發現對于電力系統最為關心的高風險區域（1~3），圖2 與圖1 非常接近，很好地還原了由工業排放引起的局部高風險區域。與熊宇等的結果相比，本研究結果對于重污染地區（1~2）的預測表現更為優秀。這是由于本研究利用夜間燈光遙感產品更準確地刻畫了人為排放的分布情況，同時XGBOOST算法的性能比支持向量機等傳統分類器更為優越。

圖2 利用多源環境數據和XGBOOST算法得到的云南省電力系統污區圖（審圖號：GS(2019)1822號）

圖3 表明引入引導濾波可以顯著的抑制在局部空間上，由于排放清單的低空間分辨率導致的粗糙不平滑的邊緣。可以明顯觀察到，通過引導濾波卷積后的預測結果在空間分布上與污穢等級實測圖更接近，邊緣也更加平滑，更符合污穢等級分布的真實情況。

圖3 經過引導濾波后的云南省電力系統污區圖（審圖號：GS(2019)1822號）

為了更好地定量評價本文所提方法的預測精度，表1 展示了最終預測結果與現行污區的混淆矩陣。從電網安全的角度看，較為嚴重污染等級（1~3）的地區更受重視，這些地區往往需要更為頻繁的清污工作。但是，從圖1 可以看出，1~3 等級的地區在面積上的占比不大。如果以總體精度為考察對象，最極端的模型可以通過將全部地區劃分為等級4來取得0.8以上的精度，這顯然與應用初衷不相符。表1顯示，本文所提模型對于每一類的預測精度都達到0.8以上，并沒有通過犧牲1~3 類別預測精度來實現總體的高精度。這是本方法一個重要的特征和明顯的優勢。這表明本方法得出的結果不僅具有數學意義上的有效性，更重要的是對于指導電力系統的實際工作具有巨大的價值。

表1 模型預測性能評價混淆矩陣

4 結果與討論

本文預測精度優于傳統污穢等級預測方法，我們認為這與引入了夜間燈光數據相關。夜間燈光數據很好地表征了與污染程度存在緊密相關性的人類活動的強度，使得高分辨率的夜間燈光數據在很大程度上彌補了排放數據低分辨率的缺陷，從另一個角度表征了預測點的環境污染情況，進而使得預測精度獲得了提升。

決策樹中，子樹的分裂往往決定了最終整體樹的分類效果。特征參與子樹分裂的次數越多，該特征在分類中的作用越大。在上述預測精度的情況下，圖4按照數據集的統計順序給出了每種屬性數據參與子樹分裂的次數占總次數的頻率。從圖4 可見，污染氣體排放數據如OC、NOX、SO2、VOC以及NO2和SO2的遙感數據在預測中仍然起了較大作用，幾種排放數據的累計重要性占比達到了51.9%，超過一半。對于PM2.5和PM10，由于2 種數據在統計性質上高度相關，它們的重要性占比相近。此外，夜間燈光屬性占比達10.4%，證明了夜間燈光數據在實際分類過程中起到了很大作用，提高了預測精度。實驗結果表明，提高污染氣體遙感分辨率和精度，引入夜間燈光數據，有助于提高污穢監測的預測精度。

圖4 輸入參數在模型中的重要性排名

5 結論

本文借助機器學習中XGBOOST 算法，利用包括大氣環境、氣象、夜間燈光遙感數據、污染源核密度，網格化排放清單表在內的多源數據，作為驅動因子對云南省進行污穢等級預測，并與實測污穢等級分布進行比較。實驗結果表明，本文所提方法在污穢等級預測上與現有污區圖吻合率達到87%，單一種類的預測精度均達到80%以上，表明了多源數據融合的電力污穢等級XGBOOST 預測模型在污穢等級預測上具有良好的潛力。