嚴嘉慧 張祿 高鑫 盛慧慧
(國網北京市電力公司 北京市 100049)
工業企業在對排放廢氣進行處理時工序繁冗,部分重污染企業為了自身利益,未能在重污染天氣應急管控期間嚴格遵守政府指令按規排放工業廢氣,也存在部分企業轉移生產模式未能合規處理工業廢氣。工業違規生產行為給大氣承載帶來了巨大壓力,傳統大氣污染防治工作開展時主要依靠現場巡開展治理和防控,人力物力成本高昂,效果低下[2]。現階段缺少切實可靠的方式對企業的生產行為進行監測約束,也缺少及時有效的方法對存在違法行為的企業進行精準執法。智能電網電力大數據在數據量、多樣性、速度和價值方面擁有高性能[3],可以輔助監管部門準確判斷企業生產狀態和生產行為。
聚類算法可以將數據集的相似性樣本歸為若干類,使得相似樣本集具備高水平可度量性[4][5],孤立森林( Isolation Forest)算法具有高精準度、無監督等優點,被廣泛應用于大數據的異常值檢。通過電力大數據從企業生產行為監測結果出發,有針對性、有目的性地開展對應防控,通過算法實現預防性管理和處治,實現大氣污染治理效益的可針對性,實現環境效益最大化。
2.1.1 聚類算法介紹
聚類算法是數據分類和實體歸類的探索擴展,基于類內相似性與類間排他性的目標將沒有分類標簽的數據集分為若干個簇[5],是一種無監督的分類方法。
K-means 算法通過點與點之間距離的相似度將數據集樣本劃分為若干類,具有收斂速度快,對海量數據集友好、熱切效率高、可伸縮性強等優勢,是聚類算法中最常用的方法之一。K-means 算法先隨機選取N 個初始聚類中心,在第M 次迭代中,對任意一個樣本計算其到N 個聚類中心的距離,并將該樣本歸納到距離最短的中心所在的類。聚類中心點以及分配給它們的樣本就代表一個聚類。聚類中心點會根據聚類中現有對象的狀態被重新計算。這個迭代過程將不斷重復直到沒有對象被重新分配到不同的類中,或者是沒有聚類中心點再發生改變,否則將繼續迭代。
2.1.2 模型思路
在重污染天氣預警情況下,部分重點企業理應依據政府發布的不同程度應急管控指令進行生產行為限制。根據重污染預警管控日期明細和企業用電功率數據,通過規則+聚類算法構建重點企業應急響應分析模型,以日頻度的企業應急響應結果歸納企業應急響應程度,判斷重點企業限產指令執行情況。
2.1.3 模型構建過程

表1

表2

圖1:企業應急響應分布
(1)特征構建。
與管控前n日電量的比值=當日用電量/管控前n日用電量
與上周平均用電量比值=當日用電量/上一自然周平均用電量
與上月日均電量比=當日用電量/上月日均用電量
與上月同一日電量比=當日用電量/上月同日用電量
月不均衡系數=月日均用電量/上月日最大用電量
與管控前7 天的日平均功率比值:日平均功率/管控前7 天的日平均功率
與上周日平均功率比值:日平均功率/上一自然周日平均功率
(2)特征篩選。
計算指標方差和相關系數,結合聚類評估指標進行聚類特征選擇。
(3)模型構建。

圖2:企業應急響應區域行業分布

圖3:異常生產企業區域及行業分布
將近30 天存在用電量,但當日用電量缺失或為0 的企業直接劃分為完全響應企業;按照不同的類別數量([2,10])進行聚類,記錄模型輪廓系數和SSE;根據輪廓系數和SSE 確定類數k;根據k 簇類中心均值和歐式距離進行整體度量,將企業劃分為完全響應、未響應、未完全響應三類。
2.2.1 孤立森林算法介紹
IsolationForest 孤立森林是一種基于Ensemble 的快速異常檢測方法,具有線性時間復雜度和高精準度,可以定位分布稀疏且離密度高的群體較遠的點,適用于連續數據的異常檢測。該算法使用一個隨機超平面來切割數據空間,高密度簇可以被多次切割,低密度簇容易過早落入某一子空間。
2.2.2 模型思路
大部分工業企業生產行為和生產模式相似,若某一企業用電行為與同行業、同合同容量的企業用電行為存在明顯差異,該企業可能存在異常需要重點關注。通過綜合企業歷史用電特征,及同行業、同合同容量企業的用電特征,利用孤立森林數據模型找出數據差異明顯的企業,輔助有關部門縮小關注焦點。
2.2.3 模型構建過程
(1)特征構建。
企業與同行業平均活躍度比值=當日活躍度/同行業企業的當日平均活躍度;
企業與同容量平均活躍度比值=當日活躍度/同容量企業的當日平均活躍度;
當日功率曲線與同行業同容量企業功率曲線相關系數;
當日生產類型與同行業生產類型的眾數情況。
(2)模型構建。
根據企業用電量和功率數據計算異常得分情況,將企業劃分為多類別,通過特征數據孤立森林模型計算結果鎖定異常企業名單。
如表1 所示,利用聚類算法構建應急響應監測模型,根據用電信息將企業劃分為完全響應、未響應、未完全響應三個級別,診斷企業是否遵守指令調節生產行為,定位未遵守管控指令躲避政府監管的企業。以2021年3月10日-15日黃色污染預警期間為例,企業應急響應分布如圖1 所示。
通過圖1 可以看出,3月10日-15日未響應企業比較接近,未響應企業約占28%。
通過圖2 可以看出,西城地區響應企業占比最高,門頭溝地區未響應企業占比較高。涂裝制造業企業響應情況較好,無未響應企業,汽車整車制造行業企業響應情況較差。
如表2 所示,根據孤立森林模型輸出異常企業清單,以2021年3月10日-15日黃色污染預警期間為例,企業異常生產企業數據如圖3 所示。
9.89%的企業被判斷為異常生產,3月11-13日異常生產企業數量呈下降趨勢,3月13日后有所反彈。
通過圖3 可以看出,3月10日-15日黃色污染預警期間,門頭溝、大興地區異常生產企業占比最高,石景山地區異常生產企業占比最少。出版物印刷、家具制造業異常生產企業最多,水泥和汽車維修業異常生產企業最少。
本文通過重點企業在應急響應管控日期內的用電行為進行分析,通過基于k-means 聚類算法判斷企業應急響應程度,通過孤立森林算法判斷企業異常生產行為。該次應急管控日期內約有三成企業響應程度呈現較低水平,其中門頭溝地區響應程度低企業占比較高,汽車整車制造行業企業響應情況較差。通過統計分析異常企業分布情況,聚焦企業污染防治重點行業出版物印刷、家具制造業,重點區域門頭溝、大興地區。后續應持續跟蹤異常情況發展態勢,輔助環保部門制定精細化管控策略,并依據實際情況進行差異化策略調整,提升治理能力科學性。