(國網浙江省電力有限公司,杭州 310007)
2020 年初,為有效控制新冠肺炎疫情的傳播、蔓延,從中央到各地政府紛紛出臺了嚴厲的管控措施,嚴格限制人員流動并對企業的復工復產進行重點監控。春節過后,受疫情影響,人員流動率和企業復工率仍然較低,對國民經濟的高速發展造成較大影響[1]。為將新冠肺炎疫情影響降到最低,保持經濟平穩運行和社會和諧穩定,努力實現黨中央制定的各項目標任務,也為了輔助地方政府準確全面地掌握企業復工情況,電力公司充分利用已有的電力數據資源[2-3],通過大數據分析的方法得到各地區重點企業的復工電力指數,為各級政府制定管控決策提供依據;同時,支撐政府根據各地區疫情情況進行分類指導,有序推動各類企業復工復產。
此前,已經有相關學者基于電力大數據開展了經濟發展預測、房地產景氣度等相關應用研究。鄧雪晴[4]研究了電力消費彈性指數的變動特點及其相關影響因素,同時以電力數據為基礎對國內經濟增長規律和趨勢進行了探索。田傳波[5]等人利用神經網絡技術建立城市宏觀經濟走勢預測模型,研究城市宏觀經濟發展中電力數據影響因素與城市宏觀經濟發展走勢之間的關系。楊東偉[6]通過解析產業結構和不同能(電)耗地區消費差異這兩個因素對于電力消費彈性指數變動的影響,探索了電力消費與經濟增長的規律和趨勢。李海[7]運用皮爾遜相關系數分析、時間軌跡分析、分布滯后模型與阿爾蒙估計法進行建模分析,研究了電力消費量與國房景氣指數關系。劉玉嬌[8]等人提出一種基于X13-ARIMA 季節調整算法的電力景氣指數模型,對我國宏觀經濟發展狀態進行分析。但是目前尚無基于電力數據開展復工情況分析的相關研究。
本文研究對象是一個地區內能夠有效組織生產的企業,小電量企業、已經報停企業以及為抗疫提供支持的各級企事業單位不在本次研究范圍之內。
根據文獻研究及相關實踐[9-10],衡量一個地區的企業復工復產水平,一般從兩方面進行考量:一是該地區已復工企業占該地區所有企業總數的比例,即復工企業比例;二是該地區復工后電量恢復到春節前的狀態水平,即復工電量比例。基于此,以復工企業比例和復工電量比例為基本點,構建企業復工電力指數計算公式如下:
企業復工電力指數F=(復工電量比例×0.5+復工企業比例×0.5)×100%。
其中,對于復工電量比例,需要計算該地區企業用電量相較歷史正常水平的比例,其計算公式為:
復工電量比例=統計范圍內企業當日用電量總和/統計范圍內企業2019 年12 月日均用電量總和×100%。
對復工企業比例,需根據企業開始復工的時間節點來判斷,具體應結合企業自身用電規律進行分析,本文將針對此問題進行重點研究。
判斷企業春節后是否復工,需要根據企業自身用電規律進行分析。不同企業在春節期間用電規律不一致:部分企業在春節期間繼續保持營業,春節后一般會繼續進行相關的生產工作;其余企業在春節期間,由于員工返鄉導致其停產或停工,隨著春節假期的結束,逐步恢復生產,用電水平也逐漸上升。這兩類企業的用電規律明顯不同,需分別進行分析。
為了對企業復工復產信息進行有效的數據分析,首先需要搜集企業相關用電數據信息,具體包括企業檔案數據和2018—2020 年春節前一個季度及春節后一個月的用電數據。
2.1.1 用戶分群方法
英國統計學家辛普森曾于1951 年提出辛普森悖論[11],即在某個條件下的兩組數據,分別討論時都會滿足某種性質,但是一旦合并考慮,卻可能導致相反的結論,換句話說,變量在不同的空間中可能與目標變量形成完全不同的相關趨勢。
辛普森悖論同樣會發生在電力領域:不同用戶的用電規律通常有較大的差異,而春節期間是否停工決定了用戶的用電規律,但如果用相同復工標準判斷兩類用戶,將會得到錯誤的結論。為了避免辛普森悖論,需要將其在不同的子空間中單獨進行分析。因此,根據春節用電規律將用戶分群,并使用Knee point 算法對春節期間停工用戶是否復工進行判斷,同時可以較好地平衡局部差異優化和模型運行時間之間的關系。
根據春節用電規律進行分群的方法屬于無監督模型分群。常見的模型有K-means[12-13],Kmedoids[14-16],Mean Shift[13],層次聚類[14-15],DBSCAN[16],GMM(高斯混合模型)等[17-21]。其中GMM 利用多個高斯分布對數據集進行擬合,在實踐中有更好的表現,因此本文選用GMM 進行用戶分群。
GMM 本身是一種概率式的聚類方法,設xi(i=1,2,…,m)為第i 個數據觀察值,假設樣本服從高斯混合分布:

2.1.2 基于GMM 的聚類分析
具體步驟如下:
(1)初始化高斯混合分布的模型參數Wl,ul,∑l。
(2)計算樣本Xj由各混合成分生成的后驗概率,即觀測數據xj,引入一個隱變量zj∈{1,2,…,k},表示得到樣本xj的高斯分布模型。由第i個分模型生成的概率為p(zj=),記為γji=
(3)計算新的模型參數:

(4)按照新的模型參數重復步驟2 和步驟3,直到滿足終止條件。
2.1.3 聚類分析結果
收集統計范圍內所有有效企業的電量信息、基礎檔案信息,構建春節用電比例特征K 和日電量方差N,其中:
K=春節期間平均日電量/春節前3 個月平均日電量。
N 指春節期間平均日電量方差,包括春節前3 個日電量方差。
使用GMM 算法進行聚類,由于模型不一定剛好將用戶聚為2 類,需要根據模型收斂情況,選擇合適的聚類數m,最終聚類結果如圖1 所示。

圖1 GMM 算法聚類結果
根據聚類的收斂情況,選擇最適合的聚類數為3 類。由于各類企業的日電量方差差異不明顯,本次僅使用春節用電比例K 劃分用戶,各類企業春節用電比例K 如表1 所示。

表1 GMM 算法聚類結果
根據聚類結果以及業務目標,合并第一類和第二類群體,將企業劃分為春節停工企業和春節不停工企業,具體如表2 所示。

表2 基于聚類結果劃分企業類別
根據聚類結果,用電比例大于0.26 的春節期間不停工企業,在節后停工的概率較低,因此直接默認其節后復工;對于春節停工的企業,可利用相關的拐點算法進行分析。
2.2.1 企業復工判斷標準及算法原理
企業用電水平會隨著經營情況發生變化,形成一條具有明顯波動性的用電曲線。春節停工企業在春節期間處于較低的用電水平,到復工節點會出現電量驟增的現象,屆時用電曲線將會出現明顯的拐點。基于此特征,本文采用Knee point算法判斷歷史上同時期春節后其用電量出現拐點的時間,確定相對于正常生產時達到復工狀態的用電量,并計算其與春節前平均用電量水平的比值,以此作為企業復工的判斷標準。
Knee point 算法[22-24]的基礎定義如下:
對于任何連續的函數f(x),存在一個標準的閉合形式Kf(x),它將f(x)在任何點的曲率定義為其一階和二階導數的函數:

給定一組(xi,yi),將曲線基于點(xmin,ymin)和(xmax,ymax)構成的直線順時針旋轉θ,則最大曲率點的數據集近似為曲線中局部最大值的點集,即數據曲線變平坦時,曲率變小,拐點也就會被檢測到。因此,模型最后返回曲率最大的點,即達到識別曲線拐點的效果。
2.2.2 Knee point 算法步驟
Knee point 算法具體步驟如下:
(1)使用多項式插值法對源數據集進行擬合,盡可能保持源數據集的形狀,也可用到如指數加權移動平均等方法。用Ds表示平滑曲線上點(x,y)的有限集:

式中:xsi,ysi為給定的x,y 擬合后的數據。
(2)為消除異常值對平滑曲線中最大曲率的影響,對平滑曲線上的點進行歸一化處理,用Dsn表示處理后的數據集,則有:

其中,

式中:xsni,ysni分別為歸一化處理后的x 和y 值;xs,ys分別為x,y 值形成的序列;min{xs},min{ys}指的是xs,ys序列中的最小值。
(3)尋找平滑曲線何時從平緩變化到急劇下降,設立差分曲線數據集,用Dd代表x 和y-x 的差分數據集,則有:

其中,

(4)尋找標準化曲線中的拐點,對曲線下降處,則需要計算差分曲線的局部最大值,這些局部最大值點最后都有可能成為源數據曲線的拐點,將可能的局部最大值點數據集表示如下:

其中,

式中:xdi,ydi為差分過后的數據。
(5)對于差分曲線中計算得到的每個局部最大值xlmxi,ylmxi,用連續x 值與模型敏感度參數S之間的平均差定義唯一的閾值Tlmxi。敏感度參數S決定了拐點檢測的快慢及檢測出的數量,閾值計算公式如下:

式中:Tlmxi為閾值;S 指的是對于一個曲線,輸出的拐點數,S 越大,模型越敏感,一般設為1。
(6)進行拐點檢測時,如果在達到差分曲線下一個局部最大值之前,任意差值(xdj,ydj)低于(xlmxi,ylmxi)(其中j>i)處的閾值y=Tlmxi,則Knee point 算法在x=xlmxi處存在拐點。如果在達到y=Tlmxi之前,差值達到局部最小值并開始增大,則將閾值重置為0,等待下一個局部最大值。
2.2.3 應用實例
應用上述理論方法進行實例分析,具體結果如下:
(1)對企業用電數據進行平滑處理,接著利用Knee point 算法識別2018 年、2019 年春節期間拐點日期及當日日電量T1 和T2,結果如圖2 所示。基于Knee Point 算法分析可知,2018 年春節期間,某企業在2 月21 日電量突增,表明該企業此時開始復工,T1=1 786 kWh。同理,由圖3可知,2019 年春節期間,該企業于2 月10 日開始復工,T2=1 874 kWh。
(2)分別用T1,T2 除以2018 年及2019 年春節前30 天日均電量,得到相應的企業復工比例K1和K2,再求均值得到該企業復工用電比例K=0.642,并以此為閾值對2020 年該企業是否復工進行判斷。例如,2020 年2 月11 日某企業日電量為2 690 kWh,其春節前30 天的日均電量為2 798 kWh,計算得2 690/2 798=0.961>K,則判斷該企業已復工。

圖2 基于Knee Point 算法判斷企業2018 復工情況

圖3 基于Knee Point 算法判斷企業2019 復工情況
針對統計范圍內的數據,采用上述方法對每個企業的復工狀態進行研判,得到浙江全省復工企業數量,最終計算得到區域內企業復工比例。
(3)結合復工電力指數計算公式(1),計算出浙江全省企業的復工電力指數。
在全省范圍內通過電話調研的方式,按照企業規模和行業類別隨機抽取500 家企業進行驗證,得知復工時間準確率達96.3%,驗證了本文所提算法的有效性及準確性。
基于前文所述企業復工電力指數計算方法,評估浙江省范圍內企業復工復產情況,為政府疫情防控工作提供參考。
根據前文提出的企業復工電力指數計算方法,得到浙江各地企業復工情況如圖4 所示。可以看出,指數最高的為舟山(71.33),最低的為臺州(21.89)。經計算,2 月16 日(正月廿三)浙江省復工電力指數為36.01,相較2 月15 日(正月廿二)的32.94 上升明顯。

圖4 浙江各地2020-02-16 企業復工電力指數分布
為了研究全省企業復工趨勢,連續計算每日的復工電力指數,結果如圖5 所示。對比發現,2020 年正月同時段企業復工電力指數與2019 年差距較大,2019 年正月十七至正月廿三全省復工電力指數增長速度較快,2020 年此段時間仍處于疫情防控狀態,指數以較穩定的速度緩慢上升。

圖5 2019 年、2020 年浙江省企業復工電力指數趨勢對比
根據分析需要,對復工電力指數分析對象作進一步細化,剔除國家行政機構、醫院等公共服務及管理組織企業(7.3 萬戶),調整后得到新的企業復工電力指數如圖6 所示。對比圖5 可知,剔除相關公服企業后,2020 年企業復工電力指數均有所下降,這說明當前復工的企業中,醫院等公共服務機構較多。

圖6 2019 年、2020 年浙江省企業復工電力指數趨勢對比(剔除公服企業)
圖7 給出了浙江各地市企業2019 年、2020年同期復工電力指數,可以看出,2020 年正月廿三浙江各地市企業復工電力指數情況較2019 年同期均有明顯下降。通過對比分析可知,受疫情影響,目前浙江各地市企業復工指數雖然穩步上升,但總體復工情況相比2019 年,還有較大的提升空間,后續根據疫情的防控情況,政府可以出臺相應的鼓勵復工舉措。

圖7 浙江省各地市企業2019 年、2020 年同期復工電力指數對比
同時,由于各個地區疫情防控程度不同,后續建議因城施策,各地根據實際情況制定復工舉措,例如:溫州由于受到疫情影響比較嚴重,因此復工受到較大影響,后續應采取更加靈活的復工措施;舟山企業受疫情影響較低,復工指數較高,是因其屬于海島型城市,隔離方便。
為有效輔助政府對新冠疫情形式下企業復工復產情況進行管控,供電公司充分發揮自身電力數據資源優勢,在深入開展數據挖掘的基礎上,提出了企業復工電力指數的具體計算方法。基于企業復工電力指數計算方法,對浙江省的企業復工情況進行測算,并將其與實際情況進行對比分析,驗證了所提計算方法的有效性。實際應用表明,本文提出的企業復工電力指數可以準確全面反映企業的復工狀況,為后續企業復工相關政策的制定提供重要支撐。