陳海峰,應國德,曹 杰,林 超,潘成峰,金 潮
(1.國網浙江溫嶺市供電有限公司,浙江 溫嶺 317500;2.國網浙江省電力有限公司臺州供電公司,浙江 臺州 318020;3.溫嶺市非普電氣有限公司,浙江 溫嶺 317500)
由于分布式光伏發電享受的補貼主要取決于自身發電量,在利益的驅使下,某些用戶通過技術手段使分布式光伏上網電表多計量發電量,進而獲取高額補貼,這種騙取補貼的行為稱為光伏竊電行為。光伏竊電行為嚴重影響了中國新能源扶植政策的落實和發電市場的公正性,用戶因竊電私自改接線路給供配電帶來了巨大的安全隱患,影響了光伏發電行業的正常發展。
光伏竊電是一個較新的課題,目前研究較少。但對傳統反竊電手段進行分析,可以為本課題的研究提供思路。目前國內外的反竊電手段主要包括儀表自身數據排查、竊電識別技術、大數據分析技術[1-2]。
儀表自身數據排查主要是從儀器數據自身的層面對數據進行簡單分析,排查可能的竊電行為,這是目前研究和應用都比較多的策略。詹喬松對常見的兩種竊電接線方式進行了分析,針對這兩種竊電接線方式制訂了分析策略。這種策略雖然是針對傳統竊電行為的,但依據其逆向思路也可以發現光伏竊電[3]。
竊電識別技術是通過人工神經網絡、支持向量機、邏輯識別等人工智能算法來發現竊電行為。胡林等對高壓采集終端、低壓采集終端和無線數字公用通信網的數據進行協同分析,利用邏輯識別的手段檢測竊電行為。這種算法在常德供電局已得到應用,運行效果良好[4]。
大數據分析是利用數據挖掘的相關算法,結合高性能計算機,實現對竊電行為的分析。王穎琛等利用高維隨機矩陣分析了竊電行為的統計學特性,結合大數據分析技術,實現了對竊電發生的判別、竊電發生時間的確定、竊電地點的精確定位、竊電類型的判別[5]。楊蘭從配電環節進行數據分析,計算配電管理系統的特征值,從而對竊電行為進行判斷[6]。
由于巨大的商業利益,竊電領域是一個攻防升級都很快的領域。近幾年,竊電方式已經由傳統的線路改造、電表改造,升級為智能電表改造[7]、虛假數據智能生成[8-9]等多種手段并舉的模式。本文所涉及的光伏領域,竊電案例逐年上漲,如果不盡快遏制此類行為的苗頭,將給電網行業、社會信用帶來難以挽回的損失。
聚類算法是機器學習中涉及對數據進行分組的一種算法,它包含HCM(硬聚類)和FCM(模糊聚類)。HCM 是在基于目標函數的聚類算法理論中比較完善、應用比較廣泛的方法。本文從智能電表入手,以電力數據特征量的提取為手段,綜合HCM 算法,對竊電行為進行挖掘,并通過在浙江臺州的實際應用,對該算法的有效性進行驗證。
近幾年,隨著通信技術的提升,智能電表分時段甚至按照小時、分鐘上送發電量已經常態化。細粒度的數據為精細化的竊電檢測提供了可行的基礎,同時也抬高了樣本的維數。考慮到用戶數量多,這種高維數為數據的分析帶來了極大的挑戰。提取數據中的關鍵信息,降低數據復雜度,是解決此類問題的必由之路。
圖1 以浙江臺州某光伏用戶的數據為依據,選取了1 條冬季出力曲線和1 條夏季出力曲線。2條曲線均每隔0.5 h 進行一次采樣,每天有48 個量測點。夏季光照強,隨著太陽的升起,光伏曲線迅速抬升,達到出力極限以后將不再飆升;冬季光照弱,上午的出力曲線緩慢爬升,但始終不會達到出力極限。
江浙地區極少出現雷暴天氣[10],因此光照強度很少出現斷崖式的變化,而是呈現出比較平緩的出力曲線[11],這一特點為本文的特征提取算法提供了依據。

圖1 不同季節的出力曲線示例
光伏出力遵從下述公式[12]:

式中:Ep為單位時間段內光伏設備的發電量(以圖1 為例,Ep為0.5 h 內光伏設備的發電量),由于時間間隔已經取定,因此該量與發電功率是一致的;H 為單位時間、單位面積內的太陽能總輻射量(以圖1 為例,就是0.5 h 內單位面積的太陽能總輻射量);S 為光伏設備中光伏組件的總有效面積;K1為光伏組件的轉化效率;K2為系統綜合發電效率。從式(1)可以看出,對于一臺固定的設備,光伏設備的發電量只與光照強度有關。

在江浙地區,由于雷暴天氣極少,一天內的光照強度變化一般比較平緩。因此,可以直接根據幾何學原理,推算太陽光照強度的變化規律[13],即:式中:Hmax,Hmin分別為一天中光照強度的最大、最小值;t0為日出時間,在式(2)中換算為相對于0:00 的秒數;t3為日落時間。公式的第一行是針對白天的,近似服從三角函數的變化(越接近太陽直射點的地區,上述公式越準);公式的第二行是針對黑夜的,圓月和殘月光照強度不同,黃昏后、深夜和黎明前光照強度也不同,但是這樣強度的光照遠遠弱于白天,因此其波動可以忽略不計。
綜合式(1)和式(2)可以看出,當白天光照強度沒有達到光伏設備的發電極限時,發電功率近似可以看成三角函數。
為了得到更精確的結果,可以采用小波分析和支持向量機相結合的方式進行預測。
采用拉格朗日乘子,可以得出回歸函數:

式中:k(xi·x)為核函數;為徑向參數;c 為偏移。

式中:g 為核函數參數;z 為中心點。通過設置g和z,可以得到更好的預測函數。
本文中曲線采用一天48 點的采樣頻率,在實際應用中,一天24 點、96 點、288 點的采樣頻率均可能出現。如果直接對量測點的數據進行分析,則難以評估曲線自身的變化規律,而且會造成“維數災難”。不同用戶的采樣頻率可能不同,這也為統一分析帶來了挑戰。因此,需要從曲線中提取特征量,作為后續分析的依據,以此降低數據維數。從上一節的分析可知,光伏設備的出力曲線包含時間、負荷量兩大特征。
首先看光伏出力曲線時間特征,如圖2 所示。從圖中可以看出,時間特征主要包含t0,t1,t2,t3這4 個時間點。圖中每0.5 h 進行一次量測,因此橫軸數字1 代表0:00,2 代表0:30,3 代表1:00,依此類推。t0,t1,t2,t3分別代表出力開始明顯上升、出力臨近極大值、出力開始下降、出力臨近極小值的時間點。可以對比前一個采樣點和后一個采樣點的出力:兩者之差的絕對值第一次大于閾值時,意味著t0或t2的到來;兩者之差的絕對值第一次小于閾值時,意味著t1或t3的到來。事實上,上述4 個時間點中,t0,t3與日出、日落時間是吻合的,可依據所在地區的緯度和日期得出。光伏設備如果沒有達到出力極限,那么t1,t2取值相同,對應日中時間。由于江浙地區的實際時間略晚于東八區時間,所以t1,t2取值相同時(未達到發電極限),該時間略晚于正午12:00。
負荷量的特征值主要包括最高單位時間發電量EPmax和最低發電量EPmin。此外,需要擬合發電功率爬升和下降階段的曲線。

圖2 光伏出力曲線的時間特征
一般而言,擬合曲線可以借助小波分析、傅里葉級數[14]等多種方式。從前文分析已經可以看出,爬升和下降階段的曲線與三角函數相似。因此,可以將曲線擬合為三角函數,擬合算法借助了傅里葉級數的思想。假設t0,t1,t2,t3這4 個時間點對應的量測點編號為m0,m1,m2,m3則:

式中:a 為起始點參量,相當于傅里葉級數中的第一個參量(平均值);b 為一階分量,與曲線的波動程度直接相關;Ep(n)為n 點的單位時間發電量;Eps(n)為利用公式擬合后所得到出力曲線。
光伏出力曲線的擬合如圖3 所示。可以看出,利用式(5)所得到的擬合效果與曲線的實際情況相似度較高。從經驗來看:如果被擬合日的氣象狀況比較平穩,那么擬合效果較好;如果被擬合日的氣象發生劇烈變化,那么擬合效果較差。但是,如果用戶存在光伏竊電行為,這種擬合效果極可能不佳,除非竊電人刻意以三角函數為模型上送發電數據。

圖3 光伏出力曲線的擬合

基于上述分析,需要對曲線特征進行進一步的提取。式中:am0,m1(Ep)為上升段的平均負荷;σ 為上升段實際曲線與擬合曲線的方差,通過σ 表示2 條曲線的差異。
此外,判斷是否發生竊電的另一個重要方法是:后一日發電量是否相對于之前一段時間(如30天)發生了顯著的增加。

式中:Ep,sum,分別為光伏用戶當日發電量、此前30 天的日均發電量;δ 為兩日發電差值率。如果δ 數值較大,那么說明天氣由陰轉晴、用戶擴容,或者存在竊電行為。
至此,可以得出光伏發電曲線的特征向量:

式中:σ′為下降段曲線方差;Epmax,Epmin分別為Ep的最大值、最小值。
可以看出:式(8)的前7 個分量與負荷的具體數值無關,表示了負荷曲線本身的形狀,后文的聚類算法主要針對前7 個分量進行分析;后3個分量涉及了具體的數值,與輔助的反竊電手段有關。
HCM是一種典型的動態聚類算法,它有明確的聚類中心,自適應能力差,但速度快;FCM 則沒有固定的聚類中心,需要反復迭代,但自適應能力很強[15-17]。
在光伏發電的場景下,正常的發電用戶一般遵循較為相似的發電曲線[18-23]。如果能夠找到正常出力的代表曲線,以之作為聚類中心;針對常見的竊電手段,考察其曲線特征,以之作為竊電用戶的聚類中心。基于這種相對固定的特征,可以采用HCM 算法進行聚類。
聚類中心主要有三類:第一類是正常的出力曲線,第二類是設備故障等原因導致的非正常出力曲線,第三類是存在竊電行為的出力曲線。
對于正常的光伏出力曲線,首先指定可信的光伏設備。這種設備一般為電力公司自營的光伏設備,可以隨時檢查其運行工況。如果反竊電系統未接入此類設備,那么以日期、氣象因數進行計算,或者任取若干個設備的出力曲線,計算其平均特征。如果系統內包含多種差異較大的光伏設備,可以從每一類設備中選取一個聚類中心。
對于故障場景,其突出特點往往是比正常的光伏設備發電量要低很多。其特征為b,Epmax的數值都很小,發生故障的第一天,δ 的數值為負數。基于該特征,可以設置兩個故障設備的聚類中心,具體如下:

對于存在竊電行為的光伏設備,其竊電目標是在數據上造假,比正常的數值要大很多。基于這種考慮,其特征包括:
(1)t0,t1,t2,t3這4 個時間點明顯與晝夜變化背離。作為上升段,發生竊電時t0,t1一般比正常值偏早;作為下降段,發生竊電時t2,t3一般比正常值偏晚。
(2)σ 和σ′數值很大,少數情況下很小。如果正常設備的σ 較大(當日天氣發生了劇烈變化),那么對于σ 較小的設備,可以判定存在竊電行為。
(3)δ 數值遠高于正常值,可以判定存在竊電行為,但該判據僅適用于竊電行為發生的第一天。
(4)Epmax,Epmin數值很大,這是一部分以改接線路為手段進行竊電的典型特征。
對于竊電行為,可能同時存在上述4 種特征,也可能只存在部分特征。以正常曲線的聚類特征為基礎,將式(8)中的特征分量分別替換為異常值,就可以得到多個代表竊電的聚類中心。竊電情形的聚類中心與正常情形的聚類中心越近,竊電檢查的標準就越嚴格,誤報率越高;反之,則漏報率越高。
對于所有樣本,正常光伏用戶的集合記為Sn,疑似竊電的用戶集合記為Ss,故障設備的集合記為Sb,未確定是否正常的用戶集合記為Su。在確認聚類中心以后,按照下述步驟挖掘竊電行為。
(1)考察樣本的δ。設關于δ 的閾值為δΔ,聚類中心記為cΔ。如果δ-cΔ≥δΔ,表明當日發電量遠高于前一日,而且超出了正常范圍,該樣本疑似竊電,記入Ss;如果cΔ-δ≥δΔ,表明與其他用戶相比,當日發電量低于前一日,該樣本疑似故障,計入Sb;剩余樣本計入Su繼續考察。
(2)對保留在Su中的樣本考察t0和t1,定義基于這兩個量的距離如下:

以上述距離為基礎,利用正常、故障、竊電3 個聚類中心以及HCM 算法,將樣本分別計入Su,Sb和Ss。
針對t2和t3也進行相似的分析。
(3)對保留在Su中的樣本考察σ。定義σ 的距離如下:

在σ 值較小時,只在比σ 數值大的一側設置竊電的聚類中心;在σ 值比較大時,在該值的兩側都設置竊電的聚類中心。由于方差的影響因素較多,在實際應用中可以適當調整聚類中心的遠近,以決定方差的敏感性。應用HCM 算法,將樣本分別計入Su和Ss。
對于σ′進行類似操作。
(4)對Epmax,Epmin,b 設置閾值,當參數值高于閾值時,則判定存在竊電行為。Su中剩余的樣本判斷為正常光伏設備,計入Sn。
至此,完成樣本分析。對于Ss中的光伏發電設備,可以通過上門檢查等手段進行最終確認。
通過負荷曲線以外的數據信息,可以輔助發現竊電行為,進一步提高判定的準確率。這主要包括以下幾種信息:
(1)電壓、電流量。功率是通過電壓和電流計算出來的,如果改變接線,那么可以提高電壓或電流值,以此獲得更高的光伏補貼。設置電壓、電流的閾值,當這些數據處于非正常水平時,可以判定竊電。
(2)用戶接入信息。用戶接入當日,不進行第2 節的分析,這樣避免竊電誤報。次日開始,接入線路本身的功率閾值,可以作為判斷Epmax是否超過限值的依據。
(3)光伏設備的信息。包括光伏設備采用單晶硅還是多晶硅、峰值功率、峰值電壓等,以及逆變器的額定輸出容量、整機效率。將這些信息與Epmax對比,可以作為判定竊電的依據。
(4)氣象信息。主要指光照變化情況,利用光照信息可以擬合出正常樣本的σ,σ′,δ 等數據。如果與光伏設備本身的參數結合,這個數據會更準確。
(5)線路信息。結合配電網數據,考察各線路的線損,線損較高的線路存在竊電的可能性較大。針對該線路,將相應的竊電情形的聚類中心參數設置為與正常情形較接近的值,提高竊電檢測的嚴格度。
自2019 年3 月以來,在浙江臺州選擇了948家光伏用戶進行了實例驗證。這948 家光伏用戶以居民為主,峰值功率都在3~5 kW,用戶申請光伏并網時注冊的設備信息均可查。光伏設備的數據每隔0.5 h 上送至電力公司,數據只包含每小時的發電量。由于不能接入氣象、配電網數據,因此在查找竊電行為時未考慮此類數據。
這些用戶中包括臺州一家電力營業廳,其峰值發電功率為5 kW。基于其可信任性,將該用戶設置為正常用戶的聚類中心。以5 月8 日首次運行本文算法為例:t0為330(以分鐘為單位,對應5:30),t1為510,t2為960,t3為1 140;σ,σ′分別為0.253 9 和0.103 9;δ 為0.012;Epmax為245 kWh,Epmin為1 kWh,b 為240.48 kWh。對于故障場景的聚類中心,將Epmax設置為0;對于竊電場景的聚類中心,將δ 設置為1。
經過本文算法分析,得到如圖4 所示的散點圖。

圖4 設備特征的提取實例
從圖4 可以看出:有2 個設備的δ 值明顯高于正常值,疑似新發的竊電行為;另外2 個設備的σ 值與正常設備的聚類中心距離很遠,也推測存在竊電行為,并且已經存在了一段時間。后經工作人員登門勘驗,證實了系統的檢測結果。
該系統自上線以來,累計發現23 起疑似竊電行為。經登門勘驗,確認22 起屬實;另外一起是由于用戶新增設備,導致了算法判斷失誤。該系統誤報率為4.3%,目前尚未發現漏報情況。
本文針對光伏竊電行為,設計了基于HCM的反竊電算法。該算法首先利用傅里葉級數的基本原理,結合差值分析方法,提取出設備曲線的10 項重要特征分量;然后根據設備的發電特點,選擇正常、故障、竊電設備的聚類中心;最后根據特征分量的優先級,梯次利用HCM 算法聚類至疑似竊電用戶。
本文算法需要改進之處包括:
(1)目前的10 個特征分量仍然較多,如果應用于大型系統,那么對系統的壓力較大。希望能夠進一步減少特征分量,提高算法效率。
(2)本文僅在存在可信用戶的地區進行了驗證。對于不存在可信用戶的地區,算法的有效性仍然需要考證。
(3)如果用戶針對算法特點刻意偽造發電曲線,則存在漏報的可能性。