江疆,彭澤武,蘇華權
(廣東電網有限責任公司, 廣東, 廣州 510000)
電網智能化的發展,使得行業動態、氣象信息、工商用戶等跨行業數據大量融合,并呈現高容量、快速性、多樣性等大數據特征[1]。同時,跨行業數據為HMSD,存在大量非結構化數據,無法用傳統數據分析方法進行準確的不良數據分析,影響電網穩定運行和規劃,也降低了數據的安全性[2],限制電網智能化的發展。有學者認為,電網智能化發展的目的是滿足應用場景需求,所以從負荷預測、運行狀態、電能質量檢測角度出發[3],分析大數據下HMSD,可以提高不良數據的識別準確性。也有學者認為,大數據中的HMSD價值較低,且非結構化數據比例較高[4],可以通過提取特征值的方式,提高HMSD的價值,并減少數據的處理量。基于上述背景,本文利用Metropolis接受準則進行特征值的分析,從應用場景的角度分析HMSD,以提高不良數據的辨識準確度。
電網大數據HMSD有兩方面特點,一方面是海量、低價值和多樣性數據,且非結構化數據比例>50%;另一方面,數據多源性,且為動態獲取方式,數據結構如圖1所示。

圖1 HMSD數據描述
由圖1可知,HMSD數據的來源多樣,是跨行業數據的綜合,需要通過計算、觀察和測量等方式獲得[5]。HMSD數據的結構以非結構化、結構化形式為主,且與EMS、PMS和GIS等數據源聯合,形成海量的大數據。HMSD要從應用場景出發,結合配電網負荷、電網運行、電能質量等角度分析,實現不良數據的高效檢出。
電網信息化、電力需求影響因素多樣化,使得大數據特征日益凸顯,傳統用電分析方法無法完全適用各種場景需求。遺傳算法、粒子群算法、支持向量等智能預測算法可以滿足體量大、類型多的電網大數據需求,實現電網負荷、電網運行、電能質量的預測分析。下面對電網應用場景的參數進行設定[6]。

(2) 假設N為HMSD中的任意數據,i為數據來源的行業,j為數據的結構類型(結構化數據=1,否則=0),k為數據的獲取方式(定性方法獲取=1,定量方法獲取=2,綜合獲取方式=0),l為數據安全監測裝置(注:1~5等級,數值越高等級越高),m為場景中智能信息采集裝置,那么信息采集項可以描述為Ni,j,k,l,m,i,j,k,l,m=(1,2,…,n),n為自然數。
(3) 適用場景為單位,將類似的行業來源、結構類型、獲取方法、安全監測等級和采集裝置的數據劃分到同一應用場景中。
(4) 所有場景的信息均由電網智慧中心集中分析,在預測準確性、預測時間和安全等級的條件約束下,對獲得的數據按照相關權重、閾值進行排列。
(5) 任何場景中的數據采集時間、數據安全等級相同或類似[7]。
(6) 場景分析的穩定性,要采用傅里葉級數的方法,減少設備、人員和其他非抗拒因素的干擾。
(1)
其中,P為場景分析描述的抗干擾能力,t為抗干擾測量時間,y為數據加密程度,z為傳輸距離,z為傳輸安全等級,ξ為干擾系數。
不同場景采集的數據資料需要先進行k-means處理,處理公式如式(2)

(2)
其中,S為聚類的范圍,即數據聚類的程度,其值越小說明聚類效果越好,I為場景采集的數據信息,i為信息的編號。另外,S可以用相似度J代替,以此提高計算的效率。為了簡化流程,可以利用某一數據出現的頻率進行權重判斷,即依據以往歷史數據,或者電網數據庫中的數據頻率,判斷場景設備采集到的數據閾值,其計算公式如式(3)

(3)
其中,Gij為j設備采集i信息的次數,Gi為i信息在電網數據庫中出現的次數,Gj為j設備發送信息的頻率,wi為i信息的閾值。
電網進行大數據跨行業融合場景分析前,要對各場景依據相關標準進行歸類與判斷。本文采用退火模擬算法的Metropolis接受準則[8],如果應用場景符合電網實際需要,則采集相關數據,否則將不接受該場景數據,并將所有設備處于“休眠”狀態。Metropolis接受準則判斷節約了電網硬件資源,也減少了跨行業數據量[9]。
假設應用場景所處狀態為Ti,則對其進行Metropolis接受準則分析,判斷該狀態是否需要改變,即由i狀態向i+1狀態改變,其計算公式如式(4)
(4)
其中,exp()為期望函數,判斷是否要進行狀態改變,R(T)為應用場景狀態改變的結果函數。如果R(T)的結果處于0~0.5,說明狀態的改變程度較低,可以維持原有狀態。如果結果處于0.5~1之間,說明應用場景需要改變,或者被“激活”、處于“休眠”。
應用場景與跨行業數據的擬合分為[10]:局部擬合Pc、整體擬合Pm,從不同方面反映兩者的擬合情況,也是不良數據計算的前提。Pc、Pm值越大,代表數據擬合度越好。由于2.1中的Metropolis接受準則限制,要求兩個數據均為最優,才能成為計算數據,所以其計算公式如式(5)、式(6)
(5)
(6)
其中,N1,1,0,1為Pc的初始值,N1,1,1,0為Pm的初始值,Rmin為整個融合數據的最小值,Rc為局部最小值,Rm為整體最小值,φc為局部擬合系數,φm為整體擬合系數。
不良數據計算前要構建相應的數據序列,本文采用適度函數來明確跨行業大數據與應用場景之間的關系[11]。適度函數在預設精度、閾值約束的條件下,進行多次迭代分析,引導算子向正方向計算,降低局部極值,“假特征值”的出現率[12],提高不良數據計算的準確性,具體公式如下。
(7)

基于上述的數學描述,需要進行以下幾方面的計算:
(1) 設置初始應用場景C={c1,c2,…,ci}值,數據擬合(局部擬合Pc、整體擬合Pm)和計算精準度的閾值,HMSD的數據Ni,j,k,l,m值,以及初始的Metropolis接受準則;
(2) 對擬合后的數據進行梯度200次迭代測試[13];
(3) 依據Metropolis接受準則、約束條件,驗證計算結果,并將符合要求的結果納入到Total方案中,并計算整體方案的不良數據識別準確度和計算時間[14];
(4) 判斷所有的數據i是否均被遍歷,則如果是則終止計算,否則轉入步驟(3);
(5) 最后輸出Total方案中的最小值,退出計算過程。
以2020年跨氣象、交通、電力行業、工商的大數據為例[15],分析風力、太陽能、水利等應用場景下電網負荷、電網運行、電能質量數據,確定其中不良數據的判別準確率和時間。數據擬合(局部擬合Pc、整體擬合Pm)精度和計算精準度設置為0.1,迭代次數200次,其中,數據采集裝置為電能表102,3個,電壓表209,2個,變壓器102個,服務器6臺,通信協議為TCP/IP、HTTP等,SQL數據庫4個,拓普瑞電網檢測系統6.0,數據傳輸密碼為64 Bit,光纖、Wi-Fi、GPS通信,信息安全等級3級,遵循2015年版《電網運行準則》(GB/T 31464),IP地址為192.168.1.102~192.168.1.202。
通過k-means聚類和Metropolis接受準則,對跨行業數據、應用場景數據進行標準化處理,并進行150次迭代分析,得到數據擬合結果,如圖2所示。

圖2 應用場景與跨行業數據的擬合結果
由上圖可知,大數據局部擬合、應用場景局部擬合較高,均>95%,而整體擬合較低,但是也>90%,說明整體擬合較高,也符合k-means聚類和Metropolis接受準則設置的閾值10%的要求。
電網大數據跨行業數據融合應用場景分析的關鍵指標是電網負荷判斷xi,電網運行狀態判斷xj,電能質量判斷xk,3個指標中不良數據的辨識精準度,直接決定整個模型有效性。通過MATLAB仿真分析可知,上述3項指標中不良數據的識別精準度均>95%,而初設閾值和《電網運行準則》中的要求為0.1,所以仿真結果較佳,結果如圖3所示。

圖3 不良數據的辨識精準度
跨行業數據融合的特點是數據具有大數據特征,數據處理量大,處理復雜度高,所以不良數據的辨識時間是另一個驗證指標。結果顯示,電網負荷判斷xi,電網運行狀態判斷xj,電能質量判斷xk中不良數據的辨識時間均<7 s,電能質量、負荷判斷中不良數據的辨識時間<4 s,主要是由于運行的計算過程相對復雜。但是,整體的不良數據的辨識時間,均符合《電網運行準則》中的要求,結果如圖4所示。

圖4 不良數據的辨識時間
電網智能化的快速發展,使得跨行業數據融合越來越多,諸如,氣象、交通、電力行業、工商等[16],且數據量、復雜度等方面呈現大數據特征[17],使得傳統的分析方法無法滿足相關場景分析的要求,致使不良數據辨識準確率大幅下降[18]。本文提出的一種基于k-means聚類和Metropolis接受準則的分析方法,通過對跨行業數據、應用場景數據標準化處理,得到精度為0.1的擬合數據。然后,利用遺傳算法和迭代計算,得到電網負荷判斷xi,電網運行狀態判斷xj,電能質量判斷xk等指標的不良數據辨識率。MATLAB仿真結果顯示:3項指標中不良數據的識別精準度均>95%,而初設閾值和《電網運行準則》中的要求為0.1。同時,3項指標中不良數據的辨識時間均<7 s,且電能質量、負荷判斷中不良數據的辨識時間<4 s,整體判斷結果較佳。