徐飛,周遠科,章海峰,王智廣,施曉敏,華傳程
(國網安徽省電力有限公司,安徽合肥 230061)
在現代社會中,電力系統是不可或缺的基礎設施。隨著我國經濟和社會的迅速發展,傳統的電力網絡已無法適應現代經濟發展,而智能電網的出現使電力行業發生了較大的改變。在充分發揮智能電網技術優勢的同時,也出現了許多數據安全性問題,而作為電能計量的終端,智能電網的使用對用戶的信息安全提出了更高的要求。智能電網建設的基本要求是由運營中心通過用戶配置的智能電表,對所轄區域的電力進行實時監控,從而達到動態調度、電價制定等目標。然而,在此過程中,個人信息的安全性也受到了極大地調整,為此需要對智能電網數據進行安全聚合處理。目前,部分學者提出基于Paillier算法的聚合方式,通過構建超遞增序列,結合Paillier加密技術實現多維數據的添加與加密,以此達到智能電網數據安全聚合的目標[1];還有學者提出基于霧輔助輕量級隱私保護的聚合方式,利用云霧協作的多級聚合模型,對智能電網數據進行高速解析,借助散列函數的輕量級認證,實現智能電網數據安全聚合[2]。由于智能電網數據量較大,類間相似度較高,使用目前的兩種方法無法使數據安全聚合。為此,提出了基于近鄰傳播聚類的智能電網數據安全聚合方法。
近鄰傳播聚類是根據數據點間的信息交換與更新,選取出一系列具有代表性的點,并將其分布到鄰近的一個節點上,從而實現了數據點的有效分割[3]。
根據以上分析選取了一組樣本,對其進行了聚類分析。基于近鄰傳播的聚類結構分布示意圖如圖1所示。

圖1 基于近鄰傳播的聚類結構分布示意圖
在圖1 中,類別b 是抽樣群集的近鄰聚類,這是由于b 類符合類別之間的距離需求。此外,當樣本未歸入類別a 時,類別b 是最好的選項。在聚類初期,使用近鄰傳播方法將所有日常場景樣本作為潛在的聚類中心,然后對這些數據進行迭代和更新[4-5],以此完成數據聚類中心的確定。
通過與K-means 聚類、分層聚類等聚類算法的聚類結果進行對比可知,近鄰傳播方法可以將聚類結果轉化為具有潛在聚類中心的聚類,使聚類結果不會出現因尋找中心而耗費時間過長的問題,再通過預先確定的聚類數量,使聚類結果更加穩定[6]。
為了構建相似度矩陣,需統計智能電網中的日場景樣本,在保證全部樣本都被采集的情況下,構建相似度矩陣如式(1)所示:
在式(1)的矩陣中,qi表示日場景樣本。非對角線參數表示日場景中的歐幾里得距離,即在m維空間中兩個樣本間的真實距離[7]。在日常場景中,對角線元素可以作為一個衡量群集中心的指標,所以將其設置為參考值。參考值對聚類結果的個數有很大的影響,與其他的聚類方法相比,近鄰傳播聚類算法通過構建相似度矩陣來判斷日場景樣本是否能夠作為聚類中心。如果適合,可將其作為基于近鄰傳播聚類的聚類中心[8-10];反之,如果不適合,需通過重新統計日場景樣本來構建相似性矩陣,進而挑選出適合作為聚類中心的日場景樣本,實現聚類中心的精準確定。
結合上述確定的聚類中心,在迭代過程中,為了避免出現震蕩,將當前的迭代結果與以前的迭代結果進行對比分析,獲取迭代更新結果[11]。
使用近鄰傳播聚類方法,設計智能電網數據安全聚合流程,如下所示:
步驟一:初始化相似度矩陣
對于相似度矩陣初始化,需將對角線元素視為同一值,并在保證無先驗知識的情況下,將可信度和參考值的值都設定為0,由此完成相似度矩陣的初始化處理[12]。
步驟二:確定最佳聚類數
類間類內指標反映出個體樣本的聚類有效性,如果類間類內指標值越大,則說明個體樣本的聚類效果越佳。在此基礎上,對數據集合進行了統計,并對其聚類結果進行了比較,以平均值作為聚類指標。如果平均值越大,那么說明數據集的聚類效果也就越明顯,其中平均值的最大值,就是最佳聚類數[13]。
在此基礎上,采用基于距離度量的分類指標對聚類結果進行了有效性分析[14]。數據集聚類的平均類間類內劃分指標值為:
式(2)中,k(j,i)表示類間類內表達數據集。根據式(2)計算最佳聚類數,公式為:
通過式(3)可確定最佳聚類數。
步驟三:聚類結果更新
聚類結果更新過程如下所示:
step1:對K個聚類簇進行初始化,將各簇中心的權重設定為0。
step2:讀取N個文本數據,將各文本數據的簇中心權值設定為1,并將N個文本數據與K個聚類簇中心進行合并,使用近鄰傳播算法進行迭代更新處理,獲取簇中心更新結果[15]。在對聚類中心進行更新時,需要對新的聚類結果進行加權處理,并由此得到新增加的數據,公式可表示為:
式(4)中,δk為新數據和歷史數據之和。
step3:新集群中心的權重越高,其所占比重越大。在將N+K組數據聚集到K組新的聚類中心時,每組新的聚類中心將進行權值衰減計算,如圖2所示。

圖2 衰減模型
圖2 中,H表示新增加的數據;G表示歷史數據。通過統計新增加的數據、歷史數據和設定衰減系數,可得到新的聚類中心衰減權值[16]。
step4:重復步驟2,直至完成數據流程或人工終止。
步驟四:輸出聚類結果
由于不能將K類直接用作分類器的輸入參數,所以,可以獲得K個群集的聚類結果。根據輸出的聚類結果設計智能電網數據安全聚合流程,如圖3所示。
由圖3 可知,將各節點作為一個集合節點,分別對所需要的最小相似數據進行匯總,選取最少的節點為集合節點,然后將該節點的數據轉發到由該節點產生的最優集合拓撲,以此完成數據的安全聚合。

圖3 智能電網數據安全聚合流程
智能電網數據中的每個數據特征權重都會被賦予不同的值,數值大小需要根據其特征所在區域中的重要程度來計算得出。智能電網數據集合表示完成后,分析不同數據之間的相似度。判別公式為:
式(5)中,wi、wj分別表示數據i、j的權重。在求解每個節點的最小相似度時,每個節點都有一個時間參數,因此可以先求出相似度最小的節點。當網絡拓撲結構被確定為0 時,就不需要再將鏈路信息分組傳輸給節點,從而實現了對智能電網數據的安全聚合。
為了驗證基于近鄰傳播聚類的智能電網數據安全聚合方法的合理性,進行實驗驗證分析。該實驗選取了三組數據集,并與基于Paillier 算法的聚合方式、基于霧輔助輕量級隱私保護的聚合方式進行比較。
3.2.1 聚類結果平方差分析
分別使用三種聚合方法對比分析聚合程度,對比結果如圖4 所示。

圖4 三種方法聚合程度對比分析
由圖4 可知,使用基于Paillier 算法的聚合方式、基于霧輔助輕量級隱私保護的聚合方式,聚合程度始終低于基于近鄰傳播聚類的智能電網數據安全聚合方法。對于A 組數據,基于近鄰傳播聚類的聚合方法的聚合程度始終高于0.70,說明聚合結果穩定。而使用其余兩種方法聚合程度整體變化趨勢波動幅度較大,說明使用這兩種方法聚合結果不穩定,導致聚合程度較低。
3.2.2 聚合場景數量分析
分別使用三種聚合方法對比分析聚合場景數量,對比結果如圖5 所示。
由圖5 可知,使用基于Paillier 算法的聚合方式、基于霧輔助輕量級隱私保護的聚合方式,每次聚合數量均不一致,說明這兩種方法穩定性較差。而使用基于近鄰傳播聚類的聚合方法,經過多次運行后聚合場景數量均一致,說明聚合穩定性較高。

圖5 三種方法聚合場景數量對比分析
針對當前方法存在的問題,提出了基于近鄰傳播聚類的智能電網數據安全聚合方法,通過實驗證明了該方法的數據聚合效果好。由于實驗數據流入類型的數目對聚合效果有一定的影響,因此接下來要做的工作就是對數據流類別數目的大量變動情況進行深入分析。