亓紅紅
(廣東電網有限責任公司珠海供電局,廣東, 珠海 519000)
異常數據集內會包含偏離大部分對象的數據,一般和大多常規對象數據存在較為明顯的差異,甚至會使人懷疑這些數據是通過另一種完全不同的機制所產生的,這類數據隱藏在各類隱私文件中,對整體數據的合理性和安全性產生嚴重影響。這一現象受到國內外學者的廣泛關注,成為數據挖掘領域里較為關鍵的分支[1]。
這種人工操作方式客觀實時性較差,且過程復雜并容易出現錯誤。又因為配電網供應鏈上涵蓋層次太多、數據極大,這種異常數據挖掘工作所需要人力、物力成本高[2]。傳統基于統計、距離、密度以及聚類的挖掘方法又難以滿足配電網物資供應鏈實時需求[3]。
針對上述問題,本研究提出一種基于緊湊模式樹的配電網物資供應鏈異常數據挖掘方法。
配電網物資供應鏈內的物資數據經常組織為多種維的形式,可以表示為D={d1,d1,…,dn},每種維di組織即一種層次Hi,每種層次經過部分維層組成[4]。所有維層次的笛卡爾集可以憑借格架構描述Γ=H1×H2×…×Hn。格架構就是有向圖,每一種節點都能夠描述一種cuboid,邊為每個cuboid之間含有的依賴關聯。在實際情況下,為了提高查詢處理效率,通常會將格架構內的一些cuboid進行實體化并儲存至供應鏈物資數據庫內。
設定M為格架構Γ里每一種已經通過實體化的供應鏈。在配電網物資供應鏈內的挖掘異常點需要以下約束條件:層約束條件Clev、數據約束條件Cdata與異常約束條件Cexe。這些約束條件能夠通過基于條件的數據過濾、數據切塊或切片來進行設定。利用層約束條件,計算Clev能夠得到最底層的擬定閾值。
這2種約束條件把供應鏈限定在一個較小的多維空間內,這個空間可被描述為受限的數據立方體,由滿足條件Cdata∩Clev=true的數據單元所組成,所有數據單元也可以被描述成受限數據單元。異常約束條件Cexc給工作人員提供了憑借個人特定狀況設定一種異常數據點的標準閾值。
配電網物資供應鏈異常數據挖掘,也能描述成數據庫內異常信息發現,由以下3種階段形成:數據預處理、異常數據挖掘、結果描述。異常數據挖掘流程如圖1所示。

圖1 異常數據挖掘流程
同時數據集通常使用決策表或是物資供應鏈的形式來進行處理與描述。通過信息系統來進行異常數據的定義和檢測。
依靠異常定義,能夠對異常數據進行以下設定。
擬定IS={U,A,V,f}代表一種物資供應鏈,?x∈U,如果數據x和每一種非異常數據的距離比較遠,同時和每一種異常數據的距離較近,那么描述數據x是異常數據。
為了準確估算數據之間的距離,下面設定相對知識粒度來描述距離函數,通過估算數據和其他數據的距離之和來描述該數據的異常程度[5-7]。

(1)
式中,KG(A)為A的知識粒度,KGx(A)為刪除數據x之后A的知識粒度。知識粒度能夠描述不確定性數據的程度,所以,數據相對知識粒度能夠衡量x的不確定程度。假如剔除數據x的知識粒度轉化較小,那么x的不確定性程度較小,反之,x的不確定性程度較大[8]。
A={a1,a2,…,ak}憑借粒度從大至小的排序,組成序列S=
S=<1,2,…,k>代表單屬性遞減序列,擬定序列AS=<1,2,…,k>,其中1=A,1={1},并且1+1=1-{1},描述AS代表物資供應鏈內的屬性子集遞減序列。
為了描述數據集內每一種數據的異常程度,在數據相對知識粒度的基礎上,通過異常度理念來描述物資供應鏈內每一種數據的異常程度。
S=<1,2,…,k>代表單屬性遞減序列,AS=<1,2,…,k>代表屬性子集遞減序列,?B?A,WB(x)=1-|[x]B/|U||代表x的權重,數據x的異常度設定為

(2)
設定v代表一種擬定的閾值,對x∈U隨機,假如KOF(x)>v,那么x被描述成物資供應鏈IS內的一種基于知識粒度的異常數據[9],其中KOF(x)代表數據x的異常程度[10]。
但上述使用知識粒度進行挖掘后,并沒有進行二次檢測,所以可能存在冗余的異常數據未被挖掘,因此,在知識粒度方法的基礎上添加緊湊模式樹作為二次異常數據挖掘的方法。

(1)Tprefix內父節點的索引編號不能超過子節點的索引編號。
(2)Tprefix內所有節點需要具有一種記錄rni,其需要存在原始層編號li,異常出現次數si。
(3)Tprefix內最左側節點組成的左斜樹,節點數需要和索引表內的索引編號總量相等。
緊湊模式樹Tprefix組建預處理方法主要具有2步:首先憑借索引編號的順序組建左斜樹,之后把數據預處理產生的轉換異常集添加至左斜樹內,形成緊湊模式樹Tprefix。
基于緊湊模式樹Tprefix的異常數據二次挖掘步驟:向上累積,自底向上映射挖掘。因為Tprefix內只存在每種數據tr1的最后一個節點處具有信息記錄rni,所以在二次挖掘的流程內使用向量累積法。
為了使挖掘流程內的系統空間消耗降至最低,映射緊湊模式樹[11]。考慮到使用自底向上的挖掘方法,在挖掘編號是lj時,值需要處理緊湊模式樹內每一種編號是lj的節點的子節點,所以,能夠對緊湊模式樹內找到的節點進行部分投影,從而獲得子樹。這種映射形式并不需要額外的節點來暫存一種新的映射數,不需要占用任何額外的空間,并且因為映射的流程非常簡單,還能夠最大程度地提升挖掘的效率。
為了充分驗證本研究所提出的基于緊湊模式樹的配電網物資供應鏈異常數據挖掘方法的有效性,進行實驗驗證。實驗環境擬定配電網系統為B/S模式,基本說明見表1。

表1 配電網系統參數
根據上述參數設置,以編號索引精度、異常數據識別、異常數據挖掘時間為實驗對比指標,將所提方法與基于模糊神經網絡方法、基于改進聚類算法的挖掘方法進行對比。
在二維數據集中進行異常數據劃分對比,代表數據對象的4種距離領域,距離領域與的距離越遠說明該領域中包含異常數據,實驗開始前設定C3、C4中包含異常數據,C1、C2中不包含異常數據。3種方法的異常數據劃分結果如圖2~圖4所示。

圖2 所提方法

圖3 基于模糊神經網絡方法

圖4 基于改進聚類算法的方法
根據設定情況可知,領域C1、C2與數據對象O的距離應該相近,而領域C3、C4應與數據對象O的距離較遠。從對比結果可以看出,所提方法的異常數據識別結果與設定結果一致,而2種對比方法均出現較大誤差。所提方法是通過估算物資數據對象的子節點來測定一個數據集中可能存在異常數據點的概率,即評測該物資數據相對于周圍領域的孤立程度,因此所提方法能夠準確識別異常數據。
為了滿足日益增長的社會用電需求,進一步提升資源利用效率,減少配電供應鏈內數據不清,存在異常信息問題,提出一種基于緊湊模式樹的配電網物資供應鏈異常數據挖掘方法,其主要完成了以下幾種方面的工作:主要介紹了配電網物資供應鏈的使用現狀,深入了解了配電網信息采集系統應用于動態。其次,完成基于知識粒度的物資供應鏈分析,了解知識粒度概念的同時對異常數據的影響原因深入分析,詳細描述異常數據干擾流程。針對異常數據挖掘,使用緊湊模式樹對異常數據進行向上累積的二次異常挖掘,實現了異常數據的實時挖掘。接下來要深化研究,不僅要對異常數據進行全面、實時挖掘,還要判定產生原因與指定可行的降損方案。