田 炯,秦發憲,朱 濤
(國網寧夏電力有限公司中衛供電公司,寧夏中衛 755000)
離群點檢測問題已引起了數據挖掘領域的廣泛關注,并成為眾多學者探討的焦點。離群點指的是一個與其他數據點差別較大的數據點,有可能是不同機制處理后的結果。離散數據點可以反映局部的數據點與整體的數據點之間的差異,有深層的數據內涵,能夠表現出優于普通數據的模式,因此在交通運輸、識別信貸、分析客戶數據等諸多領域有著較為廣泛的應用。
眾多學者圍繞離群點識別展開研究,并涉及多種算法。其中,早期主要偏重于統計算法、距離算法、偏差算法等,如以離群因子作為標準對整體數據進行分析,使其作為整體數據的表征。隨著研究的發展,人們在前人基礎上提出了一些有效的離群點識別方法,例如文獻[1]利用指標計算,滿足離群點檢測指標;文獻[2]利用不同計算處理器的計算資源,基于網格劃分的動態方法進行處理,同時定位數據點的空間位置,進行并行離群點檢測,實現數據離群點的識別。但上述研究成果重點聚焦靜態數據庫、低維度數據庫,難以處理動態、高維的大數據。
從現有文獻來看,關于離群點研究重點集中在低維數據離群點,少有學者基于局部信息熵進行智能電網數據識別,為此,該文以局部信息熵為基礎,研究了一種新的智能電網數據離群點識別方法。
設n維空間集N的特性集,特性集中特定的數據點a在特性集S上的投影為,M(a)為距離半徑域,則可得到S的方差定義式為:
其中,VS表示特征集S中特殊點a的方差值[3-4]。
進行閾值設定時,要綜合考慮數據所處的空間位置和鄰近數據帶來的影響,降低閾值設定時的偶然性和片面性,對優選空間的范圍進行壓縮,得到最佳范圍,提高識別方法的可行性[5]。
根據上述方差數據計算公式,可以得到不同數據點的子空間特性集,在不同空間維度上進行比較,得到最優子空間[6-7]。設φ為優質空間集閾值,若滿足VS(M(a))≤φ,則可稱該空間集為優選空間,對該空間集進行加權處理,便于下一步計算優選空間的信息熵。
信息熵是用來計算信息穩定性的重要指標,也是檢測數據變化特性的重要工具。設W為待檢測數據,則有W的信息熵數據為:
其中,E(W)表示信息熵數據的期望值,S(W)表示信息熵數據的取值集合。
根據計算結果可知,E(W) 與數據穩定性呈正比,E(W)數值越大,數據的不穩定性越強[8-9]。再對數據值域進行壓縮,據此可以得到局部信息熵值計算公式:
其中,LC(w) 表示局部信息熵值,VS(M(a))max和VS(M(a))min分別表示方差數據值的最大值和最小值,S(w)表示特定集中的特殊數據點。
利用局部信息熵值對數據鄰近點進行分析,得到該數據點和其他數據點的投影值,通過無量化處理判斷臨界點數值,數值越大,則以該數據點為中心的數據排布的不穩定性越大;數值越小,則以該數據點為中心的數據排布越穩定,因此該文選取符合優選空間選取條件的空間范圍,減小識別誤差[10-11]。從信息熵數值考慮,離群點使數據整體的不穩定性增強,離散程度變大,不確定性越強,因此選擇不穩定程度更大的特殊數據點范圍作為最優子空間。在選取優選空間,計算信息熵值的基礎上,選取子空間,得到最優的子空間范圍[12]。
基于該文提出的識別方法,采用LOF 算法輸入樣本中的數據,同時輸入離散方法和離散點設定閾值,輸出得到離群點的空間值[13]。同時分析輸出數據,并計算算法的復雜程度,為改進算法統計數據。具體流程如圖1 所示。

圖1 離群狀態變化的檢索與分析流程
步驟一:根據樣本得到記錄集合,進行挖掘處理,去除不符合條件的數據值,以此為下一步數據處理的基礎,設其復雜程度為I。
步驟二:根據數據點的數據情況,與鄰近的數據進行比較。進而確定鄰近數據的空間集合,確定參照對象,設其復雜程度為Ⅱ。
步驟三:確定空間離散方法,設定等區間的限定條件,進行數據離散化處理。利用式(2)和式(3)進行運算,得到數據對象的熵值,設為局部離群因子,設其復雜程度為Ⅲ。
步驟四:根據上述的步驟得到局部離群因子,如果局部離群因子大于設定閾值,則作為輸出數據進行計算。
綜上,得到總復雜程度Ⅳ,根據得到的復雜程度進行算法演繹,對繁瑣的算法過程進行簡化處理,識別更加準確的離群點,判斷離群點與優選空間值域之間的差別,如果有較大的差別,則證明離群點處于較遠位置,具有明顯的離群特征[14-15]。
智能電網數據離群點識別中,需要進行離群因子的計算,設LEAA1為離群因子e的離群屬性,則有:
其中,LEA為離群數據的特征數據,M(e)為上文提到的距離半徑域。
得到離群因子的離群屬性后,與離群屬性閾值進行比較,劃分閾值空間,得到斷點集合的特征性。過多的斷點會導致準確性降低,因此盡量減少斷點,以提高識別的精確度,增強方法的聚類能力[16]。設空間鄰域集合為:
其中,Y表示鄰域集合;p表示鄰域對象,p1、p2等表示數據所處位置。則有非空間鄰域集合為:
其中,H表示非鄰域集合;t表示非鄰域對象,t1,t2,…,tn表示數據所處位置。
在對非鄰域集合進行離散化處理后,就可以得到一個特定的概率,表示非空間屬性的概率值,如下式所示:
其中,ζ為屬性系數;R為所得概率,H(t)max和Y(p)max分別為集合中最大數值。
得到概率之后進行篩選,通過挖掘處理確定概率更大的非空間屬性值,對概率較小的非空間屬性概率值進行刪除處理,增強算法對冗余數據的甄別能力,完成劃分過程。
更新數據時,如果不對原始數據進行處理,就會對個別數據產生影響,進而影響整體數據,使最終結果產生較大偏差。因此在插入和刪除智能電網數據時,要對智能電網數據離群點的變化進行檢測。
當刪除數據時,需要重新計算剩余離群點數據。當數據點b從集合G中刪除時,若數據點滿足式(8)時,直接刪除該數據,無需進行其他處理。
其中,c表示離群點數據標準值;u表示標準差值;k表示離群點相鄰數據;Ai表示離群因子e的離群屬性。
當增加數據時,若同樣滿足式(8),則可直接添加數據到值域中;不滿足式(8)時,需要將最遠端的數據進行刪除處理,然后計算剩余數據平均值,并求出添加數據點與相鄰數據點的差值,以平均值計入值域,根據平均值實現離群點值域識別。
為了驗證該文提出的基于局部信息熵的智能電網數據離群點識別方法的實際應用效果,設定實驗。實驗環境如圖2 所示。
根據圖2 可知,該文提出的實驗環境核心設備為MCP2510 控制器,通過通信模塊、顯示模塊、輸入輸出接口電路模塊和芯片內部測試模塊設定實驗環境。實驗過程中,工作電壓為200 V,工作電流為150 A,選用的操作系統為Windows10 系統。
選用該文提出的離群點識別方法和傳統的文獻[1]基于評價指標的離群點識別方法和文獻[2]并行檢測的離群點識別方法進行實驗對比,分別計算識別準確率和識別效率。
識別準確率計算如式(9)所示:
其中,Z表示識別準確率;d表示識別的正確數據;l表示識別的錯誤數據。
識別效率計算過程如式(10)所示:
其中,M表示識別效率;R表示時間T內識別的數據量。實驗識別的離群點如圖3 所示。

圖3 識別離群點
根據式(9)計算識別準確率,得到的實驗結果如圖4 所示。

圖4 識別準確率實驗結果
根據圖4 可知,隨著識別時間的增加,三種識別方法的識別準確率都在不斷提高,該文提出的識別方法識別準確率高于傳統識別方法,當時間為60 s時,準確率可以達到95%以上。造成這種現象的原因是該文方法識別的過程中,能夠圍繞局部信息熵進行子空間選取,在一定程度上彌補了現有離群點檢測方法的缺陷,同時為離群點現實應用提供了有力且清晰的參考數據。
識別效率實驗結果如表1 所示。

表1 識別效率實驗結果
根據表1 可知,該文提出的識別方法識別效率始終在90%以上,具有極強的識別能力。
綜上所述,該文方法研究結果通過選取智能電網數據離群點所屬的子空間,并在其中計算信息熵,檢索與分析離群子狀態,計算離群因子,識別離群點的變化并更新數據,進行重新處理后,數據更貼近設定算法的要求,提高了計算準確性。
該文基于局部信息熵提出一種新的智能電網數據離群點識別方法,通過選取局部信息熵子空間、智能電網數據離群點識別兩個步驟確定智能電網數據離群點識別的關鍵因素。研究表明,該文的識別方法具有極強的識別能力,能夠為離群點檢測提供切實的參考依據與方向啟示。但是該文方法也存在一定不足,主要表現在選取優秀子空間計算信息熵過程中計算難度大,且計算結果易與實際結果存在偏差,檢索分析計算離群因子步驟較為煩瑣,不利于連續數據的深度剖析。