譚臺哲 周宇才 謝旭軒



摘要:為了進一步提高對竊漏電用戶檢測的準確性,本文提出了一種基于Stacking融合模型對竊漏電用戶進行分類的檢測方法。該模型分成兩層架構,第一層基礎模型對原始特征進行特征變換后得到新的二級特征,再把二級特征輸入到第二層訓練元學習器從而實現對樣本數據的最終分類。實驗結果表明,stacking融合模型很好融合了各個單一模型的優點,相比于單一的分類模型,Stacking模型表現出了更好的檢測效果。
關鍵詞:竊漏電;AdaBoost;KNN;CART決策樹;Stacking
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2020)18-0207-02
開放科學(資源服務)標識碼(OSID):
用戶的竊漏電行為一直是電力系統行業需要解決的一個痛點問題,竊漏電行為不僅擾亂了用電市場的正常秩序,還會因為用電過載而可能破壞供電設備以及計量裝置,甚至還可能引發火災等嚴重問題。信息技術在電力系統的應用,使得竊漏電檢測不再只單純的依賴人工定期巡檢和定期檢驗電表等方式來發現問題,大大地提高了竊漏電檢測的效率和準確度。
本文使用Adaboost算法、KNN算法和CART決策樹算法來構建基礎分類模型,并基于Stacking方法融合這三種基礎分類模型對竊漏電用戶進行分類檢測。實驗結果表明,融合多模型的stacking方法能很好地識別出竊漏電用戶。
1 算法介紹
1.1 Adaboost算法
1.2 KNN算法
KNN算法的思想和實現都比較簡單,基本原理是在訓練數據中選取k個跟測試數據距離較近的樣本點,并判斷選取的k個樣本中哪種標簽所占的比例最高,從而得出測試數據的標簽類別。
算法的基本流程可總結如下:
(1)輸入訓練數據和測試數據。
(2)計算測試數據和訓練數據各樣本點間的距離。
(3)對計算出的測試數據和訓練數據的距離進行從小到大的排序,選取出k個距離最小的數據樣本點。
(4)統計選取出的k個訓練樣本數據的標簽類型,根據多數表決的決策方法,出現頻率次數最高的標簽就是測試數據的預
其中,Dv為數據集中取值為v的樣本。CART決策樹的實現步驟如下:
(1)計算數據集D的基尼值,并計算數據集D中每一個屬性的基尼指數Gini_index(D,a)。
(2)選擇基尼指數最小的特征,根據其特征值對數據進行劃分。
(3)去除上述步驟已被選擇的特征,在每個已被劃分的數據集中重復上述步驟直到所有樣本數據不能再次劃分。
(4)生成CART決策樹。
1.4 Stacking算法
Stackingc2]的基本思想是通過融合多個單一模型來提升算法整體性能。算法本質上是一種分層結構,第一層為基模型層,其輸出結果將被當作新的特征輸入到第二層當中訓練模型,第二層的輸出結果輸入到第三層訓練模型,以此類推,最后一層的輸出即為模型的分類結果。
本文的算法模型設計為二層結構,選取AdaBoost、KNN和CART決策樹模型作為第一層基礎模型,由SVM作為元分類器輸出最后的分類類別。由于實驗數據樣本較小,為了保證模型能夠更好地學習到所有的數據,本文以5折交叉驗證的方式來對數據進行學習,算法具體的實現步驟如下:
(1)將原始數據劃分為訓練集和測試集后,把訓練集分成5份為模型訓練做準備。
(2)不重復的在步驟(1)中劃分的5份訓練集數據選取4份對AdaBoost、KNN和CART決策樹模型進行訓練,每訓練完一個模型就用剩下的1份數據進行預測,得到的預測結果作為第二層模型的特征輸入值。
(3)每訓練完一個基礎模型后,就用整個測試集來做預測,最終產生5份預測結果取其平均值作為下一層輸入。
(4)步驟(2)輸出的預測結果作為第二層模型的輸入,訓練第二屋模型;步驟(3)輸出的結果作為新的測試集對模型進行測試,得出整個模型的分類結果。
2 實驗結果與分析
2.1 數據集
本文實驗數據選自某市①經過處理后的竊漏電用戶數據,數據包含291條竊漏電用戶的統計數據,包括經過特征處理后提取出來的電量趨勢下降指標、線損指標和告警類指標三類特征。
電量趨勢的值是以某一天及其前后5天為統計周期,然后用電量直線擬合的斜率[3]。其計算公式為:
2.3 結果分析
單個基礎模型和Stacking融合模型的實驗結果對比如下表1。
實驗的預測結果顯示,Stacking融合模型的精確率明顯高于AdaBoost、KNN和CART決策樹模型,證明了模型的可行性。F.值是精確率和召回率的調和平均值,作為精確率和回召率的綜合評價指標,Stacking融合模型的F.值也高于三個單一的基礎模型,反映了本文提出模型性能的有效性和穩健性。
3 結語
介召了AdaBoost、KNN以及CART決策樹算法,并以這三個算法為基礎模型構建了用于檢測竊漏電用戶的Stacking融合模型。實驗結果表明,本文提出的竊漏電用戶檢測模型相比于單個檢測模型在綜合性能上表現出了一定的優勢,對于輔助斷定用戶是否存在竊漏電行為具有一定的指導性作用。
注釋:
①https://edu.tipdm.org/c ourse/96
參考文獻:
[1] Freund Y,Schapire R E.A decision-theoretic generalizationof on-line learning and an application to boosting[Cl// Pro-ceedings of the Second European Conference on Computation-al Learning Theory. SpringeI-Verlag, 1995.
[2] Wolpert D H.Stacked generalization[J]. Neural Networks,1992。5(2):241-259.
[3]張良均,王路.Python數據分析與挖掘實戰[M].北京:機械工業出版社,2015:154-156.
【通聯編輯:唐一東】
作者簡介:譚臺哲(1970-),男,副教授,主要研究方向:機器學習、計算機視覺和生物特征識別;周宇才(1992-),男,碩士研究生,王要研究方向:數據挖掘;謝旭軒(1993-),男,碩士研究生,主要研究方向:深度學習。