基于改進C5.0 決策樹算法的電力營銷異常數據挖掘研究

2024-09-18 00:00:00肖杰

消費電子 2024年8期

【關鍵詞】改進C5.0 決策樹算法；電力營銷；營銷數據；異常數據；數據挖掘

引言

隨著電力市場的持續發展和智能電網建設的深入推進，電力營銷數據呈現出爆炸性增長的態勢。這些數據不僅涵蓋了電力用戶的用電信息、設備狀態、電力網絡運行數據，還包括了外部環境因素、市場供需變化等多方面的信息。然而，在電力市場實際運行中，容易受到多種因素的影響，如天氣變化、設備故障、人為操作失誤等，造成電力營銷數據的異常，這些異常數據往往蘊含著重要的信息，如能及時發現并處理，可以有效減少損失、提高服務質量。因此，異常數據挖掘方法的研究成為國內外學者的重點關注課題，文獻[1]中采用Spark-MML聚類算法改進Apriori關聯規則算法，通過改進后算法進行異常數據挖掘，可以降低數據挖掘的時間復雜度[1]；文獻[2]中通過深度集成學習進行異常數據挖掘，可以提升數據檢測率并降低運行時間。[2]雖然在傳統的異常數據挖掘領域，研究者們已經取得了一系列的研究成果，但我國電力營銷數據具有海量性、多樣性和實時性等特點，傳統的異常數據挖掘方法往往難以勝任，所以本文針對基于改進C5.0決策樹算法的電力營銷異常數據挖掘方法展開深入研究。

一、電力營銷數據準備

在電力營銷異常數據挖掘中，原始電力營銷數據的準確性和完整性對于挖掘結果有著至關重要的影響[3]，所以本章將針對電力營銷數據準備工作進行詳細研究。首先，需要對電力企業各種分散的營銷數據進行收集，為確保電力營銷數據的全面性，本文分別從電力MIS系統、供電系統以及外部環境這三個來源收集數據：電力MIS系統，是電力企業內部用于管理用戶用電信息、電費結算數據等核心業務數據的系統，可以從中抽取到用戶的用電量、用電時間、電費繳納情況等電力營銷相關數據；供電系統主要負責記錄電網的運行狀態、設備故障信息等實時數據，可以從中抽取到電網的電壓、電流、功率因數等實時數據，以及設備故障類型、故障時間等電力營銷相關數據；外部環境主要包括天氣、經濟狀況等可能影響電力營銷的因素，通過導入外部環境數據，可以更加全面地了解電力市場的變化趨勢，所以這些數據也是電力營銷相關數據。從上述三個來源的數據庫中抽取并導入全面的電力營銷數據后，由于原始數據規模較大且冗余繁雜，所以還需對收集數據進行預處理。這里本文主要引入聚類算法進行電力營銷數據篩選處理，已知在原始電力營銷數據的聚類空間中，主要存在低密度與高密度這兩個數據分布區域，其中數據的低密度分布區域的函數關系表達式為：

S1=（W-N1）S0（1）

式中，S1表示描述電力營銷數據低密度分布區域的函數；W表示該函數所屬聚類空間的位置信息；N1表示電力營銷數據低密度分布區域中對象樣本數量；S0表示該函數所屬聚類空間的屬性值域。一般來說，在電力營銷數據的聚類空間中，當數據在低密度區域被分割時，意味著聚類算法已經識別出數據中的稀疏區域，并將數據點劃分為不同的簇或類別。此時，這些簇或類別通常對應數據中的高密度區域，所以在式（1）的基礎上，本文可以獲得數據的高密度分布區域的函數關系表達式為：

S2=（W-N2）S0（2）

式中，S2表示描述電力營銷數據高密度分布區域的函數；N2表示電力營銷數據高密度分布區域中對象樣本數量。最后，在式（1）和式（2）的基礎上，利用聚類算法進行電力營銷數據篩選處理，表達式為：

Sm=n（S1+S2）×m（3）

式中，Sm表示電力營銷數據的聚類分析結果，m其中為電力營銷數據屬性密度集中值；n表示電力營銷數據聚類空間經過分割后，所得子區域的數量。根據上式即可得到聚類篩選后的電力營銷數據，完成數據預處理。總之，本文通過收集和預處理等步驟，完成了電力營銷數據的準備工作，為后續異常數據挖掘提供可靠數據基礎。

二、改進C5.0決策樹算法挖掘異常數據

在數據挖掘領域，C5.0決策樹算法作為Quinlan在C4.5算法基礎上提出的改進版本，不僅繼承了C4.5算法處理連續屬性、處理缺失值、生成規則集等優點，還在某些方面進行了優化，所以得到廣泛應用。然而，電力營銷數據屬于大規模、高維數據，常規C5.0決策樹算法進行異常數據挖掘時，難以保障數據挖掘精度與效率，所以本文為了提高C5.0算法在異常數據挖掘中的性能，引入信息熵作為決策樹屬性選擇的度量標準[4]，信息熵作為信息論中的一個重要概念，能夠定量地反映數據集中信息的混亂程度或不確定性，所以本文采用信息熵改進C5.0決策樹算法的屬性選擇方式。在確定了C5.0決策樹算法的屬性選擇方式后，構建改進C5.0決策樹模型的具體流程如下[5]：首先，假設原始電力營銷數據中代表正常數據特征的正例屬性的數量為u，且代表異常數據特征的反例屬性的數量為v，已知電力營銷數據信息量的計算公式為：

式中，X（u，v）表示電力營銷數據的信息量。根據式（4）即可推導出電力營銷數據信息熵的計算公式，如下式所示：

式中，I（X，Y）表示電力營銷數據集X關于屬性的Y熵；ui、vi分別表示第個電力營銷數據樣本的正例屬性數量和反例屬性數量；N表示電力營銷數據樣本總數。如式（5）所示，電力營銷數據信息熵的計算過程簡單，所以本文引入信息熵作為C5.0決策樹的屬性選擇度量指標，可以解決常規C5.0決策樹算法中分裂屬性信息增益比率計算時間長且誤差較大的問題。在根據式（5）計算出信息熵后，本文選擇信息熵最大的屬性作為分裂屬性，根據該屬性的取值執行最佳分割點，對決策樹進行分枝，也就是當所求信息熵為連續型變量時，通過分箱策略劃分決策樹枝，將原始電力營銷數據樣本集劃分為若干個子集，每個子集中的數據在所選屬性上都具有相似的取值，從而降低了數據的不確定性。然后，本文對每個電力營銷數據樣本的子集分別遞歸執行上述分裂過程，直到滿足停止條件。停止條件可以是子集純度達到預設的閾值，即子集的信息熵小于某個閾值；也可以是所有屬性都已用完，即無法再找到能夠降低數據集不確定性的屬性。總之，通過不斷地選擇最優屬性進行分裂，最終本文可以得到一棵完整的C5.0決策樹。這棵決策樹能夠根據輸入電力營銷數據的屬性取值，預測其所屬的類別，從而實現對異常數據的分類挖掘。因此，本文根據上述內容完成改進C5.0決策樹模型的構建后，將預處理后的電力營銷數據輸入決策樹模型中，此時利用構建好的改進C5.0決策樹模型對電力營銷數據屬性所屬類別進行分類識別，也就是通過遍歷決策樹中的每個節點和路徑，來挖掘出電力營銷數據中存在的異常模式。

三、實驗分析

為了檢驗基于改進C5.0決策樹算法的電力營銷異常數據挖掘方法性能，本章引入文獻[1]中方法和文獻[2]中方法展開電力營銷異常數據挖掘的仿真對比實驗。在本次實驗中，采用分布式Hadoop集群搭建仿真環境，示意圖如圖1所示：

在上圖所示仿真實驗環境下，以某電力企業2023年期間電力營銷數據為采樣對象，經過篩選與預處理，隨機選擇其中40個樣本數據作為實驗數據，包括正常電力營銷數據和異常電力營銷數據各20個樣本，樣本詳細信息如表1所示：

然后，分別利用本文設計方法、文獻[1]中方法和文獻[2]中方法，對上表所示電力營銷數據樣本進行分類挖掘，對比各方法下樣本分類結果如下圖所示：

從上圖中可以看出，在電力營銷數據分類挖掘中，本文設計方法表現出最佳的挖掘性能。具體來說，本文設計方法下，電力營銷異常數據挖掘結果的正確率高達97.5%，較文獻[1]中方法和文獻[2]中方法分別提升了7.5%、10%。因此，本文研究的基于改進C5.0決策樹算法的電力營銷異常數據挖掘方法是有效且正確的，實際應用中具有較高的挖掘精度，可以滿足電力企業的營銷工作需要。

結束語

本文提出并探討了基于改進C5.0決策樹算法的電力營銷異常數據挖掘方法，文中通過引入信息熵優化決策樹構建過程，有效提升了異常數據挖掘的準確性。盡管本研究已取得一定成果，但仍有進一步探索的空間。未來，本文將繼續優化算法參數，提升算法的自適應性和魯棒性，以適應電力市場的動態變化。同時，本文也將探索將該方法應用于更廣泛的電力業務領域，如電力負荷預測、能源管理等，以期為電力行業的智能化、精細化管理貢獻更多力量。

參考文獻：

[1] 周燕，肖莉. 基于改進關聯聚類算法的網絡異常數據挖掘[J]. 計算機工程與設計，2023，44（1）：108-115.

[2] 戴禮燦，代翔，崔瑩，魏永超. 基于深度集成學習的社交網絡異常數據挖掘算法[J]. 吉林大學學報（工學版），2022，52（11）：2712-2717

[3] 易庚，何琳，劉錦明，等. 基于遷移學習算法的電力數據挖掘模型[J]. 沈陽工業大學學報，2023，45（05）：510-515.

[4] 圖雅，張春生，白翠蘭. 基于決策樹的蒙醫熱證方劑組方規律數據挖掘[J]. 中國藥學雜志，2022，57（10）：817-822.

[5] 黃常海，沈佳，朱冉超，等. 基于C5.0 決策樹的船舶交通事故致因分析模型及應用[J]. 中國安全科學學報，2022，32（10）：90-99.