基于聚類分析優化算法的數據快速挖掘與智能篩選

2024-05-08 00:00:00陳子健

粘接 2024年1期

摘要：為進一步提高數據挖掘算法的處理速度和計算精確度，提出一種基于電力信息數據聚類分析的數據挖掘算法設計。該算法依據聚類分析原理，采用基于密度的聚類方法和相異度矩陣對數據和數據類型進行篩選和相異度計算，并基于聚類分析框架設計數據挖掘算法流程。在數據挖掘算法基本策略下對輸入的數據采用SLIO算法處理離散字段，輸出需要的數據結果。仿真結果表明，相比其他配網自動化系統數據挖掘算法，所設計算法在數據挖掘速度和準確度上均體現出較好的優勢，具有良好的可信度。

關鍵詞：聚類分析法；相異度矩陣；數據挖掘；算法設計

中圖分類號：

TP311.13

文獻標志碼：

A文章編號：

1001-5922（2024）01-0189-04

Data fast mining and intelligent screening based on clustering analysis optimization algorithm

CHEN Zijian

（Foshan Power Supply Bureau of Guangdong Power Grid Co.，Ltd.，Foshan 528000，Guangdong Chian）

Abstract：In order to further improve the processing speed and calculation accuracy of data mining algorithm，a data mining algorithm design based on power information data clustering analysis was proposed.Based on the principle of clustering analysis，the algorithm used density-based clustering method and dissimilarity matrix to filter and calculate the dissimilarity of data and data types，and designed the data mining algorithm process based on the framework of clustering analysis.Under the basic strategy of data mining algorithm，the input data was processed by SLIO algorithm to deal with discrete fields，and the required data results were output.The simulation results showed that compared with other data mining algorithms of distribution network automation system，the designed algorithm had better advantages in data mining speed and accuracy，and had good credibility.

Key words：cluster analysis;dissimilarity matrix;data mining;algorithm design

大量的關聯大量電力用戶信息與用電行為業務數據，需要通過對數據進行有效的聚類和分類分析，可以提取有價值的用戶群體和用戶用電特征，為后續的電銷策略提供支持。按數據來源劃分，用電系統數據主要包括終端數據的實時采集和調度中心的中央數據匯總，該數據具有狀態多樣化、變量類型復雜的特點，不利于統計分析。而采用聚類分析法可對其進行簡約化處理［1-3］，針對在不同運行狀態下用電系統的數據挖掘和分析，提取有效數據及其之間的關聯性，作為系統隱患檢測的數據參考。因此，研究文章通過對聚類分析的數據篩選和數據類型的相異度計算，設計一種基于聚類分析的數據挖掘優化算法。

1 基于聚類分析的數據智能篩選

常用的聚類方法主要包括基于模型的聚類方法、基于網格的聚類方法和基于密度的聚類方法。基于密度聚類方法的原理是根據各數據點之間的密度相對情況進行聚類，通過設定核心點與密度參數的方式，對核心店鄰域范圍內的數據點進行迭代查找，連接所有密度可達的核心點完成全部數據的聚類。將基于密度的聚類方法應用于電銷數據的挖掘，可以提高挖掘的精度。

設計在電銷聚類分析的數據挖掘算法中采用基于密度的聚類方法篩選數據［4-5］：設低密度區域為nd，用以分割聚類空間中的數據類；分割后的數據類高密度區域設為ng，其屬性值為p。nd和ng表達式如下：

nd=（v－b1）nr，ng=（v－a1）nr（1）

式中：v為所屬空間數目；b1為低密度對象子區域數目；nr為當前節點屬性的值域；a1為高密度對象子區域數目。

結合式（1），對聚類分析數據進行篩選，可表示為：

ni=p（nd+ng）×i（2）

式中：p為分割得到的子區域數目；i為屬性值的樣本密度，也就是聚類分析數據篩選的數據對象，即篩選出屬性值中出現頻率最高（樣本密度也最高）的樣本密度。

2 基于聚類分析數據類型的相異度計算

依據聚類分析原理對用電數據對象進行聚類，并通過數據結構和相異度矩陣獲得數據間的相異度；數據相異度矩陣如下：

x11，…，x1f，…，x1pxi1，…，xif，…，xipxn1，…，xnf，…，xnp

聚類分析數據相異度矩陣用來存放n個數據對象兩兩之間形成的差異［6］。

式中：n表示數據矩陣對象，其間的差異值用i和f表示；p表示屬性。當差異值取正數時，f和i越接近于0，屬性值p越大，則表示f和i不相似；否則，若f和i的取值小于0，p數值就會越小，說明f和i的相似程度較高。

在上述矩陣基礎上采用聚類算法計算數據類型相異度［7］，即將變量值度量化并進行標準化處理，如式（3）：

sf=1ni（|x1f－mf|+|x2f－mf|）（3）

式中：sf表示變量值的絕對偏差值；mf表示f的絕對平均值。

基于式（3）計算數據類型相異度，如式（4）：

d（i，j）=|xi1－xji|2+|xif－xj2|2（4）

式中：d（i，j）是對象i和對象j之間相異性的量化表示，且該相異性值通常是一個非負的數值，當對象i和j越相似時，相異性值就越接近于0；反之，值越大，且d（i，j）= d（j，i），d（i，j）=0。基于電力營銷聚類分析的數據類型相異性計算如式（5）：

W=d（i，j）×kl（5）

式中：kl為聚類分析數據量。到此為止，完成了聚類分析數據類型相異度計算，接下來需要設計聚類分析數據挖掘算法的流程。

3 基于聚類分析的數據快速挖掘

聚類分析數據挖掘算法是大數據和數據挖掘最常用的經典算法之一，也是數據挖掘的關鍵技術。通過聚類分析算法可將物理或抽象對象的集合按照相似性進行分組，然后在相似的基礎上，根據數據類型相異度挖掘出數據蘊含的潛在信息并進行數據分類。其算法流程如圖1所示。

基于聚類分析數據挖掘算法流程完成聚類分析的框架設計，如圖2所示。

對輸入的樣本向量定義為（v1，v2，…，vi，c），該向量由字段值vi和類型c組成，對應的數據記錄結構也是類型標簽+數值的訓練集。其中，該標簽也可作為輸入的經驗數據［12］。完成分類后，可引入決策樹算法進行數據挖掘，預測準確度：首先，從數據中獲取知識；然后，利用生成的決策樹分類輸入數據。對數據屬性值進行依次測試并記錄，直到找到記錄所在的類，挖掘出數據蘊含的潛在信息［13］。

數據挖掘算法的基本策略設計如圖3所示。

基于SLIO算法的修剪樹表達式：

COST（M，D）=COST（DM）+BCOST（M）（6）

式中：COST（DM）為編碼成本；BCOST（M）為所有的分類錯誤數。

通過式（6）構建的修剪樹對數據進行修剪處理后，計算電力數據中聚類挖掘的決策中心概率值：

xk+1=COST（M，D）·sinaxk+x-（7）

式中：a表示決策中心調度參數；xk表示動態慣性權重；x-表示有效信息類別。

根據中心概率的計算，挖掘出數據中的有效信息：

x″i=xi‖xi‖+xk+1 （8）

上述過程從理論層面對挖掘算法進行了研究，接下來設計仿真實驗對算法的性能進行驗證。

4 算法實例

設計仿真實驗，通過算法實例對基于聚類分析的數據挖掘算法進行可行性和有效性驗證。電力業務場景較為豐富，互聯網背景下的業務場景主要包括運營調控平臺、互動網站、業務支撐平臺以及AI能力平臺，電力業務場景結構如圖4所示。

電力業務數據的特點主要包括：數據體量大、數據類型多、價值密度低以及處理速度快的特點。實例中所用到的數據來自數據挖掘網站，不同類型的電力業務數據量如表1所示。

樣本數據中的關鍵數據主要為聚類數目和權重指數，其中，聚類數目用于與聚類樣本的總數量比較，用以判斷數據挖掘是否有意義。即，當聚類數目大于聚類樣本的總數量時，數據挖掘才有意義。權重指數用來體現數據挖掘算法效果，指數越小，說明算法對數據挖掘效果越好；指數越大，說明數據挖掘效果越差。基于數據有意義挖掘需求，給出電力業務聚類數據相應的值，包括聚類數（JLN）、類間距（LJJ）、類內距（LNJ）和準則（ZZ），如表2所示。

算法實現過程分為6步：（1）根據問題定義，完成數據中的空值填補和一致性優化，做好數據準備；（2）創建數據倉庫用以將多個數據源集合起來，形成目標數據并存放在數據庫，作為下一步的數據應用準備；（3）為提高挖掘效率，將數值轉換為數據集壓縮形式；（4）根據實際需求，制定數據任務并使用SLIO算法挖掘數據；（5）通過與需求標準對比，篩選相關模式和有價值的信息；（6）基于決策樹對最終數據進行轉化，以便于理解的語言描述或展開形式呈現給用戶。到此，完成基于聚類分析的數據挖掘算法過程。

分別使用設計算法和文獻［3］提出的基于支持度-置信度-提升度的配網自動化系統數據挖掘算法、基于神經網絡的數據挖掘算法，重復實驗10次，得出實驗結果進行對比，如表3所示。

由表3可知，3種算法中只有所設計算法的挖掘速度更快，計算時間全都在1.0 s以內；基于支持度-置信度-提升度的配網自動化系統數據挖掘算法和基于神經網絡的數據挖掘算法所用時間基本上為1.35 s～1.84 s，挖掘速度相對較慢。因此，在數據挖掘效率上，所設計算法具有良好的可行性。

對本文算法與其他2種算法進行數據挖掘精確度測試以驗證本文算法的應用效果，計算公式：

A=1m∑（w－w′）×100%（9）

式中：m為參與挖掘的項目數量；w為算法的實際挖掘數量；w′為預測挖掘數量。利用式（9）對上述3種數據挖掘算法的精準度進行計算并對比，結果如圖5所示。

由圖5可知，基于聚類分析的數據挖掘算法在引入決策樹算法后，其計算精準度要遠高于其他2種算法。隨著數據挖掘數量的增加，所設計算法的精準度也越來越高，接近93%左右，其他2種算法的最高精準度均在85%以下。

5 結語

聚類分析在電力行業數據挖掘中的應用，可通過制定合理的決策幫助提升電力企業的市場競爭力。而傳統的電力業務聚類算法挖掘速度慢，精準度低，因此設計提出的基于聚類分析優化算法的數據快速挖掘算法，通過對數據挖掘結果進行合理的分析，可有效提升聚類數據類型的聚類性。結合算法流程設計中所用到的基本策略，可快速、精準地完成目標數據的提取。設計的數據挖掘算法創新點主要體現在兩方面，一是依據聚類分析原理，實現對電力業務系統數據的篩選。二是通過求取聚類數據距離完成對數據對象的聚類分析，計算各個數據對象之間距離的相異度。通過相關實驗測試，設計的算法在挖掘速度上基本在1.0 s以內，比其他算法提速了40%左右；在數據挖掘精確度上也平均高出了20%～40%。由此證明了基于聚類分析優化算法的數據挖掘算法具有很好的可行性和有效性。通過實驗證明了所設計算法可以對多特征類型的電力業務數據進行有效地聚類，為電決策提供有力的數據支持，因此該算法具有較高的實際應用價值。

【參考文獻】

［1］許統德，趙志俊，高俊文.多層級聯式少數類聚類高精度數據挖掘算法［J］.控制工程，2018，25（5）：829-834.

［2］黃博韜，朱邦賢.基于復雜系統論的中藥藥對數據挖掘研究進展［J］.中華中醫藥雜志，2018，33（6）：2485-2487.

［3］張磐，丁泠允，姜寧，等.基于支持度-置信度-提升度的配網自動化系統數據挖掘算法及應用［J］.電測與儀表，2019，56（10）：62-68.

［4］ JU F X，ZHONG T G.Research on data mining algorithm based on neural network and particles warm optimization［J］.Journal of Intelligent amp; Fuzzy Systems，2018，35（3）：2921-2926.

［5］文靜，曹妍，張琳，等.基于雙重遺傳的聚類分析算法研究［J］.計算機工程與科學，2017，39（12）：2320-2325.

［6］李君衛，湯亞芳，郝正航，等.聚類分析及其在電力系統中的應用綜述［J］.現代電力，2019，36（3）：1-10.

［7］李天華，袁永博，張明媛.基于可變模糊聚類的地震作用下電網節點脆弱性分析［J］.科學技術與工程，2018，18（18）：126-130.

［8］林君豪，張焰，祝錦舟，等.基于宏微觀特征分層聚類的配電網拓撲相似性分析方法［J］.電力系統自動化，2019，43（13）：84-97.

［9］趙書強，張婷婷，李志偉，等.基于數值特性聚類的日前光伏出力預測誤差分布模型［J］.電力系統自動化，2019，43（13）：36-48.

［10］張江林，張亞超，洪居華，等.基于離散小波變換和模糊K-modes的負荷聚類算法［J］.電力自動化設備，2019，39（2）：100-106.

［11］劉炳含，付忠廣，王永智，等.基于并行計算的大數據挖掘技術及其在電站鍋爐性能優化中的應用［J］.動力工程學報，2018，38（6）：431-439.

［12］郝艷妮，吳素萍，田維麗.數據挖掘算法在葡萄酒信息數據分析系統中的研究［J］.計算機科學，2017，44（S1）：491-494.

［13］顏磊，祁冰.基于Android平臺的移動學習系統大數據挖掘技術研究［J］.現代電子技術，2017，40（19）：142-144.