基于自適應遺傳算法的多維數據關聯規則挖掘

2020-11-02 02:32:59閆磊何志方趙文娜李遠姚非

科技風 2020年28期

閆磊何志方趙文娜李遠姚非

摘要：針對傳統的關聯規則在電力數據中心大數據環境下數據挖掘過程中效率低的問題，提出了基于自適應遺傳算法的多維數據關聯規則挖掘算法，對傳統算法中的交叉算子和變異算子進行自適應優化，為了避免無用規則產生，融入注意力以提高關聯規則的可靠性，更好地用于關聯規則的挖掘。最后通過對比實驗驗證了本文算法能夠提高運算的收斂速度和結果的魯棒性。

關鍵詞：數據挖掘;關聯規則;自適應遺傳算法;注意力

1 概述

近年來隨著電網的大規模建設，相應的自動化機房系統及數據網規模日益龐大，系統節點、設備、廠商日漸增多。各種設備與應用間的交互與連接形成了縱橫交錯的復雜關系網。在這種設備與應用數量急劇增加，關系愈加復雜的情況下，為保證數據中心系統的平穩運行和實時監控，需要對收集到的多維度運行數據信息進行有效地關聯分析與挖掘，讓所有的數據得到充分的分析利用，挖掘其潛在價值[1-3]。

因此本文提出一種將自適應遺傳算法與關聯規則相結合的方式，選擇遺傳算法[4]用于電力數據中心數據的挖掘，并根據其具體需求對其進行自適應改進。與此同時，通過引入注意度參數來增加算法的可信度。

2 自適應遺傳算法

傳統的遺傳算法存在搜索能力較弱，容易陷入局部最優無法達到應有的效果。因此本文提出了一種新的自適應遺傳算法，針對交叉概率Pc和變異概率Pm進行優化，使其在運算過程中根據實際情況的適應度變化而作出相應改變。傳統算法中Pc過大不利于優良個體的保護，Pc太小會使運算過程繁瑣，從而使算法的效率過低。Pm過小，會導致新的變異個體不易產生，同時也需要控制Pm不能過大[5]。基于此上述兩種概率的計算方式如公式（1）（2）所示。其中favg表示平均適應度值，f′表示交叉個體中適應度較大的值，f表示變異個體適應度的值;Pc1和Pc2為交叉概率，Pm1和Pm2為變異概率。

基于自適應遺傳算法的關聯規則挖掘步驟如下，首先初始化相關參數，生成初始種群，計算每個后代個體的適應度，進行復制繁衍下一代個體，接著對后代個體使用公式3、4完成自適應遺傳變異步驟，然后分別計算每條規則的支持度、置信度和注意力的相關值，最后選擇滿足條件的規則來生成提取最終的強關聯規則。

3 實驗結果與分析

3.1 實驗數據

實驗數據來源于某電力數據中心運維數據。數據集采集于2019年1月1日至2019年12月31日的數據中心的三份運維數據，由告警、故障和綜合網絡數據三部分構成。告警數據是由全業務系統中系統監測單元產生的告警日志，用于監測系統的運行狀態;故障數據由人工完成，顯示了系統故障的起因及解決方案;綜合網絡數據由進程調度、CPU占用率、設備信息、流量統計、數據庫操作等系統數據構成。

3.2 自適應交叉概率和變異概率結果分析

圖1展示了兩種概率隨迭代次數增加的變化曲線，從圖中可以看出，隨著進化迭代代數的不斷增加，交叉概率Pc逐漸變小，然后穩定于0.3左右波動;變異概率Pm則相反，隨迭代次數增加不斷變大，最終穩定于0.09左右。在種群繁衍初期，受交叉算子的影響，能快速產生后代的新個體，當進化繁衍到后期時，交叉算子穩定于一較小值，保證優質后代不會發生變異，同時較大的變異算子又能夠在種群陷入局部最優解時，變異產生新的后代，保證種群的繼續迭代，全局搜索能力較強。

3.3 自適應遺傳算法實驗結果與對比分析

通過本文算法對告警、故障和綜合網絡數據進行關聯規則分析，當支持度設置為50時，共分析得到8項強關聯規則，同時在告警數據和綜合網絡數據中進行分析，最終得到10項關聯規則，證明了本文算法的有效性。

算法效率的高低取決于數據集中不同屬性的范圍、數據量的大小和數據要素的數量，針對以上三種變量，使用FP-Growth算法[6]與本文提出的自適應遺傳算法進行對比實驗，通過兩者的時間比來體現提出算法的性能，結果如圖2，3，4所示。

根據實驗結果可知，如果運維數據要素個數越多，每個運維數據不同屬性的取值范圍越大，則自適應遺傳算法比FP-Growth效果越好。雖然當運維數據數據記錄量增大時，本文算法的效率比FP-Growth算法低，但兩者差距較小。因此本文提出的自適應遺傳算法適用于數據類型復雜的數據中心運維數據的關聯規則挖掘。

4 結語

本文針對數據中心運維數據關聯規則挖掘效率低、潛在價值缺乏挖掘的問題，提出了關聯規則在電網數據中心的應用，將自適應遺傳算法融入到關聯規則中，在提取關聯規則前引入了注意力來提高結果的可靠性。通過實驗表明改進后的方法在算法收斂性、挖掘效率上，相比傳統方法有了較大的提升，適用于類型復雜的數據集中發現關聯規則。

參考文獻：

[1]丁煜.數據中心運維數據關聯規則知識庫的構建[D].2016.

[2]彭剛，唐松平，曾力，等.基于數據挖掘的電網故障關聯規則的研究[J].計算機與數字工程，2019，47（9）：2369-2374.

[3]蔡澤祥，馬國龍，孫宇嫣，等.基于數據挖掘的電力設備運維與決策分析方法[J].華南理工大學學報（自然科學版），2019，47（6）.

[4]張軍，劉文杰.關聯規則中基于模糊遺傳算法的研究與改進挖掘技術[J].現代電子技術，2017，40（14）：23-25.

[5]任子武，傘冶.自適應遺傳算法的改進及在系統辨識中應用研究[J].系統仿真學報，2006，18（1）：41-43.

[6]Sun Hong，Zhang Huaxuan，Chen Shiping，et al.The study of improved FP-growth algorithm in MapReduce [C].Shang-hai：International Workshop on Cloud Computing and Infor-mation Security（CCIS），2013.

作者簡介：閆磊（1985—），男，高工/副處長，研究方向：調度自動化。