金紅軍



摘要:為了提高數據挖掘算法的查全率,為精準預測工作提供更加精準的數據支持,利用人工蜂群聚類技術在傳統數據挖掘算法的基礎上進行優化設計。針對不同的精準預測任務準備對應的數據樣本,并通過選擇、預處理和數據轉換三個步驟,實現對初始樣本數據的處理。利用人工蜂群聚類技術分類樣本數據,并剔除離群數據。在設置關聯規則的約束下,得出數據挖掘結果。通過算法性能的測試對比實驗得出結論:與傳統的數據挖掘算法相比,人工蜂群聚類數據挖掘算法的查全率提高了1.3%,將其應用到精準預測工作中,可以有效的降低預測誤差。
關鍵詞:精準預測;人工蜂群;聚類數據;數據挖掘算法
中圖分類號:TN929? ? 文獻標識碼:A? ? 文章編號:1007-9416(2020)10-0000-00
0 引言
預測是根據歷史和當前已知因素,運用已有的知識、經驗和科學方法,對未來環境進行預先估計,并對事物未來的發展趨勢做出估計和評價。為了保證預測結果的精準度,在當前預測方法的基礎上提出了精準預測方法,這種方法延續了傳統預測方法的一般步驟,但在實際的預測過程中選擇更加精準的歷史和當前數據,在預測過程中嚴格控制預測誤差,從而保證預測結果的精準度[1]。精準預測技術的正常運行要求提供精準的歷史數據和當前數據,因此數據挖掘算法經常被應用到精準預測工作當中。數據挖掘是從大量的數據中自動搜索隱藏與其中的有著特殊關系性的信息的過程,數據挖掘算法的實現需要借助計算機設備,通過數據統計、在線分析、數據處理、情報檢索、及其學習以及模式識別等多種方法來實現對目標數據的挖掘[2]。然而當前的數據挖掘算法存在挖掘結果精度低的問題,將其用于精準預測工作中會導致預測結果存在嚴重誤差,為了解決上述問題,提出了人工蜂群聚類技術。人工蜂群聚類技術通過各人工蜂個體的局部尋優行為,最終在群體中使全局最優值凸顯出來。而聚類技術以相似性為基礎,將具有較高相似度的數據聚類在一起。通過人工蜂群聚類技術的有機結合并將其應用到數據的挖掘過程當中,可以挖掘出目標數據集當中的一系列最優數據集合,將數據挖掘結果應用到精準預測工作當中,便可以得出精準的預測結果。
1 人工蜂群聚類數據挖掘算法設計
1.1 數據準備與處理
數據準備與處理的過程就是數據收集和預處理的過程,通過數據的選擇、預處理和數據轉換三個步驟得出初始數據的處理結果[3]。其中數據清洗處理的過程如圖1所示。
從圖1可以看出數據清洗分為四個處理階段,分別為清洗規則的生成階段、預處理階段、處理階段和數據加載階段。通過數據的清洗可以檢測出初始數據集合并解決單一數據源中或多數據源集成過程中存在的數據質量問題,直到樣本數據滿足數據的質量要求[4]。
1.2 利用人工蜂群聚類技術分類樣本數據
人工蜂群算法模擬蜜蜂不同的分工,種群中主要分為采蜜蜂、觀察蜂和偵查蜂三種類型,一個蜜源對應一個采蜜蜂,觀察蜂通過觀察采蜜蜂帶來的蜜源信息,結合蜜源的數量和質量選擇蜜源進行開采,加快算法的收斂[5]。而偵查蜂的作用是在整個區域范圍內搜索可用的蜜源,從而提高全局的開采能力。假設人工蜂群蜜源表示的是目標函數的解,那么蜜源的質量能夠反映出目標函數解的質量,該質量使用公式(1)表示的適應度函數來衡量。
結合人工蜂群的變異和交叉思想,分別通過采蜜蜂、觀察蜂和偵查蜂三個角度執行人工蜂群算法[6]。在開始運行之前,首先需要對算法中的變量進行初始化處理,根據公式(1)開始迭代執行以下階段,直到達到最大迭代次數。人工蜂群算法的采蜜蜂和觀察蜂階段可以表示為:
公式(2)(a)中在初始蜜源附近產生一個新的鄰近蜜源,記為,表示的是此時對蜜源的第j維產生一個擾動。公式(2)(a)中為控制繞度幅度的隨機數,j為常數參數[7]。在偵查蜂階段,蜜源經過多次擾動后仍未更新,被判定為枯竭蜜源,重新搜索一個新的蜜源來代替初始蜜源,返回到采蜜階段繼續進行新一個循環迭代。結合上述人工蜂群算法進行初始樣本數據的聚類處理,并診斷出源數據集合中的離群樣本。定義初始數據樣本集合為(公式(3)):
其中樣本數據的維度為n,設置聚類中心,并得出相同類型樣本數據與聚類中心之間的距離,距離計算如公式(4):
式(4)中表示的是設置的聚類中心,即為任意一個樣本數據與其對應的聚類中心之間的距離,而J為各個樣本達到對應聚類中心的距離綜合[8]。遵循最鄰近聚類法則,判斷任意一個樣本數據是否屬于類型D,若滿足公式(5)中的條件,即數據屬于類型D。
由此便可以得出樣本數據的分類結果。如果在樣本數據中存在一個樣本數據,該數據不屬于任意一個聚類,則認定該數據為離群數據進行剔除處理[9]。
1.3 實現精準預測相關數據并行挖掘
為了提高數據挖掘的效率,在保證數據挖掘結果質量的同時提升數據挖掘的速度,以人工蜂群聚類技術下樣本數據分類為基礎,在關聯規則的約束下,采用并行的方式實現對數據的精準挖掘,從而為精準預測工作提供更加準確的數據樣本[10]。其中并行的兩個部分分別為數據挖掘執行程序和人工蜂群聚類技術下的數據分類程序,以人工蜂群聚類分類結果為一個數據倉庫得出符合關聯規則的一組數據挖掘結果,為了保證兩個并行程序的負載均衡,需要及時調整數據的挖掘誤差,最終將輸出的多組數據挖掘結果進行融合,得出的結果即為用于精準預測的數據挖掘結果[11]。
2 數據挖掘算法應用實驗分析
2.1 實驗目的與過程
此次實驗的實驗目的是為了證明設計的人工蜂群聚類數據挖掘算法的性能,數據挖掘算法的性能測試分為兩個部分,分別為挖掘算法本身的查全率和算法的應用性能。實驗中選擇通信網絡流量的精準預測作為實驗環境,設置了傳統的數據挖掘算法和文獻[6]中提出的云計算下的數據挖掘算法作為此次實驗的對比方法,分別將三種數據挖掘算法以相同的方式導入到實驗環境中,保證實驗變量的唯一性。