





摘要:針對傳統算法在挖掘負載平衡數據時,常常會出現挖掘效率低、誤差高等問題,提出基于耦合度量的負載平衡大數據挖掘方法.在對耦合度量算法分析后,利用K-tras分割聚類算法不斷更新聚類中心,完成負載平衡大數據的聚類;計算負載平衡數據的最優分類面和量化后的矢量軌跡,完成數據挖掘.實驗結果表明,所提方法取得了理想的挖掘效率、查全率及較低的挖掘誤差.
關鍵詞:挖掘效率;矢量軌跡;數據挖掘;聚類中心;耦合度量
中圖分類號:TP362"" 文獻標志碼:A
Load Balancing Big Data Clustering Mining Method Basedon Coupling Measurement
CAI Yan-ping
(Department of Information and Technology, Xiamen Xingcai Vocational and Technical College, Xiamen 361024, Fujian, China)
Abstract:Because the traditional algorithms often have the problems of low mining efficiency and high error when mining load balancing data, a load balancing big data mining method based on coupling measurement is proposed. After analyzing the coupling measurement algorithm, K-tras segmentation clustering algorithm is used to update the clustering center constantly, and the clustering of load balancing big data is completed. The optimal classification surface and quantized vector trajectory of load balancing data are calculated to complete data mining. By setting up an experimental platform and carrying out comparative simulation experiments, the results show that the proposed method achieves the best mining efficiency and recall ratio, and the lowest mining error.
Key words:mining efficiency; vector trajectory; data mining; cluster center; coupling measurement
為了提高Web服務器站點的響應速度,將若干個低性能服務器通過某種方式集成在一起,形成一個性能較高且穩定運行的Web服務器集群系統.這種系統從用戶的角度看就像只有一臺服務器在為其服務.雖然提高了響應速度,但是多個服務器之間并未實現事務的遷移,即當一臺服務器接收到事務后,以后的事務都要發往該服務器,無法實現多臺服務器之間的共同運作.
負載平衡技術是提高Web服務器集群系統性能的重要舉措之一,但目前依然存在以下2個問題:①當Web服務器集群系統中任意一臺服務器出現過載情況時,無法接收事務請求,其他服務器同樣會出現過載的情況,降低整個集群系統的工作效率;②即使采取措施允許過載服務器接收事務請求,但是隨著接收事務量的增加,服務器負載只會越來越重,始終處于過載狀態.負載平衡技術通常采用后驗性方法,即使服務器過載也無法避免.
數據挖掘是解決上述問題的關鍵技術之一,可提高集群系統的有效性,使整體架構更加完善、合理,將不同的聚類結果分配給不同的服務器,實現先驗性的負載平衡.文獻[1]在群智能算法的基礎上,提出一種數據聚類挖掘算法.首先,利用群智能算法完成聚類中心初始化操作,并對每個數據之間的類間聚類和密度參數進行計算;然后,根據計算結果完成對聚類中心的更新,將類與聚類中心距離最短的值看作是最優解,即最優劃分聚類;最后,直接對最優劃分聚類進行數據挖掘即可.文獻[2]利用并行關聯規則算法實現數據的聚類挖掘.首先,在內存計算Spark框架的基礎上,保證磁盤輸入輸出的數據量最小,減少占用系統CPU,降低I/O負載;然后,利用位圖運算完成數據聚類挖掘,并通過基于前綴劃分的剪枝技術控制運算過程中的數據量.
上述兩種方法在數據挖掘效率方面取得的結果并不理想.因此,本文利用耦合度量算法,提出一種負載平衡大數據挖掘算法.
2 實驗及結果分析
為了驗證本文方法在實際應用中是否可以取得理想的數據挖掘效果,與群智能算法和并行關聯規則算法進行了對比實驗.實驗是在Windows10系統PC端上展開的,CPU為3核,內存大小為256 GB.
首先,從數據挖掘效率方面對本文方法、群智能算法和并行關聯規則算法展開對比.選取了3個數據集,數據量分別為1 000個、2 000個和3 000個.利用3種算法對這3個數據集同時進行數據挖掘,結果如表1所列.
從表1可以看出,隨著數據集中數據量的不斷增加,3種算法數據挖掘時間也有不同程度增加.通過對比發現,無論數據集中數據量如何變化,本文方法的挖掘時間在3種算法中是最少的,從而證明本文方法數據挖掘效率較高.
接下來對3種數據挖掘算法的查全率進行對比.對1 000、2 000、3 000這3個數據集分別進行10次挖掘,3種算法查全率對比結果如圖2所示.
從圖2中可以看出,數據集的大小影響算法的查全率,數據集越大,查全率越低,但是本文方法的查全率曲線下降最為平緩,而且在3種算法中始終都是最高的.由此可以說明本文方法在查全率方面性能較好.
最后,利用3種算法分別對1 000、2 000、3 000這3個數據集從挖掘誤差值方面展開實驗測試,結果如圖3所示.
觀察圖3可知,隨著實驗次數的增加,3種算法誤差曲線也有了不同程度的增長,數據集越大,誤差值曲線越高.綜合對比發現,本文方法的誤差增長曲線最為平穩,而且在3種算法中始終都是最低的.由此可知,利用本文方法進行負載平衡大數據的挖掘,可取得理想的數據挖掘精度.
3 結論
針對Web服務器集群系統負載平衡大數據,本文利用耦合度量算法對其進行挖掘.利用K-tras分割聚類算法對負載平衡數據完成聚類,通過對負載平衡數據計算最優分類面和量化后的矢量軌跡,完成數據挖掘.與其他算法展開實驗對比,結果表明,本文方法具有最高的挖掘效率和查全率,同時保證最低的挖掘誤差.
參考文獻:
[1]鄭琳,張輝.云環境下基于群智能算法的大數據聚類挖掘技術[J].現代電子技術,2020,43(15):115-118.
[2] 李成嚴,辛雪,馮世祥,等.Sp-IEclat:一種大數據并行關聯規則挖掘算法[J].哈爾濱理工大學學報,2021,26(4):109-118.
[3] 藍志威,袁杰,任志寬.多源通信研發機構入侵監測大數據挖掘方法[J].計算機仿真,2021,38(1):350-353,399.
[4] 胡曉東,高嘉偉.基于分組模型的引力搜索智能大數據聚類方法[J].計算機工程與設計,2021,42(6):1660-1667.
[5] 張文杰,蔣烈輝.基于MapReduce并行化計算的大數據聚類算法[J].計算機應用研究,2020,37(1):53-56.
[6] 田真真,趙書良,李文斌,等.基于耦合度量的多尺度聚類挖掘方法[J].數據采集與處理,2020,35(3):549-562.
[7] 張林兵,吳行斌,梁耀洲,等.基于多維行為分析的用戶聚類方法研究[J].電子科技大學學報,2020,49(2):315-320.
[8] 劉呈熠,鞏現勇,行瑞星,等.空間知識挖掘的自然面群聚集度聚類方法[J].測繪學報,2021,50(4):544-555.
[9] 胡添翼.基于面板數據分析方法的混凝土拱壩變形數據時空聚類模型[J].長江科學院院報,2021,38(2):39-45.
[10]金朋朋,方賢文,王麗麗,等.基于因果行為輪廓的流程變體聚類挖掘方法[J].計算機集成制造系統,2020,26(6):1538-1547.
[責任編輯:李 嵐]