摘 要:網絡優化是指通過對大量采集的網絡運行數據進行分析、匯總、提煉,獲得網絡運行質量的影響因子,從而針對實際情況作出相應的決策,反饋調整系統參數或相關設備,讓網絡運行達到最佳狀態,同時對網絡日后的運維和擴容等提出有效的決策參考。網絡優化的實質是優化網絡質量、提高網絡品質,而網絡質量不僅僅是單一因素作用的結果,而是受多種因素相互制約的,隨著應用范圍的不斷增加,工作的不斷深入,其優化技術也得到大幅提升,至使優化領域不斷擴展,優化對象已突破現有的網絡,擴展滲透到運營市場的商業預測,實施規劃,運行管理、維護擴容等整個運營過程的各個層面。文章主要介紹K-均值聚類算法如何在無線局域網優化及分析中的應用。
關鍵詞:無線局域網;聚類分析算法;網絡優化
聚類(clustering)是將物理的抽象的對象集合,分成相似的對象類的過程。簇(cluster)是數據對象的集合,同一簇中的對象具有相似性,而不同簇中的對象則具有相異性。聚類分析(Cluster analysis,亦稱為群集分析)是一種重要的人類活動。早在孩童時代,通過不斷地改進下意識的聚類模式來學習如何區分貓和狗,或動物和植物。通過自動聚類能夠識別對象空間中稠密和稀疏區域,從而發現全局分布模式和數據屬性之間有趣的相關。聚類分析已經在許多領域受到廣泛應用,包括機器學習,數據挖掘,模式識別,圖像分析以及生物信息。聚類是把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集(subset),劃分的原則是在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。屬于一種無指導的學習方法。
針對現存在的一批聚類算法。尚未能提供相對標準統一的分類。因為類別可能交叉重疊,有可能出現體現多種特征的分類方法,一般劃分如下。劃分方法(partitioning methods):給定對象或數據元組的數據庫,劃分方法構建數據的劃分,每個劃分表示一簇。層次方法(hierarchical methods):對預設數量的數據集進行層次的分解。按照其分解方式可以將層次方法分類為凝聚的層次聚類和分裂的層次聚類兩種。基于密度的方法(density-based methods):以數據集在空間分布上的稠密程度為依據進行聚類。基于網格的方法(grid-based methods):將數據空間劃分成為有效單元的網絡結構。基于模型的方法(model-based methods):給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數據集。
k-means算法,又叫做k-平均算法或者k-均值算法,應用最廣泛的算法之一。它的特征是,取子集內的樣本均值,當作其代表點。利用迭代的思想,其數據集被劃分成不同的類別,這是它的主要思想。以致準則函數性能最優化,達到聚類性能評價最優。產生的每個聚類特點是:類間獨立,類內緊湊。它的另一特點是:適合于處理連續型屬性聚類,而不太適宜離散型屬性聚類處理。
在本文中運用了k均值聚類算法,利用Oracle來實現具體步驟。我們使用5個Oracle存儲過程來完成該算法。圖1是每個存儲過程的作用。
圖2是Oracle存儲過程結構。USP_KMEANS_CLUSTER是聚類的綜合過程,它首先對數據進行預處理,因此它最先調用的是USP_KMEANS_NORMALDATA或USP_KMEANS_STANDARDDATA,然后再去計算預處理后的數據的初始中心,這一步由過程USP_KMEANS_INITIALCENTER來實現,再去判斷聚類中心點是否發生了變化,如果變化則再調用過程USP_KMEANS_MODIFYCENTER,直到聚類中心不再發生變化。
k-均值聚類算法可以高效的、可伸縮的處理大數據集,處理快速、操作簡單,算法嘗試找出使平方誤差函數值最小的k個劃分。若簇之間區別明顯,結果簇是密集的,效果較好。依據以上特點,適用于在無線局域網數據包被采集到以后進行網絡優化分析。
參考文獻
[1]張卓筠,高功應,王磊.WLAN與EPC網絡整合架構研究[J].移動通信,2012,10:93-96.
[2]陳松喬,任勝兵,王國軍.現代軟件工程[M].北京:清華大學出版社,2008:210-350.
[3]George Fairbanks.恰如其分的軟件架構[M].湖北:華中科技大學出版社,2013:340-395.
[4]陳吉平.構建0racle高可用環境:企業級高可用數據庫架構、實戰與經驗總結[M].北京:電子工業出版社,2008:245-302.
作者簡介:魏煥新(1983-),男,湖南長沙人,碩士研究生,湖南機電職業技術學院信息工程學院,研究方向為計算機應用技術。