劉衛華 廣東司法警官職業學院 史婷婷 仲愷農業工程學院 信息科學與技術學院
在互聯網科技飛速發展的背景下,尤其是大數據技術的不斷發展和數據量的快速增加,其技術的使用率和使用效果以及數據挖掘能力都顯著提升。只有在大量的數據中得到有利信息,找出發展的趨勢,研究數據海洋中存在的規則和規律,才能找到存在數據內的知識和特點。因此,數據挖掘(Data Mining,DM)新技術誕生。
分層聚類算法是利用完善系統圖形的方式實施分類的,在不同的葉結點中都有相符的樣本,不同的樹結點也會對應不同的分類,聚類算法依據使用者的需求在不同環節進行分析。在分層聚類算法中包含了凝聚算法與分裂算法。凝聚算法和分裂算法的區別就在于一個是自底向上,而另一個是自頂向下。凝聚算法是把樣本視為一個整體,之后依據有關條件把附樣本進行融合變成全新的一類,按照這種規律進行,一直循環到全部樣本融合變成一個整體類為止;若是想使用分裂算法就有很大不同,首要進行的是把全部樣本視為一個整體類,之后在其中選取距離比較遠的樣本實施分裂,一直開展到全部中只有一個樣本的時候為止。
在聚類算法中,分割聚類算法(PartitionalClustering,PC)是當前使用最為廣泛的一種算法,在一般情況下使用數據樣本進行板塊的劃分,之后在針對不同的評價指標對板塊數據實施掌控,對于不符合板塊中的數據分類到其他板塊中,使用不間斷聚類方法完成過程。比較常見的方法有K-Medoids 以及K-Means 等。其中K-Means 是利用隨機和數據收集的方式進行板塊分割的,分割完成后的板塊是K 塊,根據類中不同的權均值,來分別表示此類特點,并且計算其中的距離,把集中的數據分別調至附近的類中,針對M 實施重新計算,計算完后和之前計算結果進行對比,最終完成聚類過程。K-Medoids 在整個算法中屬于類的代表項,在樣本選取之后,把樣本附近的子集融合變成一個類,目標函數指的是樣本附近的距離有著相似性。
BIRCH 是利用分支因子調控來設置B 與門檻值T,在根點出發不斷對數據和節點進行分析,依據符合門檻值數據的狀況來完成吸收與構造修正,得出CF 數值而且通過有關聚類算法對有關數據進行聚類分析。這種算法只具備一次的掃描數據,在時間算法方面有著比較復雜的性質,所以在數據量比較的情況下得到了比較廣泛的應用。CURE 算法基本使用的都是數據抽樣的方式,對相關數據進行樣本分析,把不同的類和附近距離較短的類型聯合起來,建立一個較大的heap。如果類的數值在大于k 的情況下,要使用較小的類進行融合使用,一直到滿足需求條件為止。CURE 算法使用的基本上都是抽樣技術,所以時間的難度是O(K2),其中K 是抽樣中的樣本數量。
模糊聚類是使用點和類的數值來完成衡量的,點在類中屬于一種程度的表達,該表達對于類界限不清楚具有非常良好的應用效果。在這種算法中,比較常見的類型有PCM 和FCM(Fuzzy c-means) 等。其中PCM 算法是對每個數據點進行計算與比較,只要是數值在滿足條件的基礎上,還要在產生隸屬度的過程中符合基本公式,在這種基礎上就沒有歸一化的約束條件了。利用這種方式形成了每個類之間有了相互獨立的特點。FCM 算法是利用迭代計算聚類來完成目標函數不斷變化的,在新函數和函數之間出現了不一樣的情況時,當新的目標函數與上一次目標函數值之差小于或迭代次數大于T,若是沒有發生上述情況就要對矩陣運算進行修正。
在柵格聚類算法的基礎上對拓撲構造進行繼承,把點的處理變成空間方面的處理,利用空間劃分來實現聚類的效果,其中最大的優勢就在于數據排序方面和敏感程度,能對屬性不同的數據進行處理和挖掘。STING 算法主要針對的是區域查詢,利用數據構造和信息存放,將每個節點劃分到分層數中。對STING 算法不斷完善與改進,得到STING+算法,兩者在分層構造上有著很多相似之處,主要應該在動態變化和數據挖掘方面。在信號處理部分使用Wave Cluste 算法比較便捷,其對數據和數字的結構識別方面有著較強的分辨率,突出的優勢有:(1)可以對高維空間數據進行處理;(2)具有較強的抗干擾性;(3)聚類效果非常好。柵格的分層構造可以通過Fractal Clustering 算法,此計算方法的優勢在于:(1)可以找出不規則的類;(2)使用的處理方式符合在線處理要求。
在當今時代中,機器學習和人工智能等技術都不斷涌現,因此,聚類算法變成了數據挖掘方面的熱門算法。要想不斷提升數據處理的范圍和能力,部分研究人員對聚類開展了更加深入的分析,從而產生了很多新的聚類計算方式。其中使用較為廣泛的有:聚類集成算法、核聚類算法、不確定聚類算法、基于熵的聚類算法、包括模糊聚類、粗糙聚類、譜聚類算法、球殼聚類算法、基于粒度的聚類算法以及量子聚類算法等。為了得到大量的聚類數據,馬文萍等人在這種背景下,把差分免疫克隆聚類中的硬聚類變成模糊聚類。為了實現非規則程序的不斷劃分,李遠成等人研究出一種模糊聚類形式的劃分方法。由于在時間方面有著很多限制,為了使其在時間算法方面具有簡單性質,劉解放等針對此問題,在貝葉斯模糊聚類中引入加權機制,提出了加權貝葉斯模糊聚類算法,提升了此方法的有效性。
聚類算法在完善與創新過程中,不斷融合機器學習、數據挖掘、程序識別等方面的知識。在未來的發展中,智能聚類會與支持向量機、模糊邏輯以及神經網絡等先進技術融合的更加緊密,把聚類分析和群智能兩者實施更好融合將是未來研究的重點。