高 西, 胡子牧
(重慶醫科大學 附屬大學城醫院,重慶 401331)
隨著互聯網、5G等技術的飛速進步,可收集的圖片數據種類、數量越來越多,數據特征的維度也越來越高。為了從海量圖片中快速檢索、分類有用的圖片,許多研究者將聚類方法用于該領域[1-5]。聚類是模式識別和數據挖掘中的一個重要方向,是一類無監督學習算法,它遵循相似規則將數據樣本劃分為不同的類,在同一類中的對象之間相似性較高,而在不同類中對象之間相似性較低。到目前為止,很多研究者提出了一些有效的聚類方法,例如k-means[6]、FCM[7]、SOM聚類[8]、AP算法[9]、譜聚類算法[10-13]。其中k-means算法以其對大型數據集的高處理效率而得到了最為廣泛的應用。該算法的優點有很多,缺點主要在于:第一,只考慮類內距離,未考慮類間距離;第二,對包含海量樣本的數據集的聚類數目上界的確定主要依靠經驗,而人為設置的聚類數目上界往往偏大,導致了算法運行效率被降低。
有鑒于k-means算法的第一個缺陷,黃曉輝等[14]提出了一種類內-類間距離加權的k-means算法,該算法的基本思路是,通過在子空間內最大化類中心與其他類內樣本點的距離來融合類內和類間距離進行聚類。黃曉輝等在算法中設計了一個目標函數,然后通過求解目標函數來對算法參數進行迭代更新。在真實數據集上的表現證實了該算法相比于現有k-means類算法的優越性。針對傳統k-means算法的第二個缺陷導致的聚類數目上界設置偏大,進而導致算法運行效率偏低的問題,周世兵等[15]通過合理設置AP算法的初始參數確定了聚類數目的上界,該方法比傳統的經驗估計更為有效,大大提升了k-means算法的執行效率。……