王 娜 杜海峰 王孫安
聚類,即無監督分類,是一種重要的數據分析方法,已經被廣泛應用于信息檢索、數據挖掘和模式識別等領域,在現有的聚類方法中,基于目標函數的聚類算法把聚類問題歸結為一個優化問題,具有深厚的泛函基礎,是聚類算法研究的重要分支之一,而樣本之間的相似度度量以及待優化的準則函數設計就成為此類算法研究的核心問題,通常,樣本之間的相似度度量就是樣本之間的距離,最簡單的相似度度量是歐氏距離,它對空間分布為球形或超球體的數據具有很好的性能,但對于空間分布復雜的流形結構的數據效果很差,因此為此類數據設計更加合理的相似度度量是非常必要的工作,準則函數的設計力圖反映聚類目標,即把樣本分為多個類,同類中的樣本具有較高的相似度,不同類中的樣本差別較大,簡單且應用廣泛的準則函數是誤差平方和準則、相關的最小方差準則和散布準則,雖然這些準則在很多問題中都體現出很強的實用性,但對于復雜的數據結構(密集類被稀疏類包圍或互相絞纏在一起的線條式的幾個類)依然無法正確聚類。