摘要:在對傳統聚類方法進行簡要介紹的基礎上,對聚類的新發展進行了較詳細的歸納,總結了聚類分類方法發展的趨勢。
關鍵詞:數據挖掘;聚類分析;聚類方法
中圖分類號:TP301文獻標志碼:A
文章編號:1001-3695(2008)01-0013-05
0引言
聚類分析是數據挖掘技術中重要的組成部分,它能夠在潛在的數據中發現令人感興趣的數據分布模式[1]。聚類分析被廣泛應用在金融數據的分類、空間數據處理、衛星圖片分析和醫學圖像的自動檢測中。聚類分析就是把數據集分成簇,使簇內數據盡量相似,簇間數據盡量不同。聚類的嚴格數學描述如下[2]:
聚類分析可以作為獨立的數據挖掘工具,用來獲得數據分布的情況,觀察每個簇的特點,集中對特定的某些簇作進一步處理;也可以作為其他數據挖掘算法(如特征和分類等)的預處理。到目前為止,傳統的聚類分析方法可以分為以下幾類[3]:a)基于劃分的方法(partitioning method),代表算法有K means[4~6]、K_MEDOIDS[7]、 CLARANS[8]等;b)層次方法(hierarchical method),代表算法有BIRCH[9]、CURE[1]、 Chameleon[10]、CACTUS[11]等;c)基于網格的方法(grid based me thod),代表算法有STING[12]、CLIQUE[13]、WaveClusier[14]等;d)基于模型的方法(model based method),通常有統計的方法和神經網絡方法兩種;e)基于密度的方法(density based me thod),代表算法有DBSCAN[15]和OPTICS[16]等。
聚類是一個富有挑戰性的研究領域,它的潛在應用提出了各自特殊的要求。在數據挖掘領域中對聚類算法的典型要求主要有以下幾個方面:a)可伸縮性。聚類算法對小數據集和大規模數據有同樣的效果。b)處理不同數據類型屬性的能力。實際應用要求算法能夠處理不同類型的數據。c)能發現任意形狀的聚類。聚類特征的未知性決定聚類算法要能發現球形的、嵌套的、中空的等任意復雜形狀和結構的聚類。d)決定輸入參數的領域知識最小化。聚類算法要盡可能地減少用戶估計參數的最佳取值所需要的領域知識。e)能夠有效地處理噪聲數據。聚類算法要能處理現實世界的數據庫中普遍包含的孤立點、空缺或錯誤的數據。f)對于輸入記錄的順序不敏感。聚類算法對不同次序的記錄輸入應具有相同的聚類結果。g)高維性。聚類算法不僅要擅長處理低維數據集,還要處理高維、數據可能稀疏和高度偏斜的數據集。h)基于約束的聚類。聚類結果既要滿足特定的約束,又要具有良好聚類特性。i)可解釋性和可用性。聚類結果應該是可解釋的、可理解和可用的。
所有的聚類方法都具有各自的特點。有些以方法簡單、執行效率高見長(如K means);有些對任意形狀、大小的類識別能力強(如CUBN(clustering using border and nearest));有些能很好地過濾噪聲數據(如DBSCAN)。但這些方法都有各自的局限性。例如K means方法只能識別大小近似的球形類;CUBN、DBSCAN的時間復雜度都為O(n2)。另外,很多聚類方法對輸入參數十分敏感,而且參數很難確定,加重了用戶的負擔。目前普遍認為不存在某種方法能適合各種特點的數據。
經典聚類分析方法在很多領域已經得到了成功的應用。例如在商業上,聚類可以幫助市場分析人員從消費者數據庫中區分出不同的消費群體,并且概括出每一類消費者的消費模式或習慣;在生物學中,它可以被用來輔助研究動物、植物的分類,可以用來分類具有相似功能的基因,還可以用來發現人群中一些潛在的結構等;另外它在空間數據處理、金融數據、衛星圖像等領域都得到非常成功的應用。但是由于每一種方法都有缺陷,再加上實際問題的復雜性和數據的多樣性,使得無論哪一種方法都只能解決某一類問題。近年來,隨著人工智能、機器學習、模式識別和數據挖掘等領域中傳統方法的不斷發展以及各種新方法和新技術的涌現,數據挖掘中的聚類分析方法得到了長足的發展。
1數據挖掘領域中的聚類方法新發展
1.1基于群的聚類方法
這種方法可看做進化計算的一個分支。它模擬了生物界中蟻群、魚群和鳥群在覓食或逃避敵人時的行為??v觀文獻中對于群的分類方法的研究,將這種方法分為兩類:一類是蟻群算法或蟻群優化(ant colony optimization,ACO);另一類稱為PSO(particle swarm optimization)[17]。
用蟻群算法或蟻群優化來進行分類規則挖掘的算法稱為ant miner[18,19]。Ant miner是將數據挖掘概念和原理與生物界中蟻群行為結合起來形成的新算法。受生物進化機理的啟發,1991年意大利學者A.Dorigo等人提出了蟻群算法,它是一種新型的優化方法。該算法不依賴于具體問題的數字描述,具有全局優化能力。后來其他科學家根據自然界真實螞蟻堆積尸體及分工行為,提出螞蟻的聚類算法[20,21];2002 年,Labroche 等人提出基于螞蟻化學識別系統的聚類方法。總的說來, 基于蟻群算法的聚類方法從原理上可以分為四種:運用螞蟻覓食的原理, 利用信息素來實現聚類[22];利用螞蟻自我聚集行為來聚類;基于螞蟻堆的形成原理實現數據聚類;運用蟻巢分類模型, 利用螞蟻化學識別系統進行聚類[23]。
蟻群聚類算法的許多特性,如靈活性、健壯性、分布性和自組織性等,使其非常適合本質上是分布、動態及又要交錯的問題求解中, 能解決無人監督的聚類問題, 具有廣闊的前景。后來ant miner3[24]對ant miner進行了改進,它的預測精度高于ant miner。
PSO是進化計算的一個新的分支,它模擬了魚群或鳥群的行為。PSO將群中的個體稱為particles,整個群稱為swarm。在優化領域,PSO可以與遺傳算法相媲美。文獻[25]將PSO用于分類,對discrete PSO(DPSO)[26]linear decreasing weight PSO(LDWPSO)[27]和constricted PSO (CPSO)[28]進行了比較,并選取CPSO作為挖掘分類規則的工具。文獻[29]對CPSO進行了改進,并與遺傳算法進行了比較。實驗結果表明,在預測精度和運行速度方面,PSO方法都占優勢。
對ACO或PSO在數據挖掘中應用的研究仍處于早期階段,要將這些方法用到實際的大規模數據挖掘的聚類分析中還需要做大量的研究工作。
1.2基于粒度的聚類方法
從表面上看,聚類和分類有很大的差異——聚類是無導師的學習,而分類是有導師的學習。更進一步地說,聚類的目的是發現樣本點之間最本質的抱團性質的一種客觀反映;分類在這一點上卻不大相同。分類需要一個訓練樣本集,由領域專家指明哪些樣本屬于一類,哪些樣本數據屬于另一類,但是分類的這種先驗知識卻常常是純粹主觀的。如果從信息粒度的角度來看的話,就會發現聚類和分類有很大的相通之處:聚類操作實際上是在一個統一粒度下進行計算的;分類操作是在不同粒度下進行計算的[30]。所以說在粒度原理下,聚類和分類是相通的,很多分類的方法也可以用在聚類方法中。
作為一個新的研究方向,雖然目前粒度計算還不成熟,尤其是對粒度計算語義的研究還相當少,但是相信隨著粒度計算理論本身的不斷完善和發展,今后幾年它必將在數據挖掘中的聚類算法及其相關領域得到廣泛的應用。
1.3基于模糊的聚類方法
在實踐中大多數對象沒有嚴格的屬性,它們的類屬和形態存在著中介性,適合軟劃分。由于模糊聚類分析具有描述樣本類屬中間性的優點,能客觀地反映現實世界,成為當今聚類分析研究的主流。最早系統的表達和研究模糊聚類問題的著名學者Ruspini[31~33]率先提出了模糊劃分的概念。利用這一概念,人們相繼提出了多種模糊聚類分析方法。比較典型的有基于相似性關系和模糊關系的方法[34~36]、基于模糊等價關系的傳遞閉包方法[37,38]、基于模糊凸輪的最大樹方法[39~41]以及基于數據集的凸分解、動態規劃和難以辨識關系[42~44]等方法。然而上述方法均不適于大數據的情況,難以滿足實時性較高的場合。基于目標函數的模糊聚類方法把聚類歸結成一個帶約束的非線性規劃,通過優化求解獲得數據集的模糊劃分和聚類?;谀繕撕瘮档哪:垲愃惴ǔ蔀樾碌难芯繜狳c。FCM(基于目標的模糊聚類方法)的原理為:
由于梯度法的搜索方向總是沿著能量減小的方向,使得算法存在易陷入局部極小值和對初始化敏感的缺點。為了克服上述缺點,近幾年來人們提出了各種算法對目標函數進行優化。采取的主要措施是在FCM算法中引入全局尋優法[45]。例如1989年徐雷提出模擬退火對硬分類矩陣U進行退火處理的硬C 均值算法[46];1993年Selim[47]和Asultan[48]等人提出模擬退火+模糊聚類算法;1995年劉健莊、謝維新等人提出用遺傳算法進行硬聚類和模糊聚類的分析方法;1999年楊廣文等人利用確定性退火技術提出一種聚類模型及聚類算法[49] ,然而由于模擬退火算法只有當溫度下降足夠慢時才能收斂于全局最優點,極長的運行時間限制了其實用性;1994年Babu和Murty提出利用進化策略對目標函數進行聚類的方法[50];2002年陳金山、韋崗提出遺傳+模糊C 均值混合聚類算法[51]。這些算法利用遺傳算法的全局搜索能力來擺脫FCM聚類運算時可能陷入的局部極小點,優化了聚類的性能。眾所周知,傳統的進化算法是一種具有“生成+檢測”迭代過程的搜索算法。這種算法多是由體現群體搜索和群體中個體之間信息交換的兩大策略的交叉和變異算子組成,為每個個體提供了優化機會,即進化的趨勢。進化算法在進化過程中不可避免地產生退化現象的固有缺點,導致了進化后期的波動現象,并會出現迭代次數過多和聚類準確率不太高的現象。在某些情況下,這種退化現象還比較明顯。
免疫進化算法[52](immune evolutionary algorithm,IEA)借鑒生命科學中的免疫概念和理論在保留原算法優良特性的前提下,力圖有選擇、有目的地利用待求問題中的一些特征或知識來抑制其優化過程中出現的退化現象。免疫算法的核心在于免疫算子的構造。免疫算子通過接種疫苗或免疫選擇兩個步驟來完成。免疫進化算法能提高個體的適應度和防止群體的退化,從而達到減輕原有進化算法后期的波動現象和提高收斂速度。文獻[53]提出了基于免疫進化的模糊聚類算法(IFCM、IFCSS、IFCL)和基于免疫進化的硬聚類算法。這種算法既較大地提高了獲取全局最優的概率,又減輕了基于遺傳聚類算法在遺傳后期的波動現象。進一步的工作是參數的適當選取和減小運行時間等。文獻[54]提出了一種基于有限資源的模糊網絡結構聚類算法。由于該算法引入模糊識別球,大大提高了運算效率,使得該算法更加適合于大數據集聚類分析;同時,因為采用了有限資源網絡,克服了標準基于網絡聚類算法對噪聲點敏感的缺點,使得到的網絡具有清晰的結構;通過分析網絡神經元的最小樹,能夠快速準確地獲得類別數以及相關的分類信息,從而實現了聚類分析的自動化。該算法不依賴于初始原型的選擇,也無須類數的先驗知識,可以真正做到無監督自學習。該算法中只需要預先設定最大資源數一個參數,而初始的網絡規模并不影響最終的結果,所以該算法在現實生活中是非常方便的。
人們對于客觀事物的認識往往帶有模糊性。人類大多用一些模糊的詞語來交流思想、互通信息,然后進行推理分析、綜合判斷,最后作出決策??陀^事物是有確定性的,而反映在人的認識上卻帶有模糊性。人對于客觀事物的識別往往只通過一些模糊信息的綜合,便可以獲得足夠精確的定論。實質上,上面所說的模糊聚類算法就是利用了人認識事物的規律,使計算機接近人類的智能。模糊聚類分析仍然是今后研究的重要課題之一。
1.4基于綜合其他領域的聚類方法
1.4.1量子聚類
目前常用的聚類算法是基于距離的分割聚類算法,它僅僅根據數據間的幾何相似性進行分類,是一種無監督的學習方法。一般來說,它的效果并不加入數據間的幾何相識性進行分類,是一種無監督的學習方法,其效果并不盡如人意;而且在現有的聚類算法中,聚類數目一般需要事先指定,如Kohenon自組織算法、K means算法和模糊K means聚類算法。然而,在很多情況下類別數是不可知的,而且絕大多數聚類算法的結果一般都要依賴于初值,即使類別數目保持不變,聚類的結果也可能相差很大[55]。
受到物理學中量子機理和特性的啟發,可以用量子理論解決此類問題。一個很好的例子就是基于相關點的Pott自旋和統計機理提出的量子聚類模型。它把聚類問題看做一個物理系統。許多算例表明:對于傳統聚類算法無能為力的幾種聚類問題,該算法都得到了比較滿意的結果。
Horn等人提出了一種新的量子聚類算法[56]。該方法是對尺度空間向量聚類和支撐矢量機聚類固有思想的一種擴充。類似于支撐機聚類算法,該方法也與Hilbert空間中向量的每個點相關聯;同時,他還強調了它們的總和,這等于尺度空間概率函數。在這一點上與尺度空間聚類算法類似。新方法是研究Hilbert空間的一個算子,由Schrodinger等式表示,其概率函數是一個解。這個Schrodinger等式包括一個從概率函數中解析導出的勢函數。本文將聚類中心與勢能最小值聯系在一起,最后驗證了新方法在已知數據集合上的可行性,并通過限定Schrodinger勢能對數據點位置的估價,將此方法應用到高維空間中的聚類問題。
1.4.2核聚類算法
目前比較經典的聚類算法,如K means、模糊K means聚類算法和Kohonen自組織神經網絡[57]等,只能對一些經典分布的樣本奏效。它們沒有對樣本的特征進行優化,而是直接利用樣本的特征進行聚類。因此這些方法的有效性在很大程度上取決于樣本的分布情況。例如一類樣本散布較大,而另一類散布較小的情況,這些方法的聚類效果就比較差。如果樣本分布更加混亂,則聚類的結果反而會面目全非[55]。
通過把核方法[58,59]引入到聚類算法中,本文提出了一種核聚類方法。該方法增加了對樣本特征的優化過程,通過利用Mercer核把輸入空間的樣本映射到高維特征空間,并在特征空間中進行聚類。核聚類方法是普適的,并在性能上優于經典的聚類算法,它通過非線性映射能夠較好地分辨、提取并放大有用的特征,從而實現更為準確的聚類;同時,算法的收斂速度也較快。在經典聚類算法失效的情況下,核聚類算法仍能夠得到正確的聚類。
1.4.3譜聚法
最近一類有效的聚類方法開始受到廣泛關注。該類方法建立在譜圖理論基礎之上,并利用數據的相似矩陣的特征向量進行聚類,因而統稱為譜聚類方法。譜聚類算法是一種基于兩點間相似關系的方法[60],這使得該方法適用于非測度空間。算法與數據點的維數無關,而僅與數據點的個數有關,可以避免由特征向量的過高維數所造成的奇異性問題。譜聚類算法是一個判別式算法,不用對數據的全局結構作假設,而是首先收集局部信息來表示兩點屬于同一類的可能性;然后根據某一聚類判據作全局決策,將所有數據點劃分到不同的數據集合中。通常這樣的判據可以在一個嵌入空間中得到解釋,該嵌入空間是由數據矩陣的某幾個特征向量張成的。譜方法成功的原因在于:通過特征分解,可以獲得聚類判據在放松了的連續域中的全局最優解[55]。
與其他方法相比,譜聚類方法具有明顯的優勢。該方法不僅思想簡單、易于實現、不易陷入局部最優解,而且具有識別非凸分布的聚類能力,非常適合于許多實際應用問題。目前,譜聚類方法已應用于語音識別、視頻分割、圖像分割、VLSI設計、網頁劃分、文本挖掘等領域。
譜聚類方法盡管取得了很好的效果,但目前仍處在發展的初期。算法本身仍存在許多值得深入研究的問題。
1.5多種聚類方法的融合
實際應用的復雜性和數據的多樣性往往使得單一的分類方法不夠有效。因此,學者們對多種分類方法的融合(fusion)進行了廣泛研究,取得了一系列成果??v觀文獻中的研究,大致可以分為以下幾類:a)基于傳統聚類方法的融合,如CLIQUE[13] 、CUBN[61]、CURD[62]、RDVS(clustering using references and density by VISOM)[61]方法等。 b)模糊理論與其他聚類方法融合的方法,如遺傳+模糊C 均值混合聚類算法[51]等。c)遺傳算法與機器學習融合的方法。d)傳統聚類方法與其他學科理論融合的方法,如上文中的量子算法、核算法和譜算法等。
CLIQUE方法就是一種綜合了基于密度和網格的聚類方法。它首先將數據空間劃分為網格單元;然后識別其中密度大于某輸入參數的密集單元,類定義為相連密集單元的最大集合。此方法明顯提高了算法執行效率,但由于方法大大簡化,聚類的精確性較低。
CUBN是一種基于密度、網格和距離的聚類新方法。為了提高算法執行效率,該方法首先將數據空間劃分為網格單元;然后在每個單元中利用密度方法識別出該單元中各類邊界,并使用最鄰近距離的方法將非邊界點聚到各個類中;最后將各單元中相連的類合并成最后的聚類結果。CUBN 方法綜合了基于密度和網格聚類方法的優點,不僅算法執行效率高,而且可識別任意形狀的聚類、過濾噪聲數據。
Guha等人提出的CURE[61]方法采用了多代表點的思想來識別數據空間中形狀復雜和不同大小的類。CURE方法的出現,使人們對此思想很感興趣,出現了眾多基于代表點的聚類方法。CURD[62]也受到CURE算法的啟發,是一種基于參考點和密度的快速聚類方法。CURD采用一定數目的參考點來有效地表示一個聚類區域和形狀。與CURE方法不同的是,參考點是虛擬點,不是實際輸入數據的點,因此稱其為參考點而非代表點;另外,一個聚類中的參考點數目是不固定的。CURD方法同時考慮參考點的密度,將密度小于密度閾值的參考點看做異常點屏蔽掉,參考點可以反映數據空間的幾何特征;CURD方法在經過篩選過濾的參考點集上進行聚類分析。王莉根據CURD方法的缺點,提出一種綜合的聚類方法——RDVS。該方法首先選取代表點并計算密度;然后將代表點及其密度信息作為神經網絡(VISOM)的輸入信息;經過網絡訓練,將代表點映射到二維平面上,在二維平面上距離和密度相近的代表點分別映射到不同的區域內;在同一區域內,代表同一類的代表點即可直觀地得到聚類結果。VISOM[63](visualization self organizing map)是由Yin Hu jun提出的一種改進自組織映射模型(SOM),它大大提高了傳統SOM的可視性。RDVS方法回避了密度閾值設置這一難題,而且由于代表點個數遠遠少于初始數據,網絡訓練速度也很快。
2結束語
聚類分析作為數據挖掘中的重要組成部分,已經廣泛應用于各個領域。在實際應用中,應根據具體問題具體分析,選擇使用最佳的聚類方法。縱觀數據挖掘中聚類分析方法的發展,可以看出聚類分析的新趨勢:a)新方法不斷涌現,如基于群的分類方法和基于粒度計算的分類方法[17]。b)傳統聚類方法的融合發展,如CUBN是一種基于密度、網格和距離的聚類新方法等。c)根據實際問題的需要,有針對性地綜合了眾多領域的技術,以提高分類的性能??傊瑪祿诰蛑械木垲愃惴ňC合了機器學習、數據挖掘、模式識別、物理等領域的研究成果。相信隨著這些領域中相關理論的發展、完善和相互滲透,聚類方法也將得到更進一步的發展。
參考文獻:
[1]
GUHA S,RASTOGI R,SHIM K.CURE:an efficient clustering algorithm for large databases [C]//HAAS L M, TIVARY A.Proc of ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press,1998:73-84.
[2]方開泰.潘恩沛.聚類分析[M].北京:地質出版社,1982:32-38.
[3]陳衡岳.聚類分析及聚類結果評估算法研究[D].沈陽:東北大學,2006.
[4]KRISHNA K,MURTY M N.Genetic K means algorithm [J].IEEE Trans on System, Man, and Cybernetics:Part B,1999,29(3):433-439.
[5]CHINRUNGRUENG C,SEQUIN C H.Optimal adaptiveK meansalgorithm with dynamic adjustment of learning rate[J].IEEE Trans on Neural Networks,1995,6(1):157 169.
[6]LEE D,BACK S,SUNG K.Modified K means algorithm for vector quantizer design[J].IEEE Signal Processing Letters,1997,4(l):2-4.
[7]HAN Jia wei,KAMBER M.Data mining:concepts and techniques[M].[S.l.]:Morgan Kaufmann Publishers,2001:110 121.
[8]NGR T,HAN Jia wei.CLARANS:a method for clustering objects for spatial data mining [J].IEEE Trans on Knowledge and Data Engineering,2002,14(5):1003 1015.
[9]ZHANG T,RAGHU R,LIVNY M.BIRCH:an efficient data clustering method for very large databases[C]//Proc of ACM SIGMOD Int Conf.Montreal:[s.n.],1996:103 114.
[10]KARYPIS G,HAN E,KUMAR V.Chameleon:hierarchical clustering using dynamic modeling [J].IEEE Computer,1998,32(8): 68 75.
[11]HINNEBURG K D.Optimal grid clustering:towards breaking the curse of dimensionality in high dimensional clustering[C]//Proc of Int Conf on Very LargeDatabases(VLDB’99).1999:506-517.
[12]WANG Wei,YANG Jiong,MUNTZ R R.STING:a statistical information grid approach to spatia data mining[C]//Proc of Int Conf on Very Large Databases (VLDB’97).1997:186 195.
[13]AGRAWAL R,GEHRKE J,GUNOPULOS D,et al.Automatic subspace clustering of high dimensional data for data mining application [C]//Proc of ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998:94 105.
[14]SHEIKHOLESLAMIC Z,CHATTEJEE S,ZHANG A.WaveCluster:a wavelet based clustering approach for spatial data in very large databases[J].VLDB Journal,1999,8(3-4):289-304.
[15]ESTER M,KRIEGEL H P,SANDER J,et al.A density based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd Int Conf on KnowledgeDiscoveryand Data Mining(KDD’96).Portland,Oregon:[s.n.],1996:274-287.
[16]ANKERST M,BREUNING M M,KRIEGEL H P,et al.OPTICS:ordering points to identify the clustering structure[C]//Proc of ACM SIGMOD Int Conf on Management of Data.Seattle:ACM Press,1999:187-202.
[17]張麗娟,李舟軍.分類方法的新發展:研究綜述[J]. 計算機科學,2006,33(10):11 15.
[18]PARPINELLI R S,LOPES H S,FREITAS A A.Data mining with an ant colony optimization algorithm[J].IEEE Trans on Evolutionary Computation,2002,6(4):321-332.
[19]PARPINELLI R S,LOPES H S,FREITAS A A.Mining comprehensible rules from data with an ant colony algorithm[C]//RAMALHO B G. Proc of SBIA.2002:259-269.
[20]BONABEAU E,DORIGO M,THERAULAZ G.Swarm intelligence from natural to artificial system[M].Oxford:Oxford University Press, 1999:312-315.
[21]DENEUBOURG J L,GOSS S,FRANKS N,et al.The dynamics of collective sorting:robot like ants and ant like robots[C]//MEYER J A,WILSON S.Proc of the 1st International Conference on Simulation of Adaptive Behavior,from Animals to Animals J. Cambridge:MIT Press,1991:356-365.
[22]楊新斌,孫京誥,黃道.一種進化聚類學習新方法[J].計算機工程與應用,2003,39(15):60-62.
[23]張建華,江賀,張憲超.蟻群聚類算法綜述[J].計算機工程與應用,2006,42(16): 171 174.
[24]LIU Bo,ABBASS A,MCKAY B.Classification rule discovery with ant colony optimization[J].IEEE Computational Intelligence Bulletin,2004,3(1):31-35.
[25]SOUSA T,SILVA A,NEVES A.Particle swarm optimization as a new tool for data mining[C]//Proc of International Parallel and Distributed Processing Symposium (IPDPS).Nice:[s.n.],2003.
[26]KENNEDY J,EBERHART R C.Swarm intelligence [M].[S.l.]:Morgan Kaufmann,2001:325-330.
[27]SHI Y,EBERHART R C.Empirical study of particle swarm optimization[C]//Proc of Congress of Evolutionary Computation.Piscataway:[s.n.],1999:103 114.
[28]CLERC M,KENNEDY J.The particle swarm explosion,stability and convergence in a multidimensional complex space[J].IEEE Trans on Evolutionary Computation,2002,6(1):58 73.
[29]SOUSA T,SILVA A,NEVES A.A particle swarm data miner[C]//PIRES F M P,ABREU S.Proc of EPIA.2003:43-50.
[30]卜東波,白碩,李國杰.聚類/分類中的粒度原理[J].計算機學報,2002,25(8):810-816.
[31]RUSPINI E H.A new approach to clustering[J].Information and Control,1969,19(15):22-32.
[32]RUSPINI E H.New experimental results in fuzzy clustering[J].InformationScience,1973,18(2):273-287.
[33]RUSPINI E H.Numerical methods forfuzzy clustering [J].Information Science,1970,15(2):319-350.
[34]TAMRA S.Pattern classification based on fuzzy relations[J].IEEE Trans on Systems,Man,and Cybernetics,1971,1(1):217-242.
[35]ZADEH L A.Similarity relations and fuzzy orderings[J].Information Science,1971,3(2):177-200.
[36]BACKER E,JAIN A K.A clustering performance measure based on fuzzy set decomposition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1981,3(1): 66 77.
[37]DUNN J C.A fuzzy relative of the ISOData process and its use in detecting compact well separated cluster[J].Cybernet,1974,3(1):32-57.
[38]LE Z.Fuzzy relation compositions and pattern recognition[J].Information Science,1996,89(1/2):107 130.
[39]ZAHN C T.Graph theoretical methods for detecting and describing gestalt clusters[J].IEEE Trans on Computers,1971,20(1):68-86.
[40]丁斌.動態Fuzzy圖最大樹聚類分析[J].數值計算與計算機應用,1992,13(2):157 159.
[41]WU Z,LEATHY R.An optimal graph theoretic approach to data clustering theory and its application to image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1993,15(11):1101 1113.
[42]BEZDEK J C,FORDON W A.The application of fuzzy set theory to the medical diagnosis[M]//Advances of fuzzy sets and theories.North Hollad, Amsterdam:[s.n.],1979:445-461.
[43]ESOGBUE A O.Optimal clustering of fuzzy data via fuzzy dynamicprogramming[J].Fuzzy Sets and Systems,1986,18(3):283-298.
[44]MANTARAS R L D,VALVERDE L.New results in fuzzy clustering based on the concept of indistinguishable relation[J].IEEE Trans on Pattern Analysis and MachineIntelligence,1988,10(5):754 757.
[45]行小帥,焦李成.數據挖掘的聚類方法[J].電路與系統學報,2003,8(1):59-67.
[46]許雷.一種聚類新算法:模擬退火[J].模式識別與人工智能,1989,1:1 16.
[47]SELIM S Z,ALSULTAN K.A simulated annealing algorithm for the clustering problem[J].Pattern Recognition,1991,24(10):1003 1008.
[48]ASULTAN K S,SELTAN S.A global algorithm for the fuzzy clustering problem[J].Pattern Recognition,1993,26(9):1357 1361.
[49]楊廣文,王鼎興,鄭緯民,等.一種利用確定性退火技術的聚類模型與算法[J].軟件學報,1999,10(6):663-667.
[50]BABU G P,MURTY M N.Clustering with evolution strategies[J].Pattern Recognition,1994,27(2): 321329.
[51]陳金山,韋崗.遺傳+模糊C 均值混合聚類算法[J].電子與信息學報,2002,24(2):210-215.
[52]王磊,潘進,焦李成.免疫算法[J].電子學報,2000,28(7):74-78.
[53]劉靜,鐘偉才,劉芳,等.免疫進化聚類算法[J].電子學報,2001,29(12A):1897 1901.
[54]李潔.基于自然計算的模糊聚類新算法研究[D].西安:西安電子科技大學,2004.
[55]陳莉,劉靜,緱水平,等.智能數據挖掘與知識發現[M].西安:西安電子科技大學出版社,2006:398-405.
[56]HORN D,GOTTLIEB A.Algorithm for data clustering in pattern reco gnition problems based on quantum mechanics[J].Phys Rev Lett,2002,88(1)1:-4.
[57]焦李成.神經網絡系統概論[M].西安:西安電子科技大學出版社,1999:152 155.
[58]SCHOLKOPF B,MIKA S,BURGES C,et al.Input space versus feature space in kernel basedmethods[J].IEEE Trans on Neural Networks,1999,10(5):1000 1017.
[59]SMOLA A,SCHOLKOPF B.A tutorial on support vector regression,NC TR 98 030[R].London:Royal Holloway College, University of London,1998.
[60]BUHMANN J M.Data clustering,learning[M]//ARBIB M. A.The handbook of brain theory and neural networks.[S.l.]:MIT Press,1995:278-281.
[61]王莉.數據挖掘中聚類方法的研究[D].天津:天津大學,2003.
[62]馬帥,王騰蛟,唐世渭,等.一種基于參考點和密度的快速聚類算法[J].軟件學報,2003,14(6):1089 1095.
[63]YIN Hu jun,VISOM A.Novel method for multivariate data projection and structure[J].IEEE Trans on Neural Networks,2002,13(1): 237-243.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”