0 引言
聚類方法已經(jīng)在很多領(lǐng)域中得到了較為深入的研究和廣泛的應(yīng)用,如市場(chǎng)調(diào)研、社會(huì)網(wǎng)絡(luò)分析、生物信息學(xué),以及其他學(xué)科領(lǐng)域的研究。常見的聚類方法有基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法;常用的聚類算法包括K-均值聚類算法、K-中心點(diǎn)聚類算法、CLARANS、BIRCH、CuQUE、DBSCAN、譜聚類等。以上的這些聚類方法基本上都是以數(shù)據(jù)特征之間的相似性為聚類條件的。但是在不同的應(yīng)用中研究發(fā)現(xiàn),數(shù)據(jù)除了自身有特征之外,彼此之間還有復(fù)雜的關(guān)聯(lián)關(guān)系。例如,作者與參考文獻(xiàn)之間存在直接引用、被引用與間接引用的關(guān)系;蛋白質(zhì)中氨基酸之間存在氫鍵概率、炭環(huán)、疏水性、帶電性、殘基等關(guān)聯(lián)關(guān)系。一個(gè)社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系如圖1所示。