999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鄰域相似度的近鄰傳播聚類算法

2018-07-19 12:53:24蘇一丹陳慧姣
計算機工程與設計 2018年7期

趙 昱,陳 琴,蘇一丹,陳慧姣

(廣西大學 計算機與電子信息學院,廣西 南寧 530004)

0 引 言

近鄰傳播聚類算法(AP)[1-3]本質上是一種基于中心的聚類算法,對特征規整的數據聚類效果較好,但對于特征復雜的數據辨識能力低,聚類效果較差[4-6]。針對此問題,有學者提出了相關改進,文獻[7]通過進行局部聚類求得點簇集,提高聚類準確率;文獻[8]通過對數據進行降維處理提高AP算法的精確度;文獻[9]對大型數據集進行預處理,并結合CVM壓縮和合并的方法提高算法的準確率;文獻[10]使用核函數辨識數據特征,在一定程度上克服了AP算法對于數據集敏感的問題,但核函數的類型和工作參數對AP聚類精度有直接影響,需要優化以提高聚類精度[11]。

上述文獻改進AP算法的思路是給偏向參數注入數據分布特征的先驗知識,提高AP辨識聚類中心的能力,從而提高聚類精度。基于此思想,本文提出一種基于鄰域相似度的近鄰傳播聚類算法(affinity propagation clustering algorithm based on neighborhood similarity,ZC-AP),用鄰域相似度描述數據樣本的空間分布特征,取代原AP算法的聚類度量作為新的聚類依據,并將鄰域相似度作為數據樣本的先驗知識注入偏向參數,提高AP算法對復雜特征數據的聚類準確性。通過分析數據樣本的統計特性,對數據概率分布曲線進行擬合,自適應地確定鄰域半徑和鄰域密度,利用鄰域相似度構建出相似度矩陣并求得偏向參數。最后在UCI數據集上驗證本文算法的可行性。

1 數據樣本鄰域相似度的計算方法

近鄰傳播聚類算法(AP)的基本思想是:對于數據集X={X1,X2,…,XN},使用距離公式計算相似度矩陣S,對支持度矩陣(responsibility,R)和歸屬度矩陣(availability,A)進行迭代更新,通過R和A篩選出聚類中心點。相似度矩陣S對角線上的元素S(i,i)稱為偏向參數(pre-ference),它表示數據樣本Xi成為聚類中心的可能性,此參數影響聚類中心的產生。初始時AP算法對角線元素S(i,i)取相同的值,表示每一個數據樣本作為聚類中心的概率相同,記作:S(i,i)=p。在AP算法中,點間距離作為唯一的度量依據直接影響到S矩陣的構建、偏向參數的取值和R矩陣、A矩陣的迭代更新[12-14]。如圖1所示,樣本Xi、Xj、Xk的距離關系滿足d(Xj,Xk)

圖1 數據樣本的密度分布

定義1 對于一個數據樣本Yi,將Yi的Eps鄰域

NEps(Yi)定義為以Yi為球心,以Eps為半徑的多維超球體區域,即

NEps(Yi)={Yi∈D|dist(Yi,Yu)≤Eps}

(1)

其中,D為多維實空間上的數據集,且D?Rd,dist(Yi,Yu)表示Yi與數據集中任意一個對象Yu的間距。選擇的Eps越大,則該處數據點越稀疏,反之則數據點會越密集,所以如何選擇合適的鄰域半徑對聚類效果十分重要。

定義2 對于數據集中的兩點Yi和Yu,將Yi為中心,Eps為半徑的區域看作一個圓,圓內包含的數據點數稱為以Yi為圓心,Eps為半徑的鄰域密度,記做N1;同理,把以Yu為圓心,Eps為半徑的鄰域密度記做N2,將它們的交集即N1、N2相同數據點的集合定義為Rn

Rn(Yi,Yu)=
{(dist(N1,Yi)

(2)

由式(2)可看出:Rn可能為空,也可能非空。當Yi、Yu所在區域密度較大,那么Rn也相對較大。

定義3 結合共同數據點集和歐氏距離,將數據集中點之間的相似度關系定義為鄰域相似度Tn

(3)

(4)

其中,dist(Yi,Yu)表示Yi、Yu兩點的歐氏距離,d為數據維數。鄰域相似度Tn具有如下性質:

(1)當兩點相距很遠時,它們共同區域中數據點的個數幾乎為零,即Rn=0。鄰域相似度Tn與歐氏距離類似,直接對數據點進行從屬判斷。

(2)當兩點相距較近時,若它們共同數據點數較少,即Rn較小,此時Tn也會很小;若它們的共同數據點數較大,即Rn較大,此時Tn也較大。

對于復雜數據集,鄰域相似度Tn能提高同一簇中各樣本點之間的相似性,較傳統歐氏距離更容易辨別數據特征。

2 基于鄰域相似度的近鄰傳播聚類算法

用鄰域相似度改進的AP算法流程如下:

輸入:數據集V={X1,X2,X3…,Xn};

輸出:聚類中心的位置和個數;

步驟1 初始化算法的參數,包括:阻尼因子x,最大迭代次數maxits,連續收斂次數convits,初始化支持度和歸屬度矩陣。

步驟2 讀入數據集,計算數據集中兩點X1和Xk之間的歐氏距離,由此構建最近鄰數據集合,對該集合的數據概率分布曲線進行擬合,求解導數與微分方程,求得密度半徑Eps。

步驟3 求點X1和Xk的鄰域密度,以及它們之間的相同數據點集Rn。

步驟4 通過式(3)求出Tn,從而構造相似度矩陣S,并求出偏向參數P。

步驟5 構造循環,進行以下步驟:

(1)計算并更新支持度矩陣R

(5)

ri(i,k)=λ×ri-1(i,k)+(1-λ)×ri(i,k)

(6)

其中

r(k,k)=p(k)-max{a(k,j)+s(k,j)}

(7)

(8)

(2)計算并更新歸屬度矩陣A

(9)

ai(i,k)=λ×ai-1(i,k)+(1-λ)×ai(i,k)

(10)

(3)計算E=R+A,從E中尋找最大的數據樣本即為聚類中心點。

(4)若該次迭代已經超過最大迭代次數maxits,或是連續convits次迭代聚類情況不發生改變,則迭代結束,否則繼續進行迭代直到超過最大迭代次數或找到聚類中心點。

步驟6 輸出聚類中心點的信息。

上述算法步驟中,步驟2較為關鍵,其細節說明如下。

由步驟2求得的最近鄰數據集合繪制概率分布曲線,對距離的概率分布進行數據擬合,求取合適的Eps半徑。選取常用的高斯擬合和多項式擬合函數進行數據擬合,其中,高斯擬合的公式為

f(x)=a×exp(-((x-b)/c)2)

(11)

多項式擬合公式為

f(x)=axn+bxn-1+cxn-2+…+dx+e

(12)

根據擬合結果,得到擬合組內方差SSE;均方根誤差R-SSE;相關系數R-square[15,16];通過比較擬合精度和計算復雜度,選擇合適的擬合函數進行計算。對于一個已知樣本,通過以下步驟求其鄰域半徑Eps。

(1)首先計算數據集的距離分布矩陣

DISTn×n={dist(i,j)|1≤i≤n,1≤j≤n}

(13)

得到一個n行n列的對稱矩陣。

(2)進行列排序并轉置得到KNNn×n矩陣

KNNn×n=sort(DISTn×n)

(14)

為計算方便,去掉第一列的全零集合并進行列排序得到KNNn×(n-1)矩陣(以下簡稱KNN矩陣)

KNNn×(n-1)=sort(KNN0n×n(1:end;2:end))

(15)

(3)對KNNn×(n-1)矩陣的概率分布曲線進行數據擬合,得到擬合曲線。

(4)對擬合函數進行求解,去掉邊界點得到所求Eps半徑。

上述算法中,在AP算法的偏向參數中注入了數據樣本之間相似度的先驗知識,提高了AP算法對復雜數據特征的辨識能力。在步驟2中通過分析數據樣本的統計特性自動求出鄰域半徑,提高了鄰域相似度對不同數據集的自適應性。

3 實驗與分析

在PC機上進行仿真實驗,處理器為Intel Pentium G460(2.8 GHZ),內存8 GB,在Windows7 x64平臺上用MATLAB實現算法。

選取以下3個指標對聚類算法的性能進行評價。

(1)準確率(accuracy,ACC)

準確率ACC表示聚類結果的正確率

(16)

其中,K為聚類結果的簇數目,Li表示聚類結果中第i簇內的數據樣本能正確聚類的數目。聚類結果與真實類別個數完全相符時準確率為1,兩者越不相符準確率越低。

(2)正則化互信息(normalized mutual information,NMI)

正則化互信息用來檢驗數據樣本間的吻合程度

(17)

其中,K為簇數目,Ni和Nj表示第i、j個聚類的樣本數目,N為樣本總數,Nij表示第i個聚類結果與第j類的契合程度。NMI在[0,1]內取值,該值的大小表示聚類結果與真實情況吻合度的高低。

(3)芮氏指標(rand index,RI)

芮氏指標是在聚類結果與真實簇間關系未知時的準確性評價指標[17]

(18)

f00表示具有不同類標簽的數據點被分到不同類別的數目,f11表示具有相同類標簽的數據點被分到同一類別的數目,N表示數據樣本總數。

本文實驗取阻尼因子為0.8,迭代次maxits為1000,收斂迭代次數convits為50。選取的5個UCI測試數據集屬性見表1。

表1 UCI測試數據集

本文算法(ZC-AP)與傳統AP算法、M-AP算法作比較,以ACC、NMI、RI作為評價指標,結果見表2。圖2是用表2數據繪制的準確率直方圖,直觀地展示3種算法在5個數據集上準確率ACC的比較。從表2和圖2可看出,改進后的ZC-AP算法在5個數據集上的測試結果均優于原始AP算法和M-AP算法。以Twomoon數據集為例,原始AP算法的ACC、NMI、RI項指標分別為0.272、0.184、0.603,M-AP算法為0.728、0.184、0.603,而ZC-AP算法達到了0.997、0.969、0.993,ZC-AP比原始AP算法分別提高了3.67倍、5.27倍、1.65倍,比M-AP算法分別提高了1.37倍、5.27倍、1.65倍,說明改進算法在該數據集上的準確率有了較大提高,聚類結果與真實類標號吻合度較高。在German數據集上,ZC-AP算法比原AP算法在ACC、NMI、RI指標上分別提高了5.4%,34.5%和5.2%,比M-AP算法提高了7.7%、61.8%、5.2%。在Wpbc、Breast、Soybean等數據集上算法的準確率ACC均優于AP算法。

表2 聚類結果比較

圖2 聚類結果直方圖

為更直觀觀察ZC-AP聚類效果,我們從測試數據集中選擇一個二維數據集Twomoon,將3種算法的聚類結果描繪在二維坐標軸上,如圖3所示。由圖3可看出,原始AP算法和M-AP算法雖然可將數據樣本分為兩類,但聚類準確率較低,而改進算法ZC-AP給出了正確的聚類結果。所以在對特征復雜數據樣本進行聚類時,通過使用鄰域相似度增大了同一簇點之間的相似程度,提高了聚類準確率。

圖3 3種算法在Twomoon數據集上的聚類結果

在ZC-AP算法中,通過分析數據概率分布情況自動確定了鄰域半徑,而在人工選擇鄰域半徑時,Eps需要在[0,50]之間隨機選取,表3是以Wpbc數據集為例,展示人工選擇鄰域半徑的聚類結果。由表3可看出:隨機選取的Eps半徑對聚類結果的影響很大,且聚類準確度均低于改進算法。例如,當Eps取0.258時,ACC為0.424,當Eps取10.821時,ACC為0.763,兩者差別較大,由改進算法可以求得Eps為0.377,此時聚類精度達到0.818,NMI指標和RI指標也相應提升。因此改進算法較好地解決了鄰域半徑人工選取不當影響AP精度的問題。

ZC-AP算法需要擬合數據概率分布曲線,以Twomoon數據集為例,圖4、表4、圖5展示了擬合過程,此過程說明如下:

表3 人工選擇Eps及相應準確率

圖4 KNN

擬合函數SSER-SSER-SQUARE高斯擬合0.008 2510.98540.002 349多項式擬合0.006 2040.98920.002 039

圖5 多項式擬合曲線

(1)計算Twomoon數據集的距離分布矩DISTn×n。

(2)對DISTn×n進行轉置排序并繪圖得到KNNn×(n-1)圖,該圖包含1502個樣本點信息,由1502條曲線組成,排列較為密集,此處任取其中100條線顯示其變化規律。

(3)KNNn×(n-1)圖中各條曲線變化趨勢大致相同,均在某點處急劇上升,其中K的取值范圍為[1,1502],在該區間上K的取值對結果影響不大,可任意取值,為方便計算,取K=4反映其它曲線形狀,繪制其概率分布圖,分別進行多項式擬合和高斯擬合,比較擬合評價指標,發現高斯擬合精度高,但是擬合階數也高,因此計算復雜度高。而在相同計算復雜度下,多項式擬合階數較低,同時擬合精度較高,選擇三階多項式擬合和二次高斯擬合作比較,擬合結果見表4。

由表4可看出,三階多項式擬合組內方差、均方根誤差、相關系數這三項參數均優于二次高斯擬合,故選擇多項式擬合求取Eps半徑。多項式擬合效果如圖5所示。

(4)對f(x)求二次導數可得f(x)″=12ax2+6bx+2c,求解二次導數方程的解為

(19)

舍去靠近邊界的點,可得Eps=f(x0)。

(5)求以Eps為半徑的鄰域密度矩陣SRn。

(6)求鄰域相似度矩陣STn。

(7)進行吸引度矩陣R和支持度矩陣A的計算和迭代更新。

4 結束語

本文提出一種基于鄰域相似度的AP聚類算法,提高了傳統AP算法在特征復雜數據集上的聚類精度,引入一種通過數據集相關統計特性自動確定鄰域半徑的方法,提高了算法的自適應性。在UCI數據集上與傳統AP算法進行了聚類效果比較,驗證了算法的可行性,得到以下結論:

(1)采用鄰域相似度作為新的聚類依據,取代原AP算法中的距離度量,能使算法在復雜數據集上的聚類精確度得到提高。

(2)采用統計學方法分析數據集的統計特性,根據數據概率分布自動求出鄰域半徑,提高了AP算法的自適應性。

主站蜘蛛池模板: 99久久精品免费看国产免费软件 | 毛片在线看网站| 亚洲欧美一区二区三区麻豆| 红杏AV在线无码| 亚洲天堂久久久| 亚洲日本精品一区二区| 欧美一区精品| 毛片最新网址| 欧美午夜在线视频| 日本欧美在线观看| 久久综合伊人77777| 欧美日韩中文国产| 国产毛片高清一级国语 | 中文字幕有乳无码| 国产麻豆aⅴ精品无码| 成人精品午夜福利在线播放| 人妻丰满熟妇αv无码| 亚洲床戏一区| 亚洲欧美成人在线视频| 亚洲二区视频| 国产一级在线观看www色 | 国产理论最新国产精品视频| 亚洲精品久综合蜜| 亚洲天堂视频网站| 国产免费黄| 99青青青精品视频在线| 亚洲AⅤ综合在线欧美一区| 国产精品免费福利久久播放| 国产精品专区第1页| 国产69精品久久久久妇女| 中文毛片无遮挡播放免费| 成人在线天堂| 国产97视频在线| 老司机久久99久久精品播放| 国产成人盗摄精品| 九九热精品免费视频| 欧美一级高清片久久99| 欧美不卡视频在线| 国产精品午夜福利麻豆| 久久久久88色偷偷| 欧美国产视频| 亚洲国产日韩在线成人蜜芽| 99尹人香蕉国产免费天天拍| 国产呦精品一区二区三区网站| 激情午夜婷婷| 国产人人干| 国产成人一区| 91丨九色丨首页在线播放| 18禁影院亚洲专区| 亚洲天堂网2014| 亚洲精品午夜天堂网页| h视频在线播放| 国产精品对白刺激| 国产亚洲成AⅤ人片在线观看| 亚洲欧洲自拍拍偷午夜色| 国产激情在线视频| 国产黄网永久免费| 四虎亚洲国产成人久久精品| a免费毛片在线播放| 91精品啪在线观看国产91九色| 色噜噜狠狠色综合网图区| 国产在线一区二区视频| 亚洲人成电影在线播放| 国产精品夜夜嗨视频免费视频| 97se亚洲综合| 久久久黄色片| 一级成人欧美一区在线观看| 久久 午夜福利 张柏芝| 99久久精品美女高潮喷水| 精品欧美日韩国产日漫一区不卡| 亚洲永久免费网站| 天天综合亚洲| 国产成人精品2021欧美日韩| 香蕉国产精品视频| 国产乱子伦精品视频| 国产免费好大好硬视频| 男女精品视频| 国产成人免费视频精品一区二区| 97久久免费视频| 久久精品无码中文字幕| 久久免费视频6| 久久精品电影|