999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最短路徑的加權屬性圖聚類算法研究

2016-12-26 08:35:44張素智曲旭凱
計算機應用與軟件 2016年11期

張素智 張 琳 曲旭凱

(鄭州輕工業學院計算機與通信工程學院 河南 鄭州 450002)

?

基于最短路徑的加權屬性圖聚類算法研究

張素智 張 琳 曲旭凱

(鄭州輕工業學院計算機與通信工程學院 河南 鄭州 450002)

圖在計算機領域是一種重要的數據結構,可以用來描述事物之間的復雜關系。圖的節點和邊具備一個或者多個不同的屬性。如何結合屬性對圖進行聚類是目前所面臨的一個新的挑戰。目前的屬性圖聚類算法,多存在聚類效果差,消耗資源多,效率低等缺點。針對以上問題,提出一種基于最短距離的加權屬性圖聚類算法WASP(weighted attribute graph clustering algorithm based on shortest path),建立加權屬性無向圖模型,在此模型上基于最短路徑算法度量節點間的關聯度,以此為原則選取新的聚類中心對圖進行聚類。實驗表明,新的聚類算法具有更高效的聚類效果。

圖 加權屬性圖 最短路徑 聚類

0 引 言

近年來,圖結構被廣泛應用于多個領域來描述數據之間的復雜結構。針對海量圖數據的分析和挖掘越來越重要。作為圖數據挖掘算法的一種,圖聚類算法引起了眾多關注[1,2]。圖聚類,簡單描述就是根據圖結構上節點和邊的某種相似性,將圖上的節點和邊劃分為不同的組。屬性圖聚類是圖聚類中的一種特殊情況,即在用節點和邊表示實體和實體關系的同時,還需要考慮到節點和邊的屬性。在屬性圖聚類時,同時考慮節點間結構和屬性的相似性,則能夠得到更加準確的聚類效果。如何更好地同時結合結構和屬性進行聚類是目前圖聚類研究的熱點和難點。

針對屬性圖聚類問題,現階段也有許多研究成果:Tian等人[3]根據聚類中節點和屬性相一致的原則,提出了k-SNAP算法,該算法通過用戶的下鉆和上取,將屬性一致的點聚集在一起,實現了多粒度的圖聚類。但是此算法僅根據節點屬性聚類,會造成聚類結構分散,聚類效果中節點數過多。針對k-SNAP算法存在的問題,Zhang等人[4]改進了該算法,對數值屬性分類,并對屬性相近對按相似度基于最大惡化程度進行劃分。Nevile 等人[5]將具有相同屬性的屬性個數定義為邊的權重值,并以此為基礎將屬性圖轉化為帶權圖進行聚類。Steinhaeuser等[6]提出了相似的算法,并將屬性擴展到具有連續值域的情況。此類算法由人工定義權重值,雖然算法效率高,但聚類效果和可拓展性差。也有一些算法通過增廣屬性圖[7,8],采用熵的統一模型來衡量圖中的同質性,實現屬性圖的聚類。該方法雖然將圖的結構和屬性結合起來聚類,但統一聚類超結點中的結點聯系并不緊密。還有一些算法把模型的思想[9,10]應用到屬性圖聚類中,將屬性圖聚類轉化為概率問題,但此類算法需要事先設定好聚類數量,才能達到較好的聚類效果。

針對以上算法的問題,本文提出了一種基于最短路徑的加權屬性圖聚類算法WASP。該算法通過建立加權屬性圖模型,對圖中邊和節點的屬性設置權值,確定節點相似度,采用最短路徑算法計算節點間的距離,確定聚類中心,并在聚類過程中自動更新權重值,以此為基礎進行聚類。最后將WASP算法應用在DBLP數據集中,通過實驗對比,該算法具有較好的聚類效果。

1 相關定義

1.1 屬性加權無向圖定義

定義1屬性加權無向圖G=(V,E,A,ω);其中:

V表示屬性圖中節點集合:V={v1,v2,…,vn};

E表示屬性圖中邊的集合:E={(vi,vj)|(vi,vj)∈R,1≤i,j≤n,i≠j};

A表示圖的屬性的集合:A={a1,a2,…,am};其中|A|=m′;

ω為邊的權重值:ω={ω1,ω2,…,ωp} ,|ω|=p′ ,ωa(ik)表示節點vi的屬性ak的權值,若任意兩節點vi、vj直接相連,則這兩點節點間的權重值為ωi,j= ωq,q∈{1,2…,p};

1.2 節點相似度定義

在社交網絡中,如果用戶之間的公共朋友越多,則用戶之間的聯系越大。對于屬性圖中的節點,如果節點之間聯系的公共節點越多,則這些節點位于同一個簇的可能性越大。本文考慮將與節點直接關聯的點稱為該節點的節點朋友。

定義2屬性圖G=(V,E),v為圖中的節點。定義節點朋友集合為Κ(v):

K(v)={u∈V|(v,u)∈E}∪{v}

(1)

若v、u之間有邊,即∈E,則將邊的相似度定義為:

(2)

2 算法描述

2.1 自動更新屬性權重值

為了得到較好的聚類效果,提出了一種自動更新屬性權重值的方法,在聚類過程中不斷更新屬性權重值,來得到較好的聚類效果。

(3)

因此更新后的權重值:

(4)

2.2 最短路徑算法

為了發現圖中高關聯度的邊,考慮到邊的權重和相似度,設定參數α、β,且α+β=1。任意一條邊上的關聯度為:

(5)

兩個節點間路徑越長,則關聯度越小,若要取得最大關聯度的節點,則相鄰節點直接取節點間最短距離,非相鄰節點取節點之間最短距離的和。最大關聯度的和為:

(6)

其中,Z是節點va、ub中間節點的集合。本文采用最短路徑算法中的經典算法Dijkstra算法。

根據最短路徑的最優子結構性質,如果存在一條從i到j的最短路徑(vi,…,vk,vj),vk是vj前面的一頂點,那么(vi,…,vk)也必定是從i到j的最短路徑。為了求出最短路徑,Dijkstra提出了以最短路徑長度遞增,逐次生成最短路徑的算法。例如對于源頂點v0,首先選擇其直接相鄰的頂點中長度最短的頂點vi,那么當前已知可得從v0到達vj頂點的最短距離:

(7)

根據這種思路,假設存在圖G=(V,E,ω),源頂點為v0,U={v0},dist[i]記錄v0到vi的最短距離,path[i]記錄從v0到vi路徑上的i前面的一個頂點,則算法過程為:

1) 從{V-U}中選擇使dist[i]值最小的頂點i,將i加入到U中;

2) 更新與i直接相鄰頂點的dist值,即dist[j]=min{dist[j],dist[i]+matrix[i][j]};

3) 直到U=V。

2.3 聚類算法描述

基于最短路徑的圖聚類算法,就是在計算最大關聯度時采用最短路徑算法,選取相應的節點并劃分到同一簇中。具體算法步驟如下:

輸入:屬性加權無向圖G=(V,E,A,ω),初始權重值ω=1.0,聚類數量k,參數α=0.4,β=0.6;

輸出:劃分的不同的簇;

1) 計算邊的相似度Γ(v,u);

2) 在初始聚類數量k中選擇節點作為初始聚類中心Vstart,且Vstart不能為空集。定義剩余節點Vleft=V-Vstart;

4) 在劃分好的節點中,根據更新的權重值,得到L(va,ub),并將關聯度大且距離短的的節點劃分為一簇;

5) 若Vleft=?,則聚類結束,所有節點劃分完畢,若Vleft≠?且Vleft

WASP算法是一種基于最短路徑對圖的結構和屬性聚類的算法。在算法時間復雜度方面,第1步,計算邊的相似度,時間復雜度為Ο(n);第2、3步,選擇聚類中心的,時間復雜度為Ο(n3),第3-5步,計算最短路徑,劃分節點到不同的簇,時間復雜度為Ο(kn-n2),其中k為初始聚類數量。該算法總體時間復雜度為Ο(n3)。

3 實驗與分析

3.1 實驗數據集

本次實驗采用DBLP數據集。這是一個學術合作關系的網絡。由德國的特里爾大學創建的發表在計算機期刊、雜志和會議論文的數據庫系統。該網絡包括一萬多個節點和兩萬多條無向邊。其中節點表示論文作者,邊代表作者們合作完成的論文。本次實驗選擇了該網絡提供的在數據挖掘、數據庫、人工智能、信息檢索等相關領域發表論文最多的5000名作者英文單位。

作者單位的中英文要完全對應,每個實詞的首字母大寫。在部門名稱和單位名稱之間、在單位名稱和城市名之間使用英文逗號隔開,城市名和郵編之間使用一個英文空格隔開,不能用逗號。

3.2 評價標準

(8)

3.3 實驗結果

實驗時設定聚類初始數量k=5,10,15,20,25,30,圖1為WASP算法與SCAN算法在DBLP數據集上的聚類密度效果。由圖1可知,在聚類數量較少時,WASP算法與SCAN算法聚類效果沒有太大差別,但當聚類數量增多時,WASP算法更具有優勢。這是因為WASP算法不但考慮了圖的屬性和結構,還考慮到了節點間的權重值,在聚類數量增多的時候,節點間的權重值也會增大,此時WASP算法聚類效果更明顯。

圖1 聚類密度結果圖

為了更好地對比兩個算法的聚類效率,選擇對比兩算法的聚類時間。在實驗數據集上分別運行WASP算法和SCAN算法各10次,并記錄下每次運算所消耗的時間。取10次運算的平均值作為聚類時間。

由圖2可知,當聚類數目較小時,WASP算法與SCAN算法聚類時間差距不大。但當聚類數目開始增多時,SCAN算法無明顯變化,WASP算法卻出現變化。這是因為由于該算法在聚類迭代時,每次都要計算當前聚類中心到所有節點的最短距離。當聚類數量增多,即k的值增加時,由于算法3-5步的時間復雜度為Ο(kn-n2),算法第3-5步所消耗的時間將會增加。因此算法總體時間將會變長,而對于SCAN算法來說,時間復雜度不會有明顯變化。在大型圖聚類算法中,WASP算法時間會長于SCAN算法,但由于k值對WASP算法時間影響較小,因此具體到實際應用中只有幾秒鐘時間,且在小型數目集中沒有明顯區別。

圖2 聚類時間圖

4 結 語

本文通過對現有圖聚類算法的研究,以加權屬性圖為模型,提出了基于最短路徑的加權屬性圖算法。該算法結合圖的屬性和結構進行聚類,實驗表明,該算法比一般圖聚類算法具有更好的聚類效果。但是該算法在大型圖上聚類時間略長于其他聚類算法,需要在今后的工作中進一步的改進。

[1] Majumdar D,Kanjilal A,Bhattacharya S.Separation of scattered concerns: a graph based approach for aspect mining[J].ACM SIGSOFT Software Engineering Notes,2011,36(2): 1-11.

[2] Sengupta S,Kanjilal A,Bhattacharya S.Measuring complexity of component based architecture: a graph based approach[J].ACM SIGSOFT Software Engineering Notes,2011,36(1): 1-10.

[3] Tian Y,Hankins R A,Patel J M.Efficient aggregation for graph summarization[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data.ACM,2008: 567-580.

[4] Zhang N,Tian Y,Patel J M.Discovery-driven graph summarization[C]//Data Engineering (ICDE),2010 IEEE 26th International Conference on.IEEE,2010: 880-891.

[5] Neville J,Adler M,Jensen D.Clustering relational data using attribute and link information[C]//Proceedings of the text mining and link analysis workshop,18th international joint conference on artificial intelligence.2003: 9-15.

[6] Steinhaeuser K,Chawla N V.Community detection in a large real-world social network[M]//Social computing,behavioral modeling,and prediction.Springer US,2008: 168-175.

[7] Cheng H,Zhou Y,Yu J X.Clustering large attributed graphs: A balance between structural and attribute similarities[J].ACM Transactions on Knowledge Discovery from Data (TKDD),2011,5(2): 12.

[8] Liu Z,Yu J X,Cheng H.Approximate homogeneous graph summarization[J].Information and Media Technologies,2012,7(1): 32-43.

[9] Xu Z,Ke Y,Wang Y,et al.A model-based approach to attributed graph clustering[C]//Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.ACM,2012: 505-516.

[10] Zanghi H,Volant S,Ambroise C.Clustering based on random graph model embedding vertex features[J].Pattern Recognition Letters,2010,31(9): 830-836.

[11] Zhou Y,Cheng H,Yu J X.Clustering large attributed graphs: An efficient incremental approach[C]//Data Mining (ICDM),2010 IEEE 10th International Conference on.IEEE,2010: 689-698.

STUDY ON SHORTEST PATH-BASED CLUSTERING ALGORITHM OF WEIGHTED ATTRIBUTE GRAPH

Zhang Suzhi Zhang Lin Qu Xukai

(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,Henan,China)

Graph is an important data structure in computer science,and can be used to describe the complex relationship between things.The nodes and edges in graph have one or more different attributes.How to cluster the graph in combination with attributes is a new challenge encountered at present.Many of current attribute graph clustering algorithms have the drawbacks of poor clustering effect,big resource consumption and low efficiency.In view of the above problems,this paper puts forward a shortest path-based weighted attribute graph clustering algorithm,and builds the weighted attribute undirected graph model.Based on the model the algorithm measures the correlation degree between the nodes based on shortest path algorithm,and takes this as the principle to select new clustering centre to cluster the graph.Experiment shows that the new clustering algorithm has more efficient clustering effect.

Graph Weighted attribute graph Shortest path Clustering

2015-06-10。國家自然科學基金青年科學基金項目(61201447)。張素智,教授,主研領域:Web數據庫,分布式計算,異構系統集成。張琳,碩士生。曲旭凱,碩士生。

TP3

A

10.3969/j.issn.1000-386x.2016.11.050

主站蜘蛛池模板: 国产二级毛片| 免费无码网站| 99伊人精品| 日本成人精品视频| 亚洲成人黄色在线| 日韩欧美中文字幕一本| 草草影院国产第一页| 亚国产欧美在线人成| 国产主播一区二区三区| 亚洲a级毛片| 一区二区三区国产精品视频| 国产美女主播一级成人毛片| 91在线播放免费不卡无毒| 亚洲天堂网在线视频| 国产成人精品2021欧美日韩 | 成年人国产网站| 国产亚洲第一页| 日日拍夜夜操| 久久96热在精品国产高清| 中文无码毛片又爽又刺激| 色爽网免费视频| 国产99视频精品免费视频7| 亚洲天堂网视频| 欧美成人二区| 国产精品无码在线看| 中国丰满人妻无码束缚啪啪| 在线网站18禁| julia中文字幕久久亚洲| 国产丝袜无码精品| 精品视频一区二区观看| 国产高清无码第一十页在线观看| 欧美三级视频网站| 午夜视频在线观看免费网站| 国产精品三区四区| 高清无码手机在线观看| 国产免费久久精品99re不卡| 99久久精品久久久久久婷婷| 中文毛片无遮挡播放免费| 久久久精品国产亚洲AV日韩| 97青青青国产在线播放| 91无码人妻精品一区二区蜜桃| 久久人妻系列无码一区| 91美女视频在线观看| 精品视频一区在线观看| 91免费国产在线观看尤物| 色吊丝av中文字幕| 日本一区二区三区精品国产| 毛片免费视频| 毛片免费观看视频| 98超碰在线观看| 免费A级毛片无码无遮挡| 在线观看av永久| 精品人妻AV区| 国产91丝袜| 亚洲一区二区三区国产精华液| 国产微拍精品| 91欧美在线| 国产白丝av| 波多野结衣久久高清免费| 国产亚洲精品97在线观看| 国产精品免费福利久久播放| 成人毛片免费观看| 亚洲一区二区日韩欧美gif| 久久综合伊人 六十路| 91毛片网| 国产裸舞福利在线视频合集| 97se亚洲综合在线韩国专区福利| 色婷婷在线播放| 国产午夜人做人免费视频中文 | 蜜芽一区二区国产精品| 亚洲欧美自拍中文| 免费观看国产小粉嫩喷水| 99re在线视频观看| 成人无码一区二区三区视频在线观看| 亚洲视频无码| 亚洲精品大秀视频| 国产在线拍偷自揄观看视频网站| 激情综合图区| 中文字幕永久视频| 日韩天堂在线观看| 无码中文字幕乱码免费2| 亚洲色图另类|