999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最短路徑的加權屬性圖聚類算法研究

2016-12-26 08:35:44張素智曲旭凱
計算機應用與軟件 2016年11期

張素智 張 琳 曲旭凱

(鄭州輕工業學院計算機與通信工程學院 河南 鄭州 450002)

?

基于最短路徑的加權屬性圖聚類算法研究

張素智 張 琳 曲旭凱

(鄭州輕工業學院計算機與通信工程學院 河南 鄭州 450002)

圖在計算機領域是一種重要的數據結構,可以用來描述事物之間的復雜關系。圖的節點和邊具備一個或者多個不同的屬性。如何結合屬性對圖進行聚類是目前所面臨的一個新的挑戰。目前的屬性圖聚類算法,多存在聚類效果差,消耗資源多,效率低等缺點。針對以上問題,提出一種基于最短距離的加權屬性圖聚類算法WASP(weighted attribute graph clustering algorithm based on shortest path),建立加權屬性無向圖模型,在此模型上基于最短路徑算法度量節點間的關聯度,以此為原則選取新的聚類中心對圖進行聚類。實驗表明,新的聚類算法具有更高效的聚類效果。

圖 加權屬性圖 最短路徑 聚類

0 引 言

近年來,圖結構被廣泛應用于多個領域來描述數據之間的復雜結構。針對海量圖數據的分析和挖掘越來越重要。作為圖數據挖掘算法的一種,圖聚類算法引起了眾多關注[1,2]。圖聚類,簡單描述就是根據圖結構上節點和邊的某種相似性,將圖上的節點和邊劃分為不同的組。屬性圖聚類是圖聚類中的一種特殊情況,即在用節點和邊表示實體和實體關系的同時,還需要考慮到節點和邊的屬性。在屬性圖聚類時,同時考慮節點間結構和屬性的相似性,則能夠得到更加準確的聚類效果。如何更好地同時結合結構和屬性進行聚類是目前圖聚類研究的熱點和難點。

針對屬性圖聚類問題,現階段也有許多研究成果:Tian等人[3]根據聚類中節點和屬性相一致的原則,提出了k-SNAP算法,該算法通過用戶的下鉆和上取,將屬性一致的點聚集在一起,實現了多粒度的圖聚類。但是此算法僅根據節點屬性聚類,會造成聚類結構分散,聚類效果中節點數過多。針對k-SNAP算法存在的問題,Zhang等人[4]改進了該算法,對數值屬性分類,并對屬性相近對按相似度基于最大惡化程度進行劃分。Nevile 等人[5]將具有相同屬性的屬性個數定義為邊的權重值,并以此為基礎將屬性圖轉化為帶權圖進行聚類。Steinhaeuser等[6]提出了相似的算法,并將屬性擴展到具有連續值域的情況。此類算法由人工定義權重值,雖然算法效率高,但聚類效果和可拓展性差。也有一些算法通過增廣屬性圖[7,8],采用熵的統一模型來衡量圖中的同質性,實現屬性圖的聚類。該方法雖然將圖的結構和屬性結合起來聚類,但統一聚類超結點中的結點聯系并不緊密。還有一些算法把模型的思想[9,10]應用到屬性圖聚類中,將屬性圖聚類轉化為概率問題,但此類算法需要事先設定好聚類數量,才能達到較好的聚類效果。

針對以上算法的問題,本文提出了一種基于最短路徑的加權屬性圖聚類算法WASP。該算法通過建立加權屬性圖模型,對圖中邊和節點的屬性設置權值,確定節點相似度,采用最短路徑算法計算節點間的距離,確定聚類中心,并在聚類過程中自動更新權重值,以此為基礎進行聚類。最后將WASP算法應用在DBLP數據集中,通過實驗對比,該算法具有較好的聚類效果。

1 相關定義

1.1 屬性加權無向圖定義

定義1屬性加權無向圖G=(V,E,A,ω);其中:

V表示屬性圖中節點集合:V={v1,v2,…,vn};

E表示屬性圖中邊的集合:E={(vi,vj)|(vi,vj)∈R,1≤i,j≤n,i≠j};

A表示圖的屬性的集合:A={a1,a2,…,am};其中|A|=m′;

ω為邊的權重值:ω={ω1,ω2,…,ωp} ,|ω|=p′ ,ωa(ik)表示節點vi的屬性ak的權值,若任意兩節點vi、vj直接相連,則這兩點節點間的權重值為ωi,j= ωq,q∈{1,2…,p};

1.2 節點相似度定義

在社交網絡中,如果用戶之間的公共朋友越多,則用戶之間的聯系越大。對于屬性圖中的節點,如果節點之間聯系的公共節點越多,則這些節點位于同一個簇的可能性越大。本文考慮將與節點直接關聯的點稱為該節點的節點朋友。

定義2屬性圖G=(V,E),v為圖中的節點。定義節點朋友集合為Κ(v):

K(v)={u∈V|(v,u)∈E}∪{v}

(1)

若v、u之間有邊,即∈E,則將邊的相似度定義為:

(2)

2 算法描述

2.1 自動更新屬性權重值

為了得到較好的聚類效果,提出了一種自動更新屬性權重值的方法,在聚類過程中不斷更新屬性權重值,來得到較好的聚類效果。

(3)

因此更新后的權重值:

(4)

2.2 最短路徑算法

為了發現圖中高關聯度的邊,考慮到邊的權重和相似度,設定參數α、β,且α+β=1。任意一條邊上的關聯度為:

(5)

兩個節點間路徑越長,則關聯度越小,若要取得最大關聯度的節點,則相鄰節點直接取節點間最短距離,非相鄰節點取節點之間最短距離的和。最大關聯度的和為:

(6)

其中,Z是節點va、ub中間節點的集合。本文采用最短路徑算法中的經典算法Dijkstra算法。

根據最短路徑的最優子結構性質,如果存在一條從i到j的最短路徑(vi,…,vk,vj),vk是vj前面的一頂點,那么(vi,…,vk)也必定是從i到j的最短路徑。為了求出最短路徑,Dijkstra提出了以最短路徑長度遞增,逐次生成最短路徑的算法。例如對于源頂點v0,首先選擇其直接相鄰的頂點中長度最短的頂點vi,那么當前已知可得從v0到達vj頂點的最短距離:

(7)

根據這種思路,假設存在圖G=(V,E,ω),源頂點為v0,U={v0},dist[i]記錄v0到vi的最短距離,path[i]記錄從v0到vi路徑上的i前面的一個頂點,則算法過程為:

1) 從{V-U}中選擇使dist[i]值最小的頂點i,將i加入到U中;

2) 更新與i直接相鄰頂點的dist值,即dist[j]=min{dist[j],dist[i]+matrix[i][j]};

3) 直到U=V。

2.3 聚類算法描述

基于最短路徑的圖聚類算法,就是在計算最大關聯度時采用最短路徑算法,選取相應的節點并劃分到同一簇中。具體算法步驟如下:

輸入:屬性加權無向圖G=(V,E,A,ω),初始權重值ω=1.0,聚類數量k,參數α=0.4,β=0.6;

輸出:劃分的不同的簇;

1) 計算邊的相似度Γ(v,u);

2) 在初始聚類數量k中選擇節點作為初始聚類中心Vstart,且Vstart不能為空集。定義剩余節點Vleft=V-Vstart;

4) 在劃分好的節點中,根據更新的權重值,得到L(va,ub),并將關聯度大且距離短的的節點劃分為一簇;

5) 若Vleft=?,則聚類結束,所有節點劃分完畢,若Vleft≠?且Vleft

WASP算法是一種基于最短路徑對圖的結構和屬性聚類的算法。在算法時間復雜度方面,第1步,計算邊的相似度,時間復雜度為Ο(n);第2、3步,選擇聚類中心的,時間復雜度為Ο(n3),第3-5步,計算最短路徑,劃分節點到不同的簇,時間復雜度為Ο(kn-n2),其中k為初始聚類數量。該算法總體時間復雜度為Ο(n3)。

3 實驗與分析

3.1 實驗數據集

本次實驗采用DBLP數據集。這是一個學術合作關系的網絡。由德國的特里爾大學創建的發表在計算機期刊、雜志和會議論文的數據庫系統。該網絡包括一萬多個節點和兩萬多條無向邊。其中節點表示論文作者,邊代表作者們合作完成的論文。本次實驗選擇了該網絡提供的在數據挖掘、數據庫、人工智能、信息檢索等相關領域發表論文最多的5000名作者英文單位。

作者單位的中英文要完全對應,每個實詞的首字母大寫。在部門名稱和單位名稱之間、在單位名稱和城市名之間使用英文逗號隔開,城市名和郵編之間使用一個英文空格隔開,不能用逗號。

3.2 評價標準

(8)

3.3 實驗結果

實驗時設定聚類初始數量k=5,10,15,20,25,30,圖1為WASP算法與SCAN算法在DBLP數據集上的聚類密度效果。由圖1可知,在聚類數量較少時,WASP算法與SCAN算法聚類效果沒有太大差別,但當聚類數量增多時,WASP算法更具有優勢。這是因為WASP算法不但考慮了圖的屬性和結構,還考慮到了節點間的權重值,在聚類數量增多的時候,節點間的權重值也會增大,此時WASP算法聚類效果更明顯。

圖1 聚類密度結果圖

為了更好地對比兩個算法的聚類效率,選擇對比兩算法的聚類時間。在實驗數據集上分別運行WASP算法和SCAN算法各10次,并記錄下每次運算所消耗的時間。取10次運算的平均值作為聚類時間。

由圖2可知,當聚類數目較小時,WASP算法與SCAN算法聚類時間差距不大。但當聚類數目開始增多時,SCAN算法無明顯變化,WASP算法卻出現變化。這是因為由于該算法在聚類迭代時,每次都要計算當前聚類中心到所有節點的最短距離。當聚類數量增多,即k的值增加時,由于算法3-5步的時間復雜度為Ο(kn-n2),算法第3-5步所消耗的時間將會增加。因此算法總體時間將會變長,而對于SCAN算法來說,時間復雜度不會有明顯變化。在大型圖聚類算法中,WASP算法時間會長于SCAN算法,但由于k值對WASP算法時間影響較小,因此具體到實際應用中只有幾秒鐘時間,且在小型數目集中沒有明顯區別。

圖2 聚類時間圖

4 結 語

本文通過對現有圖聚類算法的研究,以加權屬性圖為模型,提出了基于最短路徑的加權屬性圖算法。該算法結合圖的屬性和結構進行聚類,實驗表明,該算法比一般圖聚類算法具有更好的聚類效果。但是該算法在大型圖上聚類時間略長于其他聚類算法,需要在今后的工作中進一步的改進。

[1] Majumdar D,Kanjilal A,Bhattacharya S.Separation of scattered concerns: a graph based approach for aspect mining[J].ACM SIGSOFT Software Engineering Notes,2011,36(2): 1-11.

[2] Sengupta S,Kanjilal A,Bhattacharya S.Measuring complexity of component based architecture: a graph based approach[J].ACM SIGSOFT Software Engineering Notes,2011,36(1): 1-10.

[3] Tian Y,Hankins R A,Patel J M.Efficient aggregation for graph summarization[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data.ACM,2008: 567-580.

[4] Zhang N,Tian Y,Patel J M.Discovery-driven graph summarization[C]//Data Engineering (ICDE),2010 IEEE 26th International Conference on.IEEE,2010: 880-891.

[5] Neville J,Adler M,Jensen D.Clustering relational data using attribute and link information[C]//Proceedings of the text mining and link analysis workshop,18th international joint conference on artificial intelligence.2003: 9-15.

[6] Steinhaeuser K,Chawla N V.Community detection in a large real-world social network[M]//Social computing,behavioral modeling,and prediction.Springer US,2008: 168-175.

[7] Cheng H,Zhou Y,Yu J X.Clustering large attributed graphs: A balance between structural and attribute similarities[J].ACM Transactions on Knowledge Discovery from Data (TKDD),2011,5(2): 12.

[8] Liu Z,Yu J X,Cheng H.Approximate homogeneous graph summarization[J].Information and Media Technologies,2012,7(1): 32-43.

[9] Xu Z,Ke Y,Wang Y,et al.A model-based approach to attributed graph clustering[C]//Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.ACM,2012: 505-516.

[10] Zanghi H,Volant S,Ambroise C.Clustering based on random graph model embedding vertex features[J].Pattern Recognition Letters,2010,31(9): 830-836.

[11] Zhou Y,Cheng H,Yu J X.Clustering large attributed graphs: An efficient incremental approach[C]//Data Mining (ICDM),2010 IEEE 10th International Conference on.IEEE,2010: 689-698.

STUDY ON SHORTEST PATH-BASED CLUSTERING ALGORITHM OF WEIGHTED ATTRIBUTE GRAPH

Zhang Suzhi Zhang Lin Qu Xukai

(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,Henan,China)

Graph is an important data structure in computer science,and can be used to describe the complex relationship between things.The nodes and edges in graph have one or more different attributes.How to cluster the graph in combination with attributes is a new challenge encountered at present.Many of current attribute graph clustering algorithms have the drawbacks of poor clustering effect,big resource consumption and low efficiency.In view of the above problems,this paper puts forward a shortest path-based weighted attribute graph clustering algorithm,and builds the weighted attribute undirected graph model.Based on the model the algorithm measures the correlation degree between the nodes based on shortest path algorithm,and takes this as the principle to select new clustering centre to cluster the graph.Experiment shows that the new clustering algorithm has more efficient clustering effect.

Graph Weighted attribute graph Shortest path Clustering

2015-06-10。國家自然科學基金青年科學基金項目(61201447)。張素智,教授,主研領域:Web數據庫,分布式計算,異構系統集成。張琳,碩士生。曲旭凱,碩士生。

TP3

A

10.3969/j.issn.1000-386x.2016.11.050

主站蜘蛛池模板: 无码专区国产精品一区| 青青久在线视频免费观看| 亚洲成a人片| 国产一级二级在线观看| 国产乱人伦精品一区二区| 54pao国产成人免费视频| 国产精品私拍99pans大尺度| 国产sm重味一区二区三区| 四虎国产精品永久一区| 伊在人亚洲香蕉精品播放| 欧美一区二区人人喊爽| 激情六月丁香婷婷| 2020极品精品国产| 久久黄色视频影| 亚亚洲乱码一二三四区| 国产永久在线视频| 最新精品久久精品| 2019年国产精品自拍不卡| 日本www在线视频| 一本久道热中字伊人| 精品91视频| 久久久精品久久久久三级| 国产日韩欧美一区二区三区在线| 国产99欧美精品久久精品久久| 亚洲 成人国产| 无码丝袜人妻| 高潮毛片免费观看| 国产午夜福利亚洲第一| 国产哺乳奶水91在线播放| 成人免费网站久久久| 国产无人区一区二区三区| 五月天丁香婷婷综合久久| 国产又黄又硬又粗| 亚洲精品天堂在线观看| 亚洲有无码中文网| 午夜电影在线观看国产1区| 亚洲男人天堂2020| 久久久久亚洲AV成人人电影软件| 又粗又大又爽又紧免费视频| 久久精品国产电影| 国产一区免费在线观看| 国产 在线视频无码| 成人免费视频一区二区三区| 五月激情婷婷综合| 亚洲乱码在线播放| 99热这里只有精品在线观看| 久久黄色免费电影| 国产h视频免费观看| 中文字幕一区二区视频| 国内精品久久久久久久久久影视| 国产精品黑色丝袜的老师| 亚洲欧美日韩另类在线一| 国产自在自线午夜精品视频| 亚洲妓女综合网995久久| 国产精品无码制服丝袜| 亚洲成A人V欧美综合天堂| 99久久精品视香蕉蕉| 国产综合另类小说色区色噜噜| 欧美天堂在线| 亚洲另类色| jizz国产在线| 国产欧美另类| 亚洲最猛黑人xxxx黑人猛交| 亚洲第七页| 在线亚洲精品福利网址导航| 亚洲第一精品福利| 色成人亚洲| 国产一区二区精品高清在线观看| www.国产福利| 国产经典三级在线| www亚洲天堂| 热久久这里是精品6免费观看| 成人毛片免费观看| 中文无码日韩精品| 欧美日韩国产高清一区二区三区| 丁香六月激情综合| 国内精品91| 久草网视频在线| 国产成人一区在线播放| 亚洲av日韩av制服丝袜| 国产精品视频第一专区| 久久五月视频|