999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

XML文檔的聚類研究

2015-10-20 11:37:51尹路修

摘要隨著互聯網的迅速發展,XML已經成為互聯網中最常用的數據交換與存儲語言,如何從大量的XML文檔中提取有價值的信息是目前的研究熱點之一.本文提出了一種基于SET/BAG模型的改進的相似度計算方法.該方法將XML文檔的每個節點轉換成一個對象(由對象名、父對象、屬性集合以及該對象相對于其父對象的權重組成),能較完整地表達XML文檔的結構信息,并且通過調整重復節點的權重來降低其在相似度計算中的影響.在真實數據集與人工數據集上分別進行實驗,仿真實驗結果表明,本文提出的基于SET/BAG模型下改進的相似度計算方法能得到很好的聚類結果.

關鍵詞XML;文檔聚類;相似度計算

中圖分類號TP3911文獻標識碼A文章編號10002537(2015)05009104

Clustering Research on XML Document

YIN Luxiu*

(College of Mathematics and Computer Science, Hunan Normal University, Changsha 410081, China)

AbstractWith the rapid development of Internet, XML has become the most commonly used language for the Internet data exchange and storage. How to extract valuable information from a large number of XML document is one of the hottest research topics currently. This paper proposes a model based on the SET/BAG improved similarity calculation method, which converts each node of the XML document to an object (the object name, object, attribute set, and the weight of the object relative to the parent object) and can fully express the structure of an XML document information, by adjusting the repeated node weights to reduce its influence in similarity calculation. Based on real data sets and artificial datasets experiments respectively, the simulation experimental results show that the proposed method in this paper based on the SET/BAG model improved similarity calculation can get good clustering results.

Key wordsXML; document clustering; similarity computation

在研究如何從大量的XML文檔中提取有價值的信息時,關于XML文檔的聚類[1]研究顯得非常重要.通過XML文檔的聚類,可以將大量的XML文檔在未知類別的情況下進行分類整理,使用戶可以用更短的時間獲得更為完整和有用的信息.XML文檔聚類研究主要有兩大研究方向.一種是對聚類算法進行改進,使之能更好地結合XML文檔的特點以及更好的聚類結果.目前主要的聚類算法[23]有基于劃分的,基于層次的和基于密度的.另一種是對XML文檔的表示模型進行改進,以便得到更有效率的相似度計算方法.目前主要的XML文檔的表示模型[47]有3種,分別是SET/BAG模型,向量空間模型和樹模型.本文著重對SET/BAG模型的相似度計算方法進行改進,提出一種基于SET/BAG模型改進的相似度計算方法.

1SET/BAG模型相似度計算

SET/BAG模型[8]是將XML文檔用集合的形式來表示,通過Jaccard相似系數計算公式得到兩個文檔的相似度.設有2個XML文檔集合,x1,x2,Jaccard相似系數計算公式:

sim(x1,x2)=|x1∩x2||x1∪x2|.(1)

基于SET/BAG模型的相似系數計算公式,再結合XML文檔的自身特點,有以下幾種相似度計算方法:

(1)節點比較法.節點比較法是將一個XML文檔中的所有節點組合成一個集合,這個集合代表這個XML文檔.相似度計算是使用Jaccard相似系數計算公式得到相似度.節點比較法只是簡單地提取了XML文檔中的節點,忽略了XML文檔的結構信息,如XML文檔結構中的父子關系,同時嵌套節點與重復節點帶來的相似度計算的影響也并未得到解決.并且XML文檔中層級越高的節點概括的信息量越大,層級越低的節點概括的信息量越小,但是在節點比較法中并未得到表現.

(2)邊集比較法.邊集比較法與節點比較法類似,只是集合中的節點不是XML文檔里的元素,而是用表示父子關系的有向邊.相似度計算方式與節點比較法一樣,也是計算兩個集合之間的交集除以兩個集合之間的并集.邊集比較法在一定程度上保存了XML文檔中的父子關系,但和節點比較法一樣也未能解決嵌套元素與重復元素的影響.

湖南師范大學自然科學學報第38卷第5期尹路修:XML文檔的聚類研究2基于SET/BAG模型改進的相似度計算

2.1基于SET/BAG模型改進的相似度計算

2.1.1XML文檔的數據預處理XML文檔中的一個對象由一個四元組表達,即,O={Name,Parent,AttributeList,Weight},其中Name:該對象的名字,Parent:該對象的父對象,AttrubuteList:該對象的屬性集合,Weight:權重,是該對象相對于其父對象的重要度,如圖1所示.在進行對象集合相似度計算之前,需要遍歷XML文檔中的每個節點并將其轉換成一個對象.于是,計算兩個XML文檔的相似度時,即對這個XML文檔的對象集合進行比較.

對象的權重取值需要相關的領域知識,并作歸一化處理,因此本文假設一個對象下的所有屬性的相似權重相同.為了避免一個對象的重復屬性帶來的相似度的精度的影響,非重復屬性的權重取值為1n,重復屬性的權重為1n+m.n為非重復屬性數,m為重復屬性數.因此,圖1的XML文檔則可以表示為如表1所示.

圖1XML文檔示例

Fig.1XML document sample表1改進后的元素集合表格

Tab.1Improved element collection table

名稱父對象屬性權重booknulltitle;publisher;year;author;price1titlebooknull0.2publisherbooknull0.2yearbooknull0.2authorbookfirstname;lastname0.2price booknull0.2firstnameauthornull0.5lastnameauthornull0.52.1.2節點對象的相似度計算在將數據處理成對象集合之后,需要進行對象的相似度計算.對象的相似度取決于對象名和對象的屬性集合.兩個XML文檔的相似度等于兩個XML文檔的頂層對象的相似度.

設有對象P1和P2,P1的屬性集合為{a11,a12,…,a1m},P2的屬性集合為{a21,a22,…,a2n},對象的相似度計算公式:

sim(P1,P2)=∑mi=1sim(a1i)·Weight(a1i)+∑nj=1sim(a2j)·Weight(a2j)2.(2)

基于SET/BAG模型改進的相似度計算算法采用遞歸的方式從頂層對象(樹模型里的根節點)開始計算,通過動態規劃算法的思想,分別求解出兩個頂層對象下屬性集合的相似度,然后將每個屬性與各自對于頂層對象的權重相乘再累加除以2得到兩個頂層對象的相似度,也就是XML文檔的相似度,有兩種情況:

(1)如果對象的屬性集合為空,則比較對象名是否一樣.當屬性名一樣時,判定兩個屬性的語義是否相同,若相同,則similaryValue=1,否則similaryValue=0.

(2)如果對象屬性集合不為空,先比較對象名,如果相同,則比較其屬性集合.先將兩個對象的所有屬性進行兩兩比較,然后分別查找出相似度最大的值作為這兩個屬性的相似度,若沒有匹配上的屬性, similaryValue=0.

基于SET/BAG模型改進的相似度計算算法描述如下:

函數:compareObject

輸入:O1,O2;// 頂層對象O1,頂層對象O2

輸出:similaryValue;//兩個對象集合的相似度值

方法:

(1)比較頂層對象名是否相同,如果相同,則跳入(2);

(2)比較兩個對象的屬性集合,

If(其中一個對象的屬性集合為空,而另一個對象的屬性集合不為空){

similaryValue = 0;

返回 similaryValue;

}else if (兩個對象的屬性集合都為空){

If(o1.name == o2.name){

similaryValue = 1;

}else{

similaryValue = 0;

}

返回similaryValue;

}else{

Repeat

//將兩個對象的屬性集合進行兩兩對比,跳入(1);

//將相似度最大的兩個屬性劃分為一組,得到的相似度結果為這兩個屬性的相似度;

Until

//所有屬性比較完畢

//跳入(3)

}

(3)分別乘以這個屬性在該對象的權重,得到最終帶權重的相似度,代入公式(1)中,得到兩個頂層對象的相似度.

基于SET/BAG模型改進后的相似度計算方法結合了語義相似度的比較,并未通過語義詞典來得到兩個屬性的語義相似度.由于目前的語義詞典如WordNet存在一些不足的地方如合并詞匯與縮寫詞匯不能計算相似度,例如圖3.1中firstname是由first和name合并的,但是在語義詞典里面不能被識別.還有語義詞典中的詞匯不完善,簡寫詞匯和專業術語的單詞如VSM是Vector Space Model的簡寫,但是在語義詞典中也不能被識別.因此,改進后的相似度計算方法并未采用語義詞典進行相似度的計算.

在嵌套節點與重復節點的處理方面,由于基于SET/BAG模型改進后的相似度計算方法將節點轉換成對象處理,而對象包含了名稱與屬性,所以對于嵌套節點不會影響相似度的計算.而在重復節點的處理上,通過在XML文檔的預處理中,降低重復節點的權重,減少重復節點在相似度計算中的影響.

2.2實驗結果

為了驗證基于SET/BAG模型改進的相似度計算方法的有效性,使用NIGARA數據集(actor, movies, department, club, bib),分別從actor類中抽取117個文檔,moives類中抽取282個文檔,department類中抽取19個XML文檔,club類中抽取12個文檔,bib類中抽取16個文檔,總計446個文檔進行混合.分別使用SET/BAG模型下的節點比較法、樹模型下的樹編輯距離和基于SET/BAG模型下改進的相似度計算方法與DBSCAN聚類算法結合對XML文檔進行聚類.節點比較法與樹編輯距離法是XML文檔相似度計算中有代表性的計算方法.并且通過與節點比較法和樹編輯距離法進行對比,能很好地表現出基于SET/BAG模型改進的相似度計算方法在XML文檔結構特征的存儲與對重復節點和嵌套節點的處理上有很大的提升.實驗結果如表2所示.

表2NIGARA數據集的聚類結果

Tab.2Clustering results of NIGARA data sets

簇集數平均查準率/%平均查全率/%平均F1測度/%純度/%節點比較法376606184樹編輯距離534383680改進后的相似度計算592919393由于NIGARA數據集中的部分類別重復節點較多,對樹編輯距離的影響較為嚴重,節點比較法其次.并且因為club,department和bib類別的XML文檔較少而重復節點在這些類別中有些文檔出現次數較多,有些文檔次數較少,導致基于樹編輯距離的DBSCAN算法將這些類別中的XML文檔計算成孤立點并排除在外,所以樹編輯距離的聚類結果不理想.而改進后的SET/BAG模型相似度計算方法由于將重復節點的權重進行調整,能很好地消除重復節點的影響.

為了防止單一數據集帶來的偶然性,本文使用XML Generator人工生成XML文檔數據集,此人工數據集分為3類,分別通過play.dtd,dblp.dtd和SigmodRecord.dtd生成150個XML文檔,其中play.dtd有45個文檔, dblp.dtd有65個文檔, SigmodRecord.dtd有40個文檔.實驗結果如表3所示.

表3人工數據集的聚類結果

Tab.3Clustering results of artificial data sets

簇集數平均查準率/%平均查全率/%平均F1測度/%純度/%節點比較法386818285樹編輯距離384888680改進后的相似度計算392949293人工生成的數據集由于重復節點較少,因此,節點比較法和樹編輯距離的表現比在NIGARA數據集要好,但是仍然不能將所有數據集放入正確的簇集中.而基于SET/BAG改進的相似度計算方法始終能夠得到很好的聚類結果.

參考文獻:

[1]ALSAYED A, MARCO M, RICHI N, et al. XML data clustering:an overview[J]. ACM Comput Surv, 2011,43(4):25.

[2]ANAND R, JEFFREY D U. Mining of Massive Datasets[M].Cambridge: Cambridge University Press, 2011.

[3]周水庚,周傲英.一種基于密度的快速聚類算法[J].計算機研究與發展, 2000,37(11):12871292.

[4]BERTINO E, GUERRINI G, MESITI M. Measuring the structural similarity among XML documents and DTDS[EB/CD].Technical Report DISITR0202,Department of Computer Science, University of Genova, 2002.

[5]FLESCA S, MANEO G, MASCIARI E, et al. Detecting structural similarities between XML documents[C]// Proceedings of the 5th International Workshop on the Web and Databases, Madison, Wisconsin, 2002:5560.

[6]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Comm ACM, 1975,18(11):613620.

[7]LEE J W, LEE K, KIM W. Preparations for semanticsbased XML mining[C]//Proceedings of the 2001 IEEE International Conference on Data Mining, San Jose, 2001:345352.

[8]ANDREA T, SERGIO G. Semantic clustering of XML documents[J]. ACM Trans Inform Syst, 2010,28(1):156.

(編輯胡文杰)

主站蜘蛛池模板: 在线观看国产精品第一区免费 | a级毛片在线免费观看| 精品欧美一区二区三区久久久| 日韩毛片视频| 亚洲成人www| 毛片三级在线观看| 国产成人a在线观看视频| 99草精品视频| 亚洲精品国产自在现线最新| 亚洲国内精品自在自线官| 亚洲欧美日韩另类在线一| 尤物特级无码毛片免费| 亚洲一区免费看| 日韩欧美中文在线| 欧美色香蕉| 亚洲视频在线观看免费视频| 国产主播喷水| AV片亚洲国产男人的天堂| AV网站中文| 国产在线专区| 国产欧美另类| 毛片免费观看视频| 一级爆乳无码av| 毛片手机在线看| 国产福利免费视频| 亚洲最猛黑人xxxx黑人猛交 | 亚洲欧美成人| 国产一级在线观看www色 | 国产成人精品视频一区二区电影| 久久国产精品77777| 日本道综合一本久久久88| 国产精品99久久久久久董美香| 天堂亚洲网| 国产乱人免费视频| 九九热这里只有国产精品| 亚洲视屏在线观看| 日韩黄色大片免费看| 欧美精品色视频| 精品人妻无码区在线视频| 日韩二区三区| 国产亚洲男人的天堂在线观看 | a级毛片免费看| 亚洲国产在一区二区三区| 国产成人乱码一区二区三区在线| 中文精品久久久久国产网址 | 国产精品精品视频| 成人福利视频网| 囯产av无码片毛片一级| 婷婷五月在线| a色毛片免费视频| 亚洲日韩精品无码专区97| 亚洲丝袜中文字幕| 久久午夜夜伦鲁鲁片无码免费| 一级毛片a女人刺激视频免费| 久久午夜夜伦鲁鲁片无码免费| a级毛片在线免费| 成年片色大黄全免费网站久久| 国产精品美乳| 亚洲一区无码在线| jizz在线观看| 91在线中文| 99re经典视频在线| 久久九九热视频| 国产视频 第一页| 黄色片中文字幕| 国产一区二区精品福利 | 国产精品真实对白精彩久久| 国产精品久久久免费视频| 亚洲三级影院| 成人福利免费在线观看| 国产精品性| 精品免费在线视频| 精品成人免费自拍视频| 国产国产人在线成免费视频狼人色| 成人精品免费视频| 国产人免费人成免费视频| 麻豆国产在线观看一区二区| 中国丰满人妻无码束缚啪啪| 园内精品自拍视频在线播放| 日韩国产欧美精品在线| 美女裸体18禁网站| 亚洲一区波多野结衣二区三区|