趙 震,任永昌
(1.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013;2.東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 沈陽 110819)
大數(shù)據(jù)時(shí)代電子政務(wù)中XML文檔相似性
趙 震1,2,任永昌1
(1.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013;2.東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 沈陽 110819)
XML作為電子政務(wù)應(yīng)用中的數(shù)據(jù)交換標(biāo)準(zhǔn)已經(jīng)被廣泛研究。隨著大數(shù)據(jù)時(shí)代的到來,對電子政務(wù)中XML數(shù)據(jù)的管理也顯得越來越重要。在XML數(shù)據(jù)的管理中,XML文檔的相似性是XML數(shù)據(jù)集成、XML數(shù)據(jù)分類的關(guān)鍵。為了研究XML文檔的相似性,針對XML文檔進(jìn)行了樹形變換,并提取樹節(jié)點(diǎn)的相應(yīng)特征,然后分別利用這些特征對節(jié)點(diǎn)進(jìn)行相應(yīng)的相似性計(jì)算,再將得到的相似性利用ELM(超限學(xué)習(xí)機(jī))算法進(jìn)行擬合得到最終的節(jié)點(diǎn)相似性。在節(jié)點(diǎn)相似性的基礎(chǔ)上提出了XML文檔樹的相似性比較算法,從而計(jì)算得到XML文檔的相似性。實(shí)驗(yàn)部分在給出具體的評(píng)估指標(biāo)的基礎(chǔ)上,在兩個(gè)不同的數(shù)據(jù)集上給出使用文中方法所得到的精確度、召回率、F-measure值以及相應(yīng)時(shí)間的對比情況,通過實(shí)驗(yàn)驗(yàn)證了所提方法的性能優(yōu)勢。
XML文檔;相似性;特征提取;擬合;數(shù)據(jù)集成
近年來,隨著電子政務(wù)的快速發(fā)展,XML作為電子政務(wù)應(yīng)用中的數(shù)據(jù)交換標(biāo)準(zhǔn)[1]越來越受到重視。眾多學(xué)者在此基礎(chǔ)上提出了許多基于XML的電子政務(wù)服務(wù)模型[2-4]。隨著大數(shù)據(jù)時(shí)代的到來,對電子政務(wù)中XML數(shù)據(jù)的管理也顯得越來越重要。XML數(shù)據(jù)的管理包括數(shù)據(jù)的存儲(chǔ)和集成、數(shù)據(jù)的交換等。在XML數(shù)據(jù)的管理中,XML數(shù)據(jù)的相似性是XML數(shù)據(jù)集成[5]、分類[6]的關(guān)鍵。……