趙 震,任永昌
(1.渤海大學 信息科學與技術學院,遼寧 錦州 121013;2.東北大學 計算機科學與工程學院,遼寧 沈陽 110819)
大數據時代電子政務中XML文檔相似性
趙 震1,2,任永昌1
(1.渤海大學 信息科學與技術學院,遼寧 錦州 121013;2.東北大學 計算機科學與工程學院,遼寧 沈陽 110819)
XML作為電子政務應用中的數據交換標準已經被廣泛研究。隨著大數據時代的到來,對電子政務中XML數據的管理也顯得越來越重要。在XML數據的管理中,XML文檔的相似性是XML數據集成、XML數據分類的關鍵。為了研究XML文檔的相似性,針對XML文檔進行了樹形變換,并提取樹節點的相應特征,然后分別利用這些特征對節點進行相應的相似性計算,再將得到的相似性利用ELM(超限學習機)算法進行擬合得到最終的節點相似性。在節點相似性的基礎上提出了XML文檔樹的相似性比較算法,從而計算得到XML文檔的相似性。實驗部分在給出具體的評估指標的基礎上,在兩個不同的數據集上給出使用文中方法所得到的精確度、召回率、F-measure值以及相應時間的對比情況,通過實驗驗證了所提方法的性能優勢。
XML文檔;相似性;特征提取;擬合;數據集成
近年來,隨著電子政務的快速發展,XML作為電子政務應用中的數據交換標準[1]越來越受到重視。眾多學者在此基礎上提出了許多基于XML的電子政務服務模型[2-4]。隨著大數據時代的到來,對電子政務中XML數據的管理也顯得越來越重要。XML數據的管理包括數據的存儲和集成、數據的交換等。在XML數據的管理中,XML數據的相似性是XML數據集成[5]、分類[6]的關鍵。……