999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML Schema的Deep Web查詢接口分類研究*

2016-05-30 11:12:14茍和平景永霞吳多智
長春大學學報 2016年4期
關鍵詞:分類

茍和平,景永霞,吳多智

(瓊臺師范高等專科學校 信息技術系,海口 571100)

?

基于XML Schema的Deep Web查詢接口分類研究*

茍和平,景永霞,吳多智

(瓊臺師范高等專科學校 信息技術系,海口 571100)

摘要:Deep Web在線數據庫蘊含大量的信息,但由于這些信息檢索困難,利用率不高,本文提出一種基于XML Schema 的查詢接口分類方法,建立數據查詢接口的XML Schema文檔,通過各數據源名的語言學相似度實現查詢接口的初次分類;根據查詢接口標簽屬性,建立特征-接口向量空間模型實現查詢接口向量化,再采用KNN算法進行二次分類,減少KNN算法分類帶來的計算開銷,提高Deep Web數據檢索的效率。

關鍵詞:Deep Web;XML Schema;查詢接口;分類

0引言

網絡技術的成熟使得Web迅速發展為一個巨大數據源,根據數據源的深度,整個Web可以劃分為Surface Web (淺層網絡)和Deep Web (深層網絡)兩大部分。Surface Web是指通過超鏈接能夠被搜索引擎所檢索到的靜態Web頁面的集合,而Deep Web是指不能被傳統的搜索引擎所檢索到的信息,這些信息內容存放在真正的在線Web數據庫中,只能通過查詢接口訪問獲得。由于Deep Web蘊含的信息量是Surface Web的400~500倍,且在Deep Web上95%的信息是可以公開訪問的[1,2]。因此,為用戶提供Deep Web特定領域的訪問接口,實現其中豐富信息資源自動獲取的研究有著重要的現實意義。

由于Deep Web信息來源于不同的領域,將用戶針對Deep Web上的查詢自動映射到不同領域的查詢接口,實現數據的快速查詢,首先需要實現將用戶特定Deep Web查詢接口按照領域進行分類,縮減數據檢索范圍,目前有許多關于查詢接口分類的研究,但他們都絕大多數集中在基于統計、關聯規則和聚類的方法[4-6],這類方法對查詢接口的結構和語義考慮較少。也有研究采用本體的方案[7],但隨著查詢接口的增減,此類方案在維護一個龐大的本體上付出代價太高。K最近鄰(KNN)[8]自動文本分類算法,是一種簡單、有效的學習方法,在文本分類中得到了廣泛的應用,取得了較好的效果。因此本文提出一種基于XML Schema的查詢接口分類方案,主要利用XML Schema的結構特點,采用數據源名語言學相似度和KNN算法實現查詢接口分類。

1Deep Web查詢接口XML表示

圖1 allbookstores網站的圖書查詢接口

Deep Web查詢接口是實現Deep Web在線數據庫訪問的入口,例如我們訪問圖書網站allbookstores,通過Search菜單進行查詢圖書,其查詢接口如圖1所示。

將查詢接口表示成XML結構:

(1)采用作為根節點,包含兩類子節點

是對查詢接口對應的數據源名稱。是針對此數據源的查詢表單。

(2)關于表單中的標簽、文本框和列表框的描述方法有所不同,例如:對于Author項的XML描述:

(3)對于Format等具有固定選擇值的屬性描述:

對于上述關于allbookstores的查詢接口,其XML Schema表示如下:

(1)對于一個Deep Web數據源采用作為根節點,根節點中包含接口來源的屬性節點,名稱和查詢表單節點。其結構如圖2所示。

圖2 數據源節點的XML Schema結構

(2)查詢接口表單節點是由若干個屬性組組成,其中每個屬性組又包含多個屬性元素。其結構如圖3所示。

因此,按照上述的XML Schema結構對不同的訪問借口進行轉換操作,建立XML Schema樹。

2基于 XML Schema的Deep Web查詢接口分類

2.1關鍵實現方案

為了實現對Deep Web數據庫的快速查詢,需要事先將用戶的查詢接口進行分類,將其映射到某個領域,縮小查詢掃描范圍,以實現快速的查詢定位和數據檢索,提高查詢效率。

設用戶的查詢接口為t1,對于查詢接口樣本集T,對t1的分類過程設計如下兩個方面:

(1)分別獲得t1和樣本t2(t2∈T)的XML Schema樹中的 屬性,對其采用屬性標簽的語言學相似性來度量。如待分類接口t1和t2(t2∈T)中 屬性值完全相似或者基本相似(即其相似度大于預先設定的相似度閾值),則待分類接口t1屬于接口t2所在的領域。

(2)如果待分類接口t1和所有的t2(t2∈T)不相似(即其相似度小于預先設定的相似度閾值),則對查詢接口樣本集T中的所有樣本,獲得其XML Schema中的節點的節點,將其節點屬性值作為待分類特征屬性,對來自所有領域的接口進行向量化,采用KNN算法進行分類。

圖3 查詢表單節點的XML Schema結構

2.2節點語言學相似度計算

對于查詢接口XML schema,其屬性元素是代表其數據來源,表示結構如下:

因此直接判斷此節點值,有助于提高查詢匹配的效率,本文采用對此節點屬性值的語言學相似度lingSim()來判斷相似性。對于查詢接口t1和樣本t2(t2∈T),其獲取的屬性值為v(t1)和v(t2)

對v(t1)和v(t2)名稱字符串進行預處理,主要是實現字符串的拆分、去除一些虛詞和特殊連字符等,分解成獨立的單詞集(tokens)S1T1和S2T2,然后進行語相似性分析,主要是采用基于wordnet來計算語義相似度。語言學相似度計算如公式(1)所示。

(1)

其中,

2.3查詢接口屬性選擇及權值計算

為了實現查詢接口快速分類,需要在分類前獲取所有的查詢接口對應的接口屬性元素的name值,選擇策略是只要在查詢接口集中有接口增減情況,都需要重新獲取其屬性。形成屬性name值的集合。

其中,ci(i=1,2,…m)為文本分類系統中的類別,p(ci)是指每個類別的出現概率。

其中

(2)

其次是屬性權值計算,目前比較常用的特征屬性權重計算函數有布爾函數、TF-IDF、 WIFD函數、以及TF-IWF 等,在文本文檔分類中使用最普遍的是TF-IDF 權值計算公式,TF-IDF基本思想是:如果一個詞在特定文檔中出現的次數越多,說明它在該文檔中的重要性越大,說明它區分文檔內容屬性的能力越強,如果一個詞在所有的文檔中都出現,說明它區分文檔內容屬性的能力越低[12]。如果查詢接口增多,其對應的屬性文本集也增大,需要對特征屬性的分類能力進行判斷,采用TF-IDF算法賦予接口屬性不同的權值,是為了跟據屬性特征貢獻大小實現查詢接口文本的向量化。

3基于 XML Schema的Deep Web查詢接口分類實現

3.1分類過程

本文提出的查詢接口分類是通過對查詢接口文本的XML表示,建立XML Schema,按照此XMLschema的結構,實現對不同查詢接口信息提取。主要是通過數據源名稱的語言學相似性能夠直接判斷哪些屬于同一個數據源的查詢接口。然后再對于不能夠直接判斷的查詢接口采用KNN分類算法進行分類,以確定其所屬類別。

設用戶查詢接口t和的查詢接口樣本集T(c1,c2,…,cm),其包含m個類別。對t進行分類,將其歸類到某個類別ci(i=1,2,…m)的過程如下:

1)對t和所有查詢接口ti(ti∈T),建立其對應的XML格式文檔(從網頁頁面中獲得)和XML schema樹。

2)對所有查詢接口ti,獲得所有查詢接口XML schema樹中的元素,建立所對應的數據源名稱集V(T)和查詢接口屬性名稱集A(T)。

3)對于V(T),采用基于wordnet的語義分析,利用公式(1)計算t中的數據源名v(t)與V(T)中所有數據源名v(ti)∈V(T)的語言學相似度ingSim(v(t),v(ti))。

4)對于指定語言學相似度閾值σ,若存在一個或者多個lingSim(v(t),v(ti))>σ,則按照所屬接口所在的類別進行分類。如果對于所有的樣本V(T),其lingSim(v(t),v(ti))<σ,則需要對屬性名稱集A(T)根據IG方法計算公式(2)進行分類特征選擇,通過TF-IDF權值方法計算特征屬性權值,建立特征-接口矩陣和向量空間模型(VSM),將所有查詢接口ti向量化為特征空間向量di(x1,x2,…,xn)。

5)將t表示為和ti一致的特征向量d0(x1,x2,…,xn)。

6) 根據距離函數計算d0和di的相似度,可以使用兩向量之間歐氏距離計算,選擇與d0相似度最大(距離最小)的k個文本作為d0的k個最近鄰。利用歐氏距離計算公式為:

(3)

其中xil和x0l分別指di和d0的第l個屬性。

(7) 根據d0的k個最近鄰,計算文本類別相應的權重, 計算公式為:

(4)

其中S(di,d0)表示文本向量di與文本向量d0之間的相似度; 類別屬性函數為:

(8) 比較各類的權重,將待分類文本t0歸入權重最大的類別。

3.2案列分析

我們選擇了UCUI提供的TEL-8數據集,從其中的4個類c1:Arefares、類c2:Automobiles、類c3:Books和類c4:Jobs分別選取5個查詢接口作為樣本集,再選擇測試查詢接口。由于在這些領域中的許多查詢接口是來來自同一個數據源,因此我們分兩種情況進行測試:一是選擇來自相同數據源的查詢接口;二是選擇非相同數據源的查詢接口。

在對新的查詢接口分類前需要獲得樣本集中的所有接口節點屬性值,獲得其數據源名稱集V(T)和查詢接口屬性名稱集A(T)。則對于我們選擇的20個查詢接口:

表1 v(t)和V(T)中各數據源語言學相似度

(1)在選擇了Arefares領域中來自同一數據源Orbitz Flight中的兩個查詢接口t和t1,如圖4(a)、4 (b)所示,t1在樣本接口集中,t作為測試數據進行測試。

其接口v(t)和V(T)中各數據源語言學相似度如表1所示。

我們選取相似度閾值σ=0.9,則判斷查詢接口t∈c1(t5所屬的領域)。

(a) Orbitz Flight中的查詢接口t

(b)Orbitz Flight中的查詢接口t1

(2)隨機選擇一個Books領域的查詢接口t,計算其和所有V(T)中的數據源名稱都不相似,因此采用KNN分類算法進行分,取k=3。我們通過IG方法選擇了10個分類特征屬性:

然后再構建特征向量空間模型VSM,對查詢接口進行向量化為di(i=1,2,…,20)。對于待分類接口t,也采用個同樣的方法進行向量化為d0。

d0={0,0,0,0,0,0.5,0,0.5,0.377964473,0}

則d0與di的相似度如表2所示。

表2 dj與di的相似度

根據表2的相似度可獲得d0的3個近鄰為{d13,d14,d15};再根據類別權重的計算公式(4)計算類別權重,查詢接口t歸為c3。

5結束語

Deep Web數據查詢接口是實現Deep Web數據檢索的有效手段,擔由于Deep Web在線數據數量巨大,查詢接口也是紛繁多樣,為了實現數據的快速檢索,需要對多樣的查詢接口進行分類,使其能夠實現某個領域數據的快速定位和檢索,本文提出實現方案能夠結合數據源屬性的語義判斷,通過KNN算法有效地解決這一問題,提高 Deep Web在線數據庫的檢索效率。

參考文獻:

[1]BERGMAN M K. The Deep Web: surfacing hidden value[EB/OL].[2014-6-18].http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value/.

[2]劉偉, 孟小峰, 孟衛一. Deep Web 數據集成研究綜述[J].計算機學報, 2007,30(9): 1475-1489.

[3]Liu Tantan,Wang Fan,Agrawal G.Instance discovery and schema matching with applications to biological Deep Web data integration[C].Washington,IEEE International Conference on Bioinformatics & Bioengineering,2010.

[4]曹慶皇, 鞠時光, 楊曉琴. 基于關聯挖掘和語義聚類的Deep Web復雜匹配方法[J].計算機應用研究,2009,26(12):4613-4616.

[5]Research on Deep Web Query InterfaceClustering Based on Hadoop[J].Journal of Software,2014, 9(12):3057-3062.

[6]WangYing; LiHuilai; ZuoWanli;et al.Ontology-Based Approach to Integrate Deep Web Query Interfaces[J]. Advanced Science Letters,2012(4):220-223.

[7]Zhang H,Berg AC, Maire M. Discriminative nearest neighbor classification for visual category recognition[C].Los Alamitos,CA,IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR′06),2006.

[8]George M, Christiane F. WordNet: An Electronic Lexical Database[M].Massachusetts:MIT Press,1998.

[9]Peter Harrington著,李銳,李鵬,曲亞東,等,譯.機器學習實戰[M].北京:人民郵電出版社,2013.

[10]范明,孟小峰,等,數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[11]周由,戴牡紅.語義分析與TF-IDF方法相結合的新聞推薦技術[J].計算機科學,2013,40(11A):267-300.

責任編輯:程艷艷

Research on Query Interface Classification of Deep Web Based on XML Schema

GOU Heping, JING Yongxia, WU Duozhi

(Department of Information Technology, Qiongtai Normal University, Haikou 571100, China)

Abstract:Deep Web online database contains a lot of information, but their utilization is not high because of the difficult information retrieval. A query interface classification method based on XML Schema is proposed. XML Schema document of the data query interface is established, which realizes the first classification through the linguistic similarity of data source name; According to the label attribute of query interface, a vector space model is established to realize the vectorization of query interface, then KNN algorithm is used for secondary classification, which reduces the computing cost brought by KNN classification algorithm, improving the efficiency of Deep Web data retrieval.

Keywords:Deep Web; XML Schema; query interface; classification

中圖分類號:TP391

文獻標志碼:A

文章編號:1009-3907(2016)04-0013-06

作者簡介:茍和平(1978-),男,甘肅慶陽人,副教授,碩士,主要從事分布式計算、數據挖掘方面研究。

基金項目:海南省自然科學基金項目(20156241);海南省高等學校科學研究項目(Hnky2015-72);瓊臺師范高等專科學校科研項目(qtky201404)

收稿日期:2015-10-28

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲免费人成影院| 综合色区亚洲熟妇在线| 国产在线视频二区| 欧美另类第一页| 国产一区二区三区夜色| 四虎成人精品| 亚洲精品无码不卡在线播放| 亚洲九九视频| 99精品一区二区免费视频| 国产草草影院18成年视频| 国产精品综合色区在线观看| 久久婷婷五月综合色一区二区| 色婷婷亚洲综合五月| 成人午夜视频网站| 国产门事件在线| 一级毛片免费不卡在线| 欧美狠狠干| 亚洲人成电影在线播放| 福利在线一区| 91精品aⅴ无码中文字字幕蜜桃| 99热线精品大全在线观看| 激情综合激情| 亚洲人在线| 国产精品无码一区二区桃花视频| 国产精品所毛片视频| av在线手机播放| 草草线在成年免费视频2| 成人综合在线观看| 国产杨幂丝袜av在线播放| 国产不卡一级毛片视频| 欧美精品亚洲精品日韩专区va| 国产精品视频第一专区| 亚洲男人天堂网址| 91www在线观看| 一级毛片网| 中文无码精品a∨在线观看| 99激情网| 狠狠色丁香婷婷| 日韩A级毛片一区二区三区| 欧美成人综合在线| 福利视频99| 91成人精品视频| 色老头综合网| 色偷偷一区二区三区| 久久久噜噜噜久久中文字幕色伊伊 | 91精品国产91久无码网站| 亚亚洲乱码一二三四区| 日本人又色又爽的视频| 国内熟女少妇一线天| 91成人免费观看在线观看| 日韩精品高清自在线| 免费高清毛片| 黄色网址免费在线| 无码视频国产精品一区二区| 四虎国产永久在线观看| 国产成人精品男人的天堂下载| 97国产在线视频| 色综合天天综合中文网| 欧美成人亚洲综合精品欧美激情| 亚洲日韩欧美在线观看| 成年av福利永久免费观看| 国产精品福利在线观看无码卡| 色一情一乱一伦一区二区三区小说 | 小13箩利洗澡无码视频免费网站| 欧美另类视频一区二区三区| 国产福利一区在线| 国产一级做美女做受视频| 99在线小视频| 成人免费午夜视频| 久草美女视频| 色综合天天操| 免费人欧美成又黄又爽的视频| 99热这里都是国产精品| 国产精品视频999| 国产精品视频系列专区| 四虎永久在线| 国产成人a在线观看视频| 本亚洲精品网站| 一级成人欧美一区在线观看 | 99re在线免费视频| 老司机午夜精品网站在线观看| 亚洲狼网站狼狼鲁亚洲下载|