利用實例的異構網絡服務模式匹配方法

2015-03-22 00:53:22王新云郭藝歌

華中師范大學學報(自然科學版) 2015年6期

關鍵詞：語義

何杰, 王新云, 郭藝歌

(1.寧夏大學資源環境學院, 銀川 750021; 2.寧夏大學西北土地退化與生態恢復教育部重點實驗室, 銀川 750021)

何杰1*, 王新云2, 郭藝歌2

(1.寧夏大學資源環境學院, 銀川 750021; 2.寧夏大學西北土地退化與生態恢復教育部重點實驗室, 銀川 750021)

提出了一種利用實例的模式匹配方法,在對網絡服務模式元素標簽及模式結構匹配基礎上,通過對網絡服務實例數據的精確匹配來確定模式元素間對應關系,解決了多版本異構網絡服務模式間由于結構和語義差異造成的映射丟失問題.最后,以Geoserver不同版本網絡要素服務(WFS)和網絡覆蓋服務(WCS)匹配試驗驗證了方法的有效性.

模式匹配; 實例; 多版本; 網絡要素服務; 網絡覆蓋服務

模式匹配[1-5]是異構的網絡服務集成的一個關鍵步驟.當前,不管是語法模式匹配方法還是語義(本體)匹配方法,大致可以分為基于元數據、基于實例及基于元數據和實例混合的形式.基于元數據的模式匹配算法[2-4,6-7]通常從概念名稱、概念的描述或定義及結構上作匹配,但多版本異構的網絡服務模式,如多版本網絡要素服務(WFS)[8]、網絡覆蓋服務(WCS)[9]、傳感器觀測服務(SOS)[10]模式等,由于基于的信息模型的差異造成了模式結構和元素語義上的差異,同時由于不同領域的概念定義和組織不同,往往很難確定來自不同領域不同描述的概念間關系,如,SOS中的ObservationOfferings與WFS中的FeatureMembers間的語義關系就很難確定.基于實例的模式匹配方法主要通過元素的實例值間的匹配來確定元素間關聯關系,如Wang Jiying等[11]人提出的基于實例的模式匹配方法來解決網絡數據庫站點內及站點間的數據模式匹配問題,且利用交叉驗證技術來提高匹配精度,該方法不足之處在于樣本實例的選擇對匹配性能影響大.為了確定主、客GIS數據庫中的共同體,王育紅、陳軍提出了一種改進的基于實例的層次式模式匹配方法[5]來實現實體對應關系的自動建立和要素類相似值計算.但文獻[5]針對的是GIS數據庫實例,其結構和組織與本文的網絡服務實例不同.在AnHai Doan等[12]提出的一種基于機器學習的本體匹配方法應用分類的實例來計算概念的聯合概率分布,再通過相似函數把概率分布轉化為概念相似值.該方法要求實例在語法上相同,否則匹配質量差,此外,如果缺少實例則很難確定概念間的映射關系.A.Bilke等[13]設計了一種高效的基于實例的模式匹配方法,該方法的突出特點是不依賴于任何模式的屬性名字,能識別出語義上不同語法上相似的屬性,但該方法匹配結果依賴實例數據中的副本數,如果沒有副本則算法無法工作.

為了克服異構網絡服務模式結構和元素語義差異造成的映射丟失問題,本文提出一種以元數據匹配器為主導,以實例匹配器為輔助的模式匹配方法.首先通過對異構網絡服務模式利用元數據匹配器生成初步匹配結果,然后,在初次匹配結果基礎上應用實例匹配器計算出元素間的實例相似值來精煉初次匹配結果,從而最大限度發現映射,改善匹配精度.

1 系統體系結構

異質的網絡服務模式,如,WFS、WCS、SOS,基于的信息模型不同,模式無論從結構和內容比較都有很大差異,這些差異主要表現在如下幾個方面:①結構差異.包括類級別差異和屬性級別差異.類級別差異表現為模式新增某類或刪除某類,或者類本身的命名發生了變化、類的屬性變化、類的繼承變化等.屬性級差異主要表現為命名變化、修改、引用變化、約束條件發生改變等.②內容差異.結構上的差異帶來了內容上的巨大變化,如類或屬性的增、刪、改帶來的相應實例值的變化.③實例值差異.主要表現在:i)空間實例數據的時間差異,如WCS服務實例中,同空間范圍不同時段的地物覆蓋可能不同;ii)空間實例數據的屬性差異,如相同幾何形狀的空間實例可能由于屬性差異表達的是不同地物類;iii)空間參考差異.數據值相等的空間屬性值,由于其采用的參考系不同導致實例值不同.

圖1 系統體系結構Fig.1 Architecture of the schema matching system

針對異構網絡服務模式這些差異,設計的模式匹配算法既要能解決結構與內容差異引起的映射丟失,同時能顧及實例值本身差異,為此,設計了一種的元數據與實例組合的模式匹配方法,系統充分利用現有的元數據匹配器-COMA[14]的匹配能力,同時設計適合空間領域特征的實例匹配器來輔助提高匹配質量.圖1是系統總體結構圖.系統包括4個核心的部件,即模式解析、模式分割、匹配執行及相似值組合部件.模式解析部件主要實現對輸入的網絡服務模式進行解析,并表示成匹配要求的模式樹結構形式,同時提取模式樹中對應元素的實例值.模式分割部件則為了提高模式匹配性能及減少誤匹配率,把匹配的模式樹進行合理分割,并找出其中候選相似子樹.匹配執行部件則根據從匹配器庫中選擇的匹配器執行匹配工作,生成對應的相似值矩陣.相似值組合部件對相似矩陣中的相似值按照一種組合方法形成對應元素的組合相似值,最后映射選擇器根據設定的相似值閾值或者根據信息管理庫中的參考映射生成候選映射,候選映射經過驗證器驗證后輸出最終匹配結果.相似值組合的結果如果不能滿足用戶要求則繼續返回到匹配執行階段執行新的匹配迭代過程,同時在匹配執行時靈活選擇不同匹配器組合,并把最優匹配組合保存到信息管理庫中.模型管理器主要管理不同輸入格式(XML,XSD,OWL等)的網絡服務模式在匹配系統中的表示方式(樹/圖),實現對模型的更新和選擇功能.信息管理庫是系統不可缺少的輔助部件,主要用來保存匹配系統各階段的中間結果,同時為匹配各階段提供有用的參考信息,如以前的匹配結果,參考相似片段,參考映射信息,不同匹配器組合信息等.

2 系統實現

2.1 模式解析

圖2 WCS部分XML實例在系統內部統一表示Fig.2 The internal schema representation of WCS XML instance

模式解析主要目的是用一種內部模式表示方法對輸入的模式文件進行表示.對每個讀取的實例數據,用一個五元組表示,即Element=(ID,Name,Type,Instance,Patterns),ID表示元素在模式樹中的位置,用3位數字表示,第1位數字表示節點的父親節點在樹中層數,根節點的父親節點層數為0;第2位表示元素父親節點在該層的編號,對于根節點,其值為0;第3位數字表示元素在子樹中的編號,根節點為1,如ID=”114”,表示是第1層第1個節點的第4個子節點.Name為實例數據對應的屬性元素的標簽.Type表示實例數據類型.Instance為屬性元素對應的實例數據值.Patterns為實例值的規則表達式.為了實例值識別比較方便,為不同實例值設計不同規則表達式,如字符串實例中的郵箱規則表達式用*@*.*,網址用http://*.*,日期值表示為[d-]{4}-[d-]{2}-[d-]{2},時間表示為 [d-]{2}[d-]{2}:[d-]{2}.對于一般的數字值,用[d-]{n}.[d-]{m}表示,即由n個整數數字及小數點后的m個數字組成.對于一般字符串,表達式A.*表示字符A開頭的任意字符或數字,A[w-]{n}表示A開頭的n個字符或數字,其中,”*”、w表示任意字符或數字,”d”表示任何數字.圖2顯示的是WCS模式實例部分片段實例元素表示圖.

2.2 模式分割

模式分割基于模式表示圖(模式樹)進行,分割步驟包括:模式樹分割和相似子樹識別.

2.2.1模式樹分割根據樹節點的度的大小來對樹進行分割,分割步驟為:首先按照廣度優先方法對樹進行遍歷,并計算每個節點的出度和入度,入度為0節點為根節點,出度為0節點為葉子節點,出入度都為0節點為孤節點;然后對樹進行分割,即從根節點開始,把根節點出度置0,根節點所有直接子節點的入度減1;最后確定分割后子樹,即統計所有入度為0節點,每個入度為0節點及其子節點組成一棵新的子樹.圖3顯示的是圖2模式樹一次分割后結果.圖中每個節點用其ID號表示,節點旁標注的是節點度的大小,左邊表示入度值,右邊為出度值.

圖3 圖2模式樹一次分割結果Fig.3 Results of the first partition on schema tree in Fig.2

2.2.2相似子樹識別只有相似子樹中的對應元素將可能是匹配的候選映射,所以匹配執行前,先識別所有相似子樹,再對這些子樹進行匹配.當前子樹識別方法大多都是根據子樹節點命名和結構的綜合相似值來判斷[15],由于在文獻[15]中的名稱相似值算法使用的是基于編輯距離的語法方法,考慮到命名的語義異質性,如同名異義,對這些具有相同名稱不同意義的標簽,如果使用語法方法將會得到錯誤的匹配結果,所以,名稱相似值采用利用語義的匹配方法[16].子樹相似值計算公式定義如下:

sim(s,t)=α×simnss(s,t)+ (1-α)×simst(s,t),

其中,sim(s,t)為源子樹s和目的子樹t的組合相似值.simnss(s,t)為兩個子樹的根節點語義相似值,simst(s,t)為兩個子樹的結構相似值,α為權重,0<α<1,同時α值大小可根據實際匹配任務進行調節.通常名稱相似值權重比結構相似值權重高,本文中,α取值0.6.

2.3 匹配執行

模式匹配的執行基于所有相似子樹對.對于所有的相似子樹,們運用兩種匹配系統進行組合匹配,即首先應用元數據匹配方法來計算模式樹節點間的節點語義相似值,接著應用本文設計的實例匹配器來計算節點間的實例數據相似值,最后對兩種相似值取平均值作為節點間的最終組合相似值,而對于沒有實例值的節點,其實例相似值為0,所以節點語義相似值即為其組合相似值.下面將詳細介紹實例匹配器實現.

2.3.1 實例相似值定義空間信息網絡服務實例數據分為3種類型:字符型,數值型及混合型.字符型實例值可分為單字串符和多字串符,單字符串值如元素名稱(Name=”groveMontain”)值,標識(ID=”001”)值等,多字符串值如元素屬性描述(description=”NOAA15AdvancedMicrowaveSoundingUnit-AFootprintData”)值等.字符型實例相似值計算定義如下.

定義1(字符實例相似值)設有源字符串Α=(α1,α2,α3,…,αn),目的字符串B=(β1,β2,β3,…,βm),其中α1,α2,α3,…,αn,β1,β2,β3,…,βm為字符串Α、B的原子字符串(原字符串根據其中的停止詞,如空格、分號等分成的子字符串,同時去掉其中冠詞、介詞等),則字符串Α、B的內積為:

(1)

其中,simedit(αi,βj)表示任意兩個單字符串根據編輯距離計算的相似值.有了內積,們就能導出字符串的范數和原始字符串相似值定義.

定義2(字符串范數和相似值)設有字符串Α,其范數定義如下:

(2)

則兩個原始字符串Α、B間的相似值定義如下:

(3)

數值型實例也分為單數值和多數值型.單數值型就一個實例數值,如觀測數據分辨率值(Resolution=”0.0001”),多數值型如觀測數據的范圍值(lowerCorner=”-90.0-180.0”).對于單數值實例相似值們直接用一個數值比較函數計算,如公式(4)所示.當兩個數值相等時相似值為1,其它情況為0.

(4)

空間信息領域數值型比較必須是同屬性數據,且具有相同的坐標參考、相同尺度及單位相同.所以對數值型數據比較前先判斷數據是否滿足上述條件,否則要進行相應轉換,如坐標系統轉換等,對于屬性不同數據則不能用上述公式計算.對于多值型實例比較時,首先確定每個單值代表的屬性及其在數值集中位置,然后確定其要比較的目的數值,為了計算方便,同時保證目的數值在數值集中位置與源單值相同,具體計算定義如下.

(5)

最終相似值取所有單值相似值和的平均值.

混合型實例中則既有字符又有數值,如天氣觀測數據中的觀測值中既有時間字符值又包含有溫度、壓力、風速及風向等數值,如圖4所示.此時,在計算實例相似值時,則首先根據實例元素的文本塊(TextBlock)模式來確定每個子實例,根據元素類型字段確定每個子實例結構組成.從圖4中文本塊模式知道每個子實例數據都是由空格分割,從DataRecord的字段值知道每個實例值都是由時間(time)、溫度(temperature)、壓強(pressure)、風速(windSpeed)及風向(windDirection)組成.接著根據分割符(tokenSeparator=”,”)可以取得每個子實例對應的屬性字段值,即組成天氣觀測的5個值.知道這些實例值及類型后,就可以用公式(3)、(5)對不同類型實例相似值進行計算,然后把這些子實例值的平均值作為混合型實例值的最終相似值,公式定義如下.

定義4(混合型實例相似值)設有混合型實例值H=(Hstr,Hdig),F=(Fstr,Fdig),其中,Hstr,Fstr,Hdig,Fdig分別為混合實例值的字符值部分及數字值部分,則實例H、F的相似值為:

sim(Hdig,Fdig)).

(6)

圖4 部分實例片段Fig.4 Parts of instance fragment

2.3.2 實例匹配實例匹配前先對實例進行預匹配.預匹配主要是計算兩個候選實例對相似值,即兩個元素標簽的語義相似值與實例正則表達式相似值的組合值,當組合值大于設計的門限值(本文設定為0.6)即認為兩個元素實例相似.計算公式定義如下.

定義5(候選實例相似值)設有源實例元素Es=(id1,label1,ss1,exp1,flag1),目的實例元素Et=(id2,label2,ss2,exp2,flag2),其候選實例相似值定義為:

sim(Es,Et)=α×sim(label1,label2)+ (1-α)×sim(exp1,exp2),

(7)

其中,sim(label1,label2)表示兩個實例元素節點語義相似值.sim(exp1,exp2)表示的是實例正則表達式相似值.在計算正則表達式值時,先判斷元素的實例類型是否相同,即判斷Flag值是否相同,如不同,則表達式相似值為0,否則根據公式計算表達式相似值.由于表示不同語義的標簽,實例值可能相同,所以在選擇候選實例相似對時,把兩個元素標簽在語義上的相似性作為關鍵因素,所以公式(7)中的α取值為0.7.如,WFS兩種版本服務實例元素Es=(“104”,FeatureCollection.featureMember.states.fid”,”states.3”,”s[w-]{8}”,1),Et=(“204”,” FeatureCollection.featureMembers.states.id”,”states.3”,”s[w-]{8}”,1),節點的語義相似值為0.67,通過編輯距離計算得到正則表達式相似值為1.0,所以根據公式(7)得到候選實例相似值sim(Es,Et)=0.7*0.67+1.0*0.3=0.79.超過門限值0.6,所以Es,Et為候選實例對.

確定候選實例對,就可以對實例對進行實例匹配了.圖5是候選實例對匹配流程,匹配器輸入的候選實例對,輸出的是候選實例對的相似值.對每個輸出實例相似值,用一個三元組表示,即Mapping=(id1,id2,siminstance),其中id1,id2為對應實例的標簽ID號,siminstance則是兩個實例間相似值(大小在0到1之間).具體算法描述如下.

560 Comparison of efficacy and safety between wearing orthokeratology contact lens and frame glasses in control of child myopia

圖5 候選實例對匹配流程圖Fig.5 Process of the candidate instance pairs matching

算法:實例匹配算法.

輸入:相似候選實例對(Es,Et).

輸出:實例間映射Mappings.

instanceMatching(Es,Et).

Step 1：從模式管理器中選擇未匹配實例對(esi,etj)；

Step2：判斷實例類型,如果是字符類型,使用公式(3)計算實例間的字符相似值;如果是數值型,則使用公式(5)計算實例間的數值相似值;如果是混合類型,則首先根據實例元素的文本塊(TextBlock)模式及模式的字段類型來確定實例數據集中每個實例值的結構組成,然后分離出其中的字符實例及數值實例,再利用公式(6)計算混合型實例相似值;

Step3：匹配中間結果處理.即把匹配的中間結果保存到信息管理庫,同時對庫中以前的中間匹配結果進行更新,如使用平均值或最大值法對多個不同相似值的相同實例對進行合并;

Step4：如果實例對匹配完,轉步驟Step5,否則返回到步驟Step1,重新執行上述步驟;

Step5：輸出實例匹配結果,算法結束.

3 實驗及討論

本文試驗使用的計算機配置為:MicrosoftwindowsXPProfessional操作系統, 2.5GHzIntelCore2Quad處理器,2.0GBRAM,且機器上安裝的SunJava1.6.0庫.實驗數據以開源的WebGIS實現—Geoserver(http://geoserver.org/display/GEOS/Welcome)提供的兩種不同版本的WFS、WCS網絡服務實例為例,分別選擇了wfsGetCapabilities、describeFeatureType、getFeature,wcsGetCapabilities,describeCoverage、getCoverage1.0.0與1.1.1兩種版本的XML模式文件進行匹配.在模式實例的文件解析時,同時對模式實例的元素及其實例類型進行了自動化統計,統計結果如表1、表2所示.

表1 WFS服務實例元素統計

表2 WCS服務實例元素統計

應用①iMatch;②COMA;③iMatch+COMA分別進行匹配試驗,其中iMatch使用的是本文設計的幾種實例匹配算法;COMA則使用其自帶上下文匹配器,匹配器相似值聚合方法使用的是平均值法,匹配結果使用雙向定向法,相似值組合方法取平均值法,候選者選擇方法取最大值法.同時,用傳統的查全率(Recall),精度(Precision)來評估匹配結果,試驗結果如圖6、圖7所示.從圖6、圖7看出,對于getCapabilities操作的兩種不同版本響應文件,實例元素較多,通過自動預處理和人為確認,兩個版本所有元素間,有319對候選元素,其中候選實例元素有248對,實例匹配發現,所有248對實例元素間相似值都為1,同時,應用COMA進行元素標簽和結構匹配,確定了305對映射關系,由于有100多元素沒有實例,導致實例匹配不起作用,以致實例匹配查全率和精度都低于COMA,只有80%左右.同樣,對于getFeature操作的兩種響應文件,有31對候選元素,其中實例元素有25對,實例匹配確定了全部25對實例映射,COMA匹配發現了31對候選映射中的29對,由于實例的不完全,在查全率和精度上還是COMA領先.對于describeFeatureType操作的響應文件,由于沒有實例元素,所以iMatch匹配的查全率和精度均為0,而26對非實例元素對使用COMA匹配時,查全率和精度都達到理想的100%.對于WCS的wcsGetCapabilities兩種不同版本響應文件,由于近一半元素沒有實例數據,導致了iMatch查全率只有60%左右;對于describ-eCoverage,非實例元素相對較少,對于34個實例元素,iMatch發現了其中25對,查全率近75%,而由于describeCoverage元素語義差異性,導致COMA匹配查全率不高,大約65%;對于getCoverage,XML實例文件元素很少(10個左右),11個實例數據,iMatch發現了其中7個映射,查全率67%,不同版本getCoverage結構與元素語義差異大,所以僅僅通過COMA匹配,查全率和精度都較低,查全率只有56%,精度也只有60%左右.可見,COMA對于非實例元素匹配效果好,而iMatch對于實例元素匹配又非常理想,例如getFeature實例模式中元素對posList?coordinates, 利用COMA不能確定它們間映射關系,但通過實例匹配卻完全可以,所以基于實例和基于元數據匹配器組合匹配能達到理想效果,如圖6、圖7中,iMatch+COMA匹配器組合,對于所有模式及實例,匹配查全率和精度都是最好的,部分匹配查全率達到100%,精度高達98%.

圖6 匹配查全率比較Fig.6 The recall of 3 match methods

圖7 匹配精度比較Fig.7 The precision of 3 match methods

基于實例匹配方法中字符型和混合型實例都描述了某種屬性和特征,相同實例一般都描述的是類似元素特征,但對于數值型實例則不同,由于僅僅只是代表數字多少,且在一個模式實例中同數值的實例可能很多,匹配時如果沒有元素標簽語義輔助很容易造成錯誤映射產生.為了測試系統對于數值型實例匹配的健壯性,以getCapabilities操作的響應文件為例,手工增加了30對錯誤候選映射元素,其中15對為數值型映射,匹配器選擇iMatch+COMA,實驗結果如圖8所示.從圖8可以看出,隨著錯誤候選映射的增加,特別是數值型候選實例的增加,匹配查全率和精度也隨著快速降低.當錯誤候選映射從8增加到28時,精度從98%下降到65左右,所以對數值型實例匹配時,一定要在匹配預處理時確定好可能的正確映射,否則容易影響匹配質量.

圖8 加入30個錯誤映射后的匹配健壯性Fig.8 Robustness of schema match with 30 false candidate mappings

4 結論與展望

針對當前空間信息網絡服務模式匹配中存在的由于語義異質性問題導致的映射丟失問題,本文在綜合分析現有元數據和實例匹配器基礎上提出了以元數據匹配器為基礎,實例匹配器為輔助的組合模式匹配方法,并重點闡述了實例數據提取及匹配算法.WFS、WCS服務實例匹配驗證結果表明,文中提出的方法有效提高了匹配的查全率和精度.異質的空間信息網絡服務,特別是異質的傳感器觀測服務(SOS)匹配問題將是下一步研究重點.由于不同的觀測服務實例數據格式、表示和語義差異巨大,因此,未來,我們將利用大量SOS服務實例來試驗本文提出的方法,同時針對匹配中遇到復雜實例,如結構復雜、大數據匹配問題,設計更優的算法來提高匹配質量.

[1]SHVAIKOP,EUZENATJ.Asurveyofschema-basedmatchingapproaches[J].JournalonDataSemanticsIV, 2005, 4:146-171.

[2]GIUNCHIGLIAF,SHVAIKOP.Semanticmatching[J].KERJournal, 2003, 18(3):265-280.

[3]GIUNCHIGLIAF,SHVAIKOP,YATSKEVICHM.S-Match:AnalgorithmandanimplementationofSemanticMatching[C]//In:ProceedingsoftheEuropeanSemanticWebSymposium(ESWS),Springer,Heidelberg, 2004:61-75.

[4]GIUNCHIGLIAF,YATSKEVICHM,GIUNCHIGLIAE.Efficientsemanticmatching[C]//InProceedingsofESWC,Heraklion,Greece, 2005:272-289.

[5] 王育紅, 陳軍. 基于實例的GIS數據庫模式匹配方法[J]. 武漢大學學報(信息科學版), 2008, 33(1):46-50.

[6]AUMüLLERD,DOH,MAβMANNS,etal.SchemaandontologymatchingwithCOMA++[C]//Procofthe2005ACMSIGMODInt.ConferenceonManagementofData.ACMPress,NewYork,NY,USA, 2005:906-908.

[7]NOYN,MUSENM.ThePROMPTsuite:interactivetoolsforontologymergingandmapping[J].InternationalJournalofHuman-ComputerStudies, 2003, 59(6):983-1024.

[8]VRETANOSPA.OGCTMWebFeatureserviceimplementationspecification[S]In:OpenGeospatialConsortium(OGC),DocumentNumber:02-058,Wayland,MA,USA, 2002:105.

[9]WHITESIDEA,EVANSJD.OGCTMWebCoverageserviceimplementationspecification[S].In:OpenGeospatialConsortium(OGC),DocumentNumber:07-067,Wayland,MA,USA, 2007:133.

[10]NAA,PRIESTM.OGCTMSensorObservationserviceimplementationspecification[S].In:OpenGeospatialConsortium(OGC),DocumentNumber:06-009,Wayland,MA,USA, 2006:187.

[11]WANGJ,WENJ,LOCHOVSKYFH,etalInstance-basedschemamatchingforwebdatabasesbydomain-specificqueryprobing[C]//Proceedingsof30thIntlConferenceonVeryLargeDatabases,Toronto,Canada, 2004:408-419.

[12]DOANA,MADHAVANJ,DOMINGOSP,etal.Ontologymatching:Amachinelearningapproach[C]//StaabS,StuderR(eds).HandbookonontologiesininformationSystems.Springer,BerlinHeidelbergNewYork, 2004:397-416.

[13]BILKEA,NAUMBNNF.Schemamatchingusingduplicates[C]//Procofthe21stIntlConferenceonDataEngineering(ICDE),Tokyo,Japan, 2005:69-80.

[14]DOHH,RAHME.COMA-Asystemforflexiblecombinationofmatchalgorithms[C]//Proceedingsofthe28thInternationalConferenceonVeryLargeDataBases,HongKong,China, 2002.

[15]CHENN,HEJ,WANGW,etal.ExtendedFRAG-BASEschemamatchingformulti-versionopenGISservicesretrieval[J].InternationalJournalofGeographicalInformationScience, 2011, 25(7):1045-1068.

[16] 何杰, 陳能成, 鄭重, 等. 利用語義的多版本網絡覆蓋服務模式匹配方法[J].武漢大學學報(信息科學版), 2012, 37(2):210-214.

An instance-based web services schema matching method

HE Jie1, WANG Xinyun2, GUO Yige2

(1.School of Resource and Environment, Ningxia University, Yinchuan 750021;2.Ministry of Education Key Laboratory for Restoration and Reconstruction of Degraded Ecosystem in Northwest China, Ningxia University, Yinchuan 750021)

To solve the problems of mapping lost on schema matching among heterogeneous web service schemas caused by difference in structure and semantics, this paper presents a schema matching method with instance applied. Firstly, a metadata matcher is used to do matching on element tags and schema structure. Then, an instance matching algorithm is designed for exact matching on element instance data to determine the correspondence between schema elements. Finally, schema matching tests are carried on different versions of the Web Feature Service (WFS) and Web Coverage Service (WCS), demonstrating that the method is feasible.

schema matching; instance; multi-version; web feature service; web coverage service

2015-04-12.

國家自然科學基金項目(41201393);寧夏自然科學基金項目(NZ12110);武漢大學測繪遙感信息工程國家重點實驗室開放基金項目(14I03).

1000-1190(2015)06-0843-08

TP393;P208

*E-mail: whujiejie@163.com.