周 宇
ZHOU Yu
(河南教育學院 信息技術系,鄭州 450046)
基于領域本體的Web服務發現研究
Research on Web service discovery based on domain ontology
周 宇
ZHOU Yu
(河南教育學院 信息技術系,鄭州 450046)
隨著對Web服務復用、組合研究的不斷深入,Web服務發現已成為一個主要面向服務計算領域的研究熱點問題,并以查準率、查全率和查詢效率作為評價其效能的主要指標。據此本文提出了一個領域本體的構建方法來擴展用戶查詢端查詢的語義精確性,可以提高服務構件的查準率和查全率。另外本文還實現了一個基于領域本體的服務搜索引擎原型系統,可以很好地達到對服務查詢效能方面的提高。
領域本體;服務發現;查詢;搜索引擎
發現服務是面向服務Web軟件開發中的一個關鍵技術,近年來關于服務發現的研究都是考慮到當前公共UDDI上注冊的Web服務缺少語義描述,于是都各自增加了對Web服務的語義描述,但這些方法在實際操作上仍然存在諸多困難[1]我們提出的方法與其它方法的不同及優勢在于:
1)擴展及求精客戶端查詢請求,提高查準率和查全率;
2)對現有搜索引擎擴展實現了一個原型服務搜索引擎。解決了其它方法實際操作比較困難的問題。因為目前我們的服務庫仍然是傳統意義上的www,而非語義Web,所以考慮如何在目前的www上提高服務的搜索效率是有意義的。
Web服務使用標準的、規范的XML進行描述,該描述包括消息格式、傳輸協議和位置,能夠快速地開發、發現、發布和動態地綁定應用服務[2]。Web服務發現是Web服務中的關鍵問題之一,Web服務發現則是使服務使用者找到合適的功能,并使Web服務的自動組合成為可能。可以采用信息檢索中的某些評價標準來評價Web服務發現技術的性能,例如查準率和查全率等[3]。
本體的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關系的明確定義。OWL-S[4]就是一種采用本體描述語言OWL定義的一套專門描述Web服務的本體。 OWLS作為一個本體,其頂層結構分為服務概要、服務模型、服務綁定三個部分。
領域本體的目標是捕獲相關的領域知識,提供對該領域知識的共同理解,確定該領域內共同認可的概念,并給出這些概念和概念之間相互關系的明確定義,減少了由于概念理解的歧異所產生的錯誤和失誤,方便了基于功能的服務發現和組合,同時還彌補了UDDI基于關鍵字的查找技術的不足[5]。
目前服務發現方法都是考慮到當前公共UDDI上注冊的Web服務缺少語義描述,于是都各自增加了對Web服務的語義描述。本文提出的方法主要是通過建立領域本體來擴展用戶查詢端查詢的語義精確性。我們建立了一個領域本體,服務查詢是基于領域本體的。領域本體為服務查詢提供專門領域知識。
我們用RDF (Resource Description Framework,資源描述框架)建立了一個計算機領域本體。RDF是一個表示www上資源信息的語言,用來處理元數據的XML應用,能夠清楚地表示信息語義,并且是機器可理解的,提供推理支持。RDF 使用 Web 標識符來標識事物,并通過屬性和屬性值來描述資源。一個RDF文件包含多個資源描述,而一個資源描述是由多個語句構成,一個語句是由資源、屬性類型、屬性值構成的三元體,表示資源具有的一個屬性。RDF用于描述Web站點和頁面,由于使用的是結構化的XML數據,搜索引擎可以理解元數據的精確含義,使得搜索變得更為智能和準確,
在RDF中,如下的英文陳述:" http://www.example.org/index.htmlhasacreatorwhosevalueisJohnSmith",用RDF圖的描述如圖1所示。

圖1 用RDF圖描述的一個陳述
在RDF圖中利用節點和弧作為表達陳述的元素。一個陳述用RDF圖可以表示為:
一個表示主體的節點(http://www.example.org/index.html) :
一個表示客體的節點(John Smith ) ;
一個由主體節點指向客體節點的表示謂詞的弧 (http://www.example.org/terms/creator);
圖1用RDF/XML可以用來表示如下:

在服務發現的研究中,基于關鍵詞匹配的服務查詢具有以下缺陷:1)對所需查詢的目標不能準確描述;2)不能度量候選者和查詢目標間的符合程度。這兩點直接影響到搜索的查準率。而基于領域本體的服務查詢則可以避免上述缺陷。
基于領域本體的服務查詢主要步驟如下:1)轉換初始化查詢為RDF查詢;2)查詢推理和查詢擴展。基于領域本體的服務查詢系統體系結構如圖2所示。

圖2 基于領域本體的服務查詢系統結構圖
用戶可以用自然語言設置服務構件查詢。系統轉換這種查詢為RDF圖,這個RDF圖將與表示為RDF圖的www資源進行匹配。例如:查詢:"what are the components of Application system?",可以表示為圖3所示的RDF圖:

圖3 服務構件查詢圖
利用以上構造好的領域本體我們實現了一個的基于本體的服務搜索工具,能對用戶的初始查詢進行擴展,從而構造一個更加完整和準確的概念和知識,并以修正后的查詢利用檢索引擎來匹配資源。該搜索引擎系統,包括用戶數據庫服務器、用戶接口及登錄、資源描述、Web信息搜集器、檢索器、索引器和用戶分析器等功能部分。其結構如圖4所示。
搜索引擎主要組成部分介紹:
1)Web信息采集器:信息采集器對整個搜索引擎的體系結構有很大影響,是搜索引擎的一個重要組成部分?;诒倔w的Web信息采集的功能包括爬蟲管理、爬蟲算法、信息監控、數據更新、數據存儲以及數據壓縮和通信模塊。
移動爬蟲運行在遠程Web服務器上,將集中在服務器端的處理在信息采集過程中,移動爬蟲將在Internet中Web站點之間的移動,對Web站點進行“本地采集”以及對采集的數據進行處理,最后將壓縮的數據傳回服務器端處理;接著移動爬蟲繼續遷移到其它Web站點進行信息采集,其遷移路徑采用自適應遷移策略控制,采用該策略可以減少網絡數據傳輸量和縮短工作時間;移動爬蟲的并行度控制策略可以控制信息采集器中移動爬蟲的個數,這樣就不會過分加重遠程Web站點的負載,增強系統的穩定性。

圖4 基于領域本體的搜索引擎結構示意圖

圖5 基于領域本體的網絡爬蟲工作流程圖
網絡爬蟲與本體技術的融合是搜索引擎的一種新的模式。 圖5描述了基于本體的網絡爬蟲工作流程圖。
2)索引器:索引器把下載的網頁進行關鍵字提取,把這個文檔內的全部單詞分別提取出來放在數組或者鏈表中,然后依次對每個單詞進行索引,得到的索引庫為全文索引數據庫。充分利用分布式本體的計算優勢,將索引器的一部分功能如對文本解析建立文本索引、建立圖像內容的特征索引等處理分布式到遠程Web站點上處理,最后由移動爬蟲將壓縮后的結果傳送到索引服務器端進行匯總、分類處理,減輕了服務器端的負載。檢索器將這兩部分索引文件組織成特定的數據結構供檢索器查詢檢索。當Web頁面數據發生更新時索引數據也需要更新,網頁數據的更新可以觸發索引的更新,因為網頁數據的更新可以根據駐留在服務器端的模塊及時反饋到服務器端。
3)檢索器:檢索器模塊具有以下四項功能:匹配計算、相關反饋、結果排序和日志分析。
功能就是接受用戶提交的查詢請求,按照查詢條件在索引庫中搜索滿足條件的文件,并根據用戶定制的過濾條件和排序因素組織搜索結果集,返回給用戶接口。本文搜索引擎的檢索器就是利用索引數據庫提供的特征索引庫、圖片對應網頁的全文索引庫、關鍵字索引庫以及超鏈接分析庫和查詢歷史庫等多個數據源,實現對用戶輸入關鍵字的準確、快速的匹配。
4)用戶接口
用戶接口提供一系列查詢方式、選項以滿足用戶不同的查詢要求,將用戶的查詢請求提交給檢索器去匹配。檢索器將排序后的結果集返回給用戶。
用戶接口具備的主要功能為:待查文本的輸入、圖像特征提取、關鍵字和其他輸入的選擇、生成查詢描述、結果顯示、相關反饋方式查詢。在獲取了文本關鍵字或圖像的特征向量以及其他的一些輔助信息后,根據一定的規則和格式生成查詢描述,提交給檢索匹配模塊。從檢索器接收排序后的查詢結果后顯示在用戶界面中。
本文提出了一個領域本體的構建方法,基于這個領域本體,表示了服務構件的檢索過程,并且實現了一個基于領域本體的服務搜索引擎原型系統,優點是求精和擴展用戶的初始查詢,支持用戶的模糊查詢,查全率和查準率都得到了提高。特別是隨著Internet變成可重用軟件資源庫,搜索引擎支持構件查詢是必須的。
[1] F.Baader,D.McGuinness,D.Nardi,and P.F.Patel-Schneider.Description Logic Handbook:Theory,Implemtation,and Applications.Cambridge University Press,2002.
[2] Gilmer Orth.The Web Services Framework:A Survey of WSDL,SOAP and UDDL Master's thesis,Vienna University of Technology,May,2002.
[3] Ankolekar A.,Burstein M.,Hobbs.J.R,et al.DAML-S:A Semantic Markup Language for Web Services.In:Proc.of International Semantic Web Conference (ISWC),pp.348-363,Sardinia,Italy,2002.
[4] OWL-S Coalition,OWL-S,available at http://www.daml.org/secviceslowl-s/,2005.
[5] DAML-S Coalition.OWL-S:Semantic Markup for Web Services.http://www.daml.org/services/owl-s/1.0/.in:ProceedingsoftheInternationalSemanticWebWorkingSymposium(SWWS)July30-Augustl,2001.
TP391
A
1009-0134(2010)12(上)-0217-03
10.3969/j.issn.1009-0134.2010.12(上).70
2010-08-21
周宇(1964 -),男,湖北人,講師,研究方向為計算機技術及應用。