尹哲峰
(延邊大學,延吉 133002)
隨著計算機技術以及網絡技術的快速發展,信息資源共享波及范圍越來越廣,信息資源量也越來越多。因此,面對如此多的信息量,如何有效定位需要的信息資源已經成為人們關注的問題。信息檢索技術應運而生。
信息檢索就是從信息資源庫中,搜索出所需信息的過程與方法。而本體的本義是哲學方面的術語。本體具有較好的概念結構以及邏輯推理,面向本體的智能信息檢索可以準確映射信息資源,提高檢索效率。本文就是重點研究面向本體的智能信息檢索技術。
本體的研究與實現是在不同層次上進行的,可以分為頂層本體、領域本體、任務本體以及應用本體四大層次,如圖1所示:

圖1 本體的層次化分類示意圖
其中,頂層本體主要涉及到一些概念。比如:空間、時間以及行為等,這些概念與問題或者領域是獨立的,而且頂層本體在一定區域內是完全共享的。領域本體是針對某一領域而對應的一些術語。任務本體主要負責任務、活動的定義。任務本體與領域本體都可以采用頂層本體中共享的術語而表述各自的術語。而應用本體是針對應用而言的,可以引用領域本體或者任務本體中的概述描述。
通常情況下,信息檢索是通過關鍵詞的匹配來實現的,但隨著信息量的增加,這樣的匹配檢索技術越來越不滿足需求。智能信息檢索就是通過智能檢索技術來實現,標準主要體現在兩個方面:檢索的查全率以及檢索的檢準率。
其中,查全率主要表示的是信息檢索結果中有用信息量與用戶需求信息量之間的比例,可以有效描述檢索結果的遺漏情況。查準率主要表示的是檢索結果中有效信息量與檢索總量之間的比例關系,主要描述的是檢索結果的有用性。常用的關鍵詞匹配檢索技術很難達到查全率以及查準率的全面兼顧。一個理想的智能信息檢索系統應該保證最高的查全率與查準率,也就是為1的結果。
本文提出的面向本體的智能信息檢索的設計思想如下描述:
首先,基于領域專家,根據檢索體系要求,建立該領域的本體;其次,充分收集相關信息數據,根據已經建立的領域本體,將信息數據轉化成規定格式,并保存至數據庫;接著,從用戶界面相關的檢索框獲取特定的檢索請求,智能檢索器根據本體將檢索請求轉化為規定的格式,并基于本體從數據庫中檢索出與請求條件相匹配的數據。最后,將匹配的數據結果通過定制操作,傳輸到用戶終端加以顯示。
需要注意的一點是,如果面向本體的智能信息檢索系統對于推理能力沒有太高的要求,那么系統中涉及到的本體可以采用概念圖加以描述,并保存。信息數據也可以存儲到普通的關系型數據庫中,根據圖匹配來實現智能信息的定位。但如果面向本體的智能信息檢索系統需要較強的推理功能,那必須通過本體語言,比如:OWL等加以描述,信息數據也應該存儲到知識倉庫,這樣就可以利用OWL之類的本體語言所具有的推理能力來完成信息定位,并保證較強的推理功能。
本文研究的面向本體的智能信息檢索系統的框架如圖2所示:

圖2 面向本體的智能信息檢索系統的框架示意圖
根據系統框架圖,下面詳細研究一下智能信息檢索的流程。
1)構造領域本體。智能信息檢索系統的關鍵之處在于領域本體,因為相關的信息、文檔特征、推理等都是基于領域本體的。所以,領域本體的構造需要在領域專家的指導下完成。
2)提取文檔的相關特征、語義推理的處理。根據領域本體將收集的文檔信息進行相關特征的提取,并進行語義方面的推理處理。傳統的信息檢索只是局限于索引器的索引信息提取,而且索引相關信息一般也只是通過貝葉斯或者統計方法來獲取,并不能很好地體現文檔之間的關聯性。而本文研究的智能信息檢索系統是基于領域本體,對收集的文檔信息進行特征提取,并完成語義方面的推理。這樣的處理步驟,不僅能夠很好地表述文檔的內在信息,也可以描述文檔之間的關系,為后續的信息檢索奠定了基礎。由于語義方面的推理處理具有比較高的時間復雜度,所以可以將其中的一部分推理過程直接放在這第二階段預先完成,這樣可以有效提高在線檢索的速率。
3)信息語義的編碼加工。智能信息檢索系統對于語義處理后的數據統一編碼成XML格式,這樣便于信息處理,便于高速檢索。
4)將提交的查詢條件進行語義化的處理。用戶在使用智能信息檢索系統時,首先是提交查詢條件,系統會將查詢條件根據領域本體進行語義化方面的處理。該語義處理針對于多個查詢條件,并進一步明確各查詢條件之間的關聯性。
5)智能信息的檢索。智能信息檢索是系統的核心模塊,但由于前面幾個階段已經完成了檢索的許多相關工作,所以該階段只需要將語義化處理后的查詢條件與數據庫中的所有信息進行對比,滿足條件的信息,直接轉發給定制模塊即可。
6)信息的定制處理。信息的定制處理就是對系統檢索出的數據進行后期的處理,比如:排序等。排序的時候,可以根據信息的相關性大小進行,這其中涉及到了排序算法,也是一個比較重要的研究內容。
系統的信息庫必須具有特定的結構,這樣才能有利于檢索效率。通常情況下,Internet網絡上的信息都是由HTML語言編寫的,但可惜HTML并不注重結構性,只是注重各個元素的呈現,也缺少語義分析。而本文采用的是XML,因其簡易性以及功能優秀性成為了替代HTML的網絡語言。
XML其實只是SGML的一個子集,它能夠很好地解決HTML語言不能描述內容的不足,因此XML在電子交易、銀行、政府等各個領域都被廣泛使用。目前,XML已經成為數據描述及交換的標準。此外,文檔類型定義DTD涉及到對XML結構以及語法方面的規范定義。從邏輯意義上分析的話,可以將DTD對應的XML文檔直接保存到文檔表中,每個文檔表中的記錄都分別對應各自的XML文檔,也可以通過一個固定的DTD表來對所有DTD文檔進行管理。文檔表與DTD表之間的關系如圖3所示:

圖3 文檔表與DTD表之間的關系示意圖
針對本文研究的智能信息檢索系統,當終端用戶通過錄入一個檢索詞時,系統就會根據語義擴展后的信息庫,進行檢索滿足檢索詞要求的信息對象。如果終端用戶錄入的檢索詞是多個,那么系統就必須進行在線語義的推理。
系統在線語義推理的檢索過程主要包括:輸入檢索條件、檢索詞詞性的確定、檢索詞關系的確定、信息檢索以及返回檢索結果等。當終端用戶輸入相關檢索詞后,系統會按照領域本體確定檢索詞對應的詞性以及多個檢索詞間的關聯性。
比如:用戶的檢索詞是“李四 數據的挖掘”,系統就需要根據檢索詞明確終端用戶的具體查詢意圖。通過領域本體來確定檢索詞的詞性,其中“李四”表示的是一個人的人名。而“數據的挖掘”表示的是數據庫范疇的概念。下一步就是確定檢索詞之間的關聯。“李四”與“數據的挖掘”到底是什么關聯呢?它們之間是write的關系或者work-in的關系。這樣,系統就會給出這樣的推測結果:用戶終端需要查詢的是有關“李四撰寫的針對數據挖掘方面的文章或者專注”或者“李四參加的針對于數據挖掘相關的項目”。接著,系統在特定信息庫中進行有針對性的查詢,并將最終的查詢結果返回到終端用戶。
本文研究的面向本體的智能信息檢索系統在檢索失敗的情況下,需要根據領域本體對信息描述進行一定的推理。其中就涉及到了推理算法,該算法也是智能信息檢索系統中的關鍵部門。推理的過程其實就是一個進一步檢索的過程,生成相關的結果信息。下面研究一下系統相關的在線語義推理過程所涉及到的算示。
輸入部分:用戶錄入的N個檢索詞,系統的領域本體;
輸出部分:N個檢索詞之間的查詢公式;
算法部分:
Getback-result = NULL;
For ( i=1; i<= 檢索詞的具體數目; i++)
{
Getback-result(i) = NULL;
在系統領域本體中查詢檢索詞對就的概念Ci;
對堆棧進行初始化操作,設置stack成為空;
For (j=1; j<=Ci和根節點之間的距離值;j++)
{
確定Ci和其他父親節點間的路徑類型Fj,其中路徑是以有向邊加以表示;
進行入棧操作;
Push ( stack, Fj, Ci )
}
當堆棧stack不為空的時候
Getback-result (i ) = Getback-result ( i ) *pop (stack )
Getback-result = Getback-result Getbackresult ( i );
}
Return Getback-result ( i ) }
在實際檢索過程中,人們越來越認識到通過基于本體的語義檢索的精確性以及高效性。本體在智能信息檢索系統中提供了必須的元語,該元語能夠生成有效的查詢與資源表述,通過本體建立的領域語義,可以提供標注信息,使檢索系統形成一個統一的認識。這些認識涉及到了域內以域間的概念及聯系,從而提高了系統的聯想能力,也為終端用戶的檢索提供了有意義的信息。總之,本體已經逐步成為智能信息檢索系統的知識表述,是整個系統的最核心部位。
[1] 張敏,宋睿華,馬少平. 基于語義關系查詢擴展的文檔重構方法[J]. 計算機學報, 2009,(10).
[2] 張映海,何中市. 基于關鍵詞與語義概念結合的信息檢索研究[J]. 計算機應用, 2009,(12).
[3] 李振東,費翔林. 基于概念的信息檢索模型研究[J]. 南京大學學報(自然科學版), 2010,(01).
[4] Perez AG, Benjamins VR.Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem-Solving Methods.Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5).2009:1-15.
[5] 李曼,王大治,杜小勇,王珊.基于領域本體的Web服務動態組合[J]. 計算機學報, 2008,(04) .
[6] 洋,易禾,楊春. 基于關鍵詞語義擴展的檢索策略[J]. 計算機應用, 2009, (06) .