基于XML的數字圖書館檢索技術研究

2010-12-31 00:00:00申飛駒

現代情報 2010年7期

[摘要]隨著XML數字圖書館的迅速發展，怎樣快速有效地對XML文檔進行查詢和處理，正受到越來越多的重視，本文對XML數字圖書館檢索系統進行了分類比較。并從檢索模型、文檔聚類、索引技術3個方面對XML數字圖書館檢索研究方向進行了闡述。

[關鍵詞]XML檢索;檢索模型;文檔聚類;索引技術

DOI:10.3969/j.issn.1008-0821.2010.07.027

[中圖分類號]G250.76 [文獻標識碼]A [文章編號]1008-0821(2010)07-0097-02

Research of the Digital Library Search Technology Based on XMLShen Feiju

(Library，Nantong University，Nantong 226009，China)

[Abstract]With the development of XML digital library，how to search and process XML documents quickly and effectively is becoming more important.This paper classified and compared the XML digital library search systems，and described the directions of research of XML digital library search in searching module，document clustering，index technology.

[Keywords]XML retrieval;search module;document clustering;index technology

1 基于XML數字圖書館檢索問題的提出

基于XML的數字圖書館正在迅猛發展，主要原因是XML作為自描述的標記語言，能夠根據具體應用靈活地表現異構數據源中的各種信息，包括應用程序之間的數據交換、結構化和半結構化文檔以及數據庫中數據的輸出。特別適合在不同系統之間進行數據格式的轉換或為已有的系統設計新的功能時，可以方便的存儲數據，以備能容易地被其他系統所使用，所以XML作為數字圖書館應用的數據傳輸和交互的格式，具有廣泛的應用前景。

XML文檔充滿整個互聯網，但基于XML的數字圖書館也存在一個難題，那就是怎樣快速有效地對XML文檔進行查詢和處理。隨著XML數字圖書館獲得越來越廣泛的應用以及Web技術的不斷發展，如何檢索和利用XML數字圖書館信息的相關研究正受到越來越多的重視，可以預見，XML資源的充分利用將圍繞著查詢展開[1]。

2 XML數字圖書館檢索系統類型比較

目前的XML數字圖書館檢索系統有許多，可以將它們分為三類:即數據庫方式、信息檢索方式和混合方式。

數據庫方式是指將XML數據轉換為數據庫的數據，然后通過數據庫檢索技術來實現對XML數據的檢索。數據庫的成熟技術和優越的性能為XML的存儲提供了基礎:數據庫通?？梢蕴幚砗Ａ康臄祿畔?，允許多個用戶同時處理信息，支持版本控制和不同級別的安全訪問控制等。數據庫方式的優勢在于可使用標準(關系和面向對象)數據庫引擎，無需投資開發新的系統;這種方法也有許多缺陷。首先，直接把遵從不同模式的異構XML文檔導入數據庫引擎是困難的。其次，在因特網這樣的動態環境下，數據的結構會經常發生改變，這將導致數據庫模式的頻繁更新。

信息檢索方式可使用信息檢索技術來查詢XML文檔，它將每個文檔看作是添加了標注標簽信息的文本文檔。標注標簽的處理方法有幾種:一種方法是丟掉全部標簽，該方法的優點在于簡單，缺點是信息丟失，將會降低檢索效果;一種方法是從要檢索的XML文檔中抽取重要的結構和上下文信息，并建立索引。另一種更復雜的方法是為標簽建立索引，如同普通索引詞一樣。顯然，無需為結束標簽建立索引，因為開始標簽已經提供了結構信息。最好的方式是為標簽和元素內容建立不同的獨立的索引，以便支持更靈活的檢索需求。信息檢索方式可以應用于XML文檔的檢索，以獲得更好的準確率。該方法有以下3個優點:(1)現存的檢索系統只需作某些修改，就可應用于XML文檔的檢索;(2)XML搜索引擎的使用與傳統搜索引擎相似，用戶無需訓練即可輕松使用;(3)由于它不包括結構信息，它的索引代價更小。但是這種方式的問題是它可能不像數據庫方式一樣準確，因為它基于內容近似匹配的技術，不支持復雜的文檔結構匹配。

混合方式結合了數據庫和信息檢索方式的優點，使用較簡單的查詢表達實現對XML文檔的內容和結構信息的查詢?；旌戏绞浇Y合了許多流行的技術來實現XML文檔的查詢，例如在XQL中就把XPath路徑查詢和全文檢索結合在一起，這種方式很可能給出一個更準確的搜索結果?；旌戏绞降囊粋€優點在于靈活性，既像標準信息搜索引擎一樣，又像數據庫引擎(充分的路徑定義)一樣工作。既方便初學者使用，用戶可以像使用搜索引擎一樣來使用它，又方便專家用戶使用，以便得到更準確的查詢。但是，靈活性是通過付出存儲代價獲得的。另外，要想得到更準確的結果，用戶需掌握XPath的一些知識。

從上面的分析可知，對于XML文檔的檢索，混合方式是一種較為可行的方式，如何有效地克服上述兩個缺陷，為普通用戶提供一種簡單方便的高效的XML信息檢索工具，這涉及到XML文檔的檢索模型的建立、文檔聚類表示和索引技術等[2]。

3 XML檢索的主要研究方向

關于XML信息檢索的研究剛剛起步，依然有許多課題需要深入的研究。下面將簡要闡述幾個亟需進一步研究的方向。

3.1 檢索模型

檢索模型是將文檔表示、查詢以及它們之間關系進行建模的框架。要實現信息檢索，首先需要組織信息。數字圖書館中包含文本、圖像、視頻、音頻等數據，不能直接進行檢索，需要從這些原始數據中抽取邏輯視圖，以支持信息檢索。用戶用查詢來表示信息需求。檢索系統根據查詢的表示，搜索文檔集，獲取與用戶查詢相關的文檔。信息檢索的匹配是相似性匹配，查詢的結果按序返回。以上過程實際上涉及到3個重要的處理:文檔集的邏輯表示、查詢的表示、相似性匹配及其排序。也就是說，文檔集、查詢和相似性匹配決定一種檢索策略和模式。對這些檢索的因素和過程建模，就產生了各種不同的信息檢索模型。作為著名的信息檢索模型——向量模型具有許多優點，是使用最廣泛的模型。如果查詢需求簡單，可以使用向量模型檢索XML文檔，它將元素視為普通索引項，向量模型將檢查文檔中是否包含查詢給出的元素。這種簡單查詢有其優點，用戶無需訓練，不需了解文檔集合的結構，并可返回近似結構匹配的結果，其缺陷是無法區分結構和內容查詢。解決的辦法是將結構匹配和內容匹配分開，這是對向量模型的一個自然的擴展，稱作擴展向量空間模型[3]。一個查詢包含兩個向量:一個結構向量，一個內容向量。但是，上述方法依然沒有指出元素與內容的嵌套包含關系，還需要對模型作進一步擴展，以反映元素嵌套層次對相似性的影響。

3.2 文檔聚類

與文本文件相比，XML文檔增加了結構信息，如何利用這些信息來提高聚類的效果?就此問題已經有了許多成果。但是這些方法的一個共同的缺陷是算法的復雜度很高，很難應用于Web環境下的信息檢索，因此有必要研究新的更為高效的結構聚類算法。此外，如何組織聚類過程產生的文檔類的結構信息，也是一個有意義的課題，這是因為通過利用反饋的結構信息，就可以較容易的幫助用戶定義對文檔的結構的查詢。聚類技術作為信息檢索的關鍵支撐技術，一直是信息檢索研究領域的熱點研究之一。對于XML文檔的檢索，也是如此。特別是XML包含結構信息，合理利用這些信息進行聚類，將顯著提高檢索系統的效果。研究結構信息的引入對XML文檔聚類方法產生的影響，針對目前XML文檔結構聚類方法的缺陷，研究新的結構聚類算法，將聚類結果應用于信息導航和組織，幫助用戶給出恰當的查詢式以及幫助用戶瀏覽查詢的返回結果。這些都是XML信息檢索研究的主要問題[4]。

3.3 索引技術

基于XML數字圖書館的信息檢索，研究高效的索引也是至關重要的。XML信息檢索的一個特點是可以通過路徑查詢結構信息，與之相對應，為了提高查詢效率，除了內容索引外，還必須對文檔中的結構建立索引。目前已經有幾種方法(技術)可用來對XML文檔進行索引操作，根據包含結構信息的多少，將它們分為以下三類:(1)平面文件索引技術，(2)半結構化索引技術，(3)結構化索引技術[5]。由于XML本質上是一種半結構化數據，所以，半結構化索引更為適用，更能保證在檢索效率和表達能力兩者之間做好平衡。要實現對XML文檔的結構和內容的集成查詢，滿足Web環境下對查詢速度和存儲空間的苛刻要求?？梢詫ML文檔的路徑信息映射為字符串，建立路徑字符串的后綴索引。同時，把對XML文檔結構信息查詢的路徑信息映射為字符串，這樣，路徑查詢就轉為后綴樹中的字符匹配。還可對傳統后綴樹生成算法作改進，用來構建由路徑集合生成的字符串集合的廣義后綴樹，產生高效的查詢處理方法[6]。這樣處理的特性:第一，索引可以在線性時間內構造，并且是可增量維護的。第二，只需線性存儲空間。第三，查詢處理只需要匹配m個字符，其中m是結構查詢表達式的長度。所有這些特性非常適合Web環境，即較小的存儲代價和較高的查詢處理效率。

4 總結與展望

在數字圖書館信息資源極大豐富的情況下，研究XML信息檢索技術已成為一項重要而迫切的研究課題。一個尚未解決的問題與用戶定義的文檔結構有關。由于文檔結構來自不同的數據源，導致標簽定義和文檔結構的異構性，這將影響搜索引擎的召回性能。另一個有關的問題是與多種語言有關，因為XML是由Unicode編碼的，來自不同數據源的標簽名字可能用不同的語言定義。由于一個單詞可能有不止一種譯文或者沒有對應的譯文，怎樣做適當的翻譯是多種語言的XML文檔檢索的一個問題。

這兩個問題將影響XML文檔檢索方式，XML正處于不斷完善之中，已開始得到越來越多用戶的認同。雖然目前基于XML文檔的搜索引擎技術還沒發展成熟及投入廣泛使用，但它的前景將是十分廣闊的。

參考文獻

[1]孫登峰，喻曉峰.XML查詢語言研究[J].計算機工程，2003，(13):4-6，42.

[2]姜科，陸偉，等.XML檢索系統及其比較研究[J].現代圖書情報技術，2007，(10):66-70.

[3]陸偉.元素級XML檢索模型構建的關鍵問題與解決方案研究[J].中國圖書館學報，2007，(6):58-61.

[4]王能斌.數據庫系統原理[M].北京:電子工業出版社，2000.

[5]K.Zhang and D.Shasha.Simple Fast Algorithms for the Editing Distance Between Trees and Related Problems[J].SIAM J.Comput.，1989，18(6):1245-1262.

[6]Grefenstette，G..Cross-language information retrieval.Dordrechet:Kluwer Academic Publisher，1998.

現代情報2010年7期

現代情報的其它文章: 信息技術與文獻檢索課整合的含義\\層次和整合點; 基于虛擬企業組織間知識轉移的信任機制研究; 高校圖書館地域文化特色數據庫建設研究; 大學圖書館開放獲取可持續發展探究; “現代信息人”的概念\\標準及其修煉; 對文化信息資源共享工程建設的實證思考