基于XML技術的電子信息資源數據庫智能檢索方法

2025-01-21 00:00:00石琳

中國新技術新產品 2025年1期

摘要：隨著科技發展，如何有效檢索大量的可擴展標記語言（Extensible Markup Language，XML）數據是當前數據庫與信息檢索等領域中一個亟待解決的熱點研究問題，本文主要通過深度分析現有的XML搜索狀況，并以此為基礎，采用XML搜索模式作為主導思路，同時融合數據庫科技及信息檢索科技，重點研究XML文檔檢索中的一些關鍵技術，涵蓋了關鍵詞搜索、模糊結構語境下的XML內容和結構搜索以及利用關聯型數據庫實現的XML全量搜索等。本文提出的方法在具有較高效率的前提下，能夠很好地處理XML檢索中結構化約束條件。

關鍵詞：XML技術；數據庫；檢索

中圖分類號：TP 391 文獻標志碼：A

傳統信息檢索技術在處理非結構化數據的檢索上取得了大量卓有成效的研究成果，由于XML數據同時具備結構和內容的特點，使對XML數據的信息搜尋成為一項全新的挑戰[1]。因此，如何有效地利用數據庫技術來應對這種新型的數據類型成為了研究者們共同探討的問題，并由此開辟了一條新的路徑。

1 XML技術概述

1.1 XML的定義與特點

XML數據被視為一種混合型數據類型，位于非結構化數據（例如純粹文字、圖片或影片）及結構化數據（例如數據庫中的關系式信息）之間的過渡地帶。相較于前者，XML具備一定程度的組織特性；然而，對比后者時，其結構特征卻有很大的差異。作為要求嚴謹的標簽編碼方式，XML需要遵守基本的層級嵌入語法準則，并可通過XML模式加以限制[2]。XML文件由聲明、組件、屬性和處理指示、文本內容以及命名空間這六大要素構成。

1.2 XML的基本結構與語法

1.2.1 XML數據模型

XML數據模型定義了XML數據及與其相關的操作的具體含義，對XML數據的存儲和索引、查詢和優化等各個環節都具有重要意義。由于XML數據自身并不具備圖形化數據的支持，當考慮身份證標識（Identity Document，ID）和標識符引用IDREF（Identifier Reference）這樣特殊屬性的存在時，可以使用帶標簽的有向圖來表示。鑒于XML數據往往以層級嵌入的方式組織，可以將其抽象成一個有序的標記樹，因此，XML數據的邏輯模型可表述如下。

一個XML文檔D，可以采用有序標簽樹T對其進行表示，如公式（1）所示。

T=（V，v0，E，ΣE，Σ，P，e，lab，val，≤doc）（1）

式中：V為D中所有XML節點組成的集合；v0為D的根節點；P為二元關系且P={（v0，v1，...，vn）|（vi，vi+1）∈E，0≤i≤n}∪{v0}。

節點v0的祖先路徑約束是從根節點v0到vn的連續父子約束，可表示為v0→v1→…→vn。

1.2.2 XML檢索語言

現有的多種XML搜索引擎包括XMl-ql、XQL（XQuery-

Language）、Quit和QbE（Query by Example），都以一種名為“Xpath”的模式匹配規則為基礎來解析并提取XML文檔中的元素及其屬性信息。因此，如何對其進行表示、轉換和處理，是實現XML信息檢索和查詢優化的關鍵技術。

2 現有XML搜索技術分析

2.1 關鍵詞搜索技術概述

XML關鍵詞查詢是在傳統搜索引擎的基礎上，提出了一種基于關鍵詞的查詢方法來實現XML文檔的查詢。如何在XML文檔中迅速地將符合用戶意圖的、相對獨立的、適度粒度的XML文檔返回給用戶，是XML文檔檢索領域的一個重要課題[3]。當前，已有的XML關鍵詞檢索算法都是用有標記的定向樹來表示XML文檔，用最小的共同祖先或者其形變來表示查詢的語義，并以SLCA結點為根結點的子樹作為查詢結果。

2.2 結構化搜索技術概述

2.2.1 基于路徑的XML檢索

此種方式通常通過XPath來設定，它是對XQL查詢語句的一種拓展，例如XIRQL、NEXI等，提供了更多的功能并能根據可能性計算搜索結果的評分。然而，XIRQL本身較為煩瑣，并不適合普通用戶操作。NEXI由INEX推出，主要應用于向XML數據及結構輸入的內容查找。該語言對XPath做了一定的約束和擴充，僅允許使用子孫節點作為XPath軸值，并且加入了關于函數，以實現對文本信息的模糊匹配。NEXI查詢如公式（2）所示。

path1[abouts1]//path2[abouts2]/…//pathn[aboutsn] （2）

式中：path為僅包括后裔軸的XML節點序列。

2.2.2 基于片段的XML檢索

XML片段檢索過程如下。

〈book〉

〈title〉Christopher〈/title〉

〈year〉Jim〈/year〉

〈/book〉

2.3 模糊搜索技術概述

XML文件同時包括文字和結構2種類型。考慮現實情況下的XML查找系統的多個源數據，其模式呈現多樣化的特征。此外，用戶通常無法理解這些模式，即使能夠準確地進行比較并交換（compareandswap，CAS）查詢，也很難滿足用戶的要求[4]。因此，在執行CAS查詢的過程中，必須對結構限制條件實施一定程度的模糊處理，以便更好地滿足用戶的需求，從而提高其搜索效率。

2.4 現有XML搜索技術的優缺點分析

本文以圖1中的XML文檔和表1檢索示例說明最低最小公共祖先（Smallest Lowest Common Ancestor，SLCA）語義主要存在的問題。

2.4.1 返回不相關結果

當客戶請求獲取Tom所寫的所有關于m的文章時，輸入了表格1中定義的查詢Q4，由于Tom并未參與撰寫文章編號為18、標題為“paper”的作品，因此這個搜索結果被視為無關聯的信息。同樣的，當處理查詢Q5時也出現了這個問題。

2.4.2 丟失相關結果

當客戶尋求了解Jim所寫的有關XML的研究文章時，輸入表1的數據Q3，得到的SLCA語義輸出是paper（8，3，7）和paper（34，3，7）。由于paper（18，3，7）是在關于XML研究的session下的一篇文章，主要討論的是XMLIR領域的問題，這與客戶的需求相符，因此在SLCA語義輸出的結果里并沒有包括這個信息。

2.4.3 單關鍵詞查詢效果不好

用戶想要查詢Jim出版過的文章，提交查詢Q1，SLCA語義返回的結果集是{Jim（15，6，0）、Jim（25，6，0）、Jim（41，6，0）、Jim（41，6，O）}，只返回了作者姓名，并沒有給出其他文獻的任何信息。

為了提高SLCA的語義檢索精度，研究者們對SLCA的語義做了相應的改進，提出了一種基于XML模式的高效檢索方法。基于此，本文提出了一種新的基于語義的方法，MLCA（Meaningful Lowest Common Ancestor）通過特定方式提高查詢結果的準確性。它基于XML文檔結構與模式定義，處理查詢時深入分析其中元素的定義與關系，從而精準定位符合條件的節點。例如，當查詢涉及特定元素屬性組合時，MLCA能夠憑借模式有效確定各屬性的語義及層次關系，進而準確找到最低公共祖先節點，減少錯誤結果的出現。MLCEA（Meaningful Lowest Common Entity Ancestor）以實體作為基本語義單元開展工作。在XML數據處理過程中，著重從實體角度考量其語義關聯以及層次關系。以包括多個相關實體信息的XML文檔為例，當執行與某一實體相關的查詢操作時，MLCEA能夠精準識別代表該實體的最低公共祖先節點，并且能夠忽略與實體語義無關的節點結構差異，從而有效提升查詢的準確性以及語義相關性。同時，將所求的SLCA結點視為實體結點，并將關鍵詞與多個同名實體的屬性相異的情形結合，從而提高檢索的精度[5]。XSeek將XML樹節點劃分為實體結點、屬性結點和連通結點，通過用戶輸入的關鍵詞來推斷用戶的查詢意圖，提高了檢索的準確率。

3 基于XML技術的智能檢索方法研究

3.1 關鍵詞搜索改進算法

針對某一XML文件，對XML文件進行分塊，當對XML文件進行分析時，對各類型節點的平均屬性類型數目及子樹大小進行統計，確定控制器局域網絡（Controller Area Network，CAN），并采用生成算法對各個CAN進行建模。為了加快XML關鍵詞查詢的速度，以候選片段（Candidate Fragment，CAF）文件為例，建立了一個倒排索引項目（keyword，prev），其中keyword為關鍵詞，prev為該CAF內CAN的前置編號。當在匹配的關鍵詞集合中查找索引時，會根據節點編號從小到大進行排序，即按照XML文件的順序進行排列[6]。

NodeMatch是一種節點匹配算法，用于計算XML文檔T中包括所有關鍵詞CAN編號集合的匹配。該算法1使用了XML文檔T的CAN集合來實現，具體如下。

1：R：=Φ

2：for i=1 to m do

3：Si：=GetMatchNode（ki）；

4：end for

5：Sort（S1，S2，...，Sm）；

6：for i=1 to Length（S1）do

7：found：=TRUE，finish：=；

8：for j=2 to m do

9：while Sj≠ΦΛSj[1]≤[i]do

10：end while

11：if Sj≠Φthen

12：if Sj[1]≠S1[i] then

13：found：=FLASE；break

14：end if

15：else

16：found：=FLASE，finish：=TRUE；break

17：end if

18：end for

19：if found then

20：R←R∪{S1[i]}

21：end if

22：if finish then

23：break；

24：end if

25：end for

26：return R；

首先，NodeMatch算法初始化結果集合為空，并逐個掃描關鍵詞倒排索引，獲取每個關鍵詞匹配的CAN集合。其次，將匹配集合按照CAN數量進行升序排列；針對節點數最小的集合amp;中的每個候選節點編號，掃描其他集合：去除小于S1首元素的編號，各集合首元素均相等，將S1當前元素加入結果集合R中，并進行下一次循環。

以Q3={Jim，XML}為例，關鍵詞匹配的候選節點集合為SJim={8，18，34}和SXML={8，18，34}，根據算法1的執行過程，檢索系統將返回候選節點編號集合{8，18，34}作為檢索結果。

3.2 利用關聯型數據庫實現XML全量搜索的方法

在上下文中，標簽的重要性可以通過其所處的層次來表現。一般來說，位于較高級別的標簽比低級別的標簽具有更大的影響力。因此，本文將標簽在各個層次上的重要性定義為層次權重。

層次權重：標簽l在上下文c中的層次權重如公式（3）所示。

lweight（l，c）=γlevel（l，c）-1 （3）

式中：γ為層次權重因子，且0lt;γlt;1；level（l，c）為標簽l在上下文c中的層次。

層次相似度如公式（4）所示。

（4）

上下文相似度如公式（5）所示。

（5）

式中：|cq|為查詢上下文中元素的個數；|cd|為文檔上下文中元素的個數；LMS（cq，cd）為cq和cd最長匹配序列中元素的個數；γ為層次權重因子，且0lt;γlt;1；lm為LMS（cq，cd）中元素位于cd的最右端。

本文所給出的內容相似度的計算方法可以很好地衡量上下文間的相似程度，而不需要做太多的調整。為高效地計算查詢前后關系和文件前后關系的相似性，可以使用算法2來求解。在此基礎上，本文提出一種基于最大共同子序列（Longest Common Subsequence，LCS）的方法，將標簽的層級權重與不同情境下的標簽相似度結合，實現上下文相似度的度量。

算法2：ContextResemblance。

輸入：查詢上下文cp，文檔上下文cd，層次權重系數γ。

輸出：上下文相似度cr。具體如下。

1：cr：=0，bcr：=0，pos[]，m（，），prev[，]；

2：for i=1 to Length（cq）do m[i，0]：=0；

3：for j=1 to Length（cd）do m[0，j]：=0；pos[j]：=0；

4：for i=1 to Length（cq）do

5：for i=1 to Length（cq）do

6：if Match（cq[i-1]，cd[j-1]）then

7：m[i，j]：=m[i-1，j-1]+1；

8：prev[i，j]：=1

9：else if m[i-1，j]≤m[i，j-1]then

10：m[i，j]：=m[i，j-1]；prev[i，j]：=2

11：elsd m[i，j]：=m[i-1，j]；prev[i，j]：=3

12：end if

13：end if

14：bcr：=bcr+γi-1；

15：i：Length（cq）；j：=Length（cd）

16：if m（[i，j]=0 then cr：=0；

17：else while true do

18：if i=0or j=0 then break；end if

19：if prev[i，j]=1 then

20：cr：cr+yj-1?；

21：pos[j]：=1；i；j；

22：else if prev[i，j]=3 then i；end if

23： if prev[i，j]=2 then i；end if

24：end if

25：j：=Length（cd）；

26：while，pos[j]=0，do，j；

27：cr：=cr?γLength（cd）-j

28：

29：return，cr

算法ContextResemblance對輔助變量進行初始化（1～3行），采用動態規劃方法對文本上下文（4～14行）進行標注（4～14行），在此過程中記錄與查詢上下文完美匹配的文檔上下文的權重之和（14行）；通過遍歷匹配標志陣列m，計算最右最長匹配子序列權重之和，懲罰未匹配的最右邊的標記（26～28行），最終將該公式輸入該方程中，求出查詢前后關系和文件背景之間的相似性（29行）并返回結果（30行）。

4 結語

XML文件是一種半結構性的文本文檔，它同時包括文件的內容和結構。因此，對XML文件進行搜索時，既可以用關鍵詞或帶有關聯性的關鍵詞進行搜索，同時也能夠使用有結構限制條件的關鍵詞進行查找。XML內容的搜尋包括結構數據和內容數據，對關鍵詞添加結構限定，能提高尋找的結果精確度。衡量搜索過程中與文件內結構限定的匹配程度是亟待解決的一個核心課題。

本文給出了一種基于上下文的模糊結構查詢方法，提出了一種基于結構化的查詢和文檔的結構化描述方法。標記在上下文中所在的級別能夠反映標記的重要程度，一般來說，高級標記的重要程度高于低級標記。此外，在不同背景下，標記的等級越相近，其在不同背景下的位置也就越相近。在此基礎上，本文給出了一種基于最右邊最長普通序列的文本上下文相似性度量方法，為最終實現有效的XML信息檢索提供技術支持。

參考文獻

[1]劉妍.大數據背景下OCR全文檢索對檔案著錄帶來的機遇與挑戰研究[J].檔案天地，2023（8）：37-40.

[2]劉瑞.區塊鏈、大數據、人工智能等新一代信息技術在檔案管理中的應用研究[J].安徽科技，2023（7）：39-41.

[3]談春梅，段衛華，劉偉.電子信息資源數據庫檢索系統的開發與實現[J].中國圖書館學報，2002，28（6）：238-241.

[4]談春梅，田質兵.電子信息資源數據庫的開發設計及技術特點[J].中國圖書館學報，2003，29（6）：6-7.

[5]趙亞男.新媒體環境下數據檔案管理存儲檢索平臺的構建：以河北省廣播電視三〇七發射臺為例[J].檔案天地，2023（7）：52-55.

[6]馮慷.基于XML技術的異構網絡信息融合共享系統[J].電子設計工程，2023，31（10）：182-185，190.