【摘要】隨著數字圖書館建設的推進,人們更多地利用網絡通過電子媒介來獲取所需的資源。如何幫助用戶找到滿足用戶需求的資源, 已成為當前迫切需要解決的課題。本文對傳統檢索方法進行分析,指出要提高檢索的查全率和查準率,需要將信息以機器可理解的方式描述,為信息賦予語義。對描述邏輯進行了分析,論述了描述邏輯在數字圖書檢索中的應用。
【關鍵詞】描述邏輯,信息檢索,TBox,ABox,邏輯推理
【中圖分類號】G434【文獻標識碼】B【論文編號】1009—8097(2007)01—0072—03
一、引言
隨著網絡的發展,國家數字圖書館建設的推進,各種信息如學術論文、期刊、雜志等都披上網絡的外衣,以電子的形式存儲在各處,網絡上的信息是益增多。人們獲取信息的來源早已超出了書本等紙質媒介的限制,更多地利用網絡通過電子媒介來獲取所需的資源,通過網絡實現資源的共享。
到目前為止,已經建成的幾大論文索引平臺,如“CNKI期刊全文全文數據庫”,“維普科技期刊全文數據庫”,“萬方學位論文全文數據庫”等,截止到2006年5月11日,CNKI已收錄17,644,244多篇學術論文,僅5月11日一天就新增7853篇;優秀博碩士學位論文303,452篇,重要會議論文438,800篇。
在如此眾多圖書資源中,如何幫助用戶找到滿足用戶需求的、恰當數目的資源, 已成為當前迫切需要解決的課題。
二、傳統檢索
傳統的信息檢索技術可以分為基于關鍵字的檢索和概念信息檢索兩類。基于關鍵字的檢索技術,利用關鍵字匹配的方式來進行檢索。它存在如下一些問題:用戶對自己所需的信息無法準確地用關鍵字表達,而基于關鍵字匹配進行檢索的機制無法準確地搜索出用戶所需的信息;對于一樣的概念,不同的用戶可能會有不同的表達方式,關鍵字匹配無法解決多詞同義,一詞多義地問題,導致無法全面準確解析用戶需求,漏掉了很多有用信息;關鍵字匹配其實是基于字符形式的匹配,它不考慮語義,導致檢索出很多無關信息,大量的無關信息使用戶淹沒在信息的海洋。概念信息檢索對信息進行語義上的處理并形成一個概念庫,然后檢索概念庫中的相關信息得到檢索結果[3]。它克服的關鍵字檢索的一些局限性但是它不包含概念間的關系,因此無法進行很好的推理。
傳統檢索技術缺乏必要的智能,無法滿足用戶日益增長的檢索的需求。為了能提高搜索的查全率下查準率,從海量的數據中為用戶快速檢索出所需信息,引入了哲學中本體的概念,對應用領域進行建模,將以前只能為人所理解的知識表示形式改為讓計算機也能理解的形式,為網絡中存儲的知識加上語義[2],從而使得機器可以對這些知識進行搜集整理,將人們從繁重的搜索任務中解放出來。描述邏輯作為本體語言OWL的形式化基礎,使精確刻畫知識的語義成為可能。
三、描述邏輯
描述邏輯(Description Logic)是基于對象的知識表示的形式化工具,它是一階謂詞邏輯的可判定子集。一階謂詞邏輯具有很強的表達能力,它致命的缺點是它的不可判定性。描述邏輯沒有一階謂詞邏輯的表達能力強,但是它能夠提供可判定的推理服務,它能保證推理算法總能終止,并返回正確的結果。
(一)描述邏輯的體系結構
描述邏輯系統由四個基本部分組成:描述語言,用于構造Tbox和ABox ;Tbox,術語公理,是關于概念術語的斷言;Abox,斷言事實,是關于個體的斷言;Tbox和Abox上的推理機制。
1.描述語言
選擇描述語言實際上是選擇用于構造概念和角色的構造算子集,最基本的描述語言是AL。用A,B表示原子概念,用R表示原子角色,用C和D來表示概念描述,也就是復合概念。



三、描述邏輯在數字圖書檢索中的應用
對浩如煙海的圖書資料進行檢索時,人們總要一遍一遍進行關鍵字匹配,在傳統搜索引擎返回的成百上千條記錄中尋找最終需要的記錄,甚至明明庫中存在所需資料搜索引擎卻搜索不出來。描述邏輯在語義表達方面的特點及其具備的推理能力非常適合應用于檢索領域。
下面例舉一個針對論文檢索的簡單應用:假設我們將論文分為畢業論文和其他論文,其中畢業論文分為博士論文,碩士論文,學士論文;對于論文的作者我們假定作者分為第一作者和后繼作者。那么我們定義出關于論文的Tbox。我們還可以對這個例子進行擴充,例如通過引入論文性質等原子概念進一步給出Thesis的定義,將標題、作者單位、關鍵詞等概念引入。對應于上面定義的TBox,給出一個ABox的例子。
假設需要查找出“所有的MasterPaper”,從顯式的知識中我們無法得到結果,因為沒有任何一條知識顯示出哪個實例是MasterPaper。但是根據Master(Jiali)我們可以獲知Jiali是一個Master,而MasterPaper≡Paper∩hasWriter.Master,所以作者是Jiali的Paper就是MasterPaper;而由Paper≡Thesis∪OtherPaper,可以推出所有的Thesis都是Paper,那么在這個ABox里就有兩篇Paper,分別是Paper2和Paper1,而由于

hasWriter(Paper1,Jiali),Paper1的作者是Jiali,所以查詢“所有的MasterPaper”的結果是Paper1。
四、小結
數字圖書館的建立和發展,各高校已經擁有了豐富的電子文獻資料。在不斷豐富圖書館信息的同時,要不斷地改進檢索技術,提高檢索的查全率和查準率,充分地利用資源。描述邏輯形式化基于邏輯的語義及其推理能力使把信息表示為計算機能夠理解和處理的形式,用機器的智能減輕用戶檢索的負擔成為可能。
參考文獻
[1]Franz Baader, Diego Calvanese, Deborah McGuinness,
Daniele Nardi, Peter Patel-Schneider, editors. The Description Logic Handbook [M]:Theory, Implementation, and Applications. Cambridge University Press, 2003
[2]T.Berners-Lee,J.Hendler,and O.Lassila. The Semantic Web[M], Scientific American.,May,2001
[3]何紹義.概念信息檢索的理論與實踐[J].情報學報,2002.