〔摘 要〕本文討論了基于本體的知識組織和知識檢索。闡述了知識組織的體系,在分析知識檢索模型的基礎上,建立了基于本體的知識檢索模型;對知識檢索呈現方式進行了研究,探討了基于本體的知識檢索呈現,并對下一步的工作進行了展望。
〔關鍵詞〕本體;知識組織;知識表示;知識檢索
〔中圖分類號〕TP393.09 〔文獻標識碼〕C 〔文章編號〕1008-0821(2009)01-0144-04
Knowledge Organization and Knowledge Management Based on Ontology
Lu Min Yang Fayi Peng Jun
(Library,Second Military Medical University,Shanghai 200433,China)
〔Abstract〕This paper discussed on knowledge organization and knowledge management based on ontology.It elaborated the knowledge organization system,established the knowledge retrieval model based on ontology.
〔Key words〕ontology;knowledge organization;knowledge representation;knowledge retrieval
知識是現代社會最重要的資源之一,如何充分發揮知識的效能是從管理學到信息學,從人工智能到知識工程等眾多學科和領域的研究重點。知識組織即是在信息組織的基礎上,依靠專門的技術,按照知識的本質屬性組織知識、建立知識系統的方法和手段。對知識及知識間的關聯進行揭示和組織是知識組織的核心內容。有什么樣的組織方式就有什么樣的檢索方式。知識檢索是知識組織的逆過程。本體是領域知識規范的抽象和描述,可以構造豐富的概念間的語義關系,能夠準確描述概念含義以及概念之間的內在關聯;形式化能力最強,同時具有高度的知識推理能力,能通過邏輯推理獲取概念之間的蘊涵關系。因此,本體是一種知識組織體系。以本體作為知識組織的技術和方法,才能實現基于語義的知識檢索。
1 知識組織體系
知識是信息的一部分,是人類主觀世界對客觀世界的反映與認識的結晶,根據載體不同分為主觀知識(隱性知識)與客觀知識(顯性知識)兩種基本形態。知識組織是關于知識的組織與檢索系統,是現代網絡信息環境下獲取知識與利用知識的所有手段、技術與能力的總和[1]。知識組織不僅包括知識(有用信息)的組織,而且包含著“人”的才能、技術與智能。
知識組織的表現形式是知識組織體系。知識檢索必須依賴于知識組織系統;沒有知識組織系統的支撐,知識檢索就無法實現。所謂知識組織體系,是對資源內容概念及其相互關系進行描述與組織的機制(工具)[2],是用以定義并組織知識的一套概念和符號的集合,是資源語義模型的形式化,能夠支持對資源對象按照知識內容進行組織和描述,并支持基于語義和推理的知識檢索。
目前圖書情報界公認的知識組織體系是主題詞表和分類表。也有學者根據對詞義和詞間關系的控制程度,將知識組織體系分為詞單類(可選詞單、詞匯/字典、同義詞環)、分類與歸類類(圖書分類法、知識分類表)和關聯組織類(知識本體/實用分類法、敘詞表等)3種類型。這三類系統對詞匯的控制是一個由簡到繁、由弱到強的控制過程。詞單類側重于詞義消歧和同義詞控制,分類與歸類類側重詞匯等級關系的控制,關聯組織類則側重于詞間各類關系的控制。知識組織體系的形式和能力在相當程度上決定了知識檢索的能力。我們認為作為知識組織表現形式的知識組織體系應具備以下基本功能要素:
(1)具有一套從領域知識中抽象出的概念體系;
(2)能夠精確描述概念語義和多維關系;
(3)可用形式化方式表示概念體系并可隨時擴充概念層次和結構;
(4)支持公理定義和語義關系的推理;
(5)支持資源對象基于語義層面的標引;
(6)可用知識網絡/概念地圖的方式展示知識結構。
滿足上述基本功能要素的才可稱之為知識組織體系。如果一部反映知識的詞表/詞典缺少對概念及關系的多維和全方位的描述,沒有形式化,不能實現語義層面的資源標注,對所組織的知識不能以知識網絡或概念地圖的方式顯示,是難以稱為真正意義上的知識組織體系的。由此可見,詞單類和分類/歸類類均難以歸入知識組織體系;關聯組織類中的敘詞表(也包括知識分類表)也只能稱之為組織知識的語義詞典(詞匯表、語料庫)。鑒于上述體系一直被作為組織知識的工具,我們以為,稱之為基于知識的信息組織體系比較合適。
與主題詞表(分類表)不同的是,本體是領域知識規范的抽象和描述,可以構造豐富的概念間的語義關系,能夠準確描述概念含義以及概念之間的內在關聯;形式化能力最強,同時具有高度的知識推理能力,能通過邏輯推理獲取概念之間的蘊涵關系。因此,本體是一種知識組織體系。以本體作為知識組織的技術和方法,才能實現基于語義的知識檢索。因此,在本文中的知識檢索模型和方法都是建立在本體的基礎之上的。原型系統設計也是建立在領域本體原型的基礎之上的。
2 知識檢索模型介紹
2.1 知識檢索模型
知識檢索模型是指集成各類知識對象和信息對象,例如領域知識、用戶知識、專家經驗知識以及多媒體信息元素等;融合各種智能與非智能理論、方法與技術,例如推理、機器學習、數據挖掘、智能搜索、智能演算以及多媒體信息處理等;實現知識檢索。通常的知識檢索模型有三類:分類檢索模型、認知檢索模型和分布式檢索模型。它們采用不同的知識組織模式,應用不同的人工智能技術和知識處理方法。
2.1.1 分類檢索模型
分類檢索模型的核心思想是數據抽象,利用事物之間最本質的關系來組織資源對象。概念邏輯與知識分類思想是知識標引和知識檢索的理論基礎。知識組織結構是類層次結構。知識對象由靜態和動態的知識元素構成,對象之間存在類屬關系和其它語義相關關系。用戶提問對象同知識庫中知識對象的結構相同,可包含用戶的多維異構需求信息。該模型綜合應用類結構的查找方法和對象歸類方法,實現對象或概念的檢索。對象之間的等級關系,可提供快速的自頂向下的查找策略。利用繼承原理,可實現自底向上的檢索。其他語義相關關系,如參照關系,能實現橫向的搜索。這種模型的最大優點是語義繼承特性,便于知識資源的共享,提供多途徑、多方位的多種檢索方法,充分表達用戶的多維組合需求信息。該模型較適于領域知識和用戶知識等大規模知識源。它需要綜合利用自動化分類方法和手工分類方法,關于大規模資源的存儲和動態維護已由計算機實現。
2.1.2 多維認知檢索模型
認知檢索模型的理論基礎是人工神經網絡(ANN-Artificial Neural Network)。它以模擬人腦的結構和神經系統為目標,將資源組織為語義網絡結構,由結點和鏈接組成。結點可以表示概念或知識對象,鏈接表示對象之間的各種語義關系和動態操作關系。該模型利用啟發式知識和傳遞激活技術,形成一種認知式的語義推理模式,實現知識庫的聯想搜索。該模型利用學習規則和相關反饋技術來修改、完善提問和知識庫,不斷改進檢索結果。它適合于專業概念知識庫的檢索,用于擴充和優化用戶需求,還可以幫助用戶區別詞的多義。用戶可以充分描述概念和概念之間的關系,查找精確的文獻內容和執行語義鏈的導航搜索。它不適于大規模的知識源。
2.1.3 分布式檢索模型
對于網絡異構分布式信息資源,分布式檢索很重要。該模型要求建立元知識倉庫,集成和存儲各類元知識。它綜合應用分布式人工智能、神經網絡、智能演算、并行推理、機器學習等技術,評估各類資源與用戶需求的相關性,選擇最好的知識源和數據庫集合,分別執行并行檢索。最后,它利用聚類、綜合分析與學習等智能處理方法,產生全局一致的、有效的檢索結果。元知識倉庫(Metaknowledge repository)包含描述各類數據庫內容的元數據、用戶與專家的知識、各類控制知識、各種優化的分布式檢索算法和協作調控協議等。
2.2 基于本體的知識檢索模型
基于本體的知識檢索模型,在資源對象的組織、描述、表示、檢索和模型約束等方面,都具有自己的顯著特征。主要表現為:
2.2.1 以本體作為組織領域知識的語義模型(基礎)
在檢索對象的組織上,知識檢索模型利用領域本體作為組織資源的基礎。以領域本體為基礎來組織領域知識,首先要構建一個涵蓋相關領域概念及概念間關聯的領域本體庫作為資源描述和知識表示的工具和模型。目前廣泛使用于各個學科領域的主題詞表/分類表可以作為領域本體庫的構建基礎,在此基礎上確定領域知識本體的主要概念,概念間的各種關系,構筑領域本體的概念模型。
2.2.2 以本體的概念集對資源進行語義標引
在檢索對象的描述上,知識檢索模型借助語義標引工具,按照領域本體的概念及關聯,對資源對象進行概念分析、分類、標引、描述和處理,形成機器可以理解的帶有語義信息的元數據。以領域本體的概念模型作為資源元數據的規范描述標準,可使目前相對獨立、沒有語義的領域信息形成具有語義關聯的知識組織系統,也是實現基于知識、語義檢索的基礎。
2.2.3 以基于本體的知識語言標示、檢索領域知識
知識語言包括知識描述語言和知識檢索語言。知識描述語言是描述本體的語言工具,是對本體概念形式化的標準語言。OWL是W3C推薦的知識描述語言的標準,RQL是W3C推薦的知識查詢語言的標準。這些語言,不僅使檢索模型具有強大的語義表達和推理能力,同時可以實現不同領域本體之間語義的兼容和互操作。本體概念的優化檢索依賴于本體檢索語言的功能[3]。在支持本體檢索的諸如RQL、DQL、OWL-QL、SquishQL、RDFQL、RDFPath和Versa等知識語言中,RQL支持采用OWL描述本體的結構化查詢,能夠執行語義層的檢索,是目前描述能力最強的知識檢索語言。以RQL作為知識檢索模型的檢索語言,可以充分滿足知識檢索的需要。
2.2.4 以自然語言實現概念查詢
自然語言易用性強但自由度高,如果不加以控制,就不能精確理解語義,實現知識檢索[4]。知識檢索模型提供了特定領域可控的概念語義體系,并建立與概念體系相對應的具有層次結構的自然語言術語體系,能對自然語言提問和本體概念庫的術語進行語義的理解、分析和匹配,依據本體概念間的語義關系,實現知識檢索。
2.2.5 模型約束
在模型約束上,不像信息檢索模型那樣要求索引項之間是正交的,知識檢索模型的約束比較少,但要求概念和關系構成一個有向圖,關系必須是有方向的;另外,要求每一個概念/實例都需要有一個唯一的標識。
基于上述約束和我們所建立的本體原型,我們設計了如下基于本體的知識檢索模型,如圖1所示。

模型分為:人機交互部分、知識源部分、檢索匹配和本體庫等幾個部分。人機交互部分的主要作用是分析用戶提交的檢索請求,返回整理檢索結果。檢索請求的分析主要是依據本體知識,分析用戶的真實檢索意圖,形成規范、準確的檢索請求,提交給檢索匹配模塊。檢索請求的分析主要分為如下幾個步驟:第一是對檢索請求進行預處理,提取需要檢索關鍵字(詞);第二是借助本體并在必要時通過和用戶再次交互,判斷檢索請求中關鍵字(詞)的領域、相關概念等等,確定用戶的真實意圖;最后再將用戶的真實意圖形成統一、規范的檢索請求提交給檢索匹配部分。同時,在對用戶意圖進行分析和交互的基礎上補充和完善本體庫中的相關知識。人機交互部分還有一部分功能就是對檢索匹配部分返回的檢索結果進行處理、合并后返回給用戶。
知識源部分主要負責對知識源進行收集、并對收集的知識源根據本體庫中的知識進行標注和分析,對從知識源中抽取的知識進行轉換,對本體庫中的相關部分進行補充和完善,對建立對應的索引信息,放入索引庫。
檢索匹配部分的主要作用就是從人機交互部分收集統一的檢索請求,并依據本體庫中的相關知識對檢索請求和索引庫進行語義和語法層面的匹配,并將檢索結果返回給人機交互部分。
本體庫部分應該說是整個模型的核心部分,從對檢索請求和檢索結果的處理,到對檢索請求和索引的匹配,到對知識源的標注、索引的建立都基于本體庫中的相關知識。同時,上述各個過程又可以對本體庫中的知識進行補充和完善。當然,對本體庫中知識的任何修改都要經過領域專家和系統的雙重認定。
3 基于本體的知識檢索實踐
基于領域本體的知識網絡具有3個特征:其一是定位知識。給出任何一個概念,都可以顯示該概念在知識體系中的位置。其二是揭示知識關聯。知識網絡不僅要確定概念的位置,還要揭示此概念和其他概念間的語義聯系,描述知識網絡中各種關聯。其三是可視化展示。通過直觀、形象的模式、模型、圖形、圖像等方式,展現知識地圖。
下面以“基于本體的知識檢索模型”為例,來說明知識檢索的呈現方式。該系統是一個基于我校學位論文知識的領域本體原型的知識檢索系統。這個領域本體原型的構建以分類/主題一體化詞表為基礎。由于分類和主題表達的對象都是主題概念,兩者之間存在著隱含的概念對應關系。所以系統以分類概念作為本體概念網絡的主體結構,主題概念作為概念網絡的各級概念節點,將具有對應關系的領域概念組織成本體概念網絡。
與我校學位論文相關資源知識的領域本體概念網絡的顯示以及對知識的獲取,是通過概念瀏覽和概念檢索實現的。無論是瀏覽方式還是檢索方式,都可實現基于概念、基于語義的知識檢索;其結果都是以可視化形式展現知識層次的網狀結構,便于用戶循著知識網絡方便地獲取知識。
3.1 頁面布局
用戶界面分為2個部分,概念導航區和概念檢索區,概念導航區是領域本體中各類概念的分類導航,點擊具體的分類之后就可以在右側的知識導航區,顯示概念的網絡關系圖。概念檢索區在輸入需要檢索的概念,并進行進一步細化之后,就可以看到相關的網絡概念圖和相關的概念實例。
3.2 概念瀏覽
概念瀏覽主要實現領域本體概念的分類導航和主題導航,可循著學科等級和概念間的語義關系進行瀏覽,起到知識導航作用,概念-分類導航如圖2所示。分類導航可對領域本體的分類知識樹進行逐次瀏覽,選擇一個分類概念,即可同時顯示與該分類概念對應的主題概念關系,包括等同關系、等級關系和相關關系。反之亦然,可通過音序對領域本體的主題概念樹進行層層瀏覽,選擇一個主題概念,即可同時顯示與之對應的學科類目(可以是1個類目或多個類目)。例如,在“分類導航”目錄樹中選擇“學位論文”,主題概念瀏覽區便顯示“學位論文”概念關系,點擊概念關系就可以顯示屬于“學位論文”概念的文獻實例。

3.3 概念檢索
概念檢索可通過自然語言檢索本體概念及關聯。如果檢索詞是本體概念,即顯示該概念及其概念間關系,同時顯示與之相關的學科分類類目,以實現語義的擴展檢索和關聯檢索。對于本體庫中沒有的檢索詞,由于系統建立了與本體概念對應的自然語言術語庫,在主題概念顯示區即顯示與該檢索詞對應的主題概念及關系,分類概念顯示區顯示與之對應的分類目錄。例如,在檢索框輸入“球狀蛋白質”,主題概念顯示區顯示“球狀蛋白質”的概念關系,“分類導航”目錄樹中顯示與之對應的類目(圖書資源中的《球狀蛋白質》出版物,檔案資源中的《球狀蛋白質》檔案,其它資源則是顯示討論球狀蛋白質的各類網絡文章和站點等);關鍵詞瀏覽區顯示與之對應的關鍵詞(球狀蛋白質結構、球狀蛋白質功能等);文獻概覽區顯示與“球狀蛋白質”相關的資源(題名或關鍵詞含有“球狀蛋白質”的資源)。
知識應用部分在原型系統中,實現了包括應用解析和檢索結果呈現的知識檢索系統,知識應用部分可以在遵守應用接口的情況下進行應用擴展。知識檢索系統的結構如圖3所示。

系統通過對領域本體的查詢和相關的知識推理,對用戶需求進行分析。分析完成后,得到與“學位論文”相關的領域包括圖書、檔案和其它資源等幾類,用戶選擇希望檢索的內容:圖書和其它資源。系統根據領域知識,繼續對用戶需求進行細化。圖書資源中又分為著作、表現形式、表達方式和文獻單元幾個層次。用戶再次根據自己的需求進行選擇。這樣通過3次與用戶的交互,得到最后的檢索條件,進行知識檢索。然后,根據檢索條件從知識庫中得到檢索結果后,進行結果合成,得到最后的檢索結果,呈現給用戶。
4 總結及下步研究設想
本文研究了基于本體的知識組織和知識檢索的問題,著重對知識組織體系知識檢索模型進行了研究,在分析信息檢索模型和知識檢索模型的基礎上,建立了基于本體的知識檢索模型,同時對知識檢索呈現方式進行了研究,探討了基于本體的知識檢索呈現方法。在本校學位論文檢索系統實踐中已經取得較好的反應。
在未來工作中,我們需要針對各個領域的特點建立各個領域的權威本體,同時對知識的有效存儲機制還需要進行深入研究。并進一步研究針對知識檢索的檢索評估機制。特別是加入衡量用戶參與程度的參數——交互次數之后的檢索評估機制。
參考文獻
[1]田書格.知識組織淺論[J].圖書館理論與實踐,1999,(3):3-5.
[2]張曉林.分布式學科信息門戶中網絡信息導航系統的規范建設[J].大學圖書館學報,2002,(5):28-33,43.
[3]王琰.本體檢索語言的研究及CODE-QL——一個基于OWL的本體檢索工具的實現[D].北京:中國人民大學,2004.
[4]金燕,張玉峰.知識檢索中的自然語言控制機制研究[J].中國圖書館學報,2004,(6)57.