鄧丹
(黑龍江省圖書館,黑龍江 哈爾濱 150090)
基于本體的圖書館文獻資源檢索技術探究
鄧丹
(黑龍江省圖書館,黑龍江 哈爾濱 150090)
以基于圖書館領域本體的專業性視角解讀當前圖書館文獻資源檢索技術,有針對性地對當前檢索技術如全文檢索、數據檢索等做補丁處理,并提出了基于本體的圖書館文獻資源檢索模型的構建,基于該模型的特點闡述了信息檢索的查全率和查準率是如何實現的。
領域本體 圖書館 資源檢索模型 資源
信息時代的到來使得信息資源共享成為了圖書館界研究的重點課題之一。發達國家信息資源共享技術一直遙遙領先,20世紀90年代,美國各圖書館的書目數據已經實現在網上共享,當然這得力于計算機行業的發展,同一時期的英國在圖書館文獻資源檢索方面實施了“三計劃”后,成功地建立了以數據庫為主的電子信息資源,而我國的圖書館文獻資源的檢索技術在21世紀后才開始發展起來。
概念結構化的東西更容易使人們全面地看待一個事物,檢索系統也是如此,在經過概念化后的領域知識體,更容易在邏輯推理工具的引導或者稍微引導下形成概念與概念間的聯系,進而形成信息與信息間的聯系,最后將檢索結果系統地傳送到讀者手中。
據統計,我國當前平均每4人擁有一臺電腦,Internet刮起的電腦風其實也對信息資源共享提出了更大的挑戰。搜索引擎、共享網站里的用戶呈指數級上漲,網絡信息也在爆炸式地膨脹,在工作學習壓力中,人們太需要既準確又快速地查找到自己所需要的信息,渴求理想的信息資源檢索系統。
網絡信息資源的檢索可以分為3類,即全文檢索、數據檢索和知識檢索。全文檢索即可以從文中截取任何一個具有單獨檢索意義的詞匯或詞表輸入到檢索窗口進行檢索,數據檢索也一樣,只是將有檢索意義的詞匯換成數據而已,在一般情況下,這兩種是用戶的首選方式,因為搜索的結果能滿足客戶所需求的準確數據或詞匯定義。但是由于搜索的結果屬于填答案方式,客戶無法從搜索結果中得到信息與信息間的內在聯系,所以這些方式無法滿足客戶對于系統知識的需求。
關鍵詞與具體數據,僅僅是將查詢搜索結果停留在表層需求上,而知識檢索是一種基于語義方面的信息檢索技術,不僅提高了客戶的查全率和查準率,而且降低了用戶的負擔。信息以及信息之間的語義關系,它需要自然語言處理技術、計算語言學技術以及其他相關技術的支持,信息資源搜索系統內部如果缺乏豐富多彩的巨量語義模型去支持,恐怕難以得到信息與信息之間的復雜層次和推理關系。基于語義的知識檢索固然能夠提高客戶的查全率和查準率,但是如果將客戶所要搜索的文獻總庫的各領域分為多個概念的集合,而每個領域具有特定結構化的知識本體,我們可以推算出本體具有強大的結構層次感和蘊含能夠發掘強大的邏輯推理潛能,那么基于本體的圖書館文獻資源檢索技術將會實現更大的突破。
計算機整合資源需要強大的邏輯推理能力,而能給與這種邏輯能力的就是本體。基于領域本體可以使檢索結果所呈現的結果信息描述與客戶資源的需求之間的鴻溝最大可能地彌合在一起,結果信息將會呈現豐富的語義注解。如圖1。

圖1 基于本體的資源檢索技術
對于構造一個本體,可以從下面4個步驟來實現(見圖2)。
①用本體語言描述檢索內容。在檢索系統中,計算機所能實現的讀取識別語言不能太復雜,否則會加大工作人員的任務量和影響檢索結果的準確率。此外,在搜集領域知識術語時,應該選擇社會大多數人所公認的且能夠準確表示該領域內容詞匯或圖表,以求規范。
②構筑本體。首先,構筑的本體概念必須全面,這無疑是檢索結果準確率的保證,所以構筑的本體必須使領域內主要的概念符合該領域的特點,并使各個概念間的聯系盡可能加強。此外,除了概念,還可建立一些可說明抽象概念的屬性指導,比如可解釋領域本體中某些概念的實例以及在操作中可實施的技術性引導等。
③在構筑好的基礎上應盡可能充實本體。構筑本體不是一勞永逸的事情,在網絡詞匯不斷涌現的今天,充實本體不僅要統籌新概念、新關系,還必須通過聯想意義建立新聯系,以確保本體的與時俱進和實用性。
④確保本體的準確性一般是通過檢查來實現的。領域本體內的概念元素必須在語義、語法和邏輯上保持一致,通過這種一致性的檢查,保證了自動分類的準確性。如果忽略了檢查環節,知識領域間的聯系或者知識的正確率及與用戶的需求得不到契合,那么這個檢索模式將是失敗的,查全率與查準率永遠是引領檢索系統追求卓越的燈塔。

圖2 本體的構筑
由此構筑的本體,可以既明確又客觀地用自然語言對所定術語進行準確描述,以及闡述信息之間的關系,又能完整地給出搜索結果,使檢索輸入信息與得出的推論及展示術語本身的含義是相容納的,沒有用戶與結果之間的矛盾。且相較于單調的結果,基于本體的資源搜索具有更廣闊的延展性。
基于本體的圖書館文獻資源檢索模式是全文檢索和數據檢索以及語義檢索的更專業層次,能從本體與本體的聯系中得出正確理解用戶所需信息的內容,并且這些邏輯推理能力是自發形成的,因此,用戶的查全率和準確率都能得到提高,并且不影響速度。
3.1 基于本體的圖書館文獻資源檢索模型構建的設計思想
①要建立一個領域的本體,必須求助于該領域的專家最大可能地掌握著該領域的知識,對于建立本體核心具有極大作用。
②收集數據環節。對于從領域專家手中獲取的資源信息,相關人員參照之前已經建立的本體,以規定的格式將收集而來的數據存放在元數據庫中保存。
③查詢轉換器的格式轉換。在用戶登錄界面輸入查詢請求時,所輸入的信息將會被本體結構中的轉換器轉換成特定格式,與本體數據庫形成遙相呼應,數據庫信息在本體的作用下,經過邏輯轉換匹配出符合用戶搜尋的目標信息集合。
④信息傳達給檢索用戶。檢索的結果在經過本體結構特殊的處理后,用戶可以馬上接收到。
實際操作中,并不是用概念圖形模式存儲本體信息或者將數據選擇保存在一般關系的數據庫中就可以了,雖然這樣可以通過圖或者文字數據的匹配來喚醒對應的信息資源。在實際的操作中,往往需要很多相關聯的工具來保證檢索的準確性和全面性。
3.2 以本體為核心的資源檢索模型結構
信息的浩瀚廣闊性被本體概念的緊湊性變成一個個相互串聯的枝狀體,這個串聯的過程可以簡單地概括為:登錄查詢系統的用戶首先在特定的提問框輸入要搜尋的信息,以本體為核心的模型系統接收到提問信息后將該信息自動定義為待處理信息,同時領域資源分析工具對該信息進行概念分解,本體數據庫在資源分析工具和信息檢索系統的調動工具影響下,將與查詢信息相關的概念聯系以特定的格式在元數據庫中匹配,擴展和全面式的匹配后檢索系統將匹配信息以客戶所要求的形式反饋給客戶。如圖3。

圖3 基于本體的圖書館文獻資源檢索系統構架
在這個過程中,領域資源分析工具在協助基于本體的資源檢索系統中發揮著重要作用。領域資源分析工具可以起到輔助推動作用,比如說可以幫助推理引擎劃分涉及領域的概念歸屬問題以及處理信息鏈接規則,它的優點是可以在多領域中自由分析和引用元數據。
推理引擎工具,顧名思義就是檢索系統中推理的好手。在搜索的信息進入到后續時,推理引擎工具需要利用本體術語、元數據和推理規則完成后續工作,是將用戶所需要的信息整理輸送給用戶的關鍵一步,是協助本體進行語義推斷、邏輯推理、語義檢索以及處理數據的其他職能檢索。
3.3 基于本體的圖書館文獻資源檢索模型的核心部分
①元數據庫中領域知識的本體分類。圖3的模型可將其分為3層。第一層是用戶查詢層,用戶查詢層是一個檢索過程的開始階段,它決定了本體下各領域的知識活動情況。第二層是求解層,求解層已經無關用戶的情況了,因為將用戶輸入的信息轉化成特定格式的符號后,檢索系統便進行一系列的求解過程。推理引擎分析系統轉換成的特定符號來根據本體推理和確定出用戶查詢的具體語義,并用相關的系統規劃策略來規范查詢的信息。而最后的求解則要建立在相關領域專家的幫助下完成。第三層是知識抽取層。知識抽取是要在特定環境下抽取的,領域本體是圖書館文獻資源檢索模型的核心,在概念與概念間的聯系上,它是當之無愧的串聯者,用戶輸入檢索提問詞時,這種概念與概念間的特定聯系可以辨別用戶的真實語義,將串聯的信息鏈接在一起,在此基礎上進行資源的檢索,不僅加強了信息檢索的全面性,還能調動各領域的專家,實現跨領域、跨專業、多主體、多學科的主體查詢能力。
②得力的輔助工具——推理引擎。推理引擎開啟推理智能模式后,能自動地將用戶輸入的檢索文字轉換成系統可以識別的特定格式的符號,若是沒有這個橋梁,人類的語言將不會到達計算機的世界里。它的工作流程很簡單,首先,它需要將輸入檢索框中的文本用特定的格式轉換成計算機能識別的符號并將其運送到元數據庫中,也就是知識本體,送到這一個領域本體后它還要再送到其他領域知識本體中,與另一個知識本體的同義詞進行比較,如是相同的話那么另外一個領域也將涉及;然后將此領域中的該類別及類別號取出代替原本的那個關鍵詞;再將剛才提取出來的分類號用特定的格式轉換成查詢的語言,繼續在數據庫中搜尋滿足檢索條件的信息資源。
③檢索結果的顯示。在基于本體的圖書館文獻資源檢索模型中,每個本體數據庫的格式都是不同的,所以當在檢索框內輸入相同的檢索內容時,如果該內容提交不到同一個數據庫中的話,那么相同的檢索內容是得不到相同的檢索結果的,但這可以顯示檢索系統的個性化服務以及保證信息資源的準確率。所以,在檢索模型中,第一要務是將檢索框中的檢索內容轉換成系統可辨別的統一格式,凡是重復的必須把它剔除掉,否則會影響效率,然后再通過條件分類將整理好的信息資源傳送給檢索用戶。
要想使基于本體的圖書館文獻資源檢索技術完全自動化,基本上是不可能的,所以這是一種半自動化的模型結構。元數據庫的完善以及領域專家的參與,領域本體庫中的資源都需要與時俱進地不斷加以完善,所以從事資源檢索的工作人員依然任重道遠。
從全文檢索和數據檢索看,基于關鍵字的檢索技術還沒有成為歷史,而基于語義檢索的知識檢索目前正處于盛行階段,但是信息時代高速發展,人們對資源查全率和查準率的要求都在上升,所以基于本體的圖書館文獻資源檢索技術推廣是應時代要求而發展起來的。
筆者結合本體論的相關觀點,結合信息資源其他檢索技術,提出了基于本體的圖書館文獻資源檢索的建構模型和新看法,在深入研究后發現,該模型依然有很多規避不了的障礙,比如說信息新資源的收錄是否有自動的收錄方法,數字圖書館的構建導致信息資源檢索成本上升的問題等,這些都還有待于在實踐中不斷探索。
[1]王晰宇,周中林.基于本體的數字圖書館信息檢索模型構建[J].情報探索,2011(9):21-23.
[2]王莉,梁冰.基于本體的科技文獻檢索框架與技術實現[J].數字圖書館論壇,2012(7):37-44.
[3]賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國圖書館學報,2012(4):79-87.
[4]蔡煒,邢建國.基于本體的圖書館文獻資源共享技術研究[J].情報科學,2007(11):1696-1701.
[5]仇寶艷,呂祥惠.本體技術在數字圖書館中的應用[J].現代電子技術,2008(24):109-112.
[6]張學梅,汪偉歆.基于本體的期刊論文可視化檢索系統研究[J].電子世界,2012(22):121-123.
鄧 丹女,1982年生。本科學歷,館員。研究方向:數字圖書館的發展與建設。
G254.91
2013-12-20;責編:張欣。)