基于語義檢索模型的數字圖書館服務平臺研究

2019-09-25 04:16:16左麗

微型電腦應用 2019年9期

左麗

(咸陽圖書館, 咸陽 712000)

0 引言

信息資源傳播及發展以圖書館作為主要承載方式，不斷發展的網絡信息技術使人們對于信息資源的需求不斷提高，從而促進了數字圖書館的研發和使用，在我國信息基礎設備建設中數字圖書館成為主要內容，數字圖書館使信息獲取突破了時空限制，成為知識經濟的重要載體。同時快速完善的網絡技術不斷降低網絡建設成本，使網絡在日常生產和生活中得以廣泛應用，為用戶提供了高效的信息資源獲取通道[1]。現代數字圖書館正是借助于網絡通過數據完成信息的收集，進而實現將多樣化的信息服務提供給用戶，如何提高數字圖書館的智能化水平及信息資源共享程度，為用戶提供有價值且有針對性的數據信息，更好的滿足用戶信息需求成為主要發展方向。

1 現狀分析

針對數字圖書館的信息檢索的關鍵在于組織及存儲信息，在此基礎上以實際用戶需求為依據完成所需信息的查找與獲取。現代的信息檢索方法多以關鍵詞、主題檢索方式為主，已經實現了超文本屬性及開放系統的創建。作為傳播和獲取信息重要途徑的數字圖書館目前主要存在的問題包括：(1)多以關鍵字為依據進行匹配的信息查詢方式難以滿足對所需內容的精準和快速定位，語義性的匹配方式不足，圖形界面有待進一步的完善；(2)在查找信息過程中，信息表達以讀者作為主要對象，語義信息缺少計算機可讀性。而語義技術可使上述數字圖書館弊端得以有效解決，在增強數字圖書館信息語義性的同時提升了檢索效率。信息檢索通常采用Z39.50協議，本文結合圖書館的具體應用功能，完成了數字圖書館檢索模型的構建，該模型基于本體語義技術，在此基礎上完成了檢索系統原型的構建[1]。

2 基于語義檢索模型的數字圖書館服務平臺的構建

2.1 圖書館本體的構建

快速發展的網絡技術為圖書館功能的優化提供了技術支撐，數字圖書館成為信息獲取及傳播的有效途徑，作為衡量數字圖書館服務質量的有效途徑，信息檢索在數字圖書館發展過程中具有重要地位，傳統信息檢索多以關鍵詞為依據已難以滿足現代讀者的多元化和精準化需求，本文重要研究了基于語義檢索模型的數字圖書館服務平臺，所創建的圖書館本體結構如圖1所示。

圖1 圖書館本體的創建結構

數字圖書資源的專業數據庫中的圖書館學科主要可劃分為普通類、比較類、專門類、應用類及相關學科幾種類型，為使信息的檢索效果得以有效提高，部分概念在圖書館本體結構中需實現實例的擴展，圖書館學科分類存在窮舉類型(如中國分類號中的圖書館)需在結構體系中擴充[2]。因此需通過實例實現擴展，無需使用子類，以滿足不斷變化的相關學科的檢索需求。

2.2 圖書元數據本體創建

構建領域本體需對本體庫領域的相關信息(主要包括構建目的、領域范圍、表示方法等)進行確定，并對其相關信息使用自然語言完成定義和表達過程，所構建的本體同領域范圍呈正比。首先在概念化處理領域信息后完成領域本體框架的建立，在此基礎上對各概念之間的關系及具體屬性值進行定義，然后據此完成對屬性的約束的定義，然后通過子領域本體定義類的劃分完成實例的構建，最終完成領域本體模型的建立。對領域本體采通過Protégé 工具的使用完成編碼過程，完成到機器語言的轉化(即計算機可識別)，在實際領域本體模型的創建過程中，需注意各概念、術語在本體庫中的意義明確，各概念相互之間具有完整一致的關系，具有較強的可擴展性，通過對已構建好的本體庫進行重復利用可有效避免重復建設[3]。

通過創建本體可實現學科判斷和推理(以用戶檢索詞為依據)，通過語義性描述圖書館DC元數據以實現語義性，具有靈活簡便優勢的DC元可使檢索結果的有效性得以有效提高， OWL及WEB 描述語言(包含多種語義)均有特定的 DC使用方式，將含有15個基本元素的DC元劃分為3組，創建DC元數據時在本體中使用屬性方式(以其對圖書館信息的描述為依據)，DC屬性命名空間通過本體的創建實現和使用，使 DC屬性使用目的得以有效滿足，只需為實例添加屬性(能夠被直接使用)即可完成描述圖書的添加[4]。

具體的引用包括：

elements/1.1"/>

3 語義檢索模型的構建

3.1 語義體系結構

通過制定語言SGML(元標記功能強大)，可有效提升交換web 信息的簡便性，其較為復雜的語言規格難以適用動態發展的數據交換方式，SHOE 項目逐漸發展起來，基于語義信息的搜索通過將語義本體添加到web網頁中實現，考慮到創建過程中語義 web知識的分散性，本文通過統一框架的創建確保應用過程中的分散性、通用性及安全性，具體的語義體系結構如圖2所示。

圖2 語義的體系結構

數字圖書館信息以索引、目錄及關鍵詞(需用戶提供較高精度的關鍵詞)為依據實現檢索過程，用戶將關鍵詞輸入到檢索界面后，文本操作系統據此完成語法層次的初步整合，同數字圖書館資源進行匹配再將獲取的檢索結果返回給用戶[5]。信息檢索范圍涵蓋了互聯網站點中存儲于數據庫的數字化知識資源。

3.2 基于語義的數字圖書館框架

為有效順應數字圖書館的知識化和智能化發展趨勢，本文通過語義網技術的運用使信息資源檢索過程中檢索服務的知識層次得到進一步優化，不斷完善的語義技術使數字圖書館在提供通訊平臺的同時，通過語義表達的規范化處理實現良好的人機交互過程，從而將優質的思想交流服務提供給用戶[6]。對于數字圖書館，語義技術同信息檢索間的相似性便于技術融合的實現，本文在現有數字圖書館檢索模型的基礎上，以信息管理、邏輯描述及人機交互等為依據，完成了基于語義的信息檢索模型的構建，檢索框架具體如圖3所示。

圖3 基于語義的數字圖書館信息檢索框架

傳統信息檢索的不足得以有效完善，滿足用戶對語義及知識層次的多樣化需求。

為使信息檢索的效率得以有效提高需對信息資源進行科學的組織，具體通過使用語義對信息資源進行有效處理，再結合運用數字圖書館中的相應工具(包括語義字典、分類體系等)完成模型的創建(用于描述信息資源知識概念)，并形成領域中的本體，相應領域中的詞匯需根據領域專家知識及經驗進行確定，自建詞匯的關系以不同層次為依據確定。海量的數字化資源會增加統一元數據的難度，表現出半結構化現象，降低了部分信息資源的完整性和使用效率，為此本文通過XML組織文檔的使用，對用戶感興趣的信息以傳統圖書館信息檢索標準為依據完成提取、整合和存儲過程，提取文檔中數據的流程如圖4所示。在完成全部工作的基礎上，運用元數據庫中信息完成本體的創建后存儲于知識庫中[7]。

圖4 數字化文檔中數據的提取流程

3.3 數字圖書館檢索系統功能的實現

基于本體語義技術的檢索系統模型如圖5所示。

圖5 基于本體的語義檢索模型

采用語義的知識檢索模式有效彌補了關鍵詞檢索的不足，顯著提高了查詢結果的精準性。檢索的工作流程為：檢索系統收到用戶的查詢請求后，通過分詞技術的使用將關鍵詞從中提取出來，再結合語義索引及推理引擎技術完成擴展查詢過程，實現到知識層面檢索概念集的轉換，領域本體庫的擴充與拓展過程結合使用具備豐富層次結構的本體及其自主學習技術實現，在此基礎上檢索該概念集內容再向用戶返回檢索結果[8]。語義檢索主要分為：(1)擴展查詢模塊，通過推理引擎與語義索引擴展查詢關鍵詞形成概念集后傳送至檢索模塊(作為新的查詢條件)。同時檢索系統通過本體構建工具和分類法的調用對領域本體庫進行完善；實現語義檢索的基礎在于領域本體中的概念同語義通過語義索引建立起索引關系，再將其存儲到語義索引表中，包括語義、語義ID(主鍵)、本體概念、本體概念 ID(外鍵)。檢索系統根據語義索引表完成關鍵詞到本體庫具體概念的快速定位及轉換。推理引擎原理：領域本體庫將概念化的關鍵詞通過語義索引技術遍歷本體庫完成同義、父子、兄弟類概念的提取，在此基礎上進行擴充[9]。并根據本體庫中已有網絡語義關系對概念間隱藏信息進行推理，然后作為新的概念集傳送到檢索模塊使用戶個性化需求得到有效滿足。

(2)檢索模塊，使用BookManage公共類，讀者通過下拉列表即可進入到有針對性的檢索過程，如FindBookByName(BookManage,strin tb_name)、FindBookByAuthor(BookManage , strin tb_name)，檢索模塊根據接收到的新概念集同數據庫中的信息進行匹配，完成相關信息的查找和匹配，系統將分類處理的結果信息以用戶實際需求和興趣愛好為依據返回給用戶，并及時更新用戶興趣庫。領域本體庫借助數據接口映射到數據庫，本體中的類及實例分別對應數據庫中的表和表記錄，當兩個類在本體中為父子關系需增加數據庫中的主鍵。為適應專家知識及領域知識的動態更新需對領域本體庫進行持續構建完善，數據庫管理者為具備使用權限的用戶提供訪問信息資源的服務，實現數字圖書館信息資源的共享。數據庫語義映射的實現使用戶可在檢索系統界面中根據語義輸入并提交查詢請求后，通過匹配檢索及語義相似度計算，實現全面精準的檢索結果的獲取[10]。

4 系統測試

為檢測本文所設計的基于語義檢索模型的數字圖書館檢索系統的有效性，對系統進行初步測試，以包括基于關鍵詞擴展、關鍵詞普通在內的 2 種檢索方式作為實驗對象完成具體的檢索過程，實驗結果如表1和表2所示。

表1 題目圖書宣傳的結果對比

表2 工作人員的結果對比

測試結果表明本文所設計的系統降低了本體復雜度，實現了子類、實例的擴展過程，從而使搜索效率及準確率得以顯著提升。

5 總結

為彌補數字圖書館信息檢索缺少語義的不足順應數字圖書館今后的發展趨勢，本文對基于語義的數字圖書館檢索模型進行了設計，用戶通過該模型可顯著提高所需內容的查全率核準確率，良好的的人機交互過程便于計算機對用戶查詢需求及時有效的掌握，使數字圖書館檢索效果得以有效提高，從而提高用戶的滿意度及體驗度。