王亞寧 徐學文 陳黎明 魯華杰
摘 要 伴隨著信息技術的發展,網絡信息檢索越來越受到重視,網絡信息檢索給用戶收集信息帶來了極大的便利。傳統的網絡信息搜索方式主要是以關鍵詞搜索為主,雖然這種方式有很高的查詢幾率,但是卻不能夠做到精準搜索。本體注重對概念和概念之間關系的描述,是一種語義檢索的算法和模型,其通過一元的概念描述和二元的角色描述,應用到信息檢索系統的過程當中去,能夠解決當下信息檢索系統中語義處理不足的問題。本篇文章重點研究了基于本體的語義檢索方法,并對領域本體這是信息庫的搭建、儲存以及語義推理等關鍵性技術進行了分析,并輔以具體實例對Jena推理機的機制進行了說明。
關鍵詞 本體 語義檢索 研究 語義關聯
中圖分類號:TP391.3文獻標識碼:A
0前言
隨著社會的發展,Web已經成為了一個可檢索化的的資源空間,搜索引擎技術日趨成熟,但是目前的搜索方式還是以關鍵字搜索為主,這種方式雖然簡便快捷,但是缺乏對檢索內容知識的理解,導致檢索的結果大多是無用的網頁。很顯然,這種傳統的檢索方式已經不能夠滿足用戶的需求了,所以探尋新的檢索方式就成為了當下研究的重點。本體是一種有良好概念層次結構和邏輯推理的檢索方法,能夠對概念的內涵以及之間存在的關系進行闡述,通過本體可對語義進行精確搜索,而不是模糊的關鍵字搜索。其主要作用原理是將頁面信息與知識結構規則相聯系,獲取更精準度的搜尋結果。本篇文章主要針對能夠將語言查詢轉變為語義描繪的本體模式進行了研究,為用戶提供更加精準的搜索資源。
1當下語義檢索的主要現狀
語義檢索技術在近幾年正朝著語義的查詢擴展、個性化的查詢和語義關聯的幾個方向發展。
語義的查詢擴展主要是通過本體技術提高檢索的準確率,主要思想是利用本體的知識將用戶輸入的關鍵字進行擴展。主要通過在本體庫中查詢關鍵字,并擴展關鍵字的相關概念進行檢索。個性化信息查詢是指通過對用戶的個性特征獲取個性化知識并應用到信息的搜索過程當中,對于兩個不同的搜索用戶的相似搜索要求,應反饋兩個不同的查詢結果。語義關聯分析是指發現用戶感興趣板塊之間的聯系,這種方法主要分析了實體關系和模板之間的相似程度,而如何對有意義和無意義資源進行區分,也成為了語義關聯分析研究的重要方向。
2系統化的體系結構
本次實驗的系統主要采用的架構是B/S結構,其結構過程主要是用戶通過瀏覽器向系統服務器發送查詢要求,服務器通過關鍵字進行基于本體的信息檢索過程,最終反饋檢索結果給用戶,其核心部分主要是在服務器上,幾種種最主要的工作流程是:(1)剔除用戶檢索語言中不重要的部分,歸納其概念并應用到本體檢索中去;(2)通過本體分析對用戶查詢的關鍵詞進行語義推理與本體的擴展,最終的關鍵字反饋到SQL語句構造板塊;(3)利用SQL語句構造模塊將語句進行構造,并將信息反饋給結果處理模塊;(4)將數據庫中的信息通過檢索排序算法反饋給用戶。
3主要技術設計的實現
3.1領域本體知識庫主要生成過程
本體知識庫的生成過程能夠將檢索計算與語義推理進行運行,這個過程主要包括本體模型的構建過程本體的編碼以及本體數據儲存。
3.1.1構建本體模型的過程
本體是由多個概念和關系組合的,而構建模體就是要將這些概念和關系進行具體化的定義。本體工程化的創建主要包含自頂向下的開發,自頂向上的開發,以及從中間開發三種類型的開發方法,本篇文章主要是采用自頂向下的開發方法,在通用模型里構建相同的種類并進行細化。
在本體的語言規范當中,公理構造詞句主要是對概念和實力之間的關系進行說明,本篇文章主要利用同位關系以及包含關系擴展查詢推理。包含關系:主要對概念以及概念的上下位關系進行定義,用戶在搜索一個概念時,也會檢索其下位的關系概念,在包含關系中的OWL中運用rdfs:SubClassOf進行定義能夠使檢索的結果更加精確。同位關系:主要對主體和客體之間的等價系列進行定義,當查詢條件中出現主體時,客體也可作為替代出現,在OWL中主要運用owl:equivalentClass進行具體定義。例如在手機領域的本體庫當中,“Apple”與“蘋果”就是屬于同位關系,當用戶在搜索“蘋果”時,“Apple”就可以充當客體而出現,從而提高了搜索的精準率。
3.1.2本體的編碼
本篇文章采用的本體編輯工具主要是Protege3.4beta,這種方法可以不考慮具體的本體描述語言,從概念上對領域本體模型進行設計,不僅如此,這種工具還可以對本體的類別、屬性以及實例進行編輯。
3.1.3本體數據儲存
本地文件儲存:將本體庫處存在本地文件當中,這種儲存方式十分便捷,并且有助于文件的修改和備份,主要適用于小型的本體庫;關系數據庫儲存:將本體庫儲存在關系數據庫之中,主要儲存本體庫中的三元組數據,這種儲存方式主要適用于大型的本體庫,這也是本篇文章選用的本體數據儲存方式。
3.2系統文本預處理模塊
文本預處理模塊主要是接收來自用戶的自然言語,并將自然言語分解為詞匯結合,對于詞匯中沒有意義的詞進行合理的過濾,例如“是”、“過”、“的”等對于表達影響較小的詞。用戶對每個領域知識的查詢都有相應的關鍵詞進行對應,并且系統提供了問題的選擇,每個分類的查詢模板都會在系統界面上進行顯示。用戶輸入的信息會分割成一個個詞匯,主要利用的是中文基本詞庫進行下階段的語義推理。
3.3語義推理
本體檢索系統的核心部分就是語義推理,是區別關鍵字檢索的有效方式。其主要是由推理程序所構成的,分析器首先對關鍵詞進行查詢,然后再根據推理規則與本體知識庫完成用戶檢索信息的推理。本篇文章的語義推理主要是通過同位以及下位邏輯關系推理進行實現。
3.4系統檢索功能的實現過程
系統檢索功能主要是依靠Jena進行實現,對于OWL本體來說,Jena類與接口分別為類OntModel以及OntDocumentManager與本體接口OntClass,本體系統查詢對于語義查詢的關鍵主要是實現等同和包含邏輯關系推理機制,這也是和傳統關鍵詞檢索方式存在的主要區別。
語義檢索的具體查詢過程:(1)使用Lucene分析器對用戶輸入的查詢信息進行轉換和過濾,得出具體的關鍵字;(2)將關鍵詞和本體庫中的相關定義或概念進行匹配,找到與關鍵詞定義或概念相符合的關聯類;(3)根據具體的查詢條件找出能夠與用戶的搜索信息相匹配的類的實例,或者是實力的其他對應關系,最終將擴展后得到的關鍵字反映給搜索引擎模塊。
4結語
本篇文章主要對本體技術運用到信息檢索系統中的方法進行了研究,并構建了語義檢索系統的初步模型,對模型的關鍵技術進行了研究和實踐,作為信息檢索的重要研究問題,應該從自然語言的理解以及挖掘數據方式等技術進行開展。雖然本體技術運用到信息檢索系統當中會提高用戶搜索的準確性,但是目前對于這方面的技術并不成熟,許多語義Web技術都有待進一步的研發,所以針對本體技術在信息檢索系統中的具體應用,還需要進一步研究和實踐。
參考文獻
[1] 周兵,孟慧君,王棟.基于本體的語義相關度研究[J].現代計算機:專業版,2018,632(32):12-15.
[2] 湯再江,徐享忠,薛青等.作戰行動本體構建及基于本體的語義推理[J].計算機仿真,2018,35(06):7-11+404.
[3] 于超,王璐,程道文.基于本體的教育資源語義檢索系統研究[J].吉林大學學報:信息科學版,2018,36(02):98-103.
[4] 劉鋒.基于領域本體的文本語義挖掘方法現狀分析[J].湖南農機,2018,45(03):242.