郭維威,褚洪波,李曉艷,劉 鋒,田鐵剛,尹衍林
(黑龍江工業學院,黑龍江雞西 158100)
?
領域本體模型構建與信息檢索方法研究
郭維威,褚洪波,李曉艷,劉鋒,田鐵剛,尹衍林
(黑龍江工業學院,黑龍江雞西158100)
摘要:傳統的信息檢索主要是利用關鍵詞進行匹配檢測的,在信息檢索過程中時常出現檢索結果不全等問題。通過引入了本體論、構建本體框架,利用概念相似度的信息檢索方法,從而提高信息檢索的查全率和查準率。
關鍵詞:信息檢索;領域本體;概念相似度;語義距離
(1)傳統信息檢索方法的缺陷。傳統的信息檢索主要是利用關鍵詞進行匹配檢測的,也就是將待檢測的信息分解成若干個關鍵詞進行檢索。在檢索過程中這些關鍵詞字符只能從字面上來理解其含義,而詞匯的內在概念無法表示出來,所以在信息檢索過程中時常會出現檢索結果不全、檢索結果還會出現一些用戶不需要的信息;同時檢索結果也很難檢索到關鍵詞背后潛藏的信息。產生上述問題的主要原因是傳統的檢索方法很少具有關鍵詞語義的邏輯推理能力,而且大部分網頁信息都是采用無結構或半結構的HTML和XML語言開發設計的,檢索中計算機只能按照其結構類型進行解析,而不能準確理解它們的內在含義。
(2)基于本體語義Web技術。為了解決傳統檢索方法中存在的這種問題,學者正在研究新技術和新方法,其中比較成功的是基于本體語義Web的技術?;诒倔w語義web技術是在萬維網的基礎上進行了擴展,在檢索信息中引入語義內容。該語義內容和關鍵詞很相近,或可以代替關鍵詞,通過語義內容檢索時可以對頁面信息分類理解,這樣就可以有效的協助用戶完成各項檢索操作?;诒倔w語義Web的檢索技術從根本上能夠克服傳統檢索模型僅提供基于關鍵詞檢索存在的缺點,能夠充分表示檢索信息的內在意義,并檢索出與輸入信息的同義詞與近義詞、上位與下位等信息,從而提高了對信息檢索的查全率和查準率,也提高了用戶滿意度。
(1)本體定義及領域本體。本體(Ontology)是“世界上客觀存事物的系統地描述,即本體可以理解為存在論”,對本體的定義有很多種,其中對其普遍的定義為“本體是具有明確的共享概念化的一種形式說明”。領域本體的定義過程具有樹狀結構,我們通過已經定義好樹狀層次結構,用來描述概念與概念之間以及領域本體中的各種關系,從而進一步實現各種應用之間的資源共享。領域本體具有很好的層次結構,該結構呈樹狀結構顯示,這種結構能夠有效的支持概念之間的邏輯推理,所以領域本體在信息檢索方面具有較好的應用價值。創建本體模型的工具可以選擇由斯坦福大學利用Java編寫開發的開放源碼本體編輯器Protege,它不僅可以建立本體的模型,還可以將已經建立的模型轉換為相應的文件并存儲在數據庫中,為以后檢索操作奠定基礎。
(2)研究的相關工作?;诒倔w語義的信息檢索過程中主要考慮到文檔的內部結構,可以利用集成化的、非形式化的和形式化的方法進行信息檢索。使用非形式化方法進行信息檢索時,主要是借助于語義空間模型,利用統計與概率分析方法為進行本體語義檢索,在語義空間模型的表示下,可以通過空間向量之間的相互乘積來計算索引項和文檔之間的語義關聯程度,進而完成信息檢索,使檢索結果更全面。按照自然語言的理解領域也可以完成信息檢索,其過程是首先通過深入的分析自然語言文本,然后通過分析來獲取完整的、復雜的語義信息。采用這種方法描述,可以在一個領域本體的支持下,利用概念層次結構表示的語義,這種方法得到的結果的查全率和查準率都比較低。在信息檢索中引入本體,將數據實現了語義描述,采用領域本體語義的信息檢索能取得較好的檢索效果。
領域本體模型構建時,首先要考慮到本體的組成部分。通常情況下,一個領域本體由以下幾個方面組成,即該領域本體的層次體系、對應屬性及屬性的取值范圍、本體層次間的語義關系、層次之間的推理規則。利用領域本體中類、關系、函數、推理規則和實例五個基礎說明來描述本體結構模型。其次在建立領域本體模型時要有相應的領域專家與知識專家的共同參與,其構建過程是一個繁瑣的手工過程;本體構建可以利用概念節點的有向圖來表示,每個概念由對象、事件和屬性三個部分組成,概念之間的關聯可以利用有向圖節點之間的連線來表示。構建本體時要明確本體包含的范圍,還要考慮到本體以后的重用,本體建構的具體過程有5個步驟。
(1)確定領域本體覆蓋范圍。明確需要建立本體的目的和任務,因為研究的領域越大,所需要建立的本體就越大,因此要根據需要來限定本體的研究。
(2)對待要建立的本體進行分析。定義本體中需要的專業術語,同時確定術語的含義以及術語之間存在的相互關系,在此過程中要求有領域專家和知識專家的參與,如果對該領域了解非常全面、詳細,那么所建立的領域本體也就越完善,檢索時更加準確。
(3)領域本體的表示。通常情況下采用語義模型表示本體,如概念及其屬性模型。
(4)領域本體建立的標準驗證。本體的建立要遵循清晰性、一致性、完整性和可擴展性四個標準。清晰性是指本體中采用的術語要專業,同時沒有二義性;一致性是采用的邏輯關系要一致;完整性是指領域本體中的概念及其屬性的描述要完整,要包含所建立領域本體內所有概念,雖然有一定的難度,但要不斷的維護和完善;可擴展性是指隨著領域的不斷發展可以隨時引入新的本體。
(5)領域本體的建立。對符合上述標準的予以建立,否則跳轉到第二步。
概念相似度的計算主要有3種方法。
(1)基于距離的相似度計算。該方法的思想是利用概念之間層次結構中的幾何距離來量化的,這種計算方法依賴領域本體的基本結構,本體建構的是否嚴密將導致計算結果的精準度。
(2)基于信息內容的語義相似度計算。這種方法引入多個概念之間的公共信息,如果公共信息多,則說明這幾個概念具有高相似性,那么其語義相似度也就越大,相反則越小。如果某個概念出現的頻率很小,則認為概念的信息量就很大。
(3)基于屬性的相似度計算。通常情況下判斷事物之間是否具有聯系時,可以利用他們之間的特征來判斷,也就是利用他們具有的屬性來判斷其相似性。比如判斷兩部手機是否相似或相同,我們就可以利用其的品牌、屏幕的大小、相關配置和顏色等屬性來判斷,如果屬性都相同,則說明兩個事物相同,如果公共屬性很多,則說明兩者具有相似性。
參考文獻
[1]王兵.本體概念的語義相似度研究[J].世界科技研究與發展,2013,(1).
[2]劉鋒.一種優化的基于領域本體語義距離的概念相似度計算模型研究[J].曲阜師范大學學報,2015,(10).
[3]丁政建.一種改進的相似度計算方法[J].計算機工程,2010,(12).
The Resear
ch on the Construction of Domain Ontology Model and Information Retrieval Methods
GUO Wei-wei,CHU Hong-bo,LI Xiao-yan,LIU Feng,TIAN Tie-gang,YIN Yan-lin
(Heilongjiang University of Technology,Jixi,Heilongjiang 158100,China)
Abstract:Traditional information retrieval depends on keywords to do matching detection.Therefore,problems such as incomplete retrieval results occur a lot during the retrieval process.Through introducing the ontology,constructing ontology framework,and using the concept of similarity information retrieval methods to improve the recall ratio and precision of information retrieval.
Key words:information retrieval;domain ontology;concept similarity;semantic distance
作者簡介:郭維威(1978-),女,黑龍江雞西人,碩士研究生,副教授,主要研究方向:數據庫、軟件開發。
基金項目:本文系2014年黑龍江省教育廳科學技術研究項目“基于領域本體的語義web智能搜索模型的研究”的階段成果,項目編號:12543050。
收稿日期:2015-12-11
中圖分類號:TP391.3
文獻標識碼:A
文章編號:2095-980X(2016)01-0093-02