張星
摘 要:大型設備領域的維修案例大部分都是以文本的形式存儲,而維修文本案例有自己的結構特點。在本文中,我們建立起基于本體的大型設備維修文本案例模型,通過語義相似度算法,為大型設備維修文本案例檢索帶來了極大的便利。
關鍵詞:領域本體;文本信息;語義檢索模型
1 引言
隨著網絡時代的發展,網絡上的信息量越來越大,而且很多網絡信息都是以文本方式存儲,同時也出現信息冗余現象。由于基于本體的檢索更加注重語義上的匹配,在充分考慮維修案例結構特點的基礎上,利用本體對該領域知識進行建模,能夠有效地提高信息檢索的查全率和查準率。目前,對無結構或者半結構的文本信息的檢索研究的相對較少,因此,對基于本體的信息檢索研究顯得十分重要。
國外對于本體的研究處于領先地位,研究出了一系列本體的開發方法,例如骨架法、企業建模法、Methodology法等。國內對本體的研究起步較晚,主要研究內容包括產品信息建模、虛擬企業建模、常識知識庫等。其中比較有影響的有中科院數學所陸汝鈴院士領導的常識知識的實用性研究[1]。宋峻峰提出的基于本體的信息檢索模型采用了描述邏輯作為構造本體的本體語言,使用本體中定義的詞匯來標記文檔,生成基于本體的文檔邏輯視圖和用戶信息需求邏輯視圖,從而可以實現語義層次的檢索,使檢索性能大大改善[2]。
在設備維修領域,半結構化的文本非常常見。在設備維修工作中,故障是最核心的概念,而且,該領域在知識表達方面缺乏統一的知識模型,這樣很容易造成對同一個知識的描述存在不同的表達方式,這影響了相關人員對領域知識的理解。因此,針對目前大型設備領域對故障知識實際應用方面的需求,并結合該領域知識的結構特點,本文首先對該領域的知識進行本體建模,并在本體模型的基礎上建立基于語義的檢索模型。
2 基于領域本體的構建
2.1 文本維修案例結構的特點
文本案例是指以文本方式存在的文本案例。我們稱以文本方式存在的關于大型設備維修的案例為文本維修案例。由于該領域的文本維修案例的結構和表達形式相對規范,因此文本維修案例是一種半結構化的文本案例,簡稱為文本維修案例。文本維修案例主要包括摘要、故障車輛的基本信息、故障現象、故障診斷過程、故障原因分析、故障解決方法等主要部分。
2.2 大型設備文本維修案例故障本體的構建過程
第一步是明確領域本體的專業領域和范疇:設備故障本體的專業領域是設備在使用過程中出現的故障、情境等領域;用戶對象是設備領域的相關技術人員。構建設備故障本體的目標是利用本體的思想和描述語言組織故障領域知識。
第二步是領域信息的收集和分析:我們通過書本、網頁等知識來源獲取領域信息,經過對領域信息的分析,得到該領域中的重要概念集及相關體系結構關系。
第三步是確定核心概念:列出所有潛在的核心概念,經過識別、分析和統計,最終確定設備故障領域知識的核心概念,包括“摘要”、“故障件基本信息”、“故障現象”、“故障診斷”、“故障原因”、“故障解決方法”等。
第四步是建立概念層次結構:確定好設備故障本體的核心概念之后,再對這組核心概念進行擴展,建立起整個本體的概念模型。經過對核心概念的層次體系結構的擴展,總結得出設備故障領域本體的概念層次模型。
第五步是定義概念和屬性:概念層次結構建立起來之后,需要通過定義概念間的關系和屬性來將這些概念連接起來。概念的屬性一般分為兩種,一種用于描述概念自身的信息和結構,一種用于描述概念之間的關系,即數值屬性和對象屬性,同時也要定義屬性自身的性質。
第六步是本體編碼:基于OWL本體描述語言應用Protege本體開發工具對概念模型進行形式化的編碼,以便在計算機上能夠理解。
第七步是實例化:故障領域本體借助Protege等本體構建工具自動生成符合OWL語法的庫文件,然后采用手工方式在本體構建工具中進行實例聲明、實例描述和關系關聯完成大量的本體概念實例化工作。
3 基于本體的文本案例檢索
故障知識的語義檢索,是在本體建模的基礎上實現基于設備故障領域概念的故障案例檢索。根據輸入的故障產品、故障現象、故障模式等檢索條件,應用本體概念模型,語義檢索引擎將檢索條件映射到與其語義相關的概念上,應用規范的概念和相似度匹配算法進行檢索,得到一組具有不同相似度的故障案例集作為檢索的結果,從而可參考相似案例來解決當前的故障問題。本體映射采用XML映射配置技術,將用戶查詢條件映射為本體描述結構的三元組<概念,屬性,匹配值>,進行查詢條件三元組與本體模型三元組的匹配及語義推理。
圖1故障知識語義檢索模型圖
語義檢索的核心在于如何正確的定義和量化概念之間的“語義相似度”。最近鄰法檢索策略是一種應用較為廣泛的語義相似度算法。基本思想是從多維度空間概念集中找出與目標概念最近的概念,概念的每一個特征屬性即是一個維度。最近鄰法檢索的語義相似度函數如下:
(1)
表示概念A和概念B之間的相似度;為第i個特征屬性的權重,;n為檢索屬性的個數;為第i個特征值的語義相似度函數,反映了兩個特征概念之間的某種語義關系。根據概念詞匯的可替換度和詞義的符合程度,對應的相似值也不同。其對應的基于本體的文本案例檢索模型如下圖所示
圖2基于領域本體的語義檢索模型
4 結論
根據大型復雜設備文本維修案例這一領域中文本案例自己的結構特點,本文選擇使用基于本體的方式對該領域的文本案例進行知識表示,將該領域中繁雜無序的知識以一定的結構層次展現出來,給該領域進行信息的檢索帶來了極大的便利。同時,針對文本信息的檢索,我們設計了一套適合該領域信息檢索的算法,最后本文給出了基于本體的文本案例信息的檢索模型。
參考文獻
1.中國科學院計算機技術研究所陸汝鈴院十研究方向及主要科研成果[EB/OL]
2.宋峻峰,張維明,肖一東,唐九陽.基于本體的信息檢索模型研究[J].南京人學學報.Vol.41,No.2, 2005.191-195