/北京航天自動控制研究所

隨著科技的進步,航天領域產生、存在著大量的信息,如文檔、代碼、案例、多媒體等。如何管理這些信息并使之為正常的工作服務就成為了現實中面臨的一個問題。為了解決該問題,知識組織應運而生,它的目標是管理相關領域的信息,并分析總結成為知識,以便滿足工作人員的需要。知識組織的主要任務是要對企業級的知識資源進行全面和充分的開發以及有效的利用,充分獲取、生產、傳播和保存,利用集體智慧實現知識創新,獲取行業競爭優勢。因為傳統的知識組織方法缺乏統一的知識模型,容易造成用戶的誤解,而存儲形式的不同也不利于知識的共享和交流,影響了查全率和查準率。為了解決這些問題,將本體引入知識組織中,基于本體的知識組織是提高知識共享性、互操作性、可維護性和可復用性的一個有效途徑。
從知識的角度來看,本體是一種概念組或詞匯表的理論,可用作構建處理系統的構建模塊,是一種具有代表性的詞匯表形式。本體是用來捕獲相關領域的知識,提供該領域知識的共同理解,確定領域內共同認可的詞匯(術語),并給出這些詞匯(術語)間相互關系的明確定義。本體被廣泛應用于知識表示、知識共享、知識集成、知識復用和知識管理等領域。
本體研究層次圖(見圖1),展示了關于本體研究與開發的不同層次的工作。其中,頂層本體(又稱為通用本體)主要研究通用的概念,如時間、空間、事物、事件、對象、行為等,其完全獨立于特定的問題或領域,可以在很大范圍內共享;領域本體則研究與一個特定領域有關的術語或詞匯,如航天、導彈、軍事等;任務本體是定義通用任務或推理活動,如需求、設計等。領域本體和任務本體可以引用頂層本體中定義的詞匯來描述自身的詞匯。應用本體描述特定的應用,其既可以引用涉及特定的領域本體中的概念,又可以引用出現在任務本體中的概念。
1999年Perez等人提出了構建本體的5個最基本的建模基元,即類或概念、關系、函數、公理、實例,它們能夠準確地刻畫所描述的對象。
類或概念——從語義上講,表示的是對象的集合。一般采用框架結構進行定義,包括概念的名稱,以及與其它概念之間的關系集合,并用自然語言對概念進行描述。

圖1 本體研究層次圖
關系——在領域中概念之間的交互作用。從語義上講,關系對應于對象元組的集合。
函數——一類特殊的關系。函數的重要特性是關系的前n-1個元素可以唯一確定第n個元素。
公理——表示永遠成立的聲明。
實例——代表元素。從語義上講,實例表示的就是對象。
目前,本體構建技術還不能實現完全自動化構建本體,主要還是依靠手工構建或半自動生成一些本體。因此,依據一定準則構建本體十分必要,它可以使本體構建過程更加規范,構建效率更高、質量更好。但由于本體構建過程在各個領域和不同工程中各不相同,所以到目前為止,還沒有一套統一標準的本體構建方法。而1995年Gruber提出的本體構建5條準則是最有影響的,即:
清晰性——本體應該能有效地傳達其中所定義的術語的含義。
一致性——本體必須是一致的,即由本體得出的推論與原有的定義是相容的,不能產生矛盾和沖突。
可擴展性——本體在設計時不僅要使用領域內公認的詞匯,同時還要考慮可能的應用任務范圍,使得本體的表達能被單調地擴展。
編碼偏好程度最小——概念應該在知識層次上說明,而不應依賴于特定的符號層次的編碼。
最小本體承諾——對待建模對象給出盡可能少的約束。
以上5條準則在使用過程中需要進行權衡,難以全部滿足。
當前,構建知識本體的工作主要依靠手工編輯,沒有實現工程化,每個本體開發組都有自己的原則、設計標準和定義方法。然而,知識本體的構建直接影響著知識組織的結果,以及用戶獲取知識的體驗。因此,選用合適的知識本體構建方法非常重要。
目前,美國、歐洲等多個本體開發組織分別提出了自己的本體構建方法,如英國愛丁堡大學開發的專門用來創建企業本體的“骨架法”,加拿大多倫多大學從TOVE項目中總結出來的TOVE企業建模法,西班牙馬德里理工大學提出的Methontology本體建模方法等。
(1)“骨架法”
建立在企業本體基礎之上,是相關商業企業間術語和定義的集合,該方法只提供開發本體的指導方針,“骨架法”流程如圖2所示。
確定本體應用的目的和范圍。根據所研究的領域或任務建立相應的領域本體或過程本體,領域越大,所建本體越大,因此需限制研究的范圍。

圖2 “骨架法”流程圖
本體分析。定義本體所有術語的意義及其之間的關系。此步驟需領域專家的參與,對該領域越了解,所建本體就越完善。
本體的表示。一般用語義模型表示本體。
本體的評價。建立本體的評價標準是清晰性、一致性、完整性、可擴展性。清晰性就是本體中的術語應被無歧義的定義;一致性指的是術語之間關系邏輯應一致;完整性是指本體中的概念及關系應是完整的,包括該領域內所有概念,但很難達到,還需不斷完善;可擴展性是指本體應用能夠擴展,在該領域不斷發展時能加入新的概念。
本體的建立。對本體按以上標準進行檢驗,符合要求的以文件形式存放,否則轉本體分析階段。
(2)TOVE企業建模法
該方法由多倫多大學企業集成實驗室研制,用于構造多倫多虛擬企業本體工程,使用一階邏輯進行集成。TOVE本體包括企業設計本體、工程本體、計劃本體和服務本體,其流程如圖3所示。
設計動機。定義直接可能的應用和所有解決方案,提供潛在的非形式化的對象和關系的語義表示。
非形式化的能力問題。能力問題作為約束條件,包括能解決什么問題及如何解決,這里的問題用術語表示,答案用公理和形式化定義回答。由于是在沒有形式化的本體之前進行的,所以叫非形式化的能力問題。
術語的形式化。從非形式化能力問題中提取非形式化的術語,然后用本體形式化語言進行定義。
形式化的能力問題。一旦能力問題脫離了非形式化,本體術語已定義,則能力問題便自然形式化。
形式化公理。術語定義所遵循的公理用一階謂詞邏輯表示,包括定義的語義或解釋。
完全理論。說明問題的解決方案必須是完全的。

圖3 TOVE方法流程圖
(3)Methontology本體建模法
該方法由馬德里理工大學人工智能實驗室提出,分為管理、開發和維護3個不同的階段。其中,管理階段的系統規劃包括任務的進展情況、需要的資源、如何保證質量等問題;維護階段包括知識獲取、系統集成、評價、文檔說明、配置管理。
通過這3種方法的分析對比可知,“骨架法”更適合作為航天知識本體的構建方法。
知識本體的組織是構建知識系統的重要手段,其目的是為了加強知識檢索和促進知識的增長。對于本體知識系統而言,關鍵是建立知識本體的體系結構。其中,概念體系和屬性體系是構建本體體系結構的2個重要組成部分。此外,描述領域概念的一些典型關系對于刻畫概念及屬性之間的關聯具有無法替代的作用。在構建屬性分類體系時,往往需要參照這些存在于領域之中的固有關系。
現實世界無時無刻不在改變,知識本體的含義、層次關系、存在方式也應向前發展,而且用戶需求也在不斷改變。因此,要讓本體與時俱進,并根據外部知識源的變化作出及時的調整,實現本體的動態進化。
本體進化是指在現有本體基礎上,依照一定的理論、方法和規則,根據外部的應用需求,對現有本體的數據結構、概念及概念間關系進行不斷豐富、完善、更新、改進及評估的過程和方法。知識本體進化的基本框架如圖4所示。
數據發現。在數據源中發現潛在的新信息,數據源的格式有多種,可以是非結構化的數據,如文檔、多媒體,也可以是結構化的數據,如文本、Excel等。對于不同格式的數據,處理方式也不同:文檔使用信息抽取、本體學習技術處理;其它外部本體則將其轉換成與知識本體語言相兼容的本體。
數據確認。經過“信息發現”所發現的潛在信息,可以通過使用一系列的啟發式規則(如所抽取的術語的長度)來實現數據確認,尤其是從文檔中發現的新信息。對于結構化的數據(文本、Excel)則無需確認,因為結構化的數據已經過明確良好的定義。
本體進化。在所抽取的術語和進化本體中的概念之間建立正確的關系,這些關系是通過搜索多個背景知識源鑒別出來的。進化本體中相應的變化將被直接執行并記錄。
確認進化。對本體實施變化后會引起本體的不一致和不連貫,并且由于存在多個數據源,在本體進化過程中也可能產生數據復制,這樣就會產生沖突知識,所以可以采用人工干預或者自動推理技術來解決。
進化管理。在本體進化以及進化本體對依賴本體的變化傳播過程中,賦予本體管理者一定程度的控制權,主要負責記錄、跟蹤本體變化,找出并解決本體進化過程中未解決的問題。
根據成熟的研究結論,多領域知識融合方法主要可以分為基于規則的知識融合方法、基于分類的知識融合方法、基于估算的知識融合方法3類,它們共同構成了知識融合的基礎方法,如圖5所示。
無論采取哪一種方法,以知識融合本身來說,都可以將知識融合作為對信息的一種處理過程。即采用綜合利用自然語言處理、語義分析、統計分析等技術方法對多領域知識信息進行多層次和多維度檢測、關聯、估計、組合、分析的知識融合,目的是對知識對象的結構和內涵進行優化,為用戶的需求提供更有效的知識信息。

圖4 知識本體進化基本框架

圖5 知識融合方法
航空航天領域擁有大量的顯性知識和隱性知識,需要進行有針對性的發掘、收集和整理。通過對知識組織方式進行控索,對知識本體的構建與存儲、知識本體的組織方式、知識本體的進化過程和多領域知識融合一般架構進行研究,在對比流行的知識本體構建方法后,選取了“骨架法”的知識本體構造方法,并提出知識本體進化的一般流程,進而提出知識融合的架構設計。基于本體的知識組織研究是一個極其深入的課題,包括本體進化過程中的學習、智能化,知識融合過程中的學習訓練,需要不斷完善融合算法,因此仍有許多內容需要進一步深入研究。▲