趙顏利,李連軍,余紅梅,史玉彬
(32179部隊,北京100012)
知識圖譜作為科技領域前沿技術,在解決數據組織管理、提供知識支撐與服務方面存在巨大優勢。將知識圖譜引入戰例數據治理,具有以下5大優勢:
1)數據融合[1]。知識圖譜從關系的角度出發,對數據進行采集、提取、關聯,將海量多源、分散孤立的戰例數據進行融合與組織;
2)知識擴充。傳統數據庫擴充新類型數據,須修改設計庫表結構,耗費大量時間和精力。而知識圖譜可在不改變原有知識關系結構的情況下,簡易方便地擴充新知識;
3)知識共享[2]。傳統的信息系統,不同系統間沒有統一規范的數據格式,相互間無法聯通,難以實現數據共享和復用。知識圖譜基于本體模型實現了對知識的統一語義描述和規范,能夠實現知識的共享;
4)智能應用。知識圖譜通過本體對戰例數據賦予語義,實現了計算機與人、計算機與計算機之間的理解、交互,可為智能語義檢索、知識推理等應用提供支撐,也可為上層各類業務決策提供輔助;
5)知識展示。知識圖譜采用基于圖的結構表達知識,以直觀可視化的形式對知識及知識之間的關系進行展示,使得用戶對知識的理解更為容易。
本體是知識圖譜的核心內容和重要基礎,更是構建知識圖譜的關鍵。本文提出了一種面向領域知識圖譜的工程化本體構建方法,基于該方法實現了戰例領域知識圖譜本體模型構建,并研究建立了本體與實體知識的映射機制。
本體的概念起源于哲學領域,用于表示世界的本質。20世紀80年代,本體被引入到信息科技領域,成為自然語言處理、信息集成、信息檢索、知識工程、人工智能等領域研究的重點[3-5]。1998年,Studer提出“本體是共享概念模型的明確的形式化規范說明”,成為廣泛接受的定義[6]。該定義包含以下4個層次含義:
1)概念化。表明本體是對客觀世界進行抽象描述得到的概念集模型;
2)共享性。表明本體概念集是被共同認可的,具有通用性;3)形式化。表明本體是計算機可理解和處理的;4)明確性。表明本體的概念以及概念間關系被明確的定義,無歧義。
由本體的定義可知,本體是某領域概念及概念間的關系的模型,可實現該領域的形式化描述[7]。戰例本體則是戰例領域知識中的概念及其相互關系的形式化描述模型。戰例本體構建了統一認知的概念集,克服人、組織以及系統之間因不同背景、語言、技術之間的溝通障礙,使得領域知識得以共享和復用。
知識圖譜概念由谷歌公司于2012年提出,并迅速成為學術界與業界研究的熱點。知識圖譜以結構化的形式描述客觀世界中概念、實體及其關系,將互聯網的信息轉化為更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力[8]。知識圖譜本質上是基于圖結構的語義網絡知識庫[9],知識圖譜中的知識用“節點—邊—節點”組成的“三元組”表示,其中“節點”表示現實世界中的概念、實體,“邊”表示實體、概念間的相互關系,具體表現為“概念—關系—概念”“實體—關系—實體”的“三元組”。知識圖譜邏輯上分為本體層和實體層。本體層建立在實體層之上,由一系列對領域知識形式化描述的概念集合庫組成;實體層是概念層的實例化,由一系列具體的實體知識庫組成。
知識圖譜包括2 類通用知識圖譜與領域知識圖譜[10-11]。通用知識圖譜基于通用的常識進行構建,其知識面覆蓋大,知識深度及準確性要求相對較低,一般面向廣大普通的用戶;領域知識圖譜基于專業的領域知識進行構建,其知識面覆蓋較窄,知識深度及準確性相要求相對較高,一般面向特定的領域用戶。知識圖譜構建方法包括自頂向下和自底向上2種[12]。自頂向下的方法是先建立本體知識模型,而后依據模型實例化知識構建實體庫,形成知識圖譜;自底向上的方法是先抽取實體知識,而后歸納概念模式形成本體模型。自頂向下的方法須要在專家的指導下建立本體模型,常用于領域知識圖譜構建;自底向上的方法則主要對百科等開源數據集進行知識抽取,歸納出概念模型,常用于通用知識圖譜構建。
戰例知識圖譜是軍事戰爭中具體戰爭行動、戰斗行動所涉及數據信息的知識描述與組織,屬于典型的領域知識圖譜。本文戰例知識圖譜的構建采用自頂向下的方法,先建立戰例本體模型,而后本體實例化。
目前,本體構建尚沒有統一的標準,現有本體的構建方法依據其涉及的領域和具體工程而不同。經典的本體構建方法,如,IDEF5[13]、TOVE 法[14]、骨架法[15]、METHONTOLOGY 法[16]、七步法[17]、五步循環法[18]等,都來自具體的應用和實踐,國內外學者對上述的經典方法進行了系統的比較。為保證語義的完整性和正確性,本體構建的過程須要領域專家的參與和指導。但由于本體的構建過程復雜,形式化的描述等又須要工程技術人員參與。如何平衡領域專家與工程技術人員的合作是本體構建的一個難題。為此,本文提出了一種面向領域知識圖譜的工程化本體構建方法,由領域專家根據業務需求明確領域范圍、列舉重要術語,指導工程技術人員確定概念分類體系,明確概念、關系,再通過校驗評價進行迭代進化修正,如圖1所示,具體操作如下。
1)確定本體的領域及應用范圍。根據業務需求,確定本體領域具體應用范圍,劃定本體的數據邊界。
2)列舉領域中的重要術語。搜集相關的數據,列舉領域內重要的術語概念,為建立概念分類結構奠定基礎。
3)定義概念類及分類層次體系。在領域專家指導下,設計確定概念類,并建立概念類的分類層次,實現領域知識的概念化描述。
4)定義概念類之間的關系。定義概念類之間的關系,實現領域知識關聯的關系描述。
5)定義概念類的屬性。定義概念類的屬性,實現信息的進一步描述。
6)本體校驗。通過專家鑒定、用戶檢驗等方法對本體校驗、評價,并持續迭代優化完善。

圖1 本體構建流程Fig.1 Ontology construction process
2.2.1確定戰例本體的領域及應用范圍
由于知識存在相關性,領域知識圖譜在構建過程中往往會出現知識超出領域范圍,邊界失控,導致難度與復雜度增大,產生大量冗余知識等問題。為此,構建領域知識圖譜本體須正確理解業務需求,確定本體具體應用范圍,劃定本體的數據邊界。
戰例本體的構建目的主要是實現戰例領域知識的描述,為戰例領域知識獲取、組織和管理提供模型支撐。軍事戰例所涉及的數據比較廣泛、復雜,對戰例領域數據資料進行分析,涵蓋以下數據:①作戰對象數據,包括組織編制、人員編配、崗位編配等;②武器裝備數據,包括參與作戰的各類武器裝備;③戰場環境數據,包括作戰地域的電磁、交通、地形、氣象、水文等;④戰例基礎數據,包括作戰時間、背景、過程、樣式、視頻、音頻、圖像等基本信息;⑤資料報告數據,包括戰例研究的各類論文、研究等;⑥軍事理論數據,包括作戰條令、作戰想定、任務清單等。
2.2.2列舉戰例領域中的重要術語
在明確戰例領域知識范圍的基礎上,對數據收集整理,依據《中國人民解放軍軍語》《國防科學技術敘詞表》、作戰條令等軍事領域專業文獻資料列舉該領域相關術語,為后續建立概念分類體系奠定基礎。
2.2.3定義戰例領域的概念類及分類層次體系
以列舉的術語集為基礎,在領域業務專家和技術專家的共同參與下,歸納出戰例領域知識的頂層最寬泛的概念,而后進行細化,實現整個戰例知識體系框架描述。
1)定義頂層概念類。設置組織、裝備、人員、時間、地域、環境、戰例事件、文獻資料為頂層概念類,代表戰例領域知識體系的頂層描述。
2)細化建立概念分類等級層次。頂層概念類確立后,繼續細化分類,實現對戰例領域知識的進一步詳細描述。概念層級分類,可采用2種方法:一是復用已有的本體概念分類,即借鑒已有的本體分類,在戰例領域中復用該本體;二是以行業標準為指導進行分類,參照遵循行業的各類標準規范,借助專家指導意見進行分類。目前軍事領域已構建的本體較少,難以查找和復用。故此,以《中國人民解放軍軍語》、國家軍用標準文件等為指導,結合軍事領域專家意見,進行戰例本體概念分類體系細化。
概念分類體系中,各概念類的層級深度根據實際情況確定,分至不同層級。圖2 為戰例領域本體分類層次體系部分展示。以裝備概念類為例,“戰例本體―裝備―主戰裝備―單兵班組武器―手槍”經5 級結構完成層次分類;“戰例本體―裝備―電子信息裝備―陸基信息裝備―情報偵察裝備―電子信號偵察裝備―無線通信偵察裝備”經7級結構完成層次分類。

圖2 戰例領域本體分類層次體系Fig.2 Ontology classification hierarchical system of battle field
2.2.4確定概念間關系
概念間的關系分為等級關系和非等級關系。等級關系用于規定自頂級概念開始至各級概念間的樹狀層次結構關系,每個概念與其他概念構成上下位的關系;非等級關系用于規定不同概念類間的關聯關系。等級關系在第3步驟建立分類層次體系時已經完成,該步驟主要確定非等級關系。本體概念類之間部分關系示例,見表1。

表1 戰例本體概念類之間部分關系Tab.1 Some relations between concept classes of combat case ontology
2.2.5確定概念屬性
確定概念分類層次體系后,尚無法對領域知識進行完整表示,還須要描述概念的內部結構,即對概念的屬性描述,實現對知識的深層描述。首先,確定頂層概念類的屬性;而后,逐級確定下級子類概念的屬性。子類可以繼承上級父類的屬性,同時可以擴充自身屬性。戰例本體概念類的部分概念類屬性示例如表2所示。

表2 戰例本體部分概念類屬性Tab.2 Attributes of some conceptual classes of battle case ontology
知識圖譜由本體庫與實體庫構成,本體庫、實體庫由節點與關系形成的三元組進行表示,記為
G=(Node A,Relation,Node B),
其中:G 表示三元組;Node 表示節點;Relation 表示節點間的關系。
由此,戰例知識圖譜可表示為
KG={OG,EG},
其中:OG表示本體庫集合,由一系列概念節點及關系三元組組成,如,(主戰裝備,子類,直升機);EG 表示實體庫集合,由一系列實體節點及關系三元組組成,如,(阿帕奇直升機,火力支援,B連戰斗分隊)。
上述表示中,本體庫OG是對實體庫EG的規范和約束,實體庫EG是本體庫OG的實例化。構建戰例知識圖譜,須建立本體庫到實體庫的映射機制,實現本體到實體的三元組實例化映射。
將戰例本體層級結構當作樹結構,各層級結構的概念類作為樹節點,節點間的關系用連線表示;戰例實體間結構作為網狀圖結構,實體節點為圖的節點,實體間關系用連線表示。由此,本體庫與實體庫之間的映射可以記為樹與圖之間的映射關系,如圖3所示。
圖3 以部分戰例的本體概念與實體知識為代表,展示了2者之間的映射。圖中上半部分為戰例本體庫的樹狀結構圖,節點代表概念類,節點間連線代表子類繼承關系;下半部分為戰例實體庫的網狀關系圖,節點代表實體知識節點,節點間連線代表實體知識間的相互關系;圖中的虛線代表本體中的概念類節點到實體類節點映射,每個知識實體節點都有本體庫中的概念類映射。

圖3 戰例本體的實例化映射Fig.3 Instantiation mapping of battle case ontology
為檢驗本體構建方法的有效性,構建戰例本體的合理性,依據上述戰例本體和映射機制作為規范和指導,構建戰例領域知識圖譜。通過對戰例領域所涉及的組織編制、作戰編成、裝備運用、作戰地域、作戰環境等數據進行采集、提取、融合,最終實現知識實例化,形成關系縱橫交織的知識網狀圖譜,同時設計原型系統進行知識服務。
圖4 展示了“落錘行動”戰例的基本情況查詢,圖中左側展示了該戰例的全部知識關聯圖譜,右側是對具體知識節點選擇后的信息查詢展示。
圖5 展示了“落錘行動”戰例中裝備運用情況,圖中左側顯示了以裝備運用為中心的知識關聯網絡,右側為選擇具體裝備的性能指標展示。
圖6 展示了“落錘行動”戰例中兵力運用情況,圖中左側展示了參戰力量的編制編成情況,右側為選擇組織節點具體信息。

圖4 戰例基本情況查詢Fig.4 Basic information query of battle case

圖5 裝備作戰運用查詢Fig.5 Query of equipment operational application

圖6 兵力運用查詢Fig.6 Query of force utilization
為構建合理可用的戰例知識圖譜,以解決戰例數據組織、管理、共享及重用等難題,本文主要完成了以下工作:①提出了一種面向領域知識圖譜的工程化本體構建方法;②基于該方法構建實現了戰例本體模型;③研究建立了戰例本體與知識實體間的映射機制;④構建知識圖譜及設計原型系統,對戰例本體進行了檢驗驗證。
檢驗實證,基于本文方法建立的戰例本體合理有效,能夠規范和指導戰例知識實體的實例化,建立的知識圖譜可為科研人員、軍事專家開展相關理論研究、教學實踐、實驗評估等提供智能化的知識支撐與服務,能夠對我軍新作戰思想產生、新戰法形成、作戰力量建設、新型裝備研制等過程起到推動作用。
本文主要對領域知識圖譜的核心基礎本體模型進行研究和實踐,領域知識圖譜的其他重要內容,如知識獲取、知識融合等,則通過人工手段實現,未進行研究和探討。大數據環境下,構建大規模的領域知識圖譜,手工方式已無法滿足需求,人機結合的自動化、半自動化知識獲取與融合成為領域知識圖譜構建的難點,也是后續研究的重點。