馬玉鳳, 向 南, 豆亞杰, 姜 江, 楊克巍, 譚躍進
(國防科技大學系統工程學院, 湖南 長沙 410003)
當前,蓬勃發展的信息技術、通信技術使得人工智能、物聯網與機器學習逐漸成為生活的一部分,各行各業為提高工作效率、挖掘更多行業潛能,引入了大量新技術,這些新技術產生了海量數據。在軍事上,廣泛應用的各種傳感器使得數據產生速度成指數增加,因此,全軍正在面臨著來源廣泛、格式多樣、數據價值密度低、數據體量大、種類繁多的數據困境。同時,未來全軍作戰樣式也將從傳統樣式轉變為基于網絡信息體系的聯合作戰樣式。為了獲得作戰的信息優勢,打破武器裝備平臺、現場作戰部隊、各地指揮系統、后勤保障部隊之間的信息隔閡,軍事領域需要將數據轉化為知識,化被動為主動。基于上述需求,建立了各種基于某種服務的軍事信息系統,這些軍事信息系統是結構化的,在傳統關系型數據庫的基礎上進行數據集中存儲、人工計算結果、數據挖掘分析等工作,但上述操作在數據量激增、數據多源異構的背景下面臨嚴峻的挑戰。
因此,在當前大數據背景下,軍事系統中也應該更多引入人工智能、深度學習、數據挖掘等技術,提高軍隊分析數據的效率。軍事系統包含復雜、多源、大量的數據。基于此,將知識圖譜作為軍隊轉型過程中使用的圖數據庫。軍事領域需要一個高效的信息系統,知識圖譜作為信息系統的核心、人工智能的信息容器與知識孵化器,為了適應未來戰場的需求,共享各個平臺之間的信息,學術界展開了對軍事知識圖譜構建的研究,從而輔助決策者的分析與決策。
然而,目前學術界缺乏對軍事領域知識圖譜的系統性綜述,目前有關軍事知識圖譜構建的論文也是針對某種應用場景進行總體設計,對構建知識圖譜各個流程缺乏細節描述,并且應用的技術手段需要更新。基于此,本文首先定義了軍事領域知識圖譜;然后結合軍事獨有的特點及知識圖譜領域最新面臨的挑戰,對軍事領域知識圖譜的構建困境進行了總結;歸納了前人對軍事領域知識圖譜做出的構建嘗試,為了促進該領域的發展,本文在各個階段根據知識圖譜領域最新提出的技術為各個構建階段提供了新的思路。
知識圖譜融合數據庫、信息檢索、數據挖掘、自然語言處理、圖計算分析等技術方法,將某一學科領域知識可視化展現,起源于語義網絡這一概念,由谷歌于2012年最先提出知識圖譜這一概念。知識圖譜的應用顯著地提高了谷歌的搜索能力,此后,通用知識圖譜開始蓬勃發展。目前,知識圖譜數據集規模達到百萬頂點和上億條邊。
知識圖譜分為模式層與數據層兩部分,模式層用于規范數據層,制定了數據層應該遵守的規范;數據層可看做是模式層的實例,存儲具體的知識。按照知識圖譜中包含知識的深度與廣度,將知識圖譜分為通用知識圖譜與領域知識圖譜,前者包含各個領域的知識,而后者是針對某一個垂直領域構建的知識網絡。
軍事知識圖譜建設一般會聚焦在軍事、政治、后勤、裝備、科技等具體特定的領域,是一種典型的面向垂直領域的知識圖譜。
在知識圖譜構建的全周期中,軍事領域知識圖譜構建流程如圖1所示。

圖1 軍事領域知識圖譜構建流程Fig.1 Construction process of military domain knowledge graph
圖2中的知識圖譜構建流程與通用圖譜的流程相似,但各個階段的技術需求有所不同。在知識表示方面,軍事領域知識圖譜涉及到的知識層級更深,對知識的表達能力要求更高、更準確;在知識獲取方面,軍事領域知識圖譜的知識顆粒度小,各個作戰場景中對知識圖譜的精確度要求十分高,因此需要專業人員進行知識抽取與辨析,模式層的建立也以人力為主;在知識應用方面,相較于其他涉及面更廣的知識圖譜,軍事領域知識圖譜在使用過程中針對單個實體的相關實體更多,因此推理鏈條更長,這對領域知識圖譜的專業性、準確性、邏輯性提出了更高的要求。
領域知識圖譜的構建難度大,人工構建方法效率低,自動化方法目前還很不成熟,目前比較折中的辦法就是結合自動化與人工構建的方法,楊玉基等人提出了一種“四步法”構建知識圖譜方法,用于對知識召回率、覆蓋率、準確率要求較高的領域。軍事領域知識圖譜的構建目標是將來自各種數據源的非結構化軍事流媒體數據、半結構化軍事文本數據以及結構化軍事關系數據庫中的數據,通過各種技術進行信息獲取,并將有價值的軍事信息提取出來,最終采用一定形式可視化,最后輔助指揮官進行決策。
軍事領域數據專業性強,保密要求高,知識圖譜的建設工作與在開放環境下不同。因此,在知識圖譜構建的各個環節都面臨很多困境。
(1) 在數據來源方面,目前軍事領域知識圖譜構建數據主要有兩方面:領域內部專業數據庫中的結構化數據和百度百科等開源數據庫上的半結構化數據。軍事領域由于保密原則,數據庫數據難獲取,而基于開源數據構建的知識圖譜信息噪音大,因此,構建起初就面臨數據困難。
(2) 在知識表示環節中,首先,軍事領域實體之間有更加復雜的關系,除了三元組包含的實體、關系與屬性,還額外增加了時間與空間維度等動態規則,普通的三元組知識表示方式很難實現以上的表示;其次,軍事領域知識圖譜在不同的應用場景中對不同部分有不同的細粒度要求,經常使用的圖譜要求更高的細粒度,但是高細粒度會帶來更高的處理代價,因此,平衡細粒度與構建效率也是知識表示階段面臨的一大問題。
(3) 在知識抽取與加工環節中,實體抽取是知識圖譜構建過程中的核心環節,雖然目前實體抽取的技術有所發展,但在低資源、開放抽取、文檔級抽取的工作中準確率較低,只有抽取工作充分細致,才能挖掘隱關系來滿足領域知識圖譜的深度需要;此外,知識圖譜的形式多樣,在通用知識圖譜中發展出很多的知識推理方法,但這些方法不能直接遷移到領域知識圖譜中,需要考慮更多邏輯要求。
(4) 在知識存儲環節中,以文件形式保存的知識圖譜無法進行查詢、檢索、推理、分析等操作。由于關系型數據庫與知識圖譜圖模型之間有顯著差異,無法對大規模知識圖譜進行有效的管理,語義網領域有存儲資源描述框架(resource description framework, RDF)數據的三元組庫,數據庫領域有用于管理屬性圖的圖數據庫,但目前沒有一種公認的具有指導地位的知識圖譜數據庫。
綜上所述,軍事領域知識圖譜除了要解決知識圖譜本身有的難題之外,還有軍事領域的復雜性、專業性、準確性、保密性等帶來的特有問題,這些問題加大了軍事領域知識圖譜構建的難度。
2.2.1 信息來源
在當前聯合作戰的大背景下,軍事信息來源于不同部門,例如軍用數據庫、作戰文書、情報文本、圖像、音頻、視頻等,數據類型繁多,并且存在很多冗余數據;其次,對方會釋放“數據迷煙”,傳統的信息系統構建方式難以表示這些數據,因此,需要首先對數據進行預處理以降低數據稀疏性、維度,再進行知識圖譜構建的各個流程。
2.2.2 知識表示與信息抽取
知識表示是現實世界的可計算模型,是一種由人可理解的機器語言構建的用于高效計算的數據結構。
早期知識表示方法如RDF、OWL(web ontology language),都屬于以符號邏輯為基礎的知識表達方式。隨著表示學習的發展與自然語言處理領域詞向量等嵌入技術的出現。現階段構建軍事領域知識圖譜的基本模型是基于離散符號和基于連續向量的融合知識表示方式,表1對兩種知識表示方式的進行了比較。

表1 知識表示方法比較
知識圖譜是一個維數巨大的稀疏矩陣,為減少數據的稀疏性,提出一種基于深度學習的知識表示方法,先進行維度壓縮,再對實體增加語義描述文本以增加知識表示能力,此方式更容易與深度學習模型集成。現在常使用基于向量的知識表示,現在已經出現了TransE、TransH、TransR、TransA等方法。
知識抽取對應三元組中的實體、關系與屬性抽取,屬性抽取可以采用與關系抽取同樣的方法,實體抽取的完整性、準確率、召回率將直接影響知識圖譜的質量。
實體抽取方法即為命名實體識別,根據模型類型可以分為基于統計模型的方法、基于深度學習的方法和基于文本挖掘的方法,現在常用的方法是卷積神經網絡(convolutional neural network, CNN)—長短期記憶(long short term memory, LSTM)—條件隨機場(conditional random field, CRF)模型。為解決小樣本問題,可在深度學習模型中融合文本特征的方式。關系抽取方法包括基于模式匹配、基于語義詞典、基于特征和基于機器學習。實體識別中3種方法的優缺點比較如表2所示。

表2 實體識別方法比較
在構建軍事領域知識圖譜的實際應用中,知識抽取針對結構不同的數據有不同的知識抽取技術。對結構化的數據直接通過既定的規則抽取,基于軍事領域關系數據庫的結構化數據可以建立關系型數據庫與知識圖譜三元組的映射;現階段研究主要針對非結構化數據,在基于開源數據的軍事領域命名實體識別中,可以構建多神經網絡協作的模型,該模型通過BERT的字向量表達層獲得字級別的特征,通過BiLSTM層抽取上下文特征形成特征矩陣,最后由CRF生成最優標簽序列;在作戰文書的實體識別中利用了CNN-BiLSTM-CRF的方法;當領域內標注數據缺乏以及實體標注不一致時,提出了將生成式對抗網絡與BiLSTM-Attention-CRF模型。為提高知識抽取的可解釋性,可以在深度學習的基礎是使用統計學習方法。
2.2.3 知識融合與推理
知識融合解決知識重復、知識關聯不夠明確等問題,經過數據整合、消歧、加工、推理驗證、更新等步驟后形成高質量的知識庫。軍事領域知識圖譜的模式層是人工輔助構建的,準確率較高;主要需要處理的是數據層的融合。抽取后的信息存在信息冗余的狀況,通過計算相似度的方式實現實體對齊與屬性值整合。面向非結構化文本的關系抽取中,存在知識抽取效率低的問題,可采用一種面向非結構化數據的弱監督關系抽取技術。這種方式不需要大量的人工標注、不需要外部互聯網知識庫的支持,可有效減少泄密風險。
數據層的數據融合要解決的就是與三元組有關的問題:實體的同義詞和一詞多義問題,關系缺失,屬性值沖突。針對數據融合的不同問題,目前常用的方式如圖2所示。

圖2 多源異構數據融合實現過程Fig.2 Realization process of multi-source heterogeneous data fusion
知識推理是挖掘隱含知識、豐富并拓展知識庫的手段,從構建技術上主要分為基于邏輯的推理和基于圖的推理。由于推理需要從豐富的實體及其關系總結的關聯規則,因此,數據量越大,知識推理的正確率越高,但針對這種開源大規模知識圖譜推理的方式有限。小樣本問題的推理難度較大,針對這個問題提出一種協同過濾機制下的混合遠程監督和深度學習的知識推理方法。
2.2.4 知識存儲與更新
知識存儲使用的數據庫包含關系型數據庫與圖數據庫。為了有效管理多種類型的數據,并提高數據查詢、維護的效率,采用多種存儲媒介來滿足軍事領域的需求。采用關系數據庫存儲如概念、實體的基本信息等相對固定的數據;使用圖數據庫對三元組的數據進行存儲,目前比較流行的是Neoj圖數據庫存儲屬性關系類的數據;采用內存數據庫存儲查詢頻繁的數據。
在多源異構數據場景中,將半結構化、非結構化數據以分布式圖存儲與標注,利用關系數據庫、內存數據庫對多源異構數據進行存儲管理,利用文件索引系統對圖像、音頻、視頻數據進行存儲。并提出一種基于多約束條件的分塊管理框架,優化查詢效率。將傳統的知識表示框架與基于潛在特征的知識存儲框架相結合,即對每一個實體與關系添加潛在特征。
知識圖譜構建完成后,為了保證信息的新穎度,要進行實時更新。可采用增量更新的方式持續使用網絡爬蟲的方式采集數據,經過去重、人工篩選等操作之后對知識圖譜進行更新,更新分為模式層的更新與數據層的更新,模式層的更新即為本體的更新,精度要求高,需要人的參與;數據層可采用自動更新。在知識圖譜精讀要求更高的場景中采用半自動化更新的方式,分布式爬取出置信度更高的數據源,抽取實體,人工抽取關系,對得到的新的三元組驗證后更新到知識圖譜中。
如今知識圖譜數據規模不斷擴大,DBpedia中包含超過30億條三元組數據,因此傳統的集中式數據處理方法不能滿足當前的需要,因此可以利用分布式集群來存儲、處理大規模數據庫。如何劃分大規模知識圖譜使得跨分區邊數目最小化,同時提高知識圖譜查詢處理性能是一個研究難點。
為分析在“軍事大數據”的背景下,基于“軍事系統工程”的思想,軍隊轉型過程中使用的技術手段,本文選取了近十年知網上與軍事有關的參考文獻,使用citespace分析,結果如圖3所示。

圖3 軍事大數據知識圖譜Fig.3 Knowledge map of military big data
從圖3中可以看出,知識圖譜是軍事大數據分析的重要手段,在各種關鍵技術中所占比重最高。對上述文獻進行篩選、閱讀與總結后發現:軍事領域知識圖譜在不同的應用場景中具有不同的功能需求側重點,在平時的應用場景中,知識圖譜可用于軍事問答、軍事推薦、涉軍輿情分析等;戰時應用場景中,知識圖譜應具有即時情報保障、作戰輔助規劃、戰時分析與輔助決策的功能,用以保障決策準確率并提高決策的速度。
為減小軍事領域知識圖譜構建難度,同時提高知識圖譜的利用率,目前建立的軍事知識圖譜為場景知識圖譜,即為提高知識圖譜的安全性與可解釋性,以想定聯合作戰場景內的軍事力量部署情況、武器裝備知識、指揮關系知識、作戰支撐保障知識為主要內容,基于不同的場景構建的知識圖譜。
本文對目標識別、軍事知識問答、情報分析幾個方面知識圖譜的應用進行了匯總。
在目標識別方面,首先利用知識圖譜和圖數據庫技術構建戰場海空目標智能識別庫;然后利用基于規則的推理技術和基于案例的推理技術構建多個具有領域知識推理能力的智能體,最后利用分類器融合推理技術進行戰場海空目標智能綜合推理,以推送和問答等形式提供給情報人員。
在軍事知識問答方面,針對軍事裝備領域的知識問答,現已經實現了基于模板匹配的知識問答方式。軍事裝備存在裝備種類、裝備型號、功能等一系列信息,在缺乏專業知識的指導下,很難了解各種裝備的功能,對裝備的管理造成了很大的阻礙,因此可以提供軍事裝備有關的知識體系,建立知識問答系統,用于輔助分析與決策。
在情報輿論分析方面,邢萌等人提出軍事領域知識圖譜在作戰指揮中的應用模型。軍事情報分析在作戰指揮、情報研判、目標分析等工作中起到重要作用,情報之間的關聯是進行綜合分析的橋梁和手段,軍事知識圖譜是實現關聯的有效工具。知識圖譜也能從社交軟件中自動抓取信息來構建知識圖譜,可以用來進行涉軍輿情大數據分析,進行輿情管理。
知識圖譜本身具有局限性,再復雜的知識圖譜都難以表達現實世界的豐富語義,在層級較深與邏輯鏈條長的情況下,知識圖譜的推理過程也比較困難,這方面在短時間內很難得到改進。
人工參與多,知識建模環節是人對未來應用需求的充分理解上設計出來的,機器目前無法做到理解應用場景,給出軍事領域知識圖譜的需求;對于稀疏、隱含、小樣本知識的利用,人的處理更快、更可靠。此外,知識圖譜的應用場景需要人來構建。
軍事領域成型的知識圖譜少,目前的知識圖譜多為概念建模,例如,在實體抽取階段,采用效果最好的BiLSTM_Att模型對軍事類中文語料進行關系抽取任務中,“上下級”“平級”關系類型的識別沒有關注召回率。即使成功建立了知識圖譜,也缺乏準確率、召回率、反應時間等定量分析。但目前在通用知識圖譜領域出現了一些列評估構建準確率的方法,可供軍事知識圖譜使用。
建設知識圖譜要考慮時間、空間等動態的知識,才能滿足軍事領域復雜的需求。目前知識推理的方法主要針對靜態知識圖譜的方法進行,然而知識圖譜因為時間推移、增刪改操作是處于動態變化的。總之,軍事領域知識圖譜現存的問題主要來源于知識圖譜固有缺陷、數據源保密、技術有限。針對最后技術問題,結合當前知識圖譜技術的最新進展,接下來提出一系列可以改進的思路與方向。
首先,在數據源方面,不同部門針對不同的領域有不同的數據庫,為了減小構建大型軍事領域知識圖譜的難度,可以采用先分別構建、后融合的方式來進行知識圖譜的構建,圖4為兩個部門針對不同數據源的知識圖譜構建與融合過程。

圖4 子圖到總圖的融合流程Fig.4 Fusion process from subgraph to total graph
在知識圖譜構建的技術中,知識表示階段將符號邏輯與表示學習結合起來研究更加魯棒、易于捕獲隱含知識、易于與深度學習集成的表示框架;并在構建過程中引入知識表示學習的方法來提高計算效率、緩解數據稀疏、實現異質信息的融合;實體抽取與實體加工環節中,在有大量訓練語料與預先明確定義目標實體類別的前提下,可以采用深度學習方法;面對大數據環境下的開放實體分析任務,文本挖掘方法能從結構化數據源中抽取出質量高的知識,與文本抽取方法結合一下;在知識推理階段,當前使用的推理方法只適應于固定的知識圖譜,可以采用基于結構-描述-種類的模型來處理;最后互聯網上RDF知識圖譜數據集已經遠超了現有的單機系統能力,利用分布式數據庫系統相關技術來進行RDF數據上的查詢處理成為未來研究的趨勢。
知識圖譜的發展為軍隊提供了一個存儲數據、分析數據的新思路,本文在通用知識圖譜與領域知識圖譜概念的基礎上,提出了軍事領域知識圖譜的概念,概括了軍事領域的特殊性給知識圖譜的構建帶來的困難,總結了當前軍事領域知識圖譜構建流程中所使用的技術手段,匯總了目前仍面對的困難。可見,通用知識圖譜的構建日益成熟,其他行業知識圖譜的構建處于上升期,但軍事領域知識圖譜的研究正還處于初步發展階段,未來可將其他行業知識圖譜的技術發展借鑒應用到軍事領域中,主要總結研究方向如下:
(1) 如何在保密的前提下保證數據源的多樣性與準確性?當前構建軍事知識圖譜的方法是基于網絡上開源數據的,這些數據的權威性不強,即使圖譜構建取得成功,也難以應用到實際的軍事場景中。針對這種情況,未來可以使用數據隔離的方法來控制不同角色的查看權限;針對不同部門的權限問題,各個部門采用眾包構建知識圖譜子圖,并將子圖加權融合來形成最終的知識圖譜。
(2) 如何對軍事中的時間、空間等動態特性的知識進行表示?目前其他行業知識圖譜已經開始引入動態特征,但考慮因素單一,構建圖譜的規模較小。在軍事領域中需要研究一種知識表示方法,合理表示時間等信息。
(3) 自動化構建知識圖譜時,如何保證本體構建的準確率,實體、關系、屬性的正確率?解決保密性的一大有效手段是完全采用自動化提取相關信息,當前實體抽取的正確率越來越高,但是對關系抽取的研究仍不夠充分。
(4) 如何驗證構建軍事場景知識圖譜的準確率、召回率、反應時間?構建的圖譜要有一定的使用價值,在使用前,必須驗證其準確率;并在使用時保證即時性。