軍事知識圖譜構建技術

2016-10-31 00:50:00葛斌譚真張翀肖衛東

指揮與控制學報 2016年4期

關鍵詞：語義

葛斌譚真張翀肖衛東

隨著戰場信息的爆炸式增長,傳統的搜索引擎和查詢方式已經無法滿足戰場信息以及大量軍事知識的捕獲和理解,而知識圖譜技術在解決知識查詢的精度以及可擴展性方面展現出了巨大的優勢,成為人們研究的熱點問題.但是現有的知識圖譜多為通用的知識圖譜,針對性較強的領域知識尤其是軍事領域的知識圖譜并沒有較好的構建以及表示方法,因此,建立軍事知識圖譜意義重大.軍事知識涵蓋范圍廣泛,本文定義的軍事知識圖譜主要面向軍事情報分析領域.

軍事情報分析在作戰指揮、情報研判、目標分析等專門業務工作中起到重要作用,情報之間的關聯是各類情報間進行綜合分析的橋梁和手段,軍事知識圖譜是解決情報關聯分析的有效工具和手段.

1 構建軍事知識圖譜的必要性

傳統的數據庫和網頁檢索手段在面對用戶精確化的查詢時存在諸多的不足,現階段以Knowledge Graph[1]為主的一系列知識圖譜為精細化的查詢奠定了基礎,而軍事領域作為科技領域的最前沿,構建起專有的知識圖譜能夠很大程度上提高作戰的效率,為作戰指揮人員提供更為夯實的情報.下面從不同角度來闡述構建軍事知識圖譜的必要性:

1.1 知識圖譜能夠整合大量分散孤立的情報

隨著計算機技術以及計算機網絡技術的不斷推廣使用,情報部門搜集到的越來越多的信息以文本信息的形式被保存下來.知識圖譜的出現使得信息可以在語義層面上進行整合,這種語義層次的關聯技術能夠為情報的綜合分析研判提供強有力支撐.

1.2 知識圖譜能夠讓計算機理解情報語義

理解情報語義的基本任務是要知道情報的主題和涵義,并能夠抽取情報的自然屬性和社會屬性,其本質是對情報數據的主體、場景、行為、情感等要素進行建模.基于語義對中文文本進行智能處理需要情報領域知識的支持,情報領域知識描述情報業務范疇內的各種概念以及概念之間的關系,是對情報進行智能處理的基礎.而知識圖譜利用三元組的形式使不同實體之間的語義關系一目了然,在一定程度上擺脫了傳統的語義分析方法,提高了語義查詢效率,使大規模的語義級查詢成為可能.

1.3 知識圖譜能夠在語義層面將大量情報關聯起來

情報關聯的基本任務是根據主題、形式、自然屬性、社會屬性等,鏈接相關情報,其本質是對各種情報數據的自然屬性和社會屬性之間的復雜關系進行建模.在各種情報關聯類型中最關鍵的是關聯數據模型.傳統的情報數據模型著重解決的是情報數據個體的存儲組織與管理問題,而關聯數據模型不僅要能夠存儲組織和管理PB級的非結構化實時情報數據,還要能夠存儲組織和管理情報之間的邏輯關聯,能夠存儲組織和管理每個情報數據的多維屬性以及每個關聯的多維屬性,能夠反映情報數據及其關聯的時空屬性、語義涵義、權重、概率等特性.以知識圖譜為基礎構建數據模型,在此基礎上,才能夠更好地實現傳統數據模型所不能支持的多種智能分析,如時空關聯分析、邏輯關聯分析、語義相似性搜索、數據世系管理與分析、數據溯源與核查等,提升我軍情報綜合系統的能力水平.

1.4 知識圖譜能挖掘關聯情報中的新知識

挖掘知識的基本任務是洞察真相、因果推理和規律探尋,其本質是對目標或事件的來龍去脈、前因后果、特點規律進行建模和表現.比如:目標畫像,即對目標人物和組織的真實情況、行為模式、社會關系等進行“全景成像”;事件拼圖,即通過證據鏈擬合,按時間軸將事件發生、發展與演變的真實過程進行反演;因果推理,即揭示事件間的因果關系,包括概率因果推理、基于統計相關的預測型因果推理、從海量文本中自動獲取因果規則進行因果推理、事件之間發展脈絡因果鏈生成等;規律探尋,即通過模式識別、可視化分析等揭示潛在規律或行為模式.以知識圖譜為基礎可以更好地在語義層面跟蹤探測不同時間的起因、發展以及關鍵節點,挖掘語義層面的關聯信息和知識,提高軍事知識圖譜的實際應用價值.

2 典型的知識圖譜

知識圖譜的研究正處于起步階段,成熟的知識圖譜屈指可數,以谷歌為首的互聯網公司構建了一系列面向應用的知識圖譜,知識圖譜以三元組為基礎,將各個領域的知識以結構化的方式存儲在知識庫中.當前典型的知識圖譜有以下幾個:

2.1 Knowledge Graph

Knowledge Graph[1]在2012年5月16日正式發布,為用戶提供除了網頁列表以外的其他信息,在最大程度上將用戶的查詢內容以結構化列表或者知識卡片的方式返回.Knowledge Graph中的知識來自與多種數據源,主要由Freebase、維基百科以及CIA的世界概況等構成.在其發布時,就已經包含超過570億個對象、18億個三元組以及不同對象之間的各種鏈接關系.

2.2 WordNet

WordNet[2]是一個人工構建的表達英語詞匯之間的語義網絡,可以認為是一個專業領域的知識圖譜.對于其中的任意名詞、動詞、形容詞或者副詞之間具有相似語義關系的詞語組織各自的同義詞集合,并對每一個集合設定各自的語義概念.到目前為止,WordNet共有超過15萬詞匯、11萬個同義詞集合以及20.6萬個詞匯語義對.WordNet目前已成為自然語言處理中不和或缺的重要資源.為了使資源得到廣泛的應用,Global WordNet Association創建了一個討論、分享不同語言WordNet的平臺[3].其中就包含由臺灣中央研究院構建的中文Wordnet[4].

2.3 DBpedia

DBpedia[5?8]是為LOD項目開發的跨語言的綜合性數據庫.其基本思路是從維基百科中抽取現有的結構化知識,并用RDF格式對其進行存儲,在此基礎上利用SPARQL對存儲的知識進行查詢.到目前為止,DBpedia包含超過30億條的RDF元組.該項目存在的主要問題是無法抽取頁面中非結構化知識.除了DBpedia以外,YAGO[9?11]也從維基百科中抽取知識,除此之外YAGO還將WordNet的語義信息也考慮在內,以此構建更豐富的實體關系,該知識圖譜包含超過1000萬個實體及1.2億條知識,并對這些實體和關系進行了詳細的分類.

2.4 搜狗“知立方”

在國內搜狗知立方[12]是第1個將知識圖譜引入搜索引擎的互聯網企業.在具體的構建過程中“知立方”劃分為5個步驟,分別是:本體構建、實例構建、異構數據整合、實體重要度計算和推理數據完善.在具體的操作過程中通過對異構數據源的整合合并,得到了一個較為完善的知識圖譜.

2.5 百度“知心”

2013年2月,百度基于知識圖譜,正式推出了新一代搜索引擎技術,即百度“知心”[13].該搜索引擎技術采用的知識圖譜在構建的過程中包含4個部分:命名實體挖掘、屬性值對挖掘、上下位關系挖掘和相關實體挖掘.其中實體挖掘分為傳統命名實體挖掘和互聯網新型命名實體挖掘兩類,挖掘過程主要采用的數據源包括搜索純文本、日志和網頁等.

2.6 復旦大學GDM實驗室的知識圖譜

復旦大學的知識圖譜[14]主要對問答系統和中文分詞等領域提供支持.構建過程主要由實體和概念抽取、實體評估、實體消解和關系抽取4個部分.在實體概念抽取的過程中利用人工標注以及現有的知識作為生成種子知識,也就是所謂的核心實體集,利用迭代式的方法對知識圖譜進行豐富;實體評估對一個實體的可靠程度進行衡量;實體消解分為跨數據源實體消解和跨語言實體消解,其本質是在一個異構多元信息網絡中抽取特征并合并到一個因子圖模型中.

由上述的知識圖譜可以看出,現有知識圖譜構建主要是利用已有的結構化知識,對半結構化和非結構化的知識并沒有較好的處理辦法.如何自動化或者半自動化地對非結構化的數據進行處理,在此基礎上進行知識圖譜的構建是現階段的研究重點.而對軍事知識圖譜而言,結構化知識比較稀缺,開放的數據源也很難獲取,半結構化和非結構化的數據處理也需要極強的專業知識和技巧,一系列的問題對軍事知識圖譜的構建提出了嚴重的挑戰.

3 軍事知識圖譜的基本架構

本節描述了面向情報分析的軍事知識圖譜構建技術的基本架構,如圖1所示.

圖1 軍事知識圖譜的基本架構

基本架構總共分為4個部分,知識存儲與表示、智能推理與檢索、數據映射以及知識圖譜管理.其中,知識存儲與表示為系統提供可靠的分布式存儲環境以及可推演的知識圖譜模型;智能推理與檢索為系統提供一個檢索和推理的引擎,為查詢和推理的服務提供可靠的接口,并利用深度學習和正向推理技術為知識體系提供多種演化途徑,為知識圖譜自動構建技術提供可靠的接口;數據映射模塊為系統提供多種數據解析方式,將結構化、半結構化、以及非結構化的數據映射成為知識圖譜可以理解的數據類型;知識圖譜管理負責對知識圖譜進行維護,例如維護系統日志和用戶管理權限等.

1)知識存儲與表示.主要分為軍事知識本體建模與大規模知識圖譜分布式存儲.軍事知識本體建模主要考慮各個實體和關系之間的邏輯關系、實體之間的隸屬關系以及實體關系的定義域和值域;在大規模知識圖譜的分布式存儲過程中,主要研究知識圖譜的分塊管理技術使得知識圖譜在各個機器上的查詢訪問達到負載均衡.

2)智能推理與檢索.主要為外界和知識圖譜之間的交互提供多元化的接口.其中圖檢索主要負責對上層提出的各種查詢需求進行分析,并對其中的難點問題進行研究,如大規模知識圖譜可達性查詢、子圖結構查詢、頻繁模式挖掘等關鍵技術.在圖檢索的基礎上對查詢分析后的邏輯關系進行反向推理,以便于得到更為精確的查詢結果.正向推理主要利用現有的推理技術對結構化和半結構化的數據進行推理和分析,得到知識圖譜可以存儲和理解的數據格式.而深度學習主要負責對非結構化的數據進行抽取,以得到知識圖譜可以理解的數據類型,深度學習還可以從現有的知識圖譜中提取潛在特征,加強知識圖譜的表示和演化能力.

3)數據映射.主要包括QA映射、關系型數據映射以及文本知識挖掘.其中QA映射主要研究如何將自然語言處理成知識圖譜可以理解的語言,也就是所謂的查詢理解;關系型數據映射主要利用現有技術將現有的結構化數據以及半結構化數據轉換成知識圖譜所能理解的語言;文本知識挖掘則主要處理互聯網或者內網上的情報,并抽取出其中的知識,也就是知識圖譜自動構建.

4)知識圖譜管理.對知識圖譜進行維護,例如維護日志,對用戶進行管理,對知識圖譜的實體或者關系進行增刪改操作等.

4 軍事知識圖譜構建中的關鍵技術

在軍事知識圖譜構建過程中需要涉及數據采集、知識抽取、知識消歧、知識推理等技術,總體流程如圖2所示.下面就其中的關鍵技術進行簡要介紹.

圖2 軍事知識圖譜構建總體流程圖

圖3 知識存儲流程圖

4.1 知識存儲框架

在進行知識圖譜構建之前,必須構建一個存儲知識圖譜的框架,在一個完善的知識圖譜存儲框架上進行知識圖譜的構建、表示以及應用將會大大提高知識圖譜的使用效率.

隨著知識圖譜中包含的實體和關系個數的急劇增加,單一的機器已經無法滿足知識圖譜存儲的需要,因此,分布式存儲就成為人們關注的重點.在分布式存儲技術中,分塊管理技術就是保證知識圖譜高效運行的保證.所謂分塊管理是指將大規模的知識圖譜如何進行有效的分割,以便于達到系統的負載均衡,也為后續的多模式查詢提供高效的存儲基礎.針對分塊管理的問題,本文提出一種基于多約束條件的分塊管理框架,優化影響查詢效率的多種因素.首先需要優化最小割邊數,最小割邊越小分塊之間查詢的通信開銷越小,查詢效率會越高;其次優化總的通信量,分塊間的通信量越大,查詢效率越低,最后優化分塊內節點數,每個分塊的節點數要保持大致均衡,達到各個分塊在查詢過程中負載均衡的目的.由于篇幅的關系具體的分塊細節就不在此展開敘述.

傳統的知識庫只簡單地存儲實體和關系,并沒有存儲實體和關系的語義信息,也無法描述不同實體關系之間的相關性.針對這一問題,將傳統的知識表示框架與基于潛在特征的知識存儲框架相結合,提出一種全新的知識存儲方式,對每一個實體或者關系添加其特有的潛在特征,提高每一個實體和關系的語義信息,也為上層的多模式查詢奠定了基礎.具體的知識存儲框架及存儲流程如圖3所示.

在具體的操作過程中對采集到的數據進行兩種處理方式,一種利用現有的數據分析工具將數據表示成知識圖譜可以直接存儲的三元組,另一種是利用深度學習對采集到的數據進行訓練,得到對應實體和關系的潛在特征并存儲在潛在特征庫中.

4.2 知識抽取模型

在完成存儲框架構建之后,需要對已有的數據進行處理,抽取數據中包含的知識,知識抽取一般分為實體抽取和關系抽取.現階段,實體抽取的準確率較高,已經可以在實際的工程中應用;關系抽取是得到知識單元的過程,是構建知識庫的基礎,目前主要從非結構化的文本中抽取關系,而對于大部分關系其實體之間特征不明顯,因而相對于結構化數據和半結構化數據處理準確率較低,無法滿足實際應用需求.針對此技術難點,提出一種面向非結構數據的弱監督關系抽取技術.

弱監督關系抽取技術,是指通過給定少量已有的關系實例,通過語法分析獲取實體詞匯的各類標簽以及語法分析結果,并從現有知識庫中匹配得到實體特征標簽,從而利用少量實例完成對語料的標注和關系的抽取.利用弱監督進行關系抽取,在軍事知識圖譜構建中極具優勢.首先,不需要大量人工標注,可避免大量非軍事人員涉及軍事知識圖譜構建;其次不需要外部互聯網知識庫支持,適用于大量涉密軍事實體.

4.3 知識表示模型

知識表示模型是軍事知識圖譜的重要基礎,也是知識圖譜應用的必要條件.知識表示是指把知識客體中的知識因子與知識關聯起來,便于人們識別和理解知識.由于知識圖譜本身是一個維數巨大的稀疏矩陣,用傳統的矩陣存儲方式來表示知識圖譜是不可行的,針對這一問題,提出一種基于深度學習的知識表示方法,將高維矩陣通過深度學習的方式進行維度壓縮,用一個低維度的向量或矩陣來表示實體和關系的語義,根據深度學習的模型不同,每個向量或矩陣所包含的語義信息有所不同.

知識表示模型以TransE[15]為訓練框架,用h表示頭實體,r表示關系,t表示尾實體,對指數圖譜中的每一個實體和關系都有其對應的特征向量.假設對于任意三元組(h,r,t),其對應的特征向量(h,r,t))之間存在h+ r≈t的關系.為了更加合理地描述實體之間的關系,對每一個關系添加一個權重向量Wr,以此增加不同關系之間的區分度,使得訓練結果能夠更加準確地描述實體和關系包含的語義信息.優化函數如下所示:

在訓練的過程中,采用基于差距的排序損失(Margin-based Ranking Error)函數,并利用隨機梯度下降對優化目標進行訓練.

其中,[.]+=max(0,.),?是黃金三元組集合,?0是區分不正確三元組的集合,γ是區分正負三元組的差距.最終對于每一個實體和關系都有其對應的特征向量并且任意三元組之間近似滿足h+r≈t.

4.4 知識圖譜的智能推理與檢索

在完成軍事知識圖譜構建之后,需要利用圖數據檢索技術來提高知識圖譜的查詢效率,為大規模實時動態查詢和推理奠定基礎.

1)精確查詢

在大規模知識圖譜的多模式查詢中,除了傳統的圖數據查詢模式以外,可達性查詢是最基礎也是最重要的一環,和傳統的圖數據可達性查詢技術相比,大規模知識圖譜可達性查詢需要解決分布式查詢以及分布式可達性索引構建技術.在可達性查詢的過程中,需要將問題分為兩個部分,分塊內部查詢以及分塊間查詢.為了不影響查詢效率,可達性查詢需要盡量減小分塊間通信開銷與訪問次數,這是所要解決的技術難點.因此,如何構建一個高效的分布式大規模知識圖譜可達性索引是構建軍事知識圖譜中亟待解決的問題.在具體的實現過程中,利用一種基于坐標的距離計算框架,其基本流程如圖4所示.

通過最短路徑索引可以快速獲取不同實體之間的相關程度和可達路徑,提高查詢效率.由于篇幅關系,不再描述其他精確查詢策略.但是不管是何種精確查詢策略都存在一個很明顯的缺陷,就是無法返回知識圖譜中不存在的三元組,也無法返回相似的查詢結果,針對這一問題在具體的查詢過程中,需要添加一種模糊查詢方式作為補充.

2)模糊查詢

根據4.3節的知識表示模型,提出一種基于相似度的模糊查詢方式來補充精確查詢所存在的不足,在具體的操作過程中,利用已有的實體向量加上關系向量得到目標實體可信度最高的向量,以此向量為圓心獲取與其最相似的向量,取相似度高的實體作為有效結果返回.這種查詢方式突破了傳統的精確查詢方式,為戰場情報查詢提供了更為豐富全面的語義信息.

4.5 知識圖譜更新與維護

知識圖譜的更新與維護是知識圖譜魯棒性的重要保證,但是在大數據背景下傳統的人工維護方式遠遠無法滿足系統的需求,針對這一問題,本文設計了一種半自動化的維護流程,具體過程如圖5所示.

在知識圖譜的自動更新與維護的過程中,首先利用分布式爬蟲采集置信度較高的數據源,例如新添加到數據庫中的結構化知識、總結報告等,在此基礎上對實體進行抽取,而由于軍事情報領域所涉及的關系相對固定明確,可人工進行關系的操作.對新產生的三元組,通過多個數據源進行驗證,最終實現對軍事知識圖譜內的現有三元組進行更新和維護.

5 結論

知識圖譜的構建技術主要以數據挖掘、機器學習、自然語言處理、信息檢索等多學科交叉技術為支撐,研究方法以定性與定量相結合、實證與計算相結合為主.本文對軍事知識圖譜的基本框架進行了設計,對知識圖譜構建中的關鍵技術進行了總結分析.

圖4 最短路徑查詢流程圖

圖5 軍事知識圖譜更新維護流程

知識圖譜作為下一代搜索引擎的核心技術,具有重要的理論研究和實際應用價值.軍事知識圖譜在情報智能關聯、隱含知識發現、情報深度問答、虛擬情報參謀等作戰運用中,必將發揮越來越重要的作用,同時希望本文對網絡信息體系建設中的軍事信息組織和知識管理提供一點參考和借鑒.