中國運載火箭技術研究院研究發展部 趙大海 郭 晶
“知己知彼,百戰不殆”,情報信息對戰爭結果的影響巨大,對于軍事情報而言,需要的是高密度、高價值、高可信度的信息。但隨著信息技術的飛速發展,各種類型的信息和數據正在呈指數級增長,隱藏在海量數據中有用的信息并沒有按相對應的比例增長,導致信息密度不斷降低,這使得難以快速、高效、準確地從眾多數據中獲取需要的軍事情報[1]。如何利用現有的人工智能技術解決這一難題,成為了目前的研究熱點。
情報信息獲取可以分為情報信息的搜集、處理、形成3個部分。在第二次世界大戰之前,情報信息的搜集主要依靠情報人員的現場搜集和對敵人電臺的接聽獲取。隨著互聯網等信息技術的飛速發展,作戰指揮通信及信息的傳播方式更加多樣。目前,在情報搜集過程中,面臨的困難主要是搜集渠道多維化、信息冗余、獲取效率低;情報處理面臨的困難主要是技術瓶頸和多種技術集成難的問題。信息處理后會形成初步的情報信息,但是信息的可信度、準確度往往無法保證,且在真實作戰過程中,還散布著一些虛假信息。這時,就需要依靠經驗知識和專業知識,進行情報信息的篩選、提煉和深化總結。此外,在情報獲取的過程中,需要對信息和數據進行操作,因此信息存儲技術至關重要,但情報信息數據量大和格式復雜的特點,又給信息的存儲造成了較大的困難。綜上,只有針對性地解決上述問題和困難,才能在未來信息化作戰中高效、智能地獲取高質量、高可靠性的軍事情報。情報信息獲取框架圖如圖1所示。
圖1 情報信息獲取框架圖
為解決軍事情報難以獲取的問題,本研究構建了TPI&I模型。TPI&I模型借鑒IEI@I方法論和系統工程方法論,主要基于“文本挖掘(Text Mining)+人(People)+智能技術(Intelligence)& 集成技術(Integration)”構建而成[2],其中,“&”強調是一種非疊加性的集成。本研究采用“先分解后集成的思想”,首先將軍事情報獲取渠道分為網絡和現實2個部分,借助文本挖掘技術快速獲取互聯網等虛擬空間中的有用信息,通過情報人員獲取現實生活中的有用信息;其次,通過數據挖掘技術,分析獲取信息之間的關聯關系及更深層次有價值的信息;再次,通過其他人工智能技術解決情報獲取過程中遇到的問題,例如,利用密碼學進行密碼破譯、區塊鏈技術解決加密信息處理等問題。此外,還通過專家系統,對處理后的情報信息進行推理。最后,利用集成技術將上述分解的各個分系統結果綜合集成起來,情報專家結合專家系統推理輸出的結果和各階段所獲得的情報信息總結得到高質量的情報信息,并進行軍事行動預測等后續操作。TPI&I模型的理論框架如圖2所示。
如圖2所示,TPI&I模型主要分為8個模塊,即:數據管理模塊、Hadoop(一種分布式系統架構)集群模塊、文本挖掘模塊、數據挖掘模塊、其他AI技術模塊、其他信息模塊、輸出模塊、人機交互模塊。
數據管理模塊是TDP&I模型的重要組成部分,模型中的每個模塊都與其有著交互關系。數據管理模塊包括傳統數據庫、Hive(一種基于Hadoop的數據倉庫工具)、HBase(一種開源的分布式數據庫)所構成的模型庫、圖片庫、視頻庫等與情報搜集處理相關的數據庫。
圖2 TPI&I模型的理論框架
傳統數據庫與具體的應用服務連接,可以用來存儲情報人員搜集到的情報信息,并為其他應用提供數據的支撐服務;Hive和HBase存儲容量大,查詢和處理速度比傳統數據庫快,用來存儲各類模型及文本挖掘、數據挖掘、附加信息處理得到的結構化、非結構化數據,以及各種人工智能模型、算法數據集。調整引擎可以輔助Hive、HBase與傳統數據庫進行數據交換處理,并對各類模型、算法、數據集進行更新操作。
Hadoop集群模塊主要由Hadoop分布式文件系統(HDFS)分布式文件系統、MapReduce(一種編程模型)分布式計算引擎、Zookeeper(一種開放源碼的分布式應用程序協調服務)組成,但可根據實際需要添加Hadoop生態系統中的其他技術[3]。HDFS能夠較好地保證數據的可用性、完整性、一致性,并具備高吞吐量、高可靠性和高容錯性的優點。允許用戶將數據存儲在群集中的多個節點或機器上,并允許多個用戶訪問數據。MapReduce分布式計算引擎采用主/從(Master/Slave)結構,可以有效處理大規模數據集的并行計算。Zookeeper是針對大型分布式系統的高可靠的協調系統,能夠輔助HBase集群的運行,可以為用戶提供配置、命名、分組、管理等服務。
文本挖掘模塊主要是針對難以量化表示的文本信息進行挖掘,以及除數據庫外的Web文本信息的挖掘。文本挖掘模塊利用智能算法進行可能性推理,并結合文字處理、語義識別等技術,分析海量的網絡非結構化文本,根據情報人員提供的關鍵字等信息,標記各文本間的關系,并按照文本內容分類獲取有用的知識和信 息[4]。文本挖掘模塊的具體實施流程如圖3所示。
圖3 文本挖掘流程示意圖
1. 文本預處理
原始文本及網絡文本格式多樣、信息量巨大,且格式不規范、內容不完整、重復無效的信息會降低文本挖掘的效率并影響文本挖掘結果的準確度。為了降低這些因素的不良影響,在進行正式文本挖掘前對目標文本進行降噪處理具有重要 意義[5]。文本預處理主要包括去標記、分詞、去停用詞、關鍵詞提取等4個主要步驟。
文本分詞之后,因為不是所有的詞都有意義,且基于向量空間模型的文本表示會造成數據密度較小,因此需要進行去停用詞和關鍵詞提取操作。關鍵詞提取時,需要根據不同關鍵詞在對應文章中所占比重進行比較,設關鍵詞ti相對于文章dj權重值為wij,計算公式如下:
式中,fij為詞頻,表示詞條ti在其所在文章dj中出現的次數,為逆向文本頻率,表示詞的區分度;n表示文本集合D中包含的文檔數;ni表示包含詞條ti的文件數。
由于詞頻fij與文章篇幅長度呈正相關,因此,文本越長計算所得權重值越大,為了避免該原因造成誤差,需針對文本長度進行規范化處理,見下式:
2. 文本表示
計算機無法處理普通的文本數據,因此需要借助文本表示將其轉換為計算機能夠讀取處理的語言以獲得初始的文本特征集。目前,常用的文本表示模型有2種,分別為布爾模型和向量空間模型。布爾模型以布爾代數和集合論為基礎,形式簡單、可讀性強,其缺點是模型表達準確度和完整性較差。向量空間模型通過特征向量進行文本表示,特征向量由文本中不同詞條所表示的特征項組成,而文本空間則可以看作是向量空間,每個文檔都可以映射為向量空間中的一個點。
3. 特征篩選
特征篩選由特征降維和特征加權兩部分組成。特征降維的目的是為了將數據多、分布密度小的高維文本特征集映射到低維空間,以方便后續文本挖掘的應用,采用的方法一般為歸納合并或學習算法。特征加權則是以某種既定的標準為所有特征項賦權值,從而最大化文檔特性。
4. 文本建模
文本建模是文本挖掘的重要環節,其可以有效促進后續知識發現、趨勢判斷、可視化表示。此外,如果想將獲得的情報信息如人員、地名、時間等關聯到具體的軍事行動等事件上還需要運用網絡爬 蟲技術[6]。網絡爬蟲工作原理如圖4所示。
圖4 網絡爬蟲工作原理圖
從圖4可以看出,傳統網絡爬蟲的流程為從初始URL隊列中標注的地址鏈接開始,按照預先設定的規則對新的頁面中包含的URL進行提取,并在本地形成鏡像備份存入爬蟲數據庫,并通過新的URL訪問新的頁面進行對應的操作。TPI&I模型借助主題爬蟲,在傳統爬蟲的基礎上根據主題策略,進行頁面主題相關度的識別,并對相關頁面進行綜合評估排序,得到最終頁面信息。主題爬蟲極大地提高了數據采集效率,降低了系統資源的浪費。
數據挖掘模塊包括數據準備、數據預處理、數據挖掘、結果輸出等4個步驟。數據準備階段需要根據實際需要選擇數據庫來確定數據來源,并在執行過程中完成數據抽取工作[7]。數據預處理包括數據清洗、數據集成。具體的執行過程則需要根據用戶定義的規則來實現。在數據挖掘過程中,需要根據實際需要,運用各種類型的數據挖掘算法對經過預處理的數據執行挖掘算法,經常使用的數據挖掘算法有神經網絡、回歸分析、支持向量機、聚類分析等。最后,該系統將數據挖掘結果輸出給專家系統和情報人員,以供進一步的分析處理。
其他AI技術模塊包括密碼學技術、信息安全技術、區塊鏈技術等,主要用于解決阻礙情報獲取和研究的相關問題。例如,密碼學技術用于敵方密碼的破譯,以支撐情報信息的獲取和分析;信息安全技術用于對敵方信息系統進行攻擊以獲取信息;區塊鏈技術用于己方情報信息的保密傳輸,以及對敵方涉及區塊鏈傳輸信息的破解。
現實信息模塊指的是現實世界情報信息的獲取,主要通過情報人員的現場采集,以及偵察機、衛星等偵查工具的信息采集得以實現。獲取到的信息包括文字、圖片、視頻、音頻等多種格式信息,都通過人機交互模塊存儲在相對應的數據庫中,等待信息的處理。
輸出模塊包含專家系統和情報專家兩部分。專家系統是一種智能計算機程序系統,其內部含有豐富的特定領域專家水平的知識與經驗,構成了經驗庫,使得人們能夠利用專家的知識和解決問題的方法處理各個領域的問題,以彌補純機器系統的不足[8],其結構如圖5所示。專家系統以條件判斷語句“If-Then”的形式將情報專家的經驗知識集成起來,對其他各系統的輸出結果進行分析,并將分析結果輸出傳遞給情報專家。情報專家結合其他各模塊輸出的信息進行綜合分析決策,并形成高質量的情報信息,同時根據情報信息,形成對應的預測結果,為上層決策者提供智庫支撐。
圖5 專家系統結構圖
人機交互模塊是用戶與TPI&I模型構成的系統進行信息交互的窗口,負責各個模塊與用戶的信息輸入/輸出,方便用戶的操作。
隨著世界各軍事強國科技水平的不斷提高,未來作戰取勝的關鍵不單單取決于武器裝備的先進程度和部隊的作戰能力,還有情報信息的獲取和利用能力。隨著我軍信息化建設的推進,建設智能高效的情報獲取系統的必要性越發突顯。本研究根據情報獲取的步驟進行問題分解,運用多種技術進行解決,最后綜合集成提出了TPI&I模型。該模型能夠提高復雜多維軍事情報的信息提取效率,提升軍事情報信息的獲取和利用能力,在戰場態勢感知、作戰決策指揮等方面具有良好的應用前景,有利于信息化、體系化作戰場景下作戰效能的提升。