姚鵬飛
(92493部隊 葫蘆島 125000)
在武器裝備試驗領域,隨著試驗任務項目的急劇增長和裝備信息化水平的不斷提升,試驗過程中產生的各類試驗信息在數據量上和類型上不斷增加,伴隨而來的是數據處理時效不高、數據資源利用率偏低的問題,這已成為制約裝備試驗的一個重要瓶頸。當前,大數據相關技術已成為處理海量數據、挖掘有用信息、輔助指揮決策的有效方式[11~12]。因此,面對日益增長的試驗數據量及處理任務,急需加強對基于大數據技術的裝備試驗數據應用管理平臺的研究,以其實現對各類數據資源的高效管理和應用,從而為改進試驗方式、提高試驗效率提供快速、精準決策。
大數據是指無法在一定的時間內用通常的軟件工具進行收集、分析、管理的大量數據的集合[1]。目前,通常用4V特征對大數據基本特點進行描述。1)Volume:數據量巨大。由傳統TB級數據量向PB級數據量發展再到向ZB級數據量發展已成為大數據發展的基本趨勢。2)Variety:數據類型多樣。大數據不僅包括結構化數據,還包括各種非結構化、半結構化數據類型,而且非結構化、半結構化數據類型比重遠遠大于結構化數據,增加了數據處理的難度。3)Value:價值密度很低。大數據中的數據價值密度與數據量成反比。4)Velocity:處理速度快。大數據時代,數據的處理、分析、存儲和管理通常要達到秒級的響應水平,以用來支持和輔助用戶決策。
隨著大數據技術的發展,大數據產生的效益日益明顯,目前通運輸、醫療、金融、電商等領域得到廣泛應用[2~3]。在軍事領域,美國國防部及國防高級研究計劃局已將“數據到決策”、“網絡內部威脅”、“影像檢索與分析”等10個項目列入研究計劃,著力提高美軍在大數據獲取、管理和分析等方面的能力,已經成為美軍建設的戰略重點[4]。大數據技術應用已成為戰斗力生成的一個重要標志,美軍在2013年試飛的X-47B無人機[5],基于大數據分析技術,成功實現了無人條件下的自主決策和自主行動[10]。近年來,我軍在指揮信息系統大數據建設、裝備保障大數據建設做了一些有益探索,但在大數據實際應用方面還處于初步階段[6~8]。
1)數據量大。當前,武器裝備信息化程度越來越高,裝備試驗無論是試驗模塊還是整個測試過程中,測量設備多、測量參數多,所產生的數據量很大[9]。通常來講,裝備試驗數據通常包括試驗文書和試驗資料等試驗檔案數據,也包括測試數據、觀測數據、目標特性數據、環境物理場數據、模型與仿真數據和計量校標數據等。另外,數字化高清視頻圖像監測設備在裝備試驗中的應用越來越普遍,所產生的視頻圖像數據與日俱增。
2)數據類型多樣。試驗對象測試數據的多樣、測試項目的增加、測試手段的改變造成非結構化數據、半結構化數據的大量出現。非結構化數據、半結構化數據主要包括試驗過程中產生的圖像、數字、文字、視頻、音頻等類型數據,其規模和復雜度都超越現有常規技術能夠處理分析的范圍。
3)數據應用價值高。武器裝備試驗數據對于裝備全壽命周期的有效期很長,往往可以長達十幾年至幾十年,早期試驗數據也可能有很高的利用和使用價值。通過分析歷史試驗數據,可以發現以往試驗過程中存在的問題及需要改進的環節,從而提高武器裝備試驗效率,保證武器裝備質量。
4)數據處理速度快。由于武器裝備試驗存在型號、批次上的不同,試驗項目中往往會用到不同的采集分析軟件,造成試驗數據在處理上相對分散,數據的處理時效和數據的完整性得不到根本保障。因此,迫切需要采用大數據技術,實現對數據的高效快速分析、存儲及管理,從而達到改進試驗手段、輔助首長決策的目的。
裝備試驗數據信息資源主要用于對裝備是否滿足戰術技術要求、研制方案是否正確做出客觀評價;提出裝備存在的主要問題和改進建議;估計裝備作戰的適用性和效能,為裝備能否定型或裝備部隊提供依據。當前,受整體技術水平、管理手段和科研基礎條件建設等因素的制約,裝備試驗數據的管理與應用存在著如下問題:
1)歷史試驗數據數字化程度較低。長期以來,由于基礎條件建設和技術手段等方面原因,很多歷史試驗信息記錄采用紙制、膠片等非數字化方式進行存儲,未進行數字化處理工作,裝備試驗數據安全性、完整性得不到保障。
2)試驗數據融合度較低。裝備試驗數據數量多、規模大、種類全。但是對試驗信息資源的體系性建設和集約化應用研究投入太少,裝備試驗數據信息“孤島”太多,各種試驗信息相對分散、無序、雜亂,缺乏對試驗數據的有效管理、應用研究、綜合集成和融合再生。
3)試驗數據的利用和挖掘程度較低。長期以來,試驗信息主要用于試驗結果報告編寫和簡單的存儲歸檔,缺乏試驗信息二次及多次開發的必要手段,試驗數據利用率低,多層次、多視角的數據挖掘工作開展不夠深入,試驗數據綜合價值和效益發揮不充分。
綜上所述,裝備試驗數據已經滿足大數據的基本特征且存在很大的潛在價值,開展裝備試驗大數據應用研究對于數據的管理、分析和深度挖掘具有重要的軍事應用價值。
由于試驗數據資源來源廣泛、數據量大、格式不統一,且大多數為視頻、圖片等非結構化數據,傳統的Oracle、DB2等關系型數據庫已經遠遠不能滿足試驗數據的存儲需求。在這種情況和背景下,NoSQL數據庫以其自身靈活的可擴展性、靈活的數據模型、與云計算緊密融合的特點成為試驗大數據存儲的必然選擇。它可以支持海量數據的存儲管理,彌補了關系型數據庫在存儲非結構化數據方面的不足和缺陷。在裝備試驗大數據應用平臺架構中,對于已經存儲在關系數據中的裝備試驗基本信息仍然采用關系型數據庫進行存儲,對于試驗過程中產生的半結構化、非結構化數據采用基于NoSQl的云數據庫,一方面,可以充分利用平臺自身的基礎設施服務,提高資源利用效率,另一方面,可以實現對數據的高效管理,從而解決試驗任務劇增后海量試驗數據量的存儲和高并發、低延遲的讀寫效率。
在大數據領域中,要想從海量數據中獲取到相對有價值的數據信息就需要從多個維度進行分析和挖掘。對裝備試驗數據而言,試驗數據通常都是在試驗過程中采集,試驗數據的處理對于響應時間沒有特別高的要求,因此可以通過數據采集工具將大數據導入專用的數據處理平臺進行分析,通常采用基于Hadoop的離線分析架構,從而減小數據格式轉換的代價。對于試驗數據的挖掘,主要是使用R預言等大數據分析挖掘工具,通過常用的大數據挖掘算法,實現對數據的關聯規則和分類、聚類的分析,從多個維度深度挖掘數據之間存在的相互關系,提取有價值信息。
圖1展示了基于Hadoop處理架構的數據處理過程。首先將數據拆分成多個Map任務在多臺機器上進行并行處理,每個Map任務通常運行在數據存儲的節點上,將計算和數據放在一塊執行,減小額外的數據傳輸時間。Map任務產生的中間結果會被分發到多個Reduce任務并在多臺機器上進行并行執行,Reduce任務結束后會對中間結果進行匯總,產生最終輸出結果。

圖1 基于Hadoop處理架構的數據處理過程
依托現有大數據分析挖掘工具和常用算法,根據用戶的需求,以儀表盤、駕駛艙等多種方式實現對分析挖掘結果的展現,為試驗方案改進提供技術集成和決策支持。
裝備試驗大數據應用架構根據試驗過程中采集的數據類型的不同,使用不同的數據存儲模式和處理方式,對于環境物理場數據、測試數據等實時性要求較高的數據,采用基于Spark框架的內存計算模式,提高處理時效,對于試驗資料檔案數據等實時性要求不高的數據,采用基于Hadoop框架的離線批處理架構。在數據存儲方面,基于HDFS文件存儲系統,綜合關系型數據庫和NoSQL數據庫優缺點,對數據進行分類存儲。大數據處理框架中包含了多種框架融合計算調度方式,包含離線批處理計算、在線實時分析計算、流式計算等多種計算方式。
大數據應用總體架構為4層結構,主要包括大數據資源層、大數據存儲處理層、大數據分析層、大數據應用管理支撐層、大數據應用服務層,如圖2所示。
裝備試驗大數據由于試驗項目的復雜性、測量測試裝備的多樣性,所產生的數據資源種類繁多、結構復雜、數量大,數據資源層主要需要實現對多類異構數據源的采集,構建覆蓋試驗資料檔案數據、環境物理場數據、模型與仿真數據、觀測數據、測試數據、計量校標數據、目標特性數據、試驗音視頻數據的試驗大數據資源層,內容涉及到裝備的組成結構、工作原理、操作使用、維護保養、故障維修、技術性能和試驗環境、試驗實時態勢、試驗勤務保障、試驗裝備保障等各個方面。
裝備試驗大數據處理層采用分布式計算框架,可以實現對不同計算框架的統一資源調度和管理。根據試驗中數據源、數據類型和數據關系的不同采用不同的數據存儲服務和存儲系統,滿足不同數據類型的處理效率,為裝備試驗數據的高效存儲管理提供保證。多框架融合計算調度實現對底層集群硬件資源的統一調度和管理,將CPU、內存通過虛擬化手段形成資源池,實現負載均衡和效率的提升。
試驗大數據分析層主要是構建裝備試驗大數據應用服務的挖掘分析工具及知識庫。面向裝備試驗大數據應用服務領域,對通用數據挖掘工具進行優化改造及并行化實現,為裝備試驗大數據應用服務提供專用的分析模型庫。在裝備試驗大數據挖掘利用的基礎上,輔以裝備試驗領域知識構建技術,建立知識庫模型。
應用管理支撐層將實現平臺對外的標準化服務注冊、封裝、調用、開發提供大數據應用支撐平臺,為相互邏輯隔離、獨立運行的數據提供方和數據使用方創建交互環境。主要包含四個部分:數據安全服務、運營安全服務、數據管理服務、數據服務總線。
應用層主要是基于統一的門戶,為用戶提供報表、即席查詢、分發、下載等數據資源服務以及試驗數據分析處理等數據挖掘分析服務。另外,應用層還提供數據分析接口和系統功能接口等基礎平臺服務,便于平臺功能擴展及對其他應用功能的綜合集成。

圖2 裝備試驗大數據應用總體架構
大數據、云計算等技術作為信息領域的重要技術手段,給裝備試驗大數據建設發展帶來了新的發展機遇。本文就裝備試驗數據的特點及應用現狀,結合大數據相關技術,提出裝備試驗大數據應用架構,可為裝備試驗數據的應用提供一條有效路徑,為其在裝備試驗領域應用提供參考。