王睿,牛海,徐亞光
(海軍大連艦艇學院 通信系,遼寧 大連 116018)
導航、制導與控制
基于評估需求的艦艇通信訓練數據挖掘研究*
王睿,牛海,徐亞光
(海軍大連艦艇學院 通信系,遼寧 大連 116018)
數據是艦艇通信訓練效果評估組織實施的基礎,其質量優劣直接關系到評估結果的準確性。針對艦艇通信訓練數據缺乏科學化、標準化管理的問題,從訓練效果評估需求出發,將改進優化后的聚類劃分、立方體歸約、貝葉斯分類和直方圖歸約等技術方法應用于訓練數據挖掘工作中,構建了一套規范化的訓練數據挖掘體系,可為艦艇通信訓練效果評估工作提供技術理論支撐。
評估;艦艇通信訓練;體系架構;數據清洗;數據檢測;數據挖掘
艦艇兵力是海上方向作戰的核心力量,可靠的通信保障是提升艦艇作戰能力的中樞神經。各軍事強國廣泛開展艦艇通信實戰化訓練,旨在通過訓練提高艦艇部隊通信保障能力,盡可能的發揮武器裝備最大作戰效能。訓練效果評估,作為組訓工作重要環節,其成效直接關系到訓練效益的發揮程度,評估結論將對各級決策產生重大影響。效果評估工作強烈依賴于獲取數據的質量,艦艇通信訓練數據量大、類雜,采集的數據中充斥著大量無法直接使用的問題數據,嚴重制約著訓練效果評估工作的順利實施,因此,合理的數據挖掘是進行訓練評估的關鍵和基礎。
目前,國內外許多學者已在數據挖掘理論方法方面進行了深入的研究。文獻[1]從數據產品與傳統有形產品、軟件產品類比的視角,提出了包括準備、檢測、定位、修正和驗證的數據清洗一般性系統框架;文獻[2]引入D-S證據理論,提出了一種基于待測數據項置信區間檢測查詢結果中錯誤數據的方法;文獻[3]以身份證信息識別為背景,構建了一個針對性較強的數據清洗系統,并給出了具體操作實施流程;文獻[4]運用信息熵理論,提出了基于信息熵的異常數據挖掘算法;文獻[5]將數據清洗視做消除數據中錯誤和不一致的問題,提出了實體分辨問題的解決過程。
綜上所述可知,相關研究成果主要集中在以下2個方面:一是從數據理論內涵概念出發,分析構建具有較強通用性的數據挖掘體系架構;二是側重于數據挖掘中某一項技術方法的突破創新和在專向領域中的實際應用。這些成果從不同程度研究了數據挖掘方法和技術,但考慮問題系統化程度不足,并未針對具體問題將數據挖掘體系、流程和技術方法等強相關因子統一進行分析研究。此外,由于專業領域特殊性,軍事訓練數據挖掘問題可見研究成果很少,這與訓練效果評估需求迫切性呈現出極為強烈的矛盾。因此,本文以研究成果實用性為目標,以艦艇通信訓練為任務背景,提出一套訓練數據挖掘體系架構和與之相匹配的數據挖掘處理方法,為效果評估工作提供可靠的基礎支撐。
1.1 數據整體量多類雜,迫切需要規范處理
根據訓練計劃和具體任務,為達到訓練目的進而最大限度提升訓練效果,艦艇通信重點圍繞具體科目進行短波、超短波、衛星、數據鏈等多種通信手段進行長時間的針對性訓練。艦艇通信訓練效果評估指標體系層次多,底層指標可達到數十個,而每個底層指標都有相應的數據進行支撐,在長時間的訓練背景下通信數據整體量將十分龐大。數據類型上主要分為人為判定的主觀數據和提取計算的客觀數據,體現形式為序數屬性和數值屬性??陀^數據又存在數據量綱不一致、聚焦方向相沖突等問題。為保證后續數據使用的便捷,迫切需要將訓練數據進行規范處理。
1.2 采集形式人工為主,數據質量難以保證
鑒于通信訓練數據屬性特點,艦艇通信訓練的數據采集過程中,主要采取人工表格記錄、錄音、視頻錄像和系統自動數據采集等形式,其中大多需要進行人工分析,因此,數據采集中人為參與因素較大。數據處理和記錄人員能力素質、責任感的不同,直接導致數據質量的巨大差異。艦艇通信訓練中的殘缺數據、錯誤數據、重復數據和沖突數據廣泛存在,這些數據無法直接使用,在訓練效果評估工作中嚴重制約著評估實效性和準確性。此外,艦艇通信訓練原始數據按照時間序列分布,可視化程度較低,無法與效果評估指標的量化直接匹配,需要進行多級轉換。
1.3 訓練環境任務多變,特殊數據廣泛存在
艦艇通信訓練中,外部環境和任務背景多樣,既有常態化的自然環境,又有強干擾的電磁環境,既有長時間的適應性訓練,又有背靠背的編組對抗訓練,外部電磁環境和任務背景不同將使得各類訓練數據呈現跳躍性變化。此外,在同一訓練環境和作戰任務的不同階段中,訓練數據的屬性差異也較大。從數據清洗的角度講,特殊數據(異常數據)常被視為噪聲數據,應予以檢測并刪除。而在艦艇通信訓練中,特定環境、任務背景或作戰階段中的數據往往不同于訓練全過程數據發展趨勢,表現出較強離散性,但其可能并不屬于無用數據,而是對訓練評估工作極為重要的,并不應刪除,而應進行提取歸類。
2.1 艦艇通信訓練數據挖掘體系構建思路
數據的價值體取決于需求,不同目標任務對數據需求程度也不相同。艦艇通信訓練數據用于對訓練效果的評估,其評估對象主要包括整體訓練效果評估和局部訓練效果評估。整體訓練評估指從訓練開始至結束這一整個訓練過程中通信保障效果,局部訓練評估指對作戰任務的某一關鍵階段通信保障能力的評估(如編組對抗任務中艦艇編隊抗擊來襲導彈階段)。評估對象不同,對相關支撐數據的質量要求存在較大差異。整體訓練評估需使用整個訓練過程中的全部數據,數據量十分龐大,數據處理過程中應重點進行異常數據清洗和常規數據歸約。局部訓練評估的數據使用具有特殊性,當使用數據量較大且無特殊性時,可直接調用全域處理數據;當使用數據量較小時,需調用經過針對性處理的數據,其重點應是噪聲數據清洗和數據挖掘?;谏鲜鲆蛩?,艦艇通信訓練數據挖掘應按照逐級遞進的形式建立“三級處理”模型,并在第3級處理層級中采用不同的方法分類構建具有不同特點的數據庫,數據使用層面上根據需求差異對相同的數據庫調用,具體架構如圖1所示。
2.2 艦艇通信訓練數據挖掘體系構建
(1) 數據1級處理。包括人工記錄數據、音頻數據、視頻數據、系統錄取數據采集及人工干預處理,其中人工記錄數據和采集系統錄取數據中的人工干預因素較輕,體現在數據整體分類方面;音頻數據和視頻數據的人工干預程度大,重點是將相關信息轉化為可解讀程度較高的可視化數據。
(2) 數據2級處理。該層級屬于數據統一標準規范處理階段,包括數據檢測和預處理2部分。數據檢測主要進行相似重復記錄、不完整數據記錄、邏輯錯誤、異常數據等數據質量問題的檢測,統計數據檢測的結果并進行分類歸檔,這些是數據挖掘處理的基礎;本層級的數據處理聚焦“通用性”,應同時滿足全域評估和局域評估的需求,重點是重復數據的合并。

圖1 艦艇通信訓練數據挖掘架構Fig.1 Data mining framework of warship communication training
(3) 數據3級處理。本層級對數據進行分類處理,首先進行訓練評估屬性判定,全域評估是將整個訓練過程視為一個整體,對訓練中的全部數據進行規范化處理,根據“局部服從整體”的原則,主要對缺失數據、不完整數據進行柔性挖掘(剔出與線性回歸相結合)和離群數據判定處理,而后為克服因數據集龐大而造成的數據挖掘速率降低,同時保證分析結果的正確性,對數據進行歸約處理,進而形成基于訓練整體的全域數據庫;局域評估聚焦于某一訓練作戰階段,階段性數據規模較小、珍貴程度高,按照“深度挖掘”的原則,在最大限度進行缺失數據分析、不完整數據填充和離群數據使用等處理,旨在充分挖掘采集數據的可用度,并形成針對性較強的局域數據庫。
(4) 數據使用對接[6-9]。建立的數據庫可滿足全域評估和局域評估時的數據調用,全域評估任務可直接調用全域數據庫存儲信息;局域評估任務在數據庫調用時應結合數據使用需求進行靈活選擇,可直接調用局域數據庫存儲信息,對數據無特殊性需求時(數據離群屬性較弱)也可調用全域數據庫信息。
3.1 基于聚類劃分的全域離群數據檢測處理
聚類劃分可把大數據對象劃分為多個分布廣泛且相互獨立的簇,簇內數據具有高相似度,簇間數據具有高相異性,而游離于各簇之外的數據可認定為全域離群數據。全域離群數據檢測采用k-均值方法對數據整體進行聚類劃分[7-8],然后根據對象點與最近簇距離判定疑似離群點,最后通過檢驗考查點與距離均值差異度判定離群點。具體步驟如下:

步驟2:根據k—均值算法進行迭代計算,多次改變簇內變差。對每個簇,根據重新分配的對象不斷計算新的內變差,直至最終形成穩定的簇,即各簇包含數據不再變化,至此可確定各簇的中心點。

步驟4:對上述過程中確定的離群點數據進行清除處理。
3.2 數據立方體歸約化處理
艦艇通信訓練全域數據信息存儲體系龐大,可視化程度不高,難以高效對接不同類別的評估任務需求。數據立方體技術是一項高效的數據規約化處理方法,通過對數據進行多維建模和觀察,將列表形式數據轉化為可視化較強的3D幾何結構,以此將海量數據分級壓縮進而實現滿足用戶快速使用。以報文接收數量為例,贅述數據立方體歸約化處理。如表1。
將表1中緯度和數值轉化為數據立方體,如圖2。針對不同數據需求,數據立方體在使用過程中可充分利用上卷、下鉆、切片、切塊、轉軸、鉆過和鉆透等技術[10]。如使用1#, 2#網絡的接收報文總量時可采用上卷技術將2個網絡維度合并處理形成新的壓縮立方體。

表1 基于多維度的接收報文量統計Table 1 Receiving messages quantity statistics based on multi-dimensions

圖2 接收報文量的3D數據立方體Fig.2 3D data cube of receiving messages quantity
上述是從3個維度考慮數據的歸約,當需要多個維度(3個以上)時可把n維數據立方體顯示成(n-1)維“立方體”的序列具體實施操作。維度越多,構建立方體越復雜,因此在使用數據時盡量壓縮在低維度空間。
4.1 缺失數據挖掘方法
(1) 定量數據挖掘
定量數據是指通過數值來描述事物屬性的一類統計數據,從數據元組屬性出發進行此類數據的挖掘需考慮的因素眾多、往往難以實現,通常應根據其它數據集量化值大小的規律性變化進行預測。當數據整體呈對稱分布時,可用數據集的均值來代替;數據整體呈傾斜分布時,應使用中位數代替;數據集呈無規律性變化時,可采用數據擬合光滑曲線的方法預測待挖掘值。但某些局域訓練階段數據相對較少,可能造成上述方法產生大的誤差,若該缺失數據重要性巨大,則必須依靠情景復現并結合人工查找的方式實現。
(2) 定性數據的貝葉斯形式化挖掘
定性數據是指用語言文字來描述客觀事物屬性進而形成的一類統計數據,如優秀、良好、合格與不合格等,此類數據與定量數據特點截然不同,其缺失值挖掘技術方法選擇上也具有很強的特殊性[11]。貝葉斯形式化方法可充分利用現有數據的元組屬性信息,通過挖掘缺失值與其數據屬性之間聯系,實現缺失的定性數據預測。根據貝葉斯定理和樸素貝葉斯分類,具體步驟如下:
步驟2:分別計算每個類的先驗概率P(Ci),依據數據訓練元組矩陣分別計算后驗概率P(X|Ci)。
4.2 基于多情景制約的局域離群數據檢測與處理方法
艦艇通信訓練局域數據具有明確的時間序列屬性,符合情景離群點判定概念范疇,但其外部情景并非單維,而可能在不同程度上融合了附加情景影響因子。局域數據檢測與處理時,應以時間序列為基本情景,選用非參數離群點檢測方法計算處理[12-13],在結論判定階段融入附加影響情景對可疑數據進行判定。具體步驟如下:
步驟1:使用某一時間序列的全部數據(局域數據)構造一個直方圖。其中,寬度參數的確定需要人工干預,通常由數據統計專家或評估專家依據數據特點給出。
步驟2:為確定一個待測數據o是否為離群點,可直接對比直方圖來測試。如果該點在圖中所標各組中,則為正常數據,否則可判定為離群點。鑒于直方圖中箱寬度的人為影響誤差,為避免將正常數據誤判,可引入核函數K( )及核密度估計概念來進一步精確檢測[10]。
核函數是一個非負實數值可積函數,通??梢曌鼍禐?,方差為1的標準高斯函數:
應用過程中,設定x1,x2,…,xn是隨機變量f的獨立、同分布樣本,則概率密度函數的核函數近似為
本文以提升艦艇通信訓練數據質量和規范數據挖掘體系為目標,針對整體訓練效果評估和局部訓練效果評估的數據需求特點,構建基于任務的艦艇通信訓練數據挖掘體系架構,將聚類劃分、立方體歸約、貝葉斯分類和直方圖歸約等技術方法應用于全域數據庫和局域數據庫建設中,形成一套規范化的訓練數據挖掘體系。提出的數據挖掘體系方法與計算機相結合形成艦艇通信訓練數據處理系統,可直接服務于艦艇通信訓練效果評估工作,能夠有效拓展評估的效率。
[1] 曹建軍,刁興春,陳爽,等. 數據清洗及其一般性系統框架[J]. 計算機科學, 2012, 39(11): 207-210. CAO Jian-jun, DIAO Xing-chun,CHEN Shuang, et al. Data Cleaning and Its General System Framework[J]. Computer Science, 2012, 39(11): 207-210.
[2] 樊金輝,岳昆. 基于D-S證據理論的不確定數據清洗[J]. 云南大學學報, 2014, 36(6): 815-821. FAN Jin-hui, YUE Kun. Cleaning Uncertain Data Based on the D-S Evidence Theory[J]. Journal of Yunnan University, 2014, 36(6): 815-821.
[3] 武小平,左春. 基于工作流程的數據清洗系統[J]. 計算機工程與設計, 2008, 29(8): 1878-1880. WU Xiao-ping, ZUO Chun. Data Clean System Based on Work Flow[J]. Computer Engineering and Design, 2008, 29(8): 1878-1880.
[4] 陳玉明,吳克壽,李向軍. 一種基于信息熵的異常數據挖掘算法[J]. 控制與決策, 2013, 28(6): 867-872. CHEN Yu-ming, WU Ke-shou,LI Xiang-jun. A Kind of Outlier Mining Algorithm Based on Information Entropy[J]. Control and Decision, 2013, 28(6): 867-872.
[5] HERNANDEZ M A,STOLFO S J. Real-World Data is Dirty:Data Cleaning and the Merge/Purge Problem[J]. Data Ming and Knowledge Discover,1998,2(1):9-37.
[6] 陳曉峰,劉興,高元博,等. 基于數據挖掘的海戰場態勢可視化平臺構建[J]. 火力與指揮控制, 2015, 40(4): 144-147. CHEN Xiao-feng, LIU Xing,GAO Yuan-bo, et al. Structure for Naval Battlefield Situation Visualization Platform Based on Data Mining[J]. Fire Control and Command Control, 2015, 40(4): 144-147.
[7] 陶雪嬌,胡曉峰,劉洋. 大數據研究綜述[J]. 系統仿真學報,2013,25(3):142-146. TAO Xue-jiao, HU Xiao-feng, LIU Yang. Overview of Big Data Research[J]. Journal of System Simulation, 2013, 25(3):142-146.
[8] 謝娟英,蔣帥,王春霞,等.一種改進的全局K均值聚類算法[J].陜西師范大學學報:自然科學版,2010,38(2):18-22. XIE Juan-ying, JIANG Shuai, WANG Chun-xia, et al. An Improved Global K-Means Clustering Algorithm[J]. Journal of Shaanxi Normal University:Natural Secience ed,2010, 38(2):18-22.
[9] 薛青,羅佳,鄭長偉,等. 面向作戰仿真的數據挖掘[J]. 四川兵工學報,2013,34(8):93-95. XUE Qing,LUO Jia,ZHENG Chang-wei, et al. Study on Data Mining for Combat Simulation[J]. Journal of Sichuan Ordnance, 2013,34(8):93-95.
[10] 范明,孟小峰. 數據挖掘概念與技術[M]. 北京:機械工業出版社,2008. FAN Ming, MENG Xiao-feng. Data Mining Concepts and Techniques[M]. Beijing:China Machine Press,2008.
[11] 林印華,張春梅,劉潔. 基于清洗規則和主數據的數據修復算法實現[J]. 計算機科學, 2012, 39(11): 174-176. LIN Yin-hua, ZHANG Chun-mei, LIU Jie. Realization of Data Cleaning Based on Editing Rules and Master Data[J]. Computer Science, 2012, 39(11): 174-176.
[12] 謝慶華,張寧蓉,宋以勝,等. 聚類數據挖掘可視化模型方法與技術[J]. 解放軍理工大學學報, 2015, 16(1): 7-15. XIE Qing-hua, ZHANG Ning-rong,SONG Yi-sheng, et al. Visualization Methods and Techniques of Clustering Data Mining[J]. Journal of PLA University of Science and Technology, 2015, 16(1): 7-15.
[13] 唐懿芳,鐘達夫,嚴小衛. 基于聚類模式的數據清洗技術[J]. 計算機應用, 2004, 24(5): 116-119. TANG Yi-fang, ZHONG Da-fu, YAN Xiao-wei. Data Cleaning Based on Clustering Technique[J]. Computer Applications, 2004, 24(5): 116-119.
[14] 周傲英,金澈清,王國仁,等.不確定性數據管理技術研究綜述[J].計算機學報,2009,32(1):1-16. ZHOU Ao-ying,JIN Che-qing,WANG Guo-ren,et al. A survey on the Management of Uncertain Data[J]. Chinese Journal of Computers, 2009,23(1):1-16.
[15] MO L, CHENG R, LI X, et al. Cleaning Uncertain Data for Top-k Queries[C]∥ IEEE International Conference on Data Engineering, 2013:134-145.
Data Mining of Warship Communication Training Based on Evaluation Requirement
WANG Rui, NIU Hai, XU Ya-guang
(Dalian Naval Academy,Department of Communication,Liaoning Dalian 116018, China)
As the foundation of warship communication training evaluation, the data quality directly relates to the veracity of evaluation result. To deal with the problem of lacking scientific and standard management for warship communication training, from the aspects of the training requirement, the improved clustering partition, cube reduction, bayes classification and histogram reduction techniques are applied to the training data mining work, and a set of standard training data mining system is established. The result can provide technique theory support for warship communication training evaluation.
evaluation;warship communication training;system framework;data cleaning;data detection;data mining
2015-12-20;
2016-04-05
國家社會科學基金資助項目(15GJ003-208)
王睿(1982-),男,黑龍江巴彥人。講師,碩士,主要研究方向為指揮信息系統與作戰應用、軍事通信。
10.3969/j.issn.1009-086x.2016.06.010
E925.6;TN92;TP274
A
1009-086X(2016)-06-0054-07
通信地址:116018 遼寧省大連市中山區解放路667號
E-mail:yuezhiying@yeah.net