(中國人民解放軍92941部隊,遼寧 葫蘆島 125001)
戰術導彈數據挖掘平臺設計及其關鍵技術
馬艷
(中國人民解放軍92941部隊,遼寧葫蘆島125001)
為了優化導彈生產流程、降低武器裝備壽命周期費用、利用導彈在生產和使用維護階段獲取的海量數據,運用數據挖掘技術,提出了導彈數據挖掘平臺的總體設計思路;對導彈數據挖掘過程中的數據預處理方法、數據挖掘算法和異常檢測算法等關鍵技術進行了研究,采用FP-Growth算法挖掘導彈生產過程中的工藝參數與產品質量的關聯,采用Z-Score檢測法完成異常參數檢測;通過在導彈全壽命周期中的應用,方案合理可行,可以有效地提高導彈質量和裝備的戰備完好性,具有廣闊的軍事應用前景。
數據挖掘平臺;系統設計;數據預處理;異常檢測
大數據已經成為當前計算機科學領域的熱點問題和發展趨勢,大數據中蘊含著巨大的社會、經濟、科研和軍事價值,英美等國已將大數據研究列為戰略性技術和研究發展計劃,給予優先的資金支持[1-3]。我國針對大數據的科學研究日新月異,在諸如電子商務、云計算、衛生保健、生物信息學、網頁挖掘、災難信息管理等領域逐步開展了實際運用,但在武器裝備領域的軍事應用尚處于摸索階段。在大數據時代,數據的產生和收集是基礎,數據挖掘是關鍵,數據挖掘是在大型數據存儲庫中自動發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式,還可以預測未來觀測結果,能夠解決數據的高維性、可伸縮、分布式、異種數據和復雜數據以及非傳統分析等問題[4]。目前導彈從生產、裝備部隊直到退役,會產生大量的數據,采用適當的數據挖掘方法,充分利用這些海量數據,可以有效地優化導彈生產流程、控制生產成本、提高產品質量,降低維護維修費用,提高武器裝備的戰備完好率。
裝備部隊的導彈在全壽命周期內一般都要經過工廠生產、部隊使用維護和維修等過程。在導彈生產階段,要經過元器件篩選、彈上設備組裝調試、導彈總裝測試、軍檢驗收等環節,一般包括幾百個工序,每個工序包含多個工位,每個工位對應一臺到數臺儀器設備,過程中要產生裝配、調試、加注、充氣、檢查、測試、吊裝、轉運、交接等各種數據、記錄。在導彈部隊使用維護階段,要經過日常維護、吊裝轉運、裝備轉場、值班值勤、故障維修等環節,過程中要產生檢查、測試、拆卸、安裝、維修、吊裝、轉運、值班日志、環境監測、交接等各種數據、記錄。在生產工序復雜、任務轉換頻繁、測試參數眾多、數據分布廣泛、人為及環境因素交織、數據量龐大的背景下,僅靠人為分析研究數據來提高導彈質量、控制生產成本、降低維護維修費用是無法實現的,因此迫切需要研究基于導彈生產和使用維修過程的數據挖掘工具,從而提高過程管控能力和產品品質,有效降低成本,改變以往單純依靠工藝技術、材料技術提高產品品質的方法。
系統總體設計思路是應用導彈在工廠生產階段和部隊使用維護階段產生的大量數據,綜合運用人工智能、計算智能、模式識別、數理統計等先進技術,對積累的數據進行挖掘。平臺采用四層結構,以數據分析、分析任務管理、邏輯資源和物理資源平臺分層,這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘算法的集成、多種分析任務的配置以及系統和用戶的交互功能。平臺建立所采用的數據挖掘方法主要包括:差異分析、關聯分析、預測分析和分布分析等。差異分析主要對導致不同產品品質的工藝參數、環境因素、使用年限等進行對比分析,關聯分析用于分析不良品質特性與各種因素間的潛在關聯關系,如Apriori算法、FP-Growth算法等,預測分析通過建立挖掘模型分析各種因素的變化對產品品質測量值的對應關系,分布分析更側重于對產品品質的分布與各種因素的關系。
平臺由物理資源層、邏輯資源層、數據分析任務管理層和數據分析層組成。導彈數據挖掘平臺架構如圖1所示。
1)物理資源層:物理資源層主要包括底層的物理設備。這些物理設備能有效支撐導彈各任務階段數據的存儲和擴展。
2)邏輯資源層:邏輯資源層包括存儲和計算資源。存儲資源建立在物理設備基礎上,包括傳統數據庫、本地文件系統、分布式文件系統等。計算資源是邏輯上的計算單元。平臺的計算能力依賴計算單元的數量,通過擴展配置計算單元的數量能有效支撐上層的導彈數據挖掘任務。
3)數據分析任務管理層:數據分析任務管理層是平臺的核心。它有效地連接了分析功能與后臺集群。合理的平臺設計需要具備以下任務管理能力:易于算法擴展、支持任務流和任務間依賴關系的配置、任務調度、計算和存儲資源分配。導彈數據挖掘平臺通過數據分析框架FIU-Miner[5]來有效支撐數據分析任務管理。
4)數據分析層:數據分析層提供具體分析任務的用戶執行接口。導彈數據挖掘系統的數據分析任務主要包括數據立方、對比分析、時間維分析、操作平臺、結果展示和報告管理等。

圖1 導彈數據挖掘平臺架構
操作人員先通過數據立方、對比分析、時間維分析3個子系統(見圖1)對數據進行探索性分析總結出數據的分布特性,然后通過數據操作子系統實施數據挖掘任務,挖掘結果通過圖形和報表等可視化手段形成分析報告,為提高導彈質量、優化導彈生產流程、控制生產成本、降低維護維修費用等不同目的和任務提供依據。
其中數據立方子系統使分析人員能夠對數據進行宏觀理解和快速預覽,采用OLAP技術建立數據立方可以幫助分析人員大致掌握數據特性,通過選擇維度和建立測度對數據集進行分析,使用數據立方操作實現對數據的多粒度、多角度的理解;對比分析子系統能快速發現敏感參數和驗證重要參數,通過比較參數在不同時期的統計特性,有效發現異常參數值;時間維分析子系統重點關注在不同時期和時間粒度上環境因素變化情況以及導彈性能退化程度;數據操作子系統負責集成數據挖掘算法,提供任務操作接口,數據挖掘算法被合理封裝到各個任務中,對操作人員透明;分析報告子系統則基于任務分析結果,產生分析報告,通過分析報告可以直接給決策者提供依據,同時也為領域專家提供收集反饋的接口,領域專家知識的引入對優化模型、改進算法具有重大的指導意義。
數據挖掘過程通常經過數據預處理、數據挖掘和后處理3個環節(見圖2所示),是一個反復迭代的過程。數據預處理環節完成數據的提取,滿足用戶在源數據中提取自己所需的相應的數據[6];數據挖掘環節中,需要對不同性質的數據提取方法進行處理分析,選擇適合的數據挖掘算法;后處理環節包括模式過濾、可視化和模式表示3個方面,結果可以作為原始數據、表格、決策樹、規則、圖表顯示或三維圖形,這個環節是設法使數據挖掘的結果更容易使用和理解。

圖2 數據挖掘過程
導彈在工廠生產階段和部隊使用維護階段由于獲取數據的方式不同,數據由不同載體存儲,如文本、電子表格、各類數據庫、圖片、影像文件等,可以駐留在集中的數據存儲庫中,或分布在多個站點上。為了便于數據分析,需要把這些來自不同數據源的數據集成起來,建立格式統一的數據表示,從而為后續的數據挖掘奠定基礎。多種數據源的語義復雜性、數據維度的豐富性、多樣性等新特點使得傳統的表達方式已不能滿足實際應用需求[7-8],需要根據不同情況進行多元離散特征的提取、融合和降維、歸一化表達,以提高數據處理的效率,實現數據向知識的轉化。可以將所有數據集成到MySQL數據庫中,利用MySQL建立數據倉庫。通過在數據倉庫中關聯不同的維度,對數據進行多角度、多粒度的整合,從而構建數據挖掘算法。
在原始數據表中,每枚導彈在不同階段的數據和記錄形成了許許多多條數據,從數據管理角度出發,進行數據挖掘前,需要將與一枚導彈有關的所有數據整合成一條記錄,最終構成集合作為數據挖掘算法的輸入。這個數據轉換過程需要表的多次自關聯,用常規的SQL語句實現很困難,需要依賴數據轉換算法完成。
轉換后的數據還需要統一進行清理,以使各枚導彈的數據規范、一致。通過填寫空缺值、平滑噪聲數據、識別刪除孤立點,并解決“不一致”來清理數據,從而增強數據挖掘結果的質量。
選擇并實現適當的數據挖掘算法是數據挖掘階段的主要任務,目前主流的十大數據挖掘算法包括:決策樹分類、K均值聚類、支持向量機分類、關聯規則挖掘、最大期望算法、鏈接分析、集成算法、K近鄰分類、樸素貝葉斯分類、分類和回歸[4]。從數據中學習和發掘的基本原則主要是依賴這些理論,實現從數據中成功地學習,并應用這些技術對模型給出客觀可信的評估,從而找到適當的模型。
以挖掘導彈生產過程中的工藝參數與產品質量的關聯為例,這種關聯關系體現為參數值組合在某類缺陷數據集合中出現的頻率,一些經典的挖掘頻率特征集合的算法適用于挖掘重要參數組合,比如Apriori算法、FP-Growth算法[9]等,從某類缺陷出發,應用FP-Growth算法挖掘出出現頻度最高的參數組合,分析出與該缺陷關聯性較高的參數組合,從而實現快速定位缺陷原因,修正參數設置,提高產品質量。
FP-Growth算法由兩步組成:(1)利用集合數據構建FP樹,此過程輸入為事務表CK和最小支持度MinSup,輸出為樹表TreeTable,頭表HeaderTable;(2)從構建好的FP樹上使用一種自底向上的分治算法逐步獲取重要的參數組合,這些參數可以根據經驗和試驗進行調試和優化。通過算法可以挖掘出與某缺陷關聯性最大的參數組合,我們以在數據集中出現頻率對這些組合進行排序,排序靠前的組合如果均包含某個或某幾個參數,則說明此組參數與某缺陷有很大關系。
FP-Growth算法的挖掘過程實現如下:
輸入:樹表TreeTable,頭表HeaderTable,后綴模式Postfix,最小支持度MinSup
輸出:頻繁項集表FP
1)If IsDifferent(TreeTable, Prefix) then //判斷是否有分支
2) for each Pi=Combination(ItemID) //輸出所有組合
3) Insert into FP values(Pi∪Postfix,min(ItemCount))
4)Else for each αiin HeaderTable {
5) Insert into FP values(αi∪Postfix, αi.(ItemCount))
6) Create DA as select Decompose(Prefix), NodeCount from TreeTable where ItemID=αi//生成條件模式基
7)Call Create_Tree(DA, TreeTable2, HeaderTable2, MinSup) //生成條件模式樹
8) If TreeTable2≠Ф then
9) Call FP_Growth(TreeTable2, HeaderTable2, αi∪Postfix, MinSup)} //遞歸調用FP-Growth
10)Drop table TreeTable, HeaderTable //刪除臨時無用的表格,釋放空間
異常參數檢測的任務是識別其特征顯著不同于其他數據的觀測值。異常檢測算法的目標是發現真正的異常點,避免錯誤地將正常的對象標注為異常點。通過對導彈數據中的參數進行異常檢測,能夠迅速發現參數的異常值,這里采用Z-Score檢測法來計算某參數的取值相對于正常狀態下的偏離程度,從而找到離群參數值。


文獻[10]推薦使用下列公式計算的Z-Score進行離群點檢測:


實際應用中以某批次50枚導彈作為樣本,將50枚導彈生產過程中和8年使用維護過程中的所有歷史數據信息錄入數據庫。經過數據預處理后將與一枚導彈有關的所有數據整合成一條記錄,共形成50條記錄,每條記錄中含各類數據信息五千余個,包括導彈型號、批次號、導彈編號、彈上各分設備及組件編號、裝配記錄、工藝參數、歷次檢查測試記錄、環境監測數據、交接記錄、故障維修記錄、值班記錄等等。
通過數據挖掘平臺分析生產過程中的工藝參數與產品質量的關聯,找出數據中與特定缺陷“S001”關聯最緊密的參數組合,以在數據集合中的出現頻率對這些組合進行排序后發現,排名最高的4個組合均含有“Char_120105-56”和“Char_120105-58”兩個參數,可以說這兩個參數對缺陷“S001”有很大影響。
通過數據挖掘平臺進行剩余壽命預測,可以有效開展導彈預防性維修和視情維修,對于降低維護維修成本、提高裝備的戰備完好性具有現實意義。通過數據挖掘平臺的時間維分析子系統預測導彈剩余壽命,從圖3可以看出,預測的剩余壽命與該枚導彈實際剩余壽命基本一致,驗證了方案的可行性。

圖3 導彈預測壽命與實際剩余壽命比較
本文從導彈數據挖掘系統設計需求分析出發,提出了導彈數據挖掘平臺的總體設計思路,介紹了導彈數據預處理方法、數據挖掘算法和異常參數檢測算法的思想和步驟,充分利用導彈在工廠生產階段和部隊使用維護階段積累的海量數據,對于優化導彈生產流程、提高產品質量、降低維護維修費用有關重要的意義。這種思路、設計方案可以應用于其他型號導彈及其各型武器裝備的生產和使用維護中,應用前景廣闊,社會及經濟、軍事效益顯著,對于提高武器裝備的戰備完好性和使用管理決策支持能力必將起到積極的作用。
[1] White House Office of Science and Technology Policy.Big Data is a Big Deal[EB/OL].[2012-03-29].http:∥www.whitehouse.gov/blog/2012/03/29/big data big deal.
[2]White House Executive Office of the President.Big Data across the Federal Government[EB/OL].[2012-03-29].http:∥www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.
[3]Wang Weihang.The British Provides Huge Sum of Money for Developing Big Data Technologies to Promote Economic Growth[EB/OL].[2013-05-31].http :∥www.e-gov.org.cn/xinxihua/news003/201305/141545.html.
[4]Tan Pangning, Michal Steinbach, Vipin Kumar.數據挖掘導論[M].北京:人民郵電出版社,2011:2-3.
[5]FIU-Miner[EB/OL]. http://www.Datamining-node08.cs.fiu.edu/ FIU-Miner/.
[6]李秀娟,田 川,馮 欣.數據挖掘分類技術研究與分析[J].現代電子技術,2010,33(20):86-88.
[7]辛芳芳,焦李成,王桂婷.非局部均值加權的動態模糊.Fisher分類器的遙感圖像變化檢測[J].測繪學報,2012,41(4):584-590.
[8]李 暉,肖鵬峰,馮學智,等.基于向量場模型的多光譜遙感圖像多尺度邊緣檢測[J].測繪學報,2012,41(1):100-107.
[9]Han J, Pei J,Yin Y. Mining frequent patterns without candidate generation[R]. In ACM SIGMOD Record, 2000,29:1-12.
[10]李 濤,等.數據挖掘的應用與實踐[M].廈門:廈門大學出版社,2013.
DesignandKeyTechnologyofDataMiningPlatformforTacticalMissile
Ma Yan
(PLA,No.92941 Troop,Huludao 125001,China)
In order to optimize the production process and reduce life cycle costs of the tactical missile,the general design thinking on the missile data mining platform is put forward using huge amounts of data in the production, use and maintenance phase. Data preprocessing methods, data mining algorithms and anomaly detection algorithms are studied in the process of the missile data mining. FP-Growth algorithm is adopted to mine the association with the process parameters and products quality. Z-Score detection method is adopted to detect anomaly parameters. Practical application shows that these methods can enhance missile quality and operational readiness. It has a wide foreground of military application.
data mining platform;system design;data preprocessing;anomaly detection
2017-05-09;
2017-05-18。
馬 艷(1971-),女,山東臨朐人,高級工程師,碩士,主要從事戰術導彈試驗與鑒定方向的研究。
1671-4598(2017)11-0096-03
10.16526/j.cnki.11-4762/tp.2017.11.025
TP303
A