新型基于大數(shù)據(jù)分析與挖掘的戰(zhàn)略決策框架

2022-05-10 01:25:14陳文青

無線電工程 2022年5期

關(guān)鍵詞：模型

陳文青

(中國(guó)人民解放軍91776部隊(duì)，北京 100161)

0 引言

隨著軍事數(shù)據(jù)量爆炸式地增長(zhǎng)，軍隊(duì)及軍工研究所需要在復(fù)雜多變的軍事環(huán)境中做出更好的戰(zhàn)略決策。為了應(yīng)對(duì)復(fù)雜多變的軍事環(huán)境，軍隊(duì)及軍工研究所需要在戰(zhàn)略決策過程中收集大量的軍事數(shù)據(jù)，將規(guī)范的軍事數(shù)據(jù)持久化保存，并且對(duì)軍事數(shù)據(jù)進(jìn)行分析，挖掘出軍事數(shù)據(jù)中蘊(yùn)含的軍事價(jià)值，進(jìn)而制定出準(zhǔn)確、長(zhǎng)遠(yuǎn)、全局的戰(zhàn)略決策[1]。

傳統(tǒng)的戰(zhàn)略決策模型如波士頓矩陣[2]，應(yīng)用于軍事環(huán)境中主要基于軍隊(duì)武器裝備的多樣性和軍工產(chǎn)品的先進(jìn)性來分析軍事戰(zhàn)斗力，評(píng)估軍隊(duì)及軍工研究所的各類武器裝備和軍工產(chǎn)品的重要性，進(jìn)而合理安排軍隊(duì)及軍工研究所的研發(fā)比例，對(duì)更有發(fā)展前景的武器裝備和軍工產(chǎn)品加大投資力度。然而，波士頓矩陣也存在著缺點(diǎn)。首先，波士頓矩陣假設(shè)各個(gè)軍事行動(dòng)相對(duì)獨(dú)立，但是大量的軍事數(shù)據(jù)表明軍事行動(dòng)之間往往具有強(qiáng)相關(guān)性，可能無法找到全局最優(yōu)策略；其次，對(duì)于復(fù)雜、多態(tài)和變化的軍事數(shù)據(jù)，波士頓矩陣具有粗粒度的評(píng)價(jià)等級(jí)，不能精確地評(píng)估軍事戰(zhàn)斗力，使得軍隊(duì)及軍工研究所難以制定準(zhǔn)確的戰(zhàn)略決策。

另一種經(jīng)典的戰(zhàn)略決策模型如麥肯錫矩陣[3]，應(yīng)用于軍事環(huán)境中加入了更多的評(píng)價(jià)指標(biāo)。相比基于軍隊(duì)武器裝備的多樣性和軍工產(chǎn)品的先進(jìn)性的波士頓矩陣，麥肯錫矩陣的結(jié)構(gòu)更加復(fù)雜，能更準(zhǔn)確地分析軍事戰(zhàn)斗力，可以基于軍事行動(dòng)的相關(guān)性和武器裝備、軍工產(chǎn)品的綜合實(shí)力來制定戰(zhàn)略決策，包含了更多的軍事因素，能夠從全局角度制定更加準(zhǔn)確的戰(zhàn)略決策。不過，麥肯錫矩陣也存在著局限性。首先，對(duì)于信息時(shí)代中海量多態(tài)的軍事數(shù)據(jù)，麥肯錫矩陣的綜合指標(biāo)的系數(shù)難以精確地分配，導(dǎo)致軍事行動(dòng)的評(píng)價(jià)結(jié)果出現(xiàn)偏差；其次，對(duì)于一個(gè)大型復(fù)雜的軍事行動(dòng)，將產(chǎn)生海量的軍事數(shù)據(jù)。由于麥肯錫矩陣的流程繁雜，使得軍隊(duì)及軍工研究所的人員不易操作，難以在有限的時(shí)間內(nèi)提煉出有價(jià)值的軍事信息。

從傳統(tǒng)的戰(zhàn)略決策模型，如SWOT(Strengths，Weaknesses，Opportunities，and Threats)模型[4]、SCP(Structure-Conduct-Performance)分析模型[5]、AARRR(Acquisition，Activation，Retention，Revenue，Referral)模型[6]等，可以發(fā)現(xiàn)，這些方法大多需要收集規(guī)范正確的軍事數(shù)據(jù)、制定合理的評(píng)價(jià)指標(biāo)和基于專家經(jīng)驗(yàn)制定特定的軍事分析規(guī)則。但是，傳統(tǒng)的戰(zhàn)略決策模型難以持久化存儲(chǔ)、清洗和處理海量多態(tài)的軍事數(shù)據(jù)。其次，對(duì)于復(fù)雜多變的軍事環(huán)境，軍隊(duì)及軍工研究所各個(gè)軍事行動(dòng)的決策也會(huì)不斷調(diào)整，進(jìn)而導(dǎo)致這些方法的評(píng)價(jià)指標(biāo)不適用于各個(gè)軍事行動(dòng)場(chǎng)景，需要重新制定特定的評(píng)價(jià)指標(biāo)；最后，基于專家經(jīng)驗(yàn)的方法需要極其嚴(yán)格地分析規(guī)則，但是對(duì)于大規(guī)模的軍事數(shù)據(jù)而言，人為制定的規(guī)則并不能挖掘出數(shù)據(jù)中隱含的信息，并且軍事人員需要消耗大量的時(shí)間進(jìn)行分析。

由于大數(shù)據(jù)技術(shù)的蓬勃發(fā)展，許多行業(yè)中的機(jī)構(gòu)，如醫(yī)療保健、社交媒體、智慧城市、智能交通、能源管理、金融管理和智能農(nóng)業(yè)等[7]，開始利用大數(shù)據(jù)技術(shù)來分析行業(yè)前景，挖掘出海量數(shù)據(jù)中隱含的有價(jià)值的信息，進(jìn)而制定準(zhǔn)確、長(zhǎng)遠(yuǎn)、全局的戰(zhàn)略決策。首先，相比傳統(tǒng)的戰(zhàn)略決策模型，大數(shù)據(jù)技術(shù)包含先進(jìn)的工具(如NoSQL，BigQuery，MapReduce等)，能夠存儲(chǔ)和處理海量多態(tài)的軍事數(shù)據(jù)[8]。并且大數(shù)據(jù)分析與挖掘能夠幫助軍工研究所和軍隊(duì)以可解釋的、合理的形式從數(shù)據(jù)中提取知識(shí)。其次，傳統(tǒng)的戰(zhàn)略決策模型的擴(kuò)展性和適用性差，而各類數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法可適應(yīng)不同的軍事行動(dòng)場(chǎng)景，能夠分析海量多態(tài)的數(shù)據(jù)，進(jìn)而建立高可用、易擴(kuò)展的戰(zhàn)略決策模型。最后，大數(shù)據(jù)分析與挖掘方法是由數(shù)據(jù)驅(qū)動(dòng)的技術(shù)框架，能夠從軍事數(shù)據(jù)中獲得全面的軍事信息，進(jìn)而在軍事行動(dòng)的智能分析中提供全局性、前瞻性的戰(zhàn)略決策。

綜上所述，本文首次提出了新型基于大數(shù)據(jù)分析與挖掘的戰(zhàn)略決策框架——BDAM-SDF(Big Data Analysis and Mining-Strategic Decision Framework)。相比傳統(tǒng)的戰(zhàn)略決策模型，BDAM-SDF具有高可用、易擴(kuò)展的特點(diǎn)，包含各種大數(shù)據(jù)技術(shù)與平臺(tái)，可靈活適應(yīng)各種軍事行動(dòng)場(chǎng)景，并且是一種大數(shù)據(jù)技術(shù)驅(qū)動(dòng)型架構(gòu)，能夠覆蓋制定戰(zhàn)略決策過程的全部生命周期，能夠全方位地獲取、存儲(chǔ)、分析軍事數(shù)據(jù)，挖掘出有價(jià)值的軍事信息，進(jìn)而精確、全面、長(zhǎng)遠(yuǎn)地制定戰(zhàn)略決策。

1 BDAM-SDF架構(gòu)和工作機(jī)制

基于大數(shù)據(jù)分析與挖掘的一體化戰(zhàn)略決策框架是一種數(shù)據(jù)密集型架構(gòu)，提供了用于數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和戰(zhàn)略決策制定的各種技術(shù)和平臺(tái)。

1.1 BDAM-SDF的整體架構(gòu)

BDAM-SDF整體架構(gòu)如圖1所示。將對(duì)BDAM-SDF的各個(gè)階段進(jìn)行概述，其中數(shù)據(jù)生成、數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)與預(yù)處理為基礎(chǔ)設(shè)施架構(gòu)層；數(shù)據(jù)分析為規(guī)范數(shù)據(jù)集中分析層；數(shù)據(jù)可視化和戰(zhàn)略決策制定為綜合管理應(yīng)用層。

圖1 BDAM-SDF整體架構(gòu)Fig.1 Overall architecture of BDAM-SDF

1.1.1 數(shù)據(jù)生成

大數(shù)據(jù)生成是指從各種來源生成數(shù)據(jù)。數(shù)據(jù)源包括機(jī)器、人和軍事行動(dòng)等。不同數(shù)據(jù)源的相關(guān)性如圖2所示。

圖2 多源數(shù)據(jù)的相關(guān)性Fig.2 Correlation of multi-source data

其中，與機(jī)器相關(guān)的數(shù)據(jù)來自Web服務(wù)、傳感器、音頻設(shè)備和視頻設(shè)備等。與人相關(guān)的數(shù)據(jù)包括工作方向、日常任務(wù)和職業(yè)等。與軍事行動(dòng)相關(guān)的數(shù)據(jù)包括軍隊(duì)訓(xùn)練數(shù)據(jù)和聯(lián)合作戰(zhàn)數(shù)據(jù)等[9]。當(dāng)討論基于大數(shù)據(jù)分析的軍事行動(dòng)時(shí)，軍事行動(dòng)相關(guān)的數(shù)據(jù)非常重要。

1.1.2 數(shù)據(jù)采集

數(shù)據(jù)采集是指從數(shù)據(jù)倉庫或各種數(shù)據(jù)庫中收集、過濾和清理數(shù)據(jù)的過程[10]，如圖3所示。數(shù)據(jù)采集分為數(shù)據(jù)探索和數(shù)據(jù)收集2個(gè)階段。數(shù)據(jù)探索主要有2個(gè)目的：① 確定數(shù)據(jù)的性質(zhì)和特征；② 擯棄可能嚴(yán)重影響數(shù)據(jù)質(zhì)量的噪聲數(shù)據(jù)。而數(shù)據(jù)收集是指從現(xiàn)實(shí)世界中獲取未經(jīng)處理的數(shù)據(jù)，例如從不同傳感器中收集海量復(fù)雜、未處理的數(shù)據(jù)。

圖3 數(shù)據(jù)采集過程Fig.3 Data collection process

1.1.3 數(shù)據(jù)存儲(chǔ)與預(yù)處理

數(shù)據(jù)存儲(chǔ)是指經(jīng)過數(shù)據(jù)采集后，將多種類型的數(shù)據(jù)以不同的形式存儲(chǔ)。大數(shù)據(jù)存儲(chǔ)的工具有HBase，NoSQL，Gluster，HDFS和GFS[11]。數(shù)據(jù)預(yù)處理通常使用2種模型進(jìn)行處理，分別是流處理模型和批處理模型。預(yù)處理涉及到一系列步驟：如何集成數(shù)據(jù)、如何轉(zhuǎn)換數(shù)據(jù)、如何選擇正確的模型進(jìn)行處理以及如何提供結(jié)果。流處理模型盡可能快地處理數(shù)據(jù)，并且以非常快的速度連續(xù)輸出處理后的數(shù)據(jù)。主要的流處理模型包括Storm，S4和Kafka等[12]。批處理模型首先存儲(chǔ)數(shù)據(jù)，然后進(jìn)行集中處理，主要的批處理模型包括MapReduce[13]等。

1.1.4 數(shù)據(jù)分析

數(shù)據(jù)分析是指運(yùn)用各種機(jī)器學(xué)習(xí)算法、數(shù)據(jù)挖掘技術(shù)和統(tǒng)計(jì)分析方法，對(duì)異構(gòu)數(shù)據(jù)進(jìn)行分析，挖掘出有價(jià)值的隱含信息[14]。大數(shù)據(jù)分析的目標(biāo)是通過分析數(shù)據(jù)獲得前瞻性知識(shí)并更好地指導(dǎo)后續(xù)的戰(zhàn)略決策制定過程。進(jìn)行數(shù)據(jù)分析時(shí)，通常使用機(jī)器學(xué)習(xí)技術(shù)。機(jī)器學(xué)習(xí)技術(shù)從學(xué)習(xí)方式分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)；從功能角度分為回歸算法(如線性回歸、邏輯回歸[15]等)、決策樹算法(如ID3算法[16]、C4.5算法等)、貝葉斯算法(如貝葉斯網(wǎng)絡(luò)和高斯貝葉斯算法等)、聚類算法(如K-均值[17]和期望最大化算法等)、基于核的算法(如支持向量機(jī)[18]和徑向基函數(shù)等)以及人工神經(jīng)網(wǎng)絡(luò)(如多層感知機(jī)[19]和反向傳播神經(jīng)網(wǎng)絡(luò))，如圖4所示。

圖4 機(jī)器學(xué)習(xí)技術(shù)分類Fig.4 Classification of machine learning techniques

其中，回歸算法是基于樣本數(shù)據(jù)，并利用數(shù)理統(tǒng)計(jì)方法來建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式，即回歸方程式。回歸算法也是一種預(yù)測(cè)性的建模技術(shù)，主要研究因變量和自變量之間的關(guān)系。通常這種技術(shù)應(yīng)用于預(yù)測(cè)分析、時(shí)間序列模型以及探索變量之間的相關(guān)性。決策樹算法是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。決策樹的生成過程主要分為特征選擇、決策樹生成和剪枝。其中特征選擇是指從訓(xùn)練數(shù)據(jù)的眾多的特征中選擇一個(gè)特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn)，并且如何選擇特征有很多不同的量化評(píng)估標(biāo)準(zhǔn)，從而衍生出不同的決策樹算法。決策樹生成是根據(jù)選擇的特征評(píng)估標(biāo)準(zhǔn)，從上至下遞歸地生成子節(jié)點(diǎn)，直到數(shù)據(jù)集不可再分為止。剪枝是克服決策樹容易過擬合的特點(diǎn)。貝葉斯分類算法是統(tǒng)計(jì)學(xué)的一種分類方法，是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。樸素貝葉斯分類是貝葉斯分類中最簡(jiǎn)單的一種，主要是利用貝葉斯公式，并根據(jù)某特征的先驗(yàn)概率計(jì)算出后驗(yàn)概率，然后選擇具有最大后驗(yàn)概率的類作為該特征所屬的類。并且樸素貝葉斯分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美，能運(yùn)用到大型數(shù)據(jù)庫中，而且方法簡(jiǎn)單、分類準(zhǔn)確率高、速度快。聚類算法中最普及的是K-均值算法，這是一種迭代算法，首先選擇k個(gè)隨機(jī)的點(diǎn)，稱為聚類中心，其次對(duì)數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)，按照距離k個(gè)中心點(diǎn)的距離，將其與距離最近的中心點(diǎn)關(guān)聯(lián)起來，與同一個(gè)中心點(diǎn)關(guān)聯(lián)的所有點(diǎn)聚成一類，然后計(jì)算每一個(gè)組的平均值，將該組所關(guān)聯(lián)的中心點(diǎn)移動(dòng)到平均值的位置，最后重復(fù)步驟，直至中心點(diǎn)不再變化。人工神經(jīng)網(wǎng)絡(luò)如多層感知機(jī)，主要是由輸入層、隱藏層和輸出層組成，其中層與層之間均為全連接，且每個(gè)隱藏層的輸出通過激活函數(shù)進(jìn)行變換。

1.1.5 數(shù)據(jù)可視化

數(shù)據(jù)可視化方法包括以表格、圖像和程序來顯示數(shù)據(jù)。目前有各種經(jīng)典的可視化分析工具，如Dive，Rattle，F(xiàn)lockDB，F(xiàn)lare，Amcharts和Protovis。最近，洛馬、波音、三菱重工、諾格和通用動(dòng)力等公司都在尋找可視化工具以及基于軍事分析的智能可視化解決方案[20]。數(shù)據(jù)可視化也是解釋大數(shù)據(jù)的主要機(jī)制之一。從統(tǒng)計(jì)科學(xué)的角度來看，大數(shù)據(jù)的使用對(duì)數(shù)據(jù)可視化的發(fā)展具有重要意義[21]。

1.1.6 戰(zhàn)略決策制定

戰(zhàn)略決策制定是指將數(shù)據(jù)中挖掘出的軍事價(jià)值進(jìn)行實(shí)現(xiàn)的過程。并且戰(zhàn)略決策制定將基于數(shù)據(jù)分析中挖掘出的有價(jià)值的隱含信息。戰(zhàn)略決策制定包括戰(zhàn)略決策建模、戰(zhàn)略決策分析和戰(zhàn)略決策完善3個(gè)步驟。

決策建模是指基于關(guān)鍵信息來設(shè)計(jì)和改進(jìn)軍事行動(dòng)部署方案，并分析軍事行動(dòng)的作戰(zhàn)效率、保障水平和制勝要素。在決策建模過程中，需要提供全局性、完整性、長(zhǎng)遠(yuǎn)性的決策模型，包括武器裝備平臺(tái)、戰(zhàn)斗保障體系、火力系統(tǒng)和戰(zhàn)場(chǎng)通信系統(tǒng)的協(xié)同性、作戰(zhàn)要素互通性以及聯(lián)合指揮高效性等。

決策分析分為2個(gè)階段：第1階段，將決策模型置于各個(gè)軍事行動(dòng)場(chǎng)景中，模擬分析決策模型在軍隊(duì)訓(xùn)練中的可適用性和容錯(cuò)性；第2階段，將決策模型置于軍事演習(xí)行動(dòng)中，全方面測(cè)試決策模型的可擴(kuò)展性和健壯性。

決策完善分為2個(gè)階段：第1階段，將決策分析中出現(xiàn)的問題整理為軍事行動(dòng)調(diào)整報(bào)告，并且進(jìn)行針對(duì)性地改進(jìn)；第2階段，將修改后的決策模型實(shí)際置于軍事行動(dòng)中，高效分析軍事情報(bào)，消除指揮人員的認(rèn)知局限，精準(zhǔn)找到制勝的關(guān)鍵要素，實(shí)現(xiàn)戰(zhàn)略決策智能化。

1.2 BDAM-SDF的工作機(jī)制

BDAM-SDF包括3個(gè)工作階段：數(shù)據(jù)價(jià)值發(fā)現(xiàn)、數(shù)據(jù)價(jià)值創(chuàng)造和數(shù)據(jù)價(jià)值實(shí)現(xiàn)，工作流程如圖5所示。

圖5 BDAM-SDF的工作流程Fig.5 Workflow of BDAM-SDF

1.2.1 數(shù)據(jù)價(jià)值發(fā)現(xiàn)

在BDAM-SDF中，數(shù)據(jù)價(jià)值發(fā)現(xiàn)的目的是獲得能夠直接進(jìn)行數(shù)據(jù)分析的規(guī)范數(shù)據(jù)。因此，數(shù)據(jù)價(jià)值發(fā)現(xiàn)基于數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和預(yù)處理階段。為了更好地理解數(shù)據(jù)價(jià)值發(fā)現(xiàn)的流程，給出了一個(gè)例子。例如，將BDAM-SDF應(yīng)用于軍工產(chǎn)品研發(fā)流程中，首先需要進(jìn)行數(shù)據(jù)生成，列出軍工產(chǎn)品研發(fā)流程中產(chǎn)生的各類數(shù)據(jù)，如軍工產(chǎn)品的性能數(shù)據(jù)、軍工產(chǎn)品的交易數(shù)據(jù)、市場(chǎng)反饋數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù)等；其次，對(duì)各類數(shù)據(jù)進(jìn)行探索，擯棄數(shù)據(jù)質(zhì)量較低的數(shù)據(jù)，盡可能地選擇先進(jìn)的軍工產(chǎn)品研發(fā)流程中產(chǎn)生的數(shù)據(jù)。為了保證高質(zhì)量的數(shù)據(jù)，需建立數(shù)據(jù)清洗方法，包括檢查數(shù)據(jù)的完整性、數(shù)據(jù)的唯一性、數(shù)據(jù)的權(quán)威性和數(shù)據(jù)的合法性這4項(xiàng)規(guī)則。按照規(guī)則來檢查原始軍事數(shù)據(jù)，發(fā)現(xiàn)質(zhì)量較低的數(shù)據(jù)，再對(duì)低質(zhì)量數(shù)據(jù)采用對(duì)應(yīng)方式進(jìn)行處理。例如，對(duì)于數(shù)據(jù)不完整的情況，通常表現(xiàn)為數(shù)據(jù)值缺失，可以使用均值填補(bǔ)法。對(duì)于數(shù)據(jù)不唯一的情況，通常表現(xiàn)為數(shù)據(jù)中存在重復(fù)記錄或重復(fù)字段，需要進(jìn)行去重處理，可以將數(shù)據(jù)按一定規(guī)則進(jìn)行排序，再通過比較鄰近記錄是否相似來檢測(cè)數(shù)據(jù)是否重復(fù)。對(duì)于檢查數(shù)據(jù)的權(quán)威性和數(shù)據(jù)的合法性，可以使用基于密度的方法來檢測(cè)錯(cuò)誤值、異常值，進(jìn)而刪除錯(cuò)誤數(shù)據(jù)和異常數(shù)據(jù)。另外，還需要統(tǒng)一數(shù)據(jù)類型和數(shù)據(jù)格式，對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理以滿足數(shù)據(jù)的合法性和權(quán)威性。然后，將篩選出的數(shù)據(jù)進(jìn)行存儲(chǔ)，可使用HDFS進(jìn)行存儲(chǔ)，并且結(jié)合MapReduce對(duì)數(shù)據(jù)進(jìn)行處理，可獲得待分析的規(guī)范數(shù)據(jù)。

1.2.2 數(shù)據(jù)價(jià)值創(chuàng)造

數(shù)據(jù)價(jià)值創(chuàng)造主要是將待分析的規(guī)范數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)算法或數(shù)據(jù)挖掘技術(shù)從海量的規(guī)范數(shù)據(jù)中分析出有價(jià)值的關(guān)鍵信息，挖掘出數(shù)據(jù)中隱含的軍事價(jià)值。并且在數(shù)據(jù)價(jià)值創(chuàng)造中，選擇合適的數(shù)據(jù)分析技術(shù)至關(guān)重要。在軍工產(chǎn)品研發(fā)場(chǎng)景中，評(píng)估各種機(jī)器學(xué)習(xí)算法，選取一個(gè)最優(yōu)的方法能夠?yàn)楹罄m(xù)階段提供更準(zhǔn)確的軍事信息，使得后續(xù)階段能夠制定出更精確的戰(zhàn)略決策。在數(shù)據(jù)分析過程中對(duì)各類機(jī)器學(xué)習(xí)算法進(jìn)行評(píng)估，首先需要定義機(jī)器學(xué)習(xí)算法的性能指標(biāo)，通常不同的算法模型對(duì)應(yīng)不同的性能指標(biāo)，如對(duì)回歸模型進(jìn)行評(píng)估時(shí)，使用平均絕對(duì)誤差和平均方差等；對(duì)分類模型進(jìn)行評(píng)估時(shí)，使用預(yù)測(cè)準(zhǔn)確率、召回率和F1值等。然后將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集，并選取多個(gè)機(jī)器學(xué)習(xí)算法在訓(xùn)練集上進(jìn)行訓(xùn)練，為了保證更準(zhǔn)確、穩(wěn)定地評(píng)估算法模型，使用交叉驗(yàn)證法，具體為將數(shù)據(jù)集劃分為k個(gè)大小相似的互斥子集，每個(gè)子集輪流作為測(cè)試集，其余的子集則作為訓(xùn)練集，返回k個(gè)訓(xùn)練結(jié)果的均值。最后基于各個(gè)機(jī)器學(xué)習(xí)算法的性能指標(biāo)，綜合考慮選取各個(gè)性能指標(biāo)均排名前列的機(jī)器學(xué)習(xí)算法作為最優(yōu)方法。后續(xù)依然需要使用更多的真實(shí)數(shù)據(jù)集反復(fù)對(duì)最終選取的機(jī)器學(xué)習(xí)算法進(jìn)行調(diào)參、驗(yàn)證，最終保證算法具有較高的穩(wěn)定性和泛化能力。

1.2.3 數(shù)據(jù)價(jià)值實(shí)現(xiàn)

數(shù)據(jù)價(jià)值實(shí)現(xiàn)的目的是為軍隊(duì)及軍工研究所制定全局性、準(zhǔn)確性和長(zhǎng)遠(yuǎn)性的戰(zhàn)略決策，從而分別為軍隊(duì)的軍事行動(dòng)提供制勝要素，為軍工研究所的軍工產(chǎn)品提供可持續(xù)發(fā)展的動(dòng)力。數(shù)據(jù)價(jià)值實(shí)現(xiàn)需要結(jié)合戰(zhàn)略決策建模、戰(zhàn)略決策分析和戰(zhàn)略決策完善，并且每一個(gè)階段都需要基于數(shù)據(jù)分析得到有價(jià)值的軍事信息。在最終制定戰(zhàn)略決策之前，還需要結(jié)合專家的意見以及軍事場(chǎng)景的反饋信息。

2 BDAM-SDF應(yīng)用案例分析

大型的軍工研發(fā)機(jī)構(gòu)如洛馬、波音、三菱重工、諾格和通用動(dòng)力等都有推薦系統(tǒng)。推薦系統(tǒng)能夠向客戶方精準(zhǔn)地提供武器裝備，使得客戶方產(chǎn)生購買意向，最終提高軍工產(chǎn)品的交易量。這表明，推薦系統(tǒng)對(duì)于整個(gè)軍工研發(fā)機(jī)構(gòu)的戰(zhàn)略決策至關(guān)重要。

將BDAM-SDF應(yīng)用于軍工研發(fā)機(jī)構(gòu)中，首先是構(gòu)建BDAM-SDF，如圖6所示。

圖6 BDAM-SDF應(yīng)用于軍工研發(fā)Fig.6 Application of BDAM-SDF in military research and development

其中，數(shù)據(jù)生成階段是指客戶方產(chǎn)生交易數(shù)據(jù)、軍工產(chǎn)品數(shù)據(jù)和反饋數(shù)據(jù)的過程。這些數(shù)據(jù)將由數(shù)據(jù)服務(wù)器保存，然后軍工研發(fā)機(jī)構(gòu)從數(shù)據(jù)服務(wù)器中采集數(shù)據(jù)，并且擯棄疑似惡意交易和虛假購買的數(shù)據(jù)，進(jìn)而篩選出正常的客戶方數(shù)據(jù)，由分布式文件系統(tǒng)進(jìn)行存儲(chǔ)，如HDFS。其次，將經(jīng)過預(yù)處理后的數(shù)據(jù)統(tǒng)一由計(jì)算框架處理，如MapReduce，進(jìn)而生成待分析的規(guī)范數(shù)據(jù)。在數(shù)據(jù)預(yù)處理過程中，進(jìn)行數(shù)據(jù)清洗，盡可能地去掉噪聲數(shù)據(jù)。最關(guān)鍵的是數(shù)據(jù)分析階段，選取一個(gè)合適的機(jī)器學(xué)習(xí)算法能夠使得推薦更加準(zhǔn)確。考慮近3年的機(jī)器學(xué)習(xí)算法，本文選擇2種機(jī)器學(xué)習(xí)算法：K-RecSys-CF[22]和SVM-CF[23]，這2種算法均在推薦系統(tǒng)中取得了不錯(cuò)的成果。其中，K-RecSys-CF由Hwangbo等人在2018年提出。該算法改進(jìn)了協(xié)同過濾算法，合并了軍工產(chǎn)品的點(diǎn)擊信息和交易信息，利用項(xiàng)目類型的數(shù)據(jù)，提出了替換項(xiàng)目的建議。

SVM-CF由Chang等人在2019年提出，這是一種融合協(xié)同過濾和支持向量機(jī)的新算法。與傳統(tǒng)的協(xié)同過濾方法不同，支持向量機(jī)將軍工產(chǎn)品分為正反饋和負(fù)反饋，選擇表現(xiàn)出積極反饋的軍工產(chǎn)品，計(jì)算出精確的分?jǐn)?shù)和評(píng)價(jià)。在軍工產(chǎn)品數(shù)據(jù)上的實(shí)驗(yàn)表明，該算法具有良好的推薦精度和有效性。

考慮到支持向量機(jī)分類效率較低，本文提出的BDAM-SDF框架采用ACO(Ant Colony Optimization)算法[24]來優(yōu)化支持向量機(jī)的參數(shù)，得到最優(yōu)參數(shù)。將改進(jìn)的SVM-CF命名為SVM-ACO-CF，它的推薦準(zhǔn)確率更高，推薦效率也更高。然后，將K-RecSys-CF，SVM-CF和SVM-ACO-CF進(jìn)行對(duì)比，通過實(shí)驗(yàn)證明本文所提框架應(yīng)用SVM-ACO-CF算法優(yōu)于其他2種主流算法。

2.1 實(shí)驗(yàn)準(zhǔn)備

在實(shí)驗(yàn)準(zhǔn)備過程中，將直接使用經(jīng)過數(shù)據(jù)預(yù)處理階段后的規(guī)范數(shù)據(jù)集。數(shù)據(jù)集包括7個(gè)軍工產(chǎn)品集合(如戰(zhàn)斗機(jī)、坦克、裝甲車、槍械、運(yùn)輸機(jī)、導(dǎo)彈和雷達(dá))和近34 000條評(píng)論。其中每個(gè)集合有4 000個(gè)數(shù)據(jù)項(xiàng)，其中2 500個(gè)數(shù)據(jù)項(xiàng)作為訓(xùn)練集，其余的用于測(cè)試。所有算法在Matlab中實(shí)現(xiàn)。

2.2 評(píng)估指標(biāo)

預(yù)測(cè)精度P表示客戶方可能喜歡推薦列表中的項(xiàng)目的概率，可用于表示推薦系統(tǒng)的準(zhǔn)確度。推薦系統(tǒng)的預(yù)測(cè)精度為：

式中，m為數(shù)據(jù)集中一共被劃分的個(gè)數(shù)；u為下標(biāo)；RLu表示數(shù)據(jù)集中模型預(yù)測(cè)為正反饋的所有項(xiàng)目；TLu表示數(shù)據(jù)集中實(shí)際為正反饋的所有項(xiàng)目。召回率R表示推薦列表中客戶方喜歡的項(xiàng)目的比率，可以反映用戶對(duì)推薦結(jié)果的滿意度。客戶方滿意度越高，召回率越高。計(jì)算推薦系統(tǒng)的召回率為：

式中，F(xiàn)表示整體上評(píng)估算法的推薦性能。算法的推薦能力越強(qiáng)，F(xiàn)-measure值越高。推薦系統(tǒng)的F-measure為：

2.3 結(jié)果與分析

對(duì)應(yīng)不同的推薦項(xiàng)目值N下，K-RecSys-CF，SVM-CF和SVM-ACO-CF的預(yù)測(cè)精度P、召回率R和F-measure的結(jié)果如表1、表2和表3所示。

表1 不同N值下各個(gè)方法的預(yù)測(cè)精度PTab.1 Prediction accuracy P of each method with different N values 單位：%

表2 不同N值下各個(gè)方法的召回率RTab.2 Recall rate R of each method with different N values 單位：%

表3 不同N值下各個(gè)方法的F-measureTab.3 F-measure of each method with different N values 單位：%

3種分類器K-RecSys-CF，SVM-CF和SVM-ACO-CF的預(yù)測(cè)精度P如圖7所示。從圖7可以看出，SVM-ACO-CF分類器的預(yù)測(cè)精度最高，K-RecSys-CF的預(yù)測(cè)精度最低。主要是因?yàn)镾VM-ACO-CF利用ACO算法能夠找到全局最優(yōu)參數(shù)，相比SVM-CF和K-RecSys-CF，SVM-ACO-CF的參數(shù)設(shè)定更加準(zhǔn)確，進(jìn)而使得分類準(zhǔn)確率提高。并且隨著推薦項(xiàng)數(shù)N值的增加，3種不同分類器的預(yù)測(cè)精度也會(huì)降低。

圖7 不同N值的各個(gè)方法的預(yù)測(cè)精度PFig.7 Prediction accuracy P of each method with different N values

不同的推薦項(xiàng)目數(shù)N的3種分類器的召回率R如圖8所示。從圖8可以看出，在不同的推薦項(xiàng)目數(shù)中，SVM-ACO-CF的召回率均高于K-RecSys-CF和SVM-CF。并且在推薦項(xiàng)目數(shù)N=30時(shí)，SVM-ACO-CF的召回率為39%，K-RecSys-CF和SVM-CF的召回率為35%和37%，略低于SVM-ACO-CF。主要是因?yàn)镾VM-ACO-CF利用ACO算法的全局尋優(yōu)能力，相比SVM-CF和K-RecSys-CF，能夠?yàn)镾VM-ACO-CF找到最佳參數(shù)，進(jìn)而使得召回率提高。隨著增加推薦項(xiàng)目數(shù)，3種不同分類器的召回率也會(huì)增加。

圖8 不同N值的各個(gè)方法的召回率RFig.8 Recall rate R of each method with different N values

不同推薦項(xiàng)目數(shù)N對(duì)應(yīng)的3種分類器的F-measure如圖9所示。從圖9可以看出，在推薦項(xiàng)目數(shù)為30時(shí)，SVM-ACO-CF的F-measure較好，為32%，而K-RecSys-CF，SVM-CF的F-measure較低，分別為25%和30%。隨著推薦項(xiàng)目數(shù)N的增加，3種分類器的F-measure也有所增加。

圖9 不同N值的各個(gè)方法的F-measure值Fig.9 F-measure of each method with different N values

經(jīng)過數(shù)據(jù)分析后，從規(guī)范數(shù)據(jù)中挖掘出了隱含的軍工產(chǎn)品信息，能夠準(zhǔn)確地推薦軍工產(chǎn)品，促進(jìn)交易量。并且本文所提BDAM-SDF在數(shù)據(jù)分析階段選取了較好的機(jī)器學(xué)習(xí)算法，根據(jù)實(shí)驗(yàn)結(jié)果能夠證明選取的機(jī)器學(xué)習(xí)算法可以達(dá)到良好的推薦準(zhǔn)確性和推薦效率。在實(shí)驗(yàn)過程中，將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行可視化，以圖像的方式更形象地發(fā)掘蘊(yùn)含的有價(jià)值的軍事信息。

3 結(jié)束語

本文針對(duì)如何將大數(shù)據(jù)分析與挖掘應(yīng)用到戰(zhàn)略決策中，更好地解決全局性、可持續(xù)發(fā)展性的重大決策問題，提出了一種基于大數(shù)據(jù)分析與挖掘的一體化戰(zhàn)略決策理論框架——BDAM-SDF。概述了BDAM-SDF的整體架構(gòu)，分別從數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和戰(zhàn)略決策制定進(jìn)行說明。其次，介紹了BDAM-SDF的工作機(jī)制，詳細(xì)描述了BDAM-SDF的數(shù)據(jù)價(jià)值發(fā)現(xiàn)、數(shù)據(jù)價(jià)值創(chuàng)造和數(shù)據(jù)價(jià)值實(shí)現(xiàn)這3個(gè)工作階段。然后，將BDAM-SDF應(yīng)用于真實(shí)的軍工研發(fā)機(jī)構(gòu)案例中，詳細(xì)描述了各個(gè)階段的流程，著重介紹了數(shù)據(jù)分析階段，選取了應(yīng)用于推薦系統(tǒng)中的K-RecSy-CF和SVM-CF機(jī)器學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn)，并且改進(jìn)了SVM-CF算法，在BDAM-SDF框架中采用改進(jìn)的SVM-ACO-CF算法，取得了最優(yōu)效果，使得后續(xù)階段能夠制定更加精確的戰(zhàn)略決策，進(jìn)而應(yīng)用于軍工機(jī)構(gòu)的推薦系統(tǒng)。最終，從真實(shí)案例中證明大數(shù)據(jù)技術(shù)支撐戰(zhàn)略決策具有廣闊的前景和重要的戰(zhàn)略意義。

在最終的戰(zhàn)略決策制定中，基于數(shù)據(jù)分析階段的有價(jià)值的軍事信息，如隨著推薦項(xiàng)目數(shù)N的增加，3種分類器的預(yù)測(cè)準(zhǔn)確率值降低。因此，在戰(zhàn)略決策建模中，可以設(shè)計(jì)和應(yīng)用更好的機(jī)器學(xué)習(xí)算法，并且將進(jìn)行更全面的分析，如考慮客戶的社交關(guān)系和網(wǎng)絡(luò)等。另一方面，嘗試優(yōu)化本文采用的SVM-ACO-CF算法，以提供較高的準(zhǔn)確率。此外，還需要考慮盡可能保護(hù)客戶方的隱私和偏好，如推薦客戶偏好類型的軍工產(chǎn)品的程度可以隨時(shí)間減弱。

在戰(zhàn)略決策模型分析中，將戰(zhàn)略決策模型在推薦系統(tǒng)中進(jìn)行應(yīng)用，并且面向內(nèi)部人員進(jìn)行測(cè)試。然后，針對(duì)內(nèi)部人員的反饋意見，修改戰(zhàn)略決策模型。最終，在戰(zhàn)略決策模型完善階段，結(jié)合軍工機(jī)構(gòu)管理方的意見，進(jìn)而制定戰(zhàn)略決策，并且實(shí)際應(yīng)用于推薦系統(tǒng)中。