有限次實施中作戰方案選擇策略比較研究

2015-12-25 02:34:32萬貽平張東戈

軍事運籌與系統工程 2015年3期

萬貽平張東戈

(解放軍理工大學指揮信息系統學院，江蘇南京210007)

1 引言

作戰方案選擇是軍事決策的重要內容。“評估—預案”范式，即根據備選方案的戰前評估結果制定預案的模式，是方案選擇的常用方法，但其有效性依賴于備選方案評估結果的準確性。而通常評估過程的復雜性、評估主體偏好的不確定性、評估方法的多樣性以及適用局限性等因素，都可能導致作戰方案的評估結果不夠準確［1］。軍事復雜系統本身具有的動態性和不確定性，使得準確分析和預測軍事系統的行為非常困難［2］。此外戰場信息具有的不完整性和不確定性，也會使得戰場實際應用環境與方案評估時的環境差異過大，從而導致先前的評估經驗結果難以后繼使用。陳亞洲等曾研究提出，我軍目前作戰模型和數據的準確性不高，結果難以得到指揮人員認同［3］。對于作戰方案選擇問題，傳統的“戰前評估，戰時選擇”模式并不能有效解決“預案”不可用所帶來的困難。如何在缺乏有效方案評估結果的情況下合理選擇作戰方案，以期達到最優的戰場效果，就成為軍事決策者面臨的一個重大難題。

從公開文獻看，目前對這一問題的研究還較少。對于其中一類包含多次“行動實施”的方案選擇問題，可以在實施過程中收集戰場實際效果(Effects of Battlefield)信息，利用它動態地指導和調整后面幾次作戰方案的選擇。曾松林等人從動態博弈的角度，研究了空襲作戰中，攻擊飛機以小架次、多波次的方式進行突擊情況下，防空火力單元與攻擊飛機多次對抗過程中的目標分配問題［4］。童幼堂將協同作戰模式下，艦空導彈多次射擊的方案序列優選問題等效為多目標多階段的優化問題進行了研究［5］。上述研究從特定軍事問題出發有針對性地進行了方案選擇分析，然而這些分析對有限次實施中作戰方案選擇的一般性方法策略關注還不夠，還需要有進一步的研究。

本文在借鑒Multi - armed Bandit［6］算法思想的基礎上，權衡了“有限次實施機會”和“稀缺資源”之間的累計實施效果關系，將有限次實施中作戰方案選擇問題，建模為稀缺資源最優分配問題。通過對4 種策略的比較研究，探索了不同選擇策略各自的特點，由此可以為軍事決策提供一般性的方法參考。

2 有限次實施中作戰方案選擇問題

現代作戰可以看成是一種由持續離散型事件組成的任務，在信息系統的支持下，每次事件實施效果可以得到實時評估，由此對于作戰人員而言，戰術方案可以根據實施效果反饋信息進行適應性地動態調整。而動態調整的策略不同，則會有最終不同的累計實施效果。例如，網絡涉軍輿情引導作戰中，需要程式化甚至自動化地選擇使用網絡輿情引導技術方案，以達到最好的輿情引導效果。在某些場合下，宣傳引導網頁的累計點擊量越大、引導信息的覆蓋面越廣，可以被視為輿情引導效果越好。而備選輿情引導方案實施前，難以提前獲知網民對各備選方案的感興趣程度，所以必須通過實際的實施來評估方案的效果。如何在有限的時間內，通過動態選擇實施備選方案，來達到累計點擊量的最大化，是輿論引導人員面臨的重要問題。

據此可以進行模型背景想定設定:某項軍事任務需將作戰行動重復實施有限多次，每次行動實施之前均需從備選方案集合中選擇作戰方案，行動實施后產生的戰場效果無法提前預知，且結果具有一定的隨機性。如何為每次作戰行動選擇方案，使得累積的戰場效果達到最大，就是本文研究的有限次實施中作戰方案選擇問題。

本文研究的“方案選擇策略”所指的，不是具體的作戰策略本身，而是策略的策略。我們所關注的，不是如何戰爭，也不是如何對抗。我們關注的要點是:“如何從戰爭中學習戰爭”“如何從對抗中學習對抗”，采用何種策略，才能夠讓學習的成本盡可能地小。

2.1 基本想定假設

在實際作戰中，具體的作戰行動所面臨的戰場條件常常千差萬別，所遵循的作戰準則也可能各有不同。然而，只要作戰行動滿足某些特定的條件，那么，就可以將這些作戰行動劃歸為同一類，將作戰行動實施中面臨的“有限次實施中作戰方案選擇”問題，界定為本文所要研究的問題。

為便于研究，本文對“有限次實施中作戰方案選擇策略”中作戰行動所需滿足的條件做如下的想定假設:

假設1:每次行動實施產生的作戰效果不受前期行動的影響。

假設2:作戰效果可量化為數值參數，且同一個作戰方案在各次不同的實施下，所產生的作戰效果統計上服從正態分布。

假設3:行動實施后的作戰效果能夠被迅速觀察或者是測量獲得。

2.2 問題描述

2.2.1 有限次實施

假設某項軍事任務由重復實施N次的“特定作戰行動”組成，將其中的每一次行動都認定為一個過程，每個過程都包含“方案的選擇”和“方案的實施”兩個階段。包含有限次行動實施的軍事任務共被分解為N個過程，名稱分別記為P1，P2，…，PN。根據假設1，P1，P2，…，PN各過程行動通過實施所產生的作戰效果僅和所選擇的方案有關，與實施的次序無關。

2.2.2 作戰方案選擇

在“特定作戰行動”進入某一具體過程后，首先需要從備選方案集合中選擇一個方案，然后實施該方案。設備選方案集合為D ={C1，C2，…，Ck}，其中C1，C2，…，Ck分別表示k個備選方案。P1，P2，…，PN各個過程的備選方案集合相同，均為D。需要強調的是，本文將備選方案設定為固定的有限集合，備選方案本身在“有限次”實施中并不發生改進，備選方案的數量也不發生增加，是基于以下兩點考慮:一是戰爭資源的有限性，決定了備選方案是固定的有限集合，裝備以及人員的物理屬性和自然屬性決定了作戰雙方難以在作戰過程中臨機地改進和創新出新的作戰方案;二是現代戰場往往不存在改進作戰方案的時間。未來現代戰場會有很多程式化的執行，即按一個既定的策略方案連續不斷地在動態調整中加以實施，而不能在作戰實施過程中停下來調整，因為裝備的實施特征決定了不存在這樣一個反應時間。

2.2.3 累積戰場效果

方案i(i =1，2，…，k)實施后所產生的戰場效果，用連續型的數值表示，記為Ei。根據假設2，Ei是一個服從正態分布的隨機變量。方案i已實施的次數記為Mi，方案i實施后產生的戰場效果統計均值記為ˉEi。累積戰場效果E定義為N次行動中k種方案戰場效果之和。即當時，有:

3 有限次實施中作戰方案選擇策略

有限次實施中，作戰方案選擇問題的特點在于，每個備選方案i被實施后產生的戰場效果Ei是一個隨機變量，可以通過多次實施來觀測和評估。某個備選方案被實施的次數越多，通過統計戰場效果而得出的戰場效果預估值對Ei的描述就越可信。然而，如果每個備選方案都被實施較多的次數，就會將有限的實施機會“浪費”在方案的選擇上，如果選中了較差的方案，就會極大地降低全部方案實施后所累積出來的戰場效果值。

一個好的策略，需要在“探索最優方案”和“避免浪費實施機會”兩者之間做出權衡，更優的選擇策略會使得整個軍事任務完成后累積出的戰場效果的預期值更大。作戰方案選擇策略，就是用于P1，P2，…，PN各個過程方案選擇的規則。

3.1 隨機策略

隨機策略(Random Strategy)是第一種策略，它是一種隨機選擇作戰方案的策略。隨機策略下，每一個過程Pi中的“方案選擇”階段均隨機地從備選方案集合D中隨機選擇一個方案，然后實施該方案。隨機策略是一種通常的策略，本文將隨機策略定為不同策略比較的基礎，其他策略的特點優劣都通過與隨機策略的比較來完成。

3.2 直覺策略

直覺策略(Naive Strategy)是第二種策略，它是首先給每個備選方案分配m次實施的機會，然后將實施完成后各方案戰場效果的平均值，作為其戰場效果的預估值。該策略將預估值最大的方案作為一個最終的“最佳方案”。以后的N － mk次過程，均選擇和實施這個最終的“最佳方案”。該策略簡單直觀，符合人們的直覺，所以叫作直覺策略。它有以下特點:

(1)策略分為兩個明顯不同的階段。前mk次實施為第一階段，目的是探索最終的“最佳方案”;后N－mk次實施為第二階段，利用探索階段所得到的“最佳方案”來實施，以產生最大的戰場效果。

(2)m值的選取影響策略的效果。m值如果選得過小，難以保證“最佳方案”可信;m值如果選得過大，則過多的行動機會可能會被分配給較差的方案，甚至是給了明顯較差的方案，這會造成實施機會的“浪費”。

3.3 貪心策略

對于有限次實施中作戰方案選擇問題，可以將有限的N次行動機會等價為稀缺資源，k個備選方案作為資源分配的k個選項，累積戰場效果E作為N次分配的總收益。經過這樣的考慮，可以將有限次實施中作戰方案選擇問題等價為稀缺資源最優分配問題。Multi - armed Bandits 作為解決稀缺資源分配問題的算法，被廣泛運用于運籌學中的隨機調度［7］、臨床試驗［8］、最優投資及最優分配等相關領域［9，10］。Multi - armed Bandits 算法根據每次收集到的收益信息，在每個決策時點上，動態地調整規則，從而使總收益的預期最大化。該算法由一組可控的隨機過程組成，每個隨機過程有兩種選擇:“繼續探索”和“堅持以往”［6］。其優勢在于，探索階段將資源更多地分配給先前較優的方案，對先前較差方案，則不做過度探索。

基于Multi - armed Bandits 算法改進出的ε貪心策略(ε－Greedy Strategy)，借鑒了Multi-armed Bandits 算法的思想，每個過程均動態選擇備選方案。在P1，P2，…，PN各個過程進行方案選擇時，以某一較小概率ε隨機地選擇行動方案，以概率1－ε堅持“當前最佳方案”。該策略用已實施各方案的戰場效果的平均值，作為該方案戰場效果的預估值，將預估值最大的方案判定為臨時的“當前最佳方案”。臨時的“當前最佳方案”有可能隨探索的進行而繼續發生變化。相比較于直覺策略，該策略有以下特點:

(1)保證大部分實施機會(大于1－ε的概率)分配給了“當前最佳方案”，從而避免為較差的方案分配過多的實施機會。

(2)考慮到“當前最佳方案”不一定是最佳方案，該策略以概率ε來“繼續探索”最佳方案，從而避免將實施機會永久分配給局部最佳方案。

3.4 置信上限策略

在數理統計理論里的未知量估計問題中，置信區間和置信水平是用來描述估計值可信程度的重要指標。基于Multi - armed Bandits 算法的置信上限策略(Upper Confidence Bound Strategy)，用置信上限代替均值作為預估值。對于已實施方案i的戰場效果Ei，設其置信水平為1－ α時的置信上限為Ui。該策略在各個過程P1，P2，…，PN進行方案選擇時，均先計算已實施各方案戰場效果的置信上限Ui，將其作為各方案戰場效果的預估值，然后判定預估值最大的方案為臨時的“當前最佳方案”，并在本次過程中將實施機會分配給“當前最佳方案”。

根據假設2，各方案產生的作戰效果服從正態分布，則設方案i實施后所產生的戰場效果Ei ～N(μ，σ2)，則是μ的無偏估計，且有:

式(2)中，μ為戰場效果的期望，σ為戰場效果的標準差。

按標準正態分布的上α分位點的定義［11］，根據式(2)有:

式(3)中，ni為方案i實施次數為標準正態分布的分位點。則:

即已實施方案i的戰場效果置信水平為1－ α的置信上限Ui為:

式(5)中，σ與均為常數，且方案i的戰場效果均值ˉEi相對穩定，則隨著方案i實施次數ni的增大，其預估值ui將變小，這樣已實施次數較少的方案就有可能成為新的“當前最佳方案”。相比于貪心策略，該策略將預估值Ui與實施次數ni在公式(5)中結合起來，利用“當前最佳方案”的同時也在探索最優方案，避免了貪心策略中以概率ε“隨機探索”的資源浪費。

4 選擇策略的仿真計算研究

為了能夠更為直觀地了解各種選擇策略的效果，我們可以通過計算機仿真計算實驗對4 種選擇策略的特點做定量化的描述。仿真實驗采用Monte Carlo 方法，用隨機數模擬方案實施后產生的戰場效果。為降低隨機性的影響，實驗重復了1000 次。

4.1 仿真計算參數設定

仿真中涉及的參數設定如下:

(1)作戰行動重復實施次數N =3000;備選方案數k =4。

(2)設定4 個備選方案的戰場效果期望分別為5、9、6、15，標準差均為2。

(3)直覺策略先給4 個備選方案各分配m =10 次實施機會;之后的N－mk =160 次實施機會均分配給“最佳方案”。

(4)貪心策略中ε的值設定為0.2。

(5)置信上限策略使用σ =1，1－ α的正態分布的置信上限作為方案戰場效果的預估值。

4.2 仿真計算結果及分析

通過仿真計算，可以得到如下結果，見圖1、圖2 和表1。

圖1 四種策略選擇最佳方案的概率

圖2 四種策略的累積作戰效果

表1 直覺策略和置信上限策略對比

從圖1 可以看出，隨機策略從4 種備選方案中選擇到最佳方案的概率在0.25 附近波動;直覺策略在20－30 次實施時選中最佳方案，40 次實驗之后選到最佳方案的概率為1，說明該策略在40 次實驗之后成功找到最佳方案;貪心策略選到最佳方案的概率在前幾次實驗中迅速提高，并維持在0.8 左右的水平，這是由于ε =0.2;95%置信上限策略選到最佳方案的概率在前幾次實施中有所波動，并迅速穩定在接近1 的水平。

從圖2 可以看出，作戰行動重復實施次數N不大于100 的情況下，95%置信上限策略始終保持最大的累積戰場效果;直覺策略重復實施次數N超過40 后，累計戰場效果保持高增長率。

從表1 可以看出，重復實施次數N超過182 時，直覺策略的累積戰場效果超過貪心策略;重復實施次數N超過2350 時，直覺策略的累積戰場效果超過95%置信上限策略;重復實施次數N為3000 時，直覺策略的累積戰場效果為44746，超過但未顯著超過置信上限策略的累積戰場效果44736。

通過以上仿真計算，可以得到如下結論:

(1)隨機策略是一種較差的策略。

(2)置信上限策略選擇最佳方案的概率一直穩定在接近1 的高水平，是一種較為理想的策略。尤其是當有限次實施的重復次數不大時，置信上限策略產生的預期累積戰場效果大于其他3 種策略。

(3)當有限次實施的重復次數特別大時，直覺策略可能優于置信上限策略，但優勢不明顯。

5 結束語

有限次實施中作戰方案選擇問題是現代戰爭面臨的一個重要問題，性能良好的“方案選擇策略”能夠指導和幫助作戰指揮人員、戰場設計人員、武器系統研究人員和裝備作戰使用研究人員，研究和設計在信息系統的支持下的備選方案動態選擇。本文提出并模型化了有限次實施中作戰方案選擇問題，并比較研究了幾種選擇策略的特點，為作戰方案選擇問題提供了方法參考。然而，作戰雙方或多方的動態應對、方案作戰效果的統計學特征和實施次數等因素影響著選擇策略的有效性，本文對此未做深入探討分析。在下一步的研究中，我們將研究不同因素對較優的方案選擇策略的影響。

［1］許誠，杜茂華，孫有田，等. 反艦導彈武器系統作戰效能評估風險初探［J］.軍事運籌與系統工程，2010，24(2):30 -33.

［2］黃柯棣，趙鑫業，楊山亮，等. 軍事分析仿真評估系統關鍵技術綜述［J］.系統仿真學報，2012，24(12):2439 -2447.

［3］陳亞洲，劉建平.作戰模擬在指揮決策領域推廣應用面臨的問題與對策［J］.軍事運籌與系統工程，2012，26(4):27 -38.［4］曾松林，王文惲，丁大春，等. 基于動態博弈的目標分配方法研究［J］.電光與控制，2011，18(2):26 -72.

［5］童幼堂.艦空導彈指揮決策模型及應用研究［D］. 大連:大連理工大學，2005.

［6］ WHITE J. Bandit algorithms for website optimization［M］. O'Reilly Media，Inc.，2012.

［7］ CAI X，WU X，ZHOU X. Optimal Stochastic Scheduling［M］.Springer，2014.

［8］ LAI T L. Sequential analysis:some classical problems and new challenges［J］. Statistica Sinica，2001，11:303 -408.

［9］ MCLENNAN A. Price dispersion and incomplete learning in the long run［J］. Journal of Economic dynamics and control，1984，7(3):331 -347.

［10］ KELLER G，RADY S. Optimal experimentation in a changing environment［J］. The review of economic studies，1999，66(3):475 -507.

［11］盛驟，謝式千，潘承毅. 概率論與數理統計［M］. 北京:高等教育出版社，2008.