(北方自動控制技術研究所(太原)山西 030000)
火力分配,通常也稱為武器-目標分配,是指在已知敵方來襲目標的基本特性和威脅程度,我方火力殺傷概率前提下,按照一定的算法選擇最有效的兵力對敵方目標進行攔截,形成最佳兵力使用方案,是提升我軍作戰能力的一項關鍵研究內容。在兵力資源有限的情況下,如何追求火力毀傷效果最大是作戰指揮的重要內容,而以最小的作戰代價追求作戰利益的最大化是最優化理論的最終目的[1]。經過眾多學者多年的理論研究和具體實踐,火力分配理論形成了大量的算法和模型,不斷發展的優化理論和計算機技術為實現實時戰場火力分配提供了一定的技術支持。實際作戰中,通常都是多個火力單位對多個目標進行火力攻擊的,這就需要確定各火力單位在一定時間內的攻擊目標,即把火力單位分配給各個目標,這種火力單位對目標的分配即通常所說的火力分配。火力分配問題本質上是一個非線性多目標優化決策問題,根據不同的優化函數進行求解的指派問題,火力分配的空間隨著火力單元和目標總數的增加呈現指數級增長,即火力分配問題是多參數、多約束的NP-complete 問題。對火力分配方法進行改進,使實際的火力分配是最優的或接近最優的,這是不需要增加物質消耗、不要求更高的技術保障,就能提高射擊效果的有效途徑,因而有著重要的實際意義。
解決火力分配問題的基礎是建立合理的火力分配模型。火力分配不是確定性靜態決策,而是基于火力作戰雙方對抗的風險性動態決策,火力分配的最終目的是使己方作戰武器系統攻擊效能達到最大,火力分配方法的設計應遵循盡可能保護自己,消滅敵人的戰術原則。早期火力分配方法的研究主要是集中于防空領域,最早于20 世紀 80 年代,美國Patrick A Hosein 等人給出了靜態火力分配的概念和模型,此時對火力分配問題的研究沒有考慮時間因素,即己方的火力單元僅進行一次火力打擊,可將此階段的火力分配研究定義為靜態火力分配研究。文獻[2]是將整個火力過程分兩個發射階段,其基礎是靜態火力分配。文獻[3]曾提出過將動態分配策略和靜態模型結合進行動態火力分配,但是將該模型應用到實際戰場中,還需做進一步研究。文獻[3]在靜態火力分配的基礎上利用多回合的靜態火力分配建立了動態火力分配模型,并不是真正意義上的動態火力分配。文獻[4]提出一種“回合制”策略,在一個回合內考慮約束條件以及火力分配,一定程度上改善了當前優化模型中一次計算后目標動態變化造成的火力資源浪費及動態實時分配造成的計算困難等問題,但仍然有提升的空間。綜合當前的研究情況,目前的動態火力分配算法本質上仍然是將分配過程劃分為多個階段,每一階段實質上還是靜態分配。主要存在兩個缺陷:一是多階段的靜態火力分配計算量大;二是多階段劃分的合理性難以評估。
火力分配算法和火力分配模型是求解火力分配問題的兩個重要部分[7],為很好地解決火力分配問題,很多的專家學者對算法同樣進行了大量的研究。目前,火力分配算法的研究主要集中在以下兩個方面:1)傳統火力分配算法,即多階段匹配優化算法,主要包括動態規劃法、整數規劃法等;2)智能火力分配算法,主要包括禁忌搜索算法、模擬退火算法、遺傳算法以及不同智能算法結合成的智能混合算法。
最早的火力分配算法主要是傳統算法,這第一類算法較為簡單,但是其實現程序較為煩瑣,并且難以處理規模較大的火力分配問題。傳統算法主要有動態規劃法、隱枚舉法和割平面法等。這類算法目標是求最優解,但是隨著火力分配問題規模的擴大,計算量可能呈指數級增長。第二類算法是80 年代出現的智能算法,智能算法的出現為解決動態火力分配問題提供的新的解決途徑。智能算法主要有遺傳算法、混沌算法、人工神經網絡等。這種算法的目標是通過對目標函數的不斷優化,在規定的時間內給出一個可行解。
在算法研究的過程中,傳統算法以及智能算法都存在不足,傳統算法較為簡單,但編程實現時較為煩瑣,收斂速度慢。由于火力分配問題是NP-complete 問題,隨著敵方作戰目標數目的增加,問題的計算時間和難度將成指數型增加,因此傳統算法已經不再適用,智能算法在傳統算法基礎上雖有所改進,但容易陷入局部求解,導致其求解問題的效率不高。文獻[5]將遺傳算法嵌入了模擬退火算法,利用二者的互補性彌補了各自的缺點(遺傳算法具有良好的全局尋優能力,已廣泛應用于組合優化領域,缺點是易收斂到局部最優、消耗時間較多、穩定性差。模擬退火算法計算過程簡單,魯棒性強,選優能力較好,適用于復雜的非線性優化問題,缺點是算法性能對初始值依賴性強及參數敏感、全局搜索最優解能力差)。文獻[6]提出一種基于指標的蟻群優化算法(Indicator-Based Ant Colony Optimization)求解多目標火力優化問題,利用二元性能指標來引導人工螞蟻進行搜索,由于該算法中的信息素是根據指標的值來更新的,通過獎勵信息素可以強化最優解。文獻[7]針對動態火力分配的實時性和快速性,提出了一種衍生自啟發式算法和后退水平控制(RHC)的組合算法,可以快速對作戰中的戰場動態變化快速做出決策。
火力分配算法方面,目前基本還是以遺傳算法、蟻群算法等一些智能算法為主,求解的速度和準確度都還有不足,同時也容易陷入局部收斂。由于每種智能算法的缺點比較明顯,現階段學者們考慮利用不同智能算法的特點進行組合,進行算法之間的互補,但組合算法只能在一定程度上對現有算法的某些方面進行改善。
文獻[8]討論了強化學習是否可以應用于火力分配的問題,并將兩種強化學習算法應用于武器分配問題的求解,分別是具有隨機開始的蒙特卡洛控制算法(MCES)和基于off-policy 的時差學習控制算法,即Q-learning 算法,又將兩者的結果進行比較。仿真結果證明將強化學習的方法應用于火力分配問題是可行的,但這篇文章中的仿真只涉及四個己方火力單位和一個敵方威脅,規模太小,同時也屬于靜態火力分配,所以需要進一步改進。
利用強化學習的方法進行火力分配的研究優勢是明顯的。強化學習不需要提前人為設計模型,因此可以省去建模環節,從而避免動態火力分配模型建立困難的問題;利用強化學習中智能體可以與環境交互的特點,系統可以隨時對戰場態勢作出反應,容易滿足實時性;同時強化學習中的探索和開發策略可以有效解決傳統智能算法容易陷入局部最優的缺陷。此外,強化學習是目前的熱門研究領域,算法不斷得到改進,因此研究基于強化學習的火力分配具有一定的前景。
本文首先對火力分配的概念進行了闡述,其次對火力分配模型和求解算法的研究現狀進行了分析和總結,指出了目前火力分配模型和算法方面的不足和發展前景,對今后火力分配模型和算法的發展有一定的指導意義。