戴文君,常天慶,褚凱軒,張雷,郭理彬
(陸軍裝甲兵學院 兵器與控制系,北京 100072)
目標檢測技術是計算機視覺領域的一個重要研究內容。近年來,隨著深度學習的不斷發展,基于深度學習的目標檢測技術取得了快速發展,并在交通、工業制造、醫學影像以及國防等領域得到了廣泛應用[1-3]。目標檢測通常可以分為圖像目標檢測與視頻目標檢測,目前圖像目標檢測技術發展較為迅速,而視頻目標檢測仍然是一個極具挑戰性的問題。一方面,視頻圖像通常會受到運動模糊、衍射模糊或散焦等因素的影響,導致圖像畫面質量低劣或目標不清晰,給目標檢測帶來極大的困難;另一方面,視頻目標檢測不僅要求其能夠準確檢測出每一幀圖像中的目標,而且要保證檢測結果的時序一致性。盡管存在這些困難,但由于視頻中包含更豐富的時空信息,如果能夠充分利用這些時空信息,則視頻目標檢測能夠取得比圖像目標檢測更好的檢測效果。
坦克火控系統能夠獲取戰場態勢并控制武器瞄準與發射,對戰場目標搜索以及火力打擊效果具有重要的影響[4]。面向坦克火控系統的目標檢測技術能夠輔助坦克乘員快速準確發現敵方目標,使我方坦克實現“先敵發現、先敵打擊、先敵摧毀”,從而取得戰場主動權。目前,目標檢測技術還沒有應用于坦克火控系統,但相關研究技術一直在進行中,并且主要集中于圖像目標檢測領域,基于視頻的目標檢測研究較少[5-6]。
隨著深度學習在圖像目標檢測領域取得突破性的成就,以及大規模視頻目標檢測數據集ImageNet VID[7]的建立,基于深度學習的視頻目標檢測引起學術界的廣泛關注,國內外學者提出了多種基于深度學習的視頻目標檢測方法。目前,視頻目標檢測方法主要分為2類:圖像目標檢測與后處理相結合的視頻目標檢測方法,以及基于特征流的視頻目標檢測方法[8-10]。圖像目標檢測與后處理相結合的視頻目標檢測方法的思想,是將多個視頻幀的圖像目標檢測結果按照時間序列連接到一起,形成一個管道并通過跟蹤或其他方法對檢測結果進行修正,提高視頻目標檢測的精度,其代表有深度卷積神經網絡(T-CNN)[11]、檢測與跟蹤(D&T)[12]等。常用的后處理辦法有多上下文抑制、目標跟蹤以及Seq-NMS[13]等。基于上述思路的視頻目標檢測方法在ILSVRC 2016視頻目標檢測競賽中大量涌現,極大地提高了視頻目標檢測的精度,促進了視頻目標檢測技術的發展,但這種方法存在對視頻中的時序信息利用不足、計算流程較為復雜、計算量較大以及檢測精度依賴于后續處理方法的性能等不足。針對上述方法的局限性,研究人員希望直接利用視頻圖像中的時空信息進行目標檢測,并基于這種思想提出了基于特征流的視頻目標檢測方法。FlowNet方法[14]利用卷積神經網絡(CNN)實現了視頻幀間的光流信息預測,與傳統的光流預測方法相比,FlowNet方法沿襲了CNN在特征提取方面的優勢,具有較好的學習能力,并能夠與基于CNN的圖像目標檢測方法相融合,從而構建端到端的視頻目標檢測模型。文獻[15]在FlowNet方法基礎上,將多幀視頻圖像的運動信息聚合到當前幀,通過檢測子網絡對聚合后的卷積特征進行目標檢測,極大地提高了視頻目標檢測的精度。FlowNet方法與特征聚合機制能夠有效地提高視頻目標檢測的精度,但通過光流網絡計算多幀的光流然后進行特征聚合的方法存在參數較多、計算量較大的問題,導致目標檢測的實時性較差。受循環神經網絡(RNN)[16]的啟發,研究人員將長短期記憶網絡(LSTM)[17]及門控循環單元(GRU)[18]與卷積操作相結合,提出了卷積長短期記憶網絡(ConvLSTM)[19]與卷積門控循環單元(ConvGRU)[20]。ConvLSTM與ConvGRU具有記憶特性,能夠學習視頻中的時空信息以及能同時處理多個目標框,適合基于時序的視頻目標檢測任務。文獻[21]在單次多盒檢測器(SSD)[22]的基礎上結合ConvLSTM,提出一種基于時空一致性的視頻目標檢測方法,通過ConvLSTM處理每幀視頻圖像并構建多幀視頻圖像之間的關聯誤差損失函數,強化相鄰視頻幀的檢測結果在時序上的一致性,有效地增強了視頻目標檢測的魯棒性。與ConvLSTM相比,ConvGRU將ConvLSTM中的遺忘門與輸入門合并為更新門,同時還混合了細胞狀態與隱藏狀態,結構相對簡單,在訓練數據較大情況下,ConvGRU能夠節省更多的時間。文獻[23]在ConvGRU基礎上構建了時空記憶模塊,將距離較遠的視頻圖像信息傳遞至當前幀,更充分地利用了視頻中的時序信息,最后在融合后的時空卷積特征上應用檢測子網絡實現對目標的精確檢測。
上述方法在圖像目標檢測的基礎上,根據視頻中的時序信息進行建模或其他后處理辦法,有效地提高了視頻目標檢測的精度,先后在ImageNet VID等通用視頻目標檢測數據集上取得了較好的效果,極大地推動了視頻目標檢測技術的發展。然而,針對復雜戰場下面向坦克火控系統的視頻目標檢測任務,直接使用上述方法的思路并不能取得較好的檢測效果。一方面,戰場上的目標與坦克裝甲車輛之間可能存在較快的相對運動速度,導致相鄰視頻圖像之間的目標位置偏差較大,對視頻目標檢測結果的一致性和檢測精度有較大的影響;另一方面,由于戰場態勢瞬息萬變,對視頻目標檢測的實時性提出了較高要求。此外,由于復雜的地面環境以及坦克火控系統具有較遠的觀測打擊距離,使得目標在視頻圖像中所占像素比例較小且容易產生遮擋、形變,給視頻目標檢測帶來了一定的挑戰。
因此,本文從實際需求出發,針對復雜戰場環境下的坦克火控系統視頻目標檢測任務,提出一種時空卷積特征校準機制,將其與ConvGRU相結合構建時空卷積特征記憶模型,并將該模型與結合可形變卷積網絡(DCN)[24]的ResNet-101網絡[25]及位置敏感感興趣池化(PS ROI pooling)[26]等相結合,構建一個端到端的視頻目標檢測模型,從而實現對地面戰場視頻目標的自動檢測,對提升坦克火控系統的智能化、自主化以及信息化條件下的作戰能力具有重要的意義。


圖1 本文方法整體框架Fig.1 Framework of the proposed method
為沿著時間軸方向融合視頻幀的信息,本文在ConvGRU的基礎上提出時空卷積特征記憶模型,并通過該模型傳遞和融合多幀視頻圖像的目標信息。具體操作步驟如下:在t時刻,首先通過特征提取網絡獲取當前視頻幀的卷積特征Ft;然后將Ft以及相鄰幀的卷積特征Ft-1、Ft+1與其時空卷積特征Mt-1、Mt+1送入時空卷積特征記憶模型,得到當前幀的時空卷積特征Mt,其中Mt-1、Mt+1分別融合了t時刻前K幀與后K幀的信息,即Mt共融合了2K+1幀視頻圖像的信息;最后,將Mt送入結合DCN的PS ROI pooling,再通過后續的卷積層以及損失函數等實現對視頻目標的自動檢測。
常用的VGG-Net[27]、ResNet[25]、Google-Net[28]等深度CNN中只采用固定幾何結構的卷積核,在卷積操作過程中局限于幾何變換,因此通常通過大規模數據訓練來提高網絡對形變目標的泛化能力。文獻[24]針對這一問題提出DCN,DCN是在CNN基礎上通過給卷積采樣點增加一個偏移量,使其能夠動態調整感受野的區域并根據目標的形狀變化優化采樣點的位置,從而提高對形變目標的特征提取能力。此外,DCN還能夠與檢測子網絡中的ROI pooling或PS ROI pooling相結合,提高檢測的精度,且模型的大小與計算量并沒有明顯提升。在復雜的戰場環境中,由于地形、目標成像角度以及遮擋等因素的影響,通過坦克火控系統觀瞄分系統獲取的視頻中目標形狀變化多端。因此,本文通過采用結合DCN的ResNet-101網絡提取卷積特征,并在檢測子網絡中使用結合DCN的PS ROI pooling來提高目標檢測的精度。此外,為提高時空卷積特征的融合效果,在本文提出的時空卷積特征記憶模型中使用了DCN計算相鄰視頻幀中目標位置的偏移量。
在標準的二維卷積下,要計算輸出卷積特征圖Y中p0位置的值,需要對輸入卷積特征圖X進行如下操作:
(1)
式中:R為感受野;pn為R中的某一位置,n=1,2,…,N,N=|R|;ω為權重。對于DCN,R受偏移量Δpn的影響,其卷積過程的計算公式如下:
(2)
在上述操作過程中,偏移量Δpn通過將額外的卷積層應用于包含卷積特征圖X的激活張量中獲得,并且在給定激活張量的特征通道中共享權重。所有偏移量Δpn組成的偏移量圖分辨率與X分辨率相同。此外,由于Δpn通常為分數,通常使用雙線性插值來實現上述操作。
對于深度CNN,一般而言,網絡越深,其具有的平移旋轉不變性越強,從而可以提高目標分類的魯棒性。然而,對于目標檢測問題,對目標的精確定位任務要求檢測模型對位置信息具有良好的感知能力,過度的平移旋轉不變形能力會降低模型的定位精度。針對該問題,文獻[26]在ROI pooling基礎提出了PS ROI pooling,其核心思想是在特征聚集時引入位置信息,從而改善檢測子網絡對目標位置信息的敏感程度。對于一個大小為w×h、左上角坐標為q0的感興趣區域,首先將其劃分為k×k個網格,每一個網格稱為一個bin;然后在每一個bin中進行ROI pooling或PS ROI pooling,其輸出為特征圖Y.在進行PS ROI pooling之前,首先需要將輸入的卷積特征圖轉化為每個目標類型的k2位置敏感得分圖,每一類位置敏感得分圖表示為Xi,j.對于第i,j個bin,在Xi,j上進行PS ROI pooling,有
(3)
式中:ni,j為該bin中像素點的數量;q枚舉了該bin中的所有位置;q0為左上角坐標。在結合DCN的PS ROI pooling過程中,偏移量{Δq|0≤i,j≤k}被添加到該bin中位置,其計算公式為
(4)
時空卷積特征記憶模型由ConvGRU以及時空特征校準機制組成,如圖1中間的虛線框內所示。ConvGRU能夠傳遞視頻幀間信息,但目標的快速移動等情況會導致幀中的目標空間位置具有較大變化,如果沒有進行時空卷積特征校準,則融合后的時空卷積特征中目標特征的位置可能出現偏移甚至丟失等情況,導致目標定位失敗、誤檢甚至漏檢,降低目標檢測的精度。
1.3.1 時空卷積特征校準機制

對于Ft中一個坐標為p0的卷積特征單元Ft(p0)∈Rc×1×1,在Ft-1中對應的卷積特征單元為Ft-1(p0),Ft與Ft-1聚合后得到的Ft,t-1中所對應的卷積特征單元為Ft,t-1(p0)∈R2c×1×1.在Ft,t-1中利用DCN得到Ft,t-1的偏移量{Δp},如(2)式所示。{Δp}能夠表示部分Ft與Ft-1中對應卷積特征單元之間的位置偏差。然后根據Ft(p0)和Ft-1中(p0+Δp0)的附近區域{p0+Δp0+p|p∈Ω}中卷積特征單元的關系計算變換矩陣Γ,其中Ω∈((-λ,-λ),…,(λ,λ))為以(p0+Δp0)為中心的正方形網格。變換矩陣Γ的計算公式為
(5)

(6)
1.3.2 卷積門控循環單元


圖2 ConvGRU單元結構圖Fig.2 Framework of ConvGRU
(7)
(8)
(9)
(10)

2.1.1 戰場視頻目標檢測數據集
針對坦克的作戰任務,分析其主要火力打擊對象并構建相應的戰場視頻目標檢測數據集——TKHK VID.坦克作戰過程中主要火力打擊的目標可以分為3大類:1)坦克、步兵戰車和自行火炮等作戰車輛。這類目標具有機動性強、偽裝性能好、對坦克有較強的毀傷能力等特點,是坦克火控系統主要的檢測對象。此外,戰場上的其他普通車輛也是重點檢測對象。2)作戰人員。人員是坦克作戰過程中不可忽視的對象,相對車輛而言,這類目標體積小,且往往身著與戰場環境顏色相近的迷彩服,偽裝效果強,難以被發現。3)直升機、無人飛行器等低空飛行目標。該類目標在低空中很容易發現我方目標,可以直接攻擊我方坦克裝甲車輛或引導敵方武器對我方目標進行火力打擊,是坦克主要的低空威脅力量。
確定需要檢測的目標類型后,本文通過實地拍攝以及互聯網下載等多個渠道獲得相關的視頻,并按照ImageNet VID數據集的格式對其進行標注,構建TKHK VID數據集。目前,TKHK VID數據集含有坦克、步兵戰車、火炮、普通車輛、作戰人員、直升機以及無人機等7類目標,共有1 025段視頻,總計112 187幅圖像,其中每段視頻最少有43幀圖像,最多有487幀圖像。這些視頻包含叢林、雪地、荒漠、草地以及城市等多種作戰場景以及各類目標的多種型號,并考慮了運動、遮擋、煙霧、氣象、姿態等多種情況。與ImageNet VID數據集相比,TKHK VID數據集中的目標尺度較小,且大量存在形變、尺度變化、遮擋以及運動模糊等情況。為更好地進行訓練以及測試,本文將TKHK VID數據集劃分為訓練集、驗證集以及測試集,分別為650、100、275段視頻。目前,TKHK VID數據集中的目標類型及樣本數量還不夠豐富,后期將對其進行補充完善。
2.1.2 實驗參數設置
本文所有實驗均在核心配置為CPU:i9-10900X @3.7 GHz/GPU:RTX 2080Ti4的圖形工作站上進行。特征提取網絡采用了結合DCN的ResNet-101網絡,其中,ResNnet-101網絡的res5a、res5b以及res5c等卷積層采用DCN,卷積核的大小為3×3.本文方法的檢測子網絡與R-FCN中的檢測子網絡相似,采用了相同的損失函數來訓練網絡,不同點在于本文使用結合DCN的PS ROI pooling代替原有的PS ROI pooling.使用訓練好的結合DCN的R-FCN初始化網絡,然后在TKHK VID數據集中進行端到端的訓練。訓練過程中,所有輸入圖像的最短邊調整為600像素,結合DCN的PS ROI pooling的卷積核大小為7.對于建議區域提取網絡(RPN),本文使用9個錨點和300個建議區域。為降低視頻序列中的冗余,本文通過均勻的步幅在每5個視頻圖像中采樣1幀來形成新的視頻序列。同時,為減少計算量,設置時空卷積特征的通道數為512.在訓練過程中,使用4個RTX 2080Ti GPU進行90 000次迭代訓練,其中前60 000次和后30 000次迭代訓練的學習率分別是0.001和0.000 1.在測試過程中,為計算加速以及避免GPU內存問題,首先提取視頻幀的卷積特征以及計算相鄰視頻幀間的變換矩陣并將其緩存到內存中,然后將這些信息提供給時空卷積特征記憶模塊,其中K設置為5,并使用標準的左右浮動填充來處理采樣邊界情況。此外,本文還采用了Seq-NMS以提高相鄰視頻幀檢測結果的平滑性。
2.2.1 檢測精度與速度分析
為驗證本文方法的有效性,將本文方法與以下4種目標檢測方法進行實驗對比:1)R-FCN[26].R-FCN是一種經典的圖像目標檢測方法。在R-FCN基礎上,結合DCN對ResNet-101特征提取網絡以及PS ROI pooling進行改進,能夠有效地提升目標檢測的精度。2)FGFA[15].FGFA是一種基于光流網絡的視頻目標檢測方法,該方法通過光流網絡傳遞視頻信息并在聚合后的卷積特征上進行目標檢測。3)D&T[12].該方法將相關濾波目標跟蹤方法與R-FCN相結合,其損失函數由目標跟蹤損失以及目標檢測損失構成。4)MANet[29].該方法在一個統一的框架中結合了像素級校準以及實例級校準,其中,像素級的校準可以對細節的運行進行建模,而實例級的校準則更注重全局的運動,使得對遮擋的情況更加魯棒。上述4種對比方法中,R-FCN為靜態圖像目標檢測方法,根據單幀圖像進行目標檢測,其他方法利用了視頻幀之間的聯系來建立視頻目標檢測模型。由于本文方法采用的特征提取網絡以及檢測子網絡均結合DCN,為保證對比實驗條件的一致性,上述對比方法的特征提取網絡以及檢測子網絡也結合DCN對其進行改進。目標檢測評估指標為平均精度均值(mAP)和幀率(FPS)。
表1所示為本文方法與4種對比方法在TKHK VID數據集中的目標檢測結果,其中下劃線表示最佳的實驗結果。

表1 本文方法與4種對比方法的實驗結果Tab.1 Experimental results of the proposed method and other four methods
從表1中可以看出,在檢測速度方面,R-FCN方法取得了最快的檢測速度,達到10.3幀/s.本文方法為6.0幀/s,低于R-FCN和D&T方法,但高于FGFA以及MANet方法。從檢測精度方面來看,檢測速度最快的R-FCN與其他4種利用視頻幀間的聯系建立目標檢測模型的方法相比,其mAP最低,只有69.6%,表明利用視頻中豐富的信息能夠有效地提高視頻目標檢測的精度。與FGFA、D&T以及MANet等3種方法相比,本文方法取得mAP最高,達到76.9%,比MANet高0.5%.對于各類目標的平均精度(AP),本文方法均高于R-FCN、FGFA以及D&T等方法,與MANet方法的結果較接近,其中,MANet方法在普通車輛、作戰人員以及無人機等3類目標的AP略高于本文方法,其他4類目標的AP值低于本文方法。這是因為本文方法與MANet方法均對視頻幀間傳遞的時空卷積特征進行調整,使得當前幀的時空卷積特征更好的融合了多個相鄰幀中的信息,提高了目標檢測的精度。
2.2.2 模型分解實驗
由于本文在融合2K+1幀視頻圖像信息的時空卷積特征上進行目標檢測,為驗證來自相鄰幀的信息能否有效地提升目標檢測的精度,分析支持幀數K對檢測精度的影響。圖3和圖4所示為測試階段不同K值對mAP以及FPS的影響。

圖3 支持幀數K對mAP的影響Fig.3 Influence of K values on mAP

圖4 支持幀數K對FPS的影響Fig.4 Influence of K values on FPS
從圖3和圖4中可以看出,本文方法在TKHK VID數據集上取得的mAP以及FPS均優于MANet方法。當K=1即只使用與當前幀相鄰的兩個視頻幀時,本文方法取得了75.6%的mAP,FPS為10幀/s,而MANet方法取得了mAP為75.3%,FPS為9.4幀/s,均低于本文方法。隨著K的不斷增大,本文方法在TKHK VID數據集上取得的mAP不斷增大,但取得mAP增加的速度在不斷降低,表明本文方法能夠有效地利用多個相鄰幀的信息,且與當前視頻幀距離越遠的視頻幀對當前幀的目標檢測效果提升越小。對于MANet方法,當K增大時,mAP的增長速度低于本文方法,且當K增大到一定的值后mAP并不再增大,從而證明了本文方法比MANet方法能夠更好地利用更多的視頻幀信息。另一方面,K的不斷增大也使本文方法以及MANet方法的FPS不斷降低,但FPS降低的速度低于MANet方法。最后,綜合考慮計算量與檢測效果,本文設置K=5,即利用視頻圖像It以及與其前后相鄰的10幀視頻圖像實現對目標的檢測,此時的FPS約為6幀/s,mAP為76.9%.
本文方法使用了DCN、時空卷積特征校準機制以及Seq-NMS等多種策略,為進一步驗證本文方法的性能以及各策略的貢獻度,在TKHK VID數據集中進行模型分解實驗,測試模型的其他參數與2.2.1節中使用的模型保持一致。模型分解的實驗結果如表2所示。

表2 模型分解實驗結果Tab.2 Experimental results of model decomposition
注:*與#分別表示ResNet-101以及PS ROI pooling;與分別表示使用和不使用。
從表2中可以看出,本文使用的多種策略均對視頻目標檢測精度有一定的提升:使用結合DCN的ResNet-101以及PS ROI pooling能夠提升目標檢測模型對空間信息的建模能力,其中單獨使用這兩種策略能夠分別使目標檢測精度提升1.5%和1.3%,共同使用兩種策略能夠使目標檢測精度提升2.4%;使用本文提出的時空卷積特征校準機制,能夠更好地融合多個相鄰視頻幀中的信息,目標檢測精度提升了1.8%;使用Seq-NMS能夠使目標檢測精度提升1.7%.
表3~表6分別展示了本文方法與R-FCN方法對TKHK VID數據集中視頻序列1~4的測試結果。視頻序列1中存在2個坦克目標,其中1輛坦克靜止不動,另外1輛坦克從左向右快速運動。由于目標快速運動引起的大量灰塵造成目標遮擋以及目標圖像尺寸較小等情況,在第38幀與第59幀中R-FCN方法漏檢了一個目標。視頻序列2中有1輛運動的步兵戰車,目標尺寸出現較大變化,本文方法與R-FCN方法均能檢測到目標,但R-FCN方法的檢測精度略低于本文方法。視頻序列3中為2個直升機目標,與R-FCN方法相比,本文方法能夠準確地檢測出所有的目標,且具有較高的置信度。視頻序列4中有1輛從左向右運動的步兵戰車,目標尺寸較小且存在形變以及遮擋,R-FCN方法存在部分漏檢,而本文方法能夠準確地檢測該目標。

表3 本文方法與R-FCN方法在視頻序列1中的檢測結果Tab.3 Detection results of the proposed method and R-FCN method on Video 1

表4 本文方法與R-FCN方法在視頻序列2中的檢測結果Tab.4 Detection results of the proposed method and R-FCN method on Video 2

表5 本文方法與R-FCN方法在視頻序列3中的檢測結果Tab.5 Detection results of the proposed method and R-FCN method on Video 3

表6 本文方法與R-FCN方法在視頻序列4中的檢測結果Tab.6 Detection results of the proposed method and R-FCN method on Video 4
除了在本文構建的TKHK VID數據集上進行實驗外,還在通用數據集ImageNet VID上對本文方法進行測試。ImageNet VID數據集有30類目標,共5 354段視頻,其中訓練集、驗證集以及測試集中所包含的視頻段數量分別為3 862、555和937.采用的對比方法為FGFA、D&T以及MANet3種方法。由于ImageNet VID數據集中的數據多于TKHK VID數據集,本文方法在訓練過程中使用4個RTX 2080Ti GPU進行120 000次迭代訓練,其中前80 000次和后40 000次迭代訓練的學習率分別是0.001和0.0 001,其余參數保持不變。表7展示了4種方法在TKHK VID數據集上的測試結果。從表7中可以看出,本文方法取得的mAP達到78.3%,優于FGFA以及D&T方法,與MANet方法基本持平。從各方法取得的單個目標類型AP來看,本文方法取得部分目標類型的較高,如熊、汽車等,但也存在部分目標類型的AP較低,如老虎、斑馬等,但整體的檢測效果最佳。相對于TKHK VID數據集,ImageNet VID數據集中的目標尺寸較大,因此與表1相比,表7中各方法取得的mAP較高。

表7 在ImageNet VID數據集上的測試結果Tab.7 Experimental results of ImageNet VID data set
本文針對坦克火控系統的實際應用需求,分析其主要檢測對象,建立了一個戰場視頻目標檢測數據集TKHK VID,并提出一種基于時空卷積特征記憶模型的視頻目標檢測方法。根據測試結果得出以下主要結論:
1) 基于ConvGRU和時空卷積特征校準機制構建的時空卷積特征記憶模型能夠有效地傳遞并融合多幀視頻圖像中的信息。
2) 在特征提取網絡以及檢測子網絡中結合DCN能夠有效地提升戰場環境中形變目標的檢測效果。
3) 聯合特征提取網絡、檢測子網絡以及時空卷積特征記憶模型構建的視頻目標檢測模型實現了對戰場視頻目標的精確檢測,能夠更好地滿足裝備的實際應用需求。
本文方法還存在對硬件的需求較高等問題,要實現本文方法在坦克火控系統中的實際應用,還需要繼續對本文方法進行優化。此外,本文構建的戰場視頻目標檢測數據集中的目標類型和圖像序列數量需要進一步擴展,使其能夠更全面地反映坦克等裝甲車輛的作戰環境。