邢寶峻 殷 哲 王衛星 彭曉明
(空軍預警學院 武漢 430019)
近年來,隨著軍事科技的不斷發展,越來越多的高技術裝備列裝部隊,對部隊訓練考核評估手段提出了更高的要求。對于航空兵來說,隨著實戰化訓練深入推進,傳統的訓練評估手段已無法滿足實戰化訓練考核評估的要求,如何去精準的評估飛行員的訓練水平、發現薄弱環節、針對性制定訓練計劃,成為提升航空兵部隊實戰化訓練水平的關鍵。目前,世界各國主戰飛機普遍裝備了座艙視頻記錄設備,這類設備以視頻形式準確記錄飛行人員操縱飛機平臺和火控、雷達、電子戰等裝備的流程、參數和效果,但目前主要依賴人工進行視頻判讀,存在關鍵事件檢索困難、判讀時間長、判讀效率低等問題,對飛行人員的視力健康也有一定影響。針對這些問題,本文提出一種基于機載視頻識別的飛行訓練評估方法,通過對機載視頻進行分析,自動識別戰斗符號和參數,建立關鍵事件索引,高效量化評估空中格斗和對地打擊效果,為航空兵部隊提供一種新的廣泛適用、高效便捷、客觀量化的飛行訓練考核評估手段。
目前對視頻識別的研究一般分為基于圖像的視頻識別和基于時空信息的視頻識別。基于圖像的視頻識別是針對視頻中的每一幀畫面進行識別,通過將視頻信息轉化為圖像信息,爾后利用端到端的自然場景識別方法[1~3]進行識別,不考慮幀與幀之間的相互關系;而基于時空信息的視頻識別則是以跟蹤算法為基礎,通過時空分析和多幀集成等方法從多個視頻幀中獲得時空信息并進行識別[4~6],來提高識別的準確性。本文主要采取基于圖像的視頻識別方法進行研究。
一是較低的分辨率。機載雷達視頻通常采用H.263編碼模式,通過高精度運動補償實現精確預測[7]。但是H.263模式設計是用于低碼率視頻編碼,因此視頻分辨率比較低。
二是視頻圖像呈現二值化。為了使飛行員在戰斗中更容易在機載雷達視頻中快速定位和鎖定目標,視頻畫面以黑白兩色為主,使整體視頻畫面呈現二值化。
三是視頻中的字符或符號形式簡單。為方便飛行員快速進行識別,戰斗機機載雷達視頻畫面以幾何圖形、字符為主要形式,內容普遍簡捷易懂。
基于機載雷達視頻對飛行訓練水平進行評估,首先要完成對機載雷達視頻的識別。根據機載雷達視頻特點,首先要對視頻進行預處理,將視頻轉化為圖像,同時提高圖像質量,以提升識別準確率;其次,將得到的圖像輸入到CTPN網絡中,進行文本檢測;然后,利用光學字符識別網絡完成對文本區域字符的識別,同時將文本輸出。此外,根據機載雷達視頻內容特點,將機載雷達視頻區分為四個關鍵事件,建立關鍵事件索引,方便評估時進行檢索。最后,根據得到的視頻中關鍵數據和關鍵事件對飛行訓練水平進行評估。

圖1 基于視頻識別的評估流程圖
為提升識別的速率和準確率,首先對機載雷達視頻進行預處理。由于機載雷達視頻中通常存在一定的冗余信息,為提升識別速率,對視頻進行壓縮,去除冗余信息。其次,將視頻以幀為單位截取成圖像,將視頻信息轉化為圖像信息。然后通過圖像拼接技術來對轉化后的圖像進行處理,從而提升識別效率。最后,由于拼接后的圖像分辨率較低,為提升識別準確率,可利用形態學中圖像的開運算,即先腐蝕后膨脹的操作,去除圖像中的噪點,同時使字符表面更加平滑,便于進行分析與識別。

圖2 預處理流程圖
CTPN[8](Connectionist Text Proposal Network,連接文本提議網絡)是在ECCV在2016年提出的一種基于深度學習的文字檢測算法。CTPN結合了卷積神經網絡(CNN)與長短時記憶神經網絡(LSTM),可以有效地檢測出復雜場景情況下的水平分布的字符[9]。CTPN創新性地提出了vertical anchor,運用垂直錨的回歸機制,把文本檢測任務轉化為一系列小規模文本框檢測。同時,CTPN還引入了BLSTM(雙向長短時記憶神經網絡),BLSTM可用于處理和預測序列數據[10],與CNN(卷積神經網絡)結合,能夠根據前后anchor的序列來提取字符間的排列關系特征,找到文本與文本之間的聯系,最終用文本線構造法將各個anchor連接起來,得到文本行,以提升文本檢測效果。此外,針對文本檢測中文本邊緣容易因評分過低而被丟棄的問題,CTPN提出了利用邊界細化來提升文本框邊界的預測精準度的方法,極大提升了文本檢測的精度。
戰斗機機載雷達視頻識別主要由Tesseract-OCR進行。Tesseract是一個開源的OCR(Optical Character Recognition,光學字符識別)引擎,由惠普實驗室在1985年~1995年間開發[11]。Tesseract-OCR屬開源系統,且支持調用自定義字符庫進行識別,它目前被公認為是最好和最準確的開源OCR系統。
Tesseract-OCR圖像識別體系結構如圖所示。
對于輸入的圖像首先進行頁面布局分析,提取出文本區域,之后利用識別引擎分析得到Blob區域,然后通過對區域中相鄰字符之間的垂直重疊關系可得到文本行,通過檢測字符之間的水平關系可以得到字符間隔,通過字符間隔劃分文本行可以得到單詞。經過自適應分類器兩次分析識別后對圖像中的模糊區域進行改進,對作為備選分割點的字體形狀的幾何頂點進行分割,然后根據識別置信度對字符進行識別。如果失敗,則默認字符已損壞并且不完整,那么該字符將被修復。然后利用A*算法搜索最優字符組合,將識別結果輸出到文本中。

圖3 CTPN架構圖

圖4 Tesseract的架構[12]
雖然Tesseract-OCR提供了相應的字符庫以滿足字符識別的需要,但發現直接調用字符庫進行識別的精度達不到要求,這將影響相關數據的分析效果。由于Tesseract-OCR支持調用自定義字符庫進行識別,且其自適應分類器具有“學習能力”,因此可以將首先分析滿足條件的單詞作為訓練樣本,以提高后續字符識別的準確性。因此,可以通過訓練字符庫來提高Tesseract-OCR字符識別的準確性,并提高其將圖像轉換為文本的能力。具體方法如下:

圖5 Tesseract-OCR訓練字符過程
字符庫的訓練主要通過jTessBoxEditor進行,最終形成traineddata數據包[13]。通過對比,調用訓練的字符庫進行識別,準確率明顯提升。通過三段機載雷達視頻進行識別,對比原視頻與識別結果,識別的準確率達到86.25%,且通過不斷地學習,準確率會不斷提升。
通過機載雷達視頻識別模型可以對機載雷達視頻進行識別,得出相關數據信息,并以文本的形式輸出,文本中包含雷達參數設置、目標搜索、目標截獲、導彈發射等數據,將方本輸入評估系統,根據雷達的狀態對數據進行分類。通過對影響作戰效能的關鍵事件中的參數進行分析,并與標準狀態進行對比,可以得出飛行員對雷達操作在各個狀態下的操縱評分,從而評估出飛行員的雷達操縱水平。此外,在建立視頻識別模型時,加入了關鍵事件的索引功能,通過對識別的字符與原視頻中的內容進行關聯,評估人員可以快速定位關鍵事件發生的時段,同時通過對關鍵參數出現的時長計算出關鍵事件發生時長,進而判斷出飛行員對緊急情況的處置是否恰當、是否及時做出正確反應,正確評估飛行員的雷達操縱熟練度。
本文通過建立機載雷達視頻識別模型,實現了對機載雷達視頻的自動識別,通過對機載視頻進行分析,自動識別戰斗符號和參數,建立關鍵事件索引,高效量化評估空中格斗和對地打擊效果,進而評估飛行員的飛行訓練情況,有利于發現飛行員在訓練中的薄弱環節,完成飛行訓練復盤和飛行訓練效果評估的需要,從而提高航空兵實戰化訓練水平。該模型適用于所有裝備座艙視頻記錄器的飛機,為航空兵部隊提供一種新的廣泛適用、高效便捷、客觀量化的飛行訓練考核評估手段。