盧亞輝,張緯華,和飛飛,王 帥,郝錦虎,杜玉紅
(1.中國人民解放軍63966部隊,北京 100071;2.天津工業大學機械工程學院,天津 300380)
隨著計算機技術在圖像領域應用不斷深入,人工智能和大數據分析等技術被廣泛地運用在部隊的各項工作中,開展作戰試驗初期,大多采用填寫表格的方式獲取一些難以采集的數據,給參試指戰員帶來很多的額外工作,并且產生了大量謬誤數據,即使把表格電子化后效果依然不好。如何在作戰試驗開展過程中,以無感知方式獲取相關數據成為大家研究的重點。通過實踐,音視頻方式成為作戰試驗數據采集獲取的重要技術方式。在近期的作戰試驗中,各項目組均采取了以攝像器材為主的視頻采集手段,在不干擾作戰人員工作的前提下,獲取第一手的作戰試驗視頻數據,因此如何對采集到的視頻數據進行處理是推進作戰試驗工作開展的首要任務。
國內外對作戰試驗的數據采集及圖像處理識別做了大量研究。文獻[1]中發現作戰試驗視頻數據采集指標體系尚未建立,使得視頻數據采集存在一定的盲目性,造成時間和器材的浪費,同時產生大量無用視頻干擾后期視頻數據處理工作;文獻[2]中發現視頻數據預處理工作手段不足,造成人工處理時間極長,視頻數據質量無法保證,導致海量視頻數據事后處理困難,無法為評估工作提供有力支撐;文獻[3]中發現智能化視頻數據深入學習能力不足,對數據特征參數的處理能力達不到要求。同時由于應用場景復雜多變、圖像視頻采集和分析挖掘技術的原因,嚴重制約了圖像視頻數據的利用。
本文首先從拍攝設備選型、數據采集時的注意事項及建議兩個方面對圖像采集進行分析,然后對采集后圖片進行預處理后通過YOLO 等算法對其進行識別后歸納出識別準確性與有效性,旨在解決上述相關問題。
圖象數據采集時,經常會受場地等自然環境的影響,由此造成圖象在收集與傳送過程中會受照射燈光不平衡、光響應不一致和拍攝角度等各種因素的影響,使視覺圖象含有噪聲影響而造成圖象品質變壞,從而影響圖象的的識別準確度。所以可以針對上述圖片的采集流程,從清晰度、抖動、反射、失焦和拍攝角度5 個角度,對圖片采集人員的操作過程給出相應的采集建議[4]。
(1)清晰度
在選擇拍攝設備時,盡量選用高清的攝像機或者錄像機,拍攝比例盡量選擇16∶9 或者4∶3,所輸出的圖像像素在1 440×900 以上,這樣可以保證即使輸出圖像存在一定的失真,也不會對后續的圖像處理及相關信息識別產生太大影響。
(2)抖動
拍攝時如果出現些許抖動,就可能會改變待識別文字或特征點在視頻中的位置,從而偏離識別區,并且可能造成短暫的失焦模糊。如果有可能的話建議在拍攝過程中通過簡單的輔助設備提高相機的穩定性,如八爪魚等設備,如圖1 所示,在提高采集效率的同時也避免了采集人員長時間勞累。
圖1 防抖動設備
(3)反光
采集內部設備時,當座艙蓋打開時,上方的光線會照進座艙內,使屏幕產生反光。建議關閉艙門或者利用紙板等簡易工具進行雜光遮擋,盡量減少屏幕反光。調節好攝像機的明暗反差和光照性質,可以合理運用硬光、柔光,硬光有強的光,在高光端很明亮,暗部層次很少,邊條比較清晰明朗,顏色也有很大的濃度。而柔光則能夠讓主體背后的陰影更加柔和,當物體上的照度相對較低時,其顏色的強度就會比較微弱。所以合理運用燈光,也可以獲得良好的效果。
(4)失焦
在已掌握的某些視頻資料中發現,有些視頻會在某時刻突然失焦,相機具備自動對焦功能,會自動重新使畫面清晰,但失焦期間采集的圖像會識別失敗,有可能影響某些指標的統計。建議在進行拍攝過程時要做好調焦工作。
(5)拍攝角度
建議盡量可以包含某些設備的屏幕邊緣,這樣不僅可以確保畫面不缺失,有多余的部分還可通過剪輯去除掉[5]。軟件可以根據邊框建立相關坐標系,如圖2 所示,對圖像進行預處理,矯正相關畫面,從而提高圖像識別穩定性。
圖2 拍攝屏幕邊緣
當前部隊上用于圖像采集的攝像器材以攝像機為主,輔助以照相機,相機是指獲取圖像的前端采集設備,也是圖像采集的關鍵硬件之一,采集圖像的質量優劣會對圖像處理的速度有很大影響。
相機根據應用途徑可分為民用相機和工業相機兩種,工業相機的主要參數包括傳感器類型、最大幀率、觸發方式、分辨率、像素深度和數據接口等,圖像質量好、噪聲較小、感光較好[6]。民用相機的圖像傳感器采用隔行掃描,攜帶方便,操作簡單。相機根據掃描方式可分為面陣相機和線陣相機。前者以平面為單位獲取圖像,可以一次采集完整的圖像信息,易于調節、成本低;而后者每次曝光一行圖像,然后拼接形成整個圖像,調節相對復雜,成本較高。另一方面,分析對比黑白相機與彩色相機,在同樣的條件下,黑白相機具有更高的精度,圖像邊緣的采集效果更好,可以直接處理黑白相機獲取的灰度信息。分辨率是相機的最基本參數,是指相機每次獲取圖像的像素數,根據目標所需精度與視野范圍可求出相機單方向分辨率。分辨率和像素深度共同決定了圖像的大小,其中像素深度越高,采集到的圖像質量就越高,但是也降低了采集的速度,增加圖像處理的數據量,同時成本也會提高。
(1)民用相機
索尼Alpha 7R IV 相機,如圖3 所示。采用新的背照式影像傳感器,背照式結構與出色降噪技術相結合,可提供高感光低噪點的優異影像畫質[7],鏡頭更加牢固的同時提升了舒適性和穩定性。
圖3 Alpha 7R IV相機
佳能EOS R6 相機,如圖4所示。自動對焦的范圍最大可以達到100%×100%全屏對焦,約0.05 s的自動對焦速度。EOS R6還搭載了機身防抖,實現了機身防抖和鏡頭防抖的協同工作。
圖4 EOS R6 相機
(2)工業相機
海康MV-CE200-10GM/GC 工業相機,如圖5 所示。這款是2000 萬像素的工業面陣相機,具有噪點低、分辨率高、圖像優異及性價比高等特點,可無縫鏈接第三方軟件。
圖5 MV-CE200-10GM/GC工業相機
大恒圖像LA-CC-04K05B 工業相機,如圖6 所示。采用基于先進的雙線彩色CMOS 技術,有出色的靈敏度和速度,可以滿足各種領域不同的需求。
圖6 LA-CC-04K05B工業相機
圖像預處理是為了提高圖像識別的準確度而對圖片上模糊信息進行處理的一個步驟。本文根據部隊對拍攝圖像的處理需求,對常見的圖像預處理操作按照功能和需求分為了5種,如圖7所示。
圖7 圖像預處理操作
(1)圖像轉化
由于拍攝角度等技術的問題,可能會使得上傳的圖片傾斜,導致掃描的圖像位置不正,因此需對其進行放縮、旋轉、平移等校正工作,為便于后續預處理操作,還需將其進行歸一化,常見的有Hough 變換等方法。
(2)圖像二值化
二值化又被稱作灰度分割,將圖像的灰度分為0和1 兩種值。設定一個函數g(m,n),表示某一個像素點(m,n)的灰度值,則有g(m,n)∈{0 ,1,…,255},gx(m,n)∈{ 0,1},二值化過程如下:
圖像二值化的流程如圖8所示。
圖8 二值化流程
(3)圖像平滑去噪
圖像平滑的目的之一是消除噪聲,二是模糊圖像,降噪和平滑濾波操作可以將二值化處理后所存在的噪音和線條邊緣毛刺進行消除。圖像平滑去噪的流程如圖9所示。
圖9 平滑去噪流程
(4)圖像分割
圖像分割指將圖像的某些感興趣的特征區域分割提取的技術,分割的目的是把圖像分成一塊一塊的區域,是基于像素特性的分布,通過閾值處理完成的[9]。
傳統的圖像分割技術分為全局分割和區域分割。其中全局分割又稱為閾值分割,分為全局閾值法、迭代式閾值分割和直方圖闕值分割等;區域分割技術主要包括區域生長法和分水嶺分割法[8]。如今,基于深度學習的圖像分割技術正在逐漸廣泛使用中,基于YOLO 算法的圖像分割技術,不僅提升了圖像分割速度,而且精度也能夠滿足要求,因此得到了廣泛的使用。
為了將目標從背景當中分離出來,減少背景對目標的干擾,提升檢測速度,實現更好的目標識別效果,首先將卷積核在圖像上滑動,把圖像每個像素點的灰度值與卷上的數值相乘,再將所有的數值相加得到最終的圖像像素灰度值。然后確定池化區域的大小,將得到的卷積特征分割成多個區域,然后用這些區域的池化特征來確定池化之后的卷積特征。
最后對每個cell分別進行預測,其中,每個cell對應兩個boundingbox,兩個boundingbox負責坐標的預測。根據預測到的坐標便可將目標從背景中分離出來。
(5)圖像邊緣檢測
在目標檢測過程中,要對目標邊緣進行檢測,確定目標在圖像中的位置,為下一步目標的識別做好準備,傳統的圖像邊緣檢測需要對圖像的每個像素點均進行檢測,增加了邊緣檢測的時間。而如果將圖像進行分塊處理,對每塊區域分別進行檢測,可大大減少邊緣檢測的時間[9-10]。
圖10 所示為480×640 像素的圖像,將其分為32×32的若干個子塊,然后對每個子塊分別進行檢測。
圖10 分塊后的圖像示意圖
公式為:
首先對子塊的左側、右側、左下和右下4 個頂點灰度值代入式(2)進行判斷,如果判斷結果為真,說明4個頂點至少存在一個像素點包含目標區域。然后對每個子塊分別進行上述操作,并將包含目標區域的子塊進行標記,并得到每個子塊坐標。隨后根據包含目標區域子塊坐標,便能得到包含目標區域的最小矩形范圍。最后將最小矩形范圍內的每個邊緣塊進行邊緣檢測,就能得到目標的邊緣。
YOLO 算法識別模型在訓練時需要將圖片進行劃框分塊后得到每個模塊的內容及中心坐標,并求出長和寬。
圖11 YOLO算法模型流程
依此將輸入的預處理后的坦克圖像縮放為標準尺寸的正方形圖片,分割成M×M的網格后在網格中隨機生成邊界框,其置信度函數公式為:
式中:P(Ci|O)為網格中的目標所屬目標類別i的概率;P(O)是判斷網格中有無目標出現;RIOU為邊界框和標記框的預測交叉比值。
模型的損失函數為:
該算法將目標分類和目標定位兩個問題合成一種方法,利用分類框和檢測框來實現模型的識別,提高算法效率的同時也能識別圖像的所有內容。
這是一種通過回歸網絡來實現端到端的識別算法模型[11-12],結構模型如圖12所示。
圖12 SSD算法模型流程
首先根據圖像特征生成不同大小,不同尺度的特征圖,對特征圖上的點進行抓取,抓取的參數設置為最小尺度值0.2,最大尺度值0.9,特征抓取盒為5 種,設有n個特征圖:
根據坐標點來抓取特征,模型的損失函數為:
訓練完畢后通過不同尺度特征對提取的深層圖像特征進行識別和預測,并去除冗余檢測框得到結果,這一模型加入了區域建議的步驟,保證識別準確性的同時提高了預測準確性。
本文采用佳能EOS R6 相機獲取了一張彩色的坦克車圖片,首先對其進行二值化處理,將彩色圖片變成灰白圖片后,然后利用3 種算子(Roberts 算子、Prewitt 算子和Sobel 算子)分別對其進行邊緣檢測和形狀提取后,將結果進行對比進行輸出,這一過程的部分代碼如下:
運行結果如圖13所示。
圖13 圖像預處理結果
本文利用佳能EOS R6 相機獲取了一張坦克圖片,對坦克圖片進行遮擋后進行識別實驗,實驗結果如圖14所示。可以看到當坦克上半部分被遮擋時,識別準確率大約在68%,下半部分被遮擋時,識別準確率大約在87%,證明坦克的上半部分包含信息要比下半部分多,經過不斷訓練后識別準確率也提升了大約15%。
圖14 圖像識別結果
對于本文所提的YOLO 算法和SSD 算法,利用數據集中隨機的100張圖片進行實驗后可得到如表1所示的實驗結果。從表中可以看出兩種算法的識別準確率均達到了90%以上,證明了深度學習在圖像分類和識別上的優越性。兩種算法的識別效果非常接近,但YOLO 算法在每一項上均略高于SSD 算法,因此建議采用YOLO 算法進行后續的改進與操作。
表1 算法識別結果
本文針對于當前部隊上所面臨的視頻采集問題,通過分析視頻采集硬件并選型,提出采集指導建議來為后續的數據采集準確性提供保證。針對于采集的圖像數據處理盲目性,提出從圖像二值化、邊緣檢測、圖像分割等5 個方面來對其進行預處理,為圖像識別打下堅實的基礎,最后通過YOLO 算法模型和SSD 算法模型對其進行驗證,達到圖像識別的目的。當前從數據從采集到處理均是由人工完成的,因此可以將本文的內容和人工工作結合,將這一過程智能化,通過設計和開發系統軟件的方式來實現電腦的智能采集處理和識別,提高工作效率。