吳壽英,張建偉,梁斌斌
基于深度估計的機場場面視頻圖像技術研究*
吳壽英1,張建偉1,梁斌斌2
(1.四川大學視覺合成圖形圖像技術國防重點學科實驗室,四川 成都 610065;2.四川大學 空天科學與工程學院,四川 成都 610065)
目前機場場面監視系統主要以高成本的場面監視雷達為主,對于中小型機場來說通常負擔不起,為此提出一種低成本的場面監視技術。使用當下最流行的深度學習神經網絡模型對場面視頻圖像進行無監督訓練,加入深度信息估計技術可以對場面目標進行檢測跟蹤以及航機生成。通過對深度學習方法的調研,提出基于無監督學習的深度估計技術是最適用于機場場面視頻圖像監視系統的技術方法,為機場監視提供了重要理論支持。
無監督;深度學習;機場場面監視;視頻圖像
民航機場場面監視系統是民航運輸安全的有力保障,而傳統的場面監視技術作為機場機坪管制ATC目視監控的補充監視手段,主要以場面監視雷達(SMR)為主,其可對場面上移動的航空器及作業車輛進行監視。國內的大型機場一般都配有完備的監視雷達系統,但是由于其成本較高,對于流量較少的中小型機場來說通常負擔不起,所以視頻監視系統作為一種普通攝像機以及人工智能技術相結合的系統,取代昂貴的場面監視雷達成為一種有效的工具。
現在機場到處都安有普通攝像頭,而人工智能的AI技術發展迅速,其中基于卷積神經網絡的深度學習技術可以對大量的圖像進行訓練,把攝像頭拍攝的視頻視為連續的圖像幀,從而可對攝像機數據進行訓練。在這個領域里目標檢測、跟蹤已經是相對成熟的技術,把目標檢測與跟蹤和機場攝像機相結合,作為機場視頻監視系統的重要模塊。由于視頻圖像序列的連續性,可把時間連續性考慮進去,提取航空器航跡,從而對滑行軌跡的檢測也起到一定的作用。
普通視頻監視技術可以對目標進行檢測和跟蹤,但是無法定位目標,即不能檢測深度信息。場面監視雷達可以對場面活動的飛機和車輛定位并掛牌,即可以檢測深度信息。而普通的視頻監視加上深度估計技術可以實現機場場面視頻圖像的目標3D檢測、跟蹤,4DT航跡生成,可以達到場面監視雷達的效果。對基于視頻序列圖像深度估計的視頻場面監視技術進行研究,具有重要的現實意義。
根據所使用的圖像數量不同,深度估計可以分為多幅圖像深度估計方法和單幅圖像深度估計方法。通過多攝像頭獲取多幅圖像的典型方法是立體視覺,利用三角測量法將兩副雙攝像頭獲取的同一個場景的左右圖像間的匹配信息轉化為深度信息,這種技術相對已經比較成熟,但其缺點是需要昂貴的采集設備以及較高的拍攝手段,所以不適用于機場監視技術。因此,使用更加簡潔的單幅圖像深度估計方法是本領域的趨勢,也叫單目深度估計。
單目深度估計技術使用機器學習中的神經網絡算法,按訓練方法可分為有監督深度學習方法和無/半監督深度學習方法,有監督的深度估計是對已經標記深度信息的數據集(RBG-D)進行有監督的網絡模型訓練,這種方法優點是現有數據集較多,特定場景預測精度不錯,而缺點是需要手工標記數據且數據需求量很大,并且現有的數據集場景主要為室內以及街道場景,目前還沒有機場場面上針對飛機等目標的深度數據集,所以不適用于機場監視。無/半監督的深度估計是對視頻序列(無需標記深度信息)圖像進行無/半監督的網絡模型訓練,這種方法不需要人為手工標記數據,數據來源簡單容易獲取,通常只需要普通攝像機拍攝的視頻序列即可,所以此方法最適合應用于機場監視。
無/半監督單目深度估計近年來也有了很大的進步。GARG等人[1]使用卷積編碼器預測源圖像的深度圖,在網絡方面,這篇文章采用了一個類似全卷積神經網絡的結構,沒有全連接層的參與,體量小速度快,同時skip-connect的參與保證了輸出特征細節的相對完整性,就是可以使用預訓練的網絡結構作為網絡編碼器部分,在數據不足的情況下也能達到相對好的效果。GODARD等人[2]利用雙目立體鏡頭采集的圖像的左右一致性重建損失網絡,所使用的網絡與之前的方法類似,均采用了FCN的方法進行訓練,不同的是在網絡解碼器部分的最外面四層,估計了當前的特征大小所對應的視差值,并且將它上采樣后傳遞給了網絡解碼器的下層,這樣能確保每一層都在做提取視差這件事,同時也相當于做了一個coarse-to-fine的深度預測,其預測能夠讓梯度來自于離當前位置更遠的坐標點。KUNIETSOV等人[3]提出了一種無監督與有監督學習相結合的方法,即半監督方法進行深度估計,文章亮點主要集中在損失函數部分,既有監督學習得到的損失(稀疏深度和預測到的深度的差值),又有非監督學習得到的損失(生成的新視角圖片之間的差值),還有深度域上的正則項(depth深度梯度的正則),結合以上一起用來訓練。非監督學習和監督學習相結合使得更多的監督數據得到更好的效果。ZHOU等人[4]對攝像機的自運動和內容進行純非監督學習,使用視頻連續幀不同視角的幾何信息作為監督信號,訓練了一種端到端的單目圖像深度估計和車輛運動估計的框架,包括一個用于單一視角深度估計的深度網絡,以及用于連續幀間運動估計的相機位姿估計網絡,通過將當前幀圖像結合預測的深度圖以及幀間轉移投影到臨近幀上,計算像素誤差作為訓練的損失,對兩個網絡進行聯合訓練。預測階段,兩個網絡可以獨立進行推理。在KITTI數據集上的評估結果顯示,該方法和之前用ground-truth位姿網絡或者深度網絡進行監督的方法性能是相當的,并且運動估計的結果和現有的通用SLAM方法性能相當。
以上提到的基于無監督學習的單目深度估計技術研究是目前深度信息估計領域表現比較突出的幾個,他們用于機場這個大場景的深度信息估計雖然已經是最好的方法,但是現在依然還有一個難點需要解決,即訓練數據集及測試數據集的獲取。
雖然在實際投入使用中并不需要ground-truth,但是在訓練以及測試階段仍然需要ground-truth來衡量模型的精度??梢岳靡延械?D游戲引擎自己制作機場場面的深度信息數據集或使用虛擬現實技術搭建虛擬的機場環境以及模擬目標深度信息。獲取了數據集就可以投入訓練,先使用預訓練網絡對數據集進行預訓練,然后再輸入真實的機場場面視頻圖像進行測試,從而可以得到精度相對準確的結果。
本文主要內容是調研基于無監督深度學習的單目深度估計技術研究,并且應用于機場場面視頻監視系統。利用帶有深度信息估計的視頻監視系統可以實現機場場面視頻圖像的目標3D檢測、目標跟蹤,4DT航跡生成等任務,從而才能取代傳統場面監視雷達。在未來,融合了AI技術的視頻監控必然會逐漸取代面監視雷達(SMR)為主的監控技術,并且此技術也可以用于任何安有攝像頭的場景,對于火車站或大型商場等人流量較大的地方也有很大需求。此方法為小成本的機場場面視頻監控系統技術提供了重要的理論參考。
[1]GARG R,KUMAR V,CARNEIRO B G,et al.Unsupervised cnn for single view depth estimation: Geometry to the rescue[C]∥European Conference on Computer Vision,2016:740-756.
[2]GODARD C,AODHA O M,BROSTOW G J.Unsupervised monocular depth estimation with left-right consistency[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2017:6602-6611.
[3]KUNIETSOV Y,STUCKLER J,LEIBE B.Semi- supervised deep learning for monocular depth map prediction[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2017:2215-2223.
[4]ZHOU T,BROWN M,SNAVELY N,et al.Unsupervised learning of depth and ego-motion from video[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2017:6612–6619.
TP391.9
A
10.15913/j.cnki.kjycx.2020.02.047
2095-6835(2020)02-0120-02
吳壽英(1994—),女,研究方向為計算機視覺與圖像處理、機場場面目標監視。梁斌斌(1990—),男,研究方向為機場運行與管理、航空器場面運行優化。
張建偉(1972—),男,研究方向為圖形圖像技術、計算機視覺、空中交通管理。
國家重點研發計劃課題“基于大數據和云計算的交通基礎設施網絡風險防范與應急保障技術”(編號:2016YFC0802209-2)
〔編輯:嚴麗琴〕