金璞
(武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430072)
在媒體新聞中,無人機經常與一些負面新聞聯系到一起,例如:由未認證無人機飛行行為造成的航班延遲、無人機攻擊行為等。然而,最近在遙感和計算機視覺領域的進展表明,無人機已經被廣泛地應用到了很多實際任務中。例如,地震之后,無人機可以被應用到災害評估、投送救災物資、定位受害者等救災任務中;除此之外,就災后重建而言,城市規劃者也可以利用無人機更好地掌握受災城市的環境,并實現最優的城市復建方案。在精確農業領域,農業工作者可以利用無人機精確噴灑農藥,并收集農田數據以評估作物長勢,病蟲害情況,和預估產量。通過與地理空間信息的結合,無人機也可以用來監控和跟蹤野生動物以達到動物保護的目的。
不同于衛星,無人機能夠以較低的成本提供實時的、高精度的視頻數據。實時視頻流使得遠程快速決策成為可能。進一步,無人機明顯地降低了對天氣情況的依賴,如云層,進而提供更大的靈活性去解決各式各樣的問題。
越多的無人機能產生越多的視頻數據。據統計,在2019 年,就有超過兩百萬的無人機在各地注冊。每天小型的無人飛行器就能輕松產生超過150 太字節的數據。無人機大數據的新紀元到來了。人力去檢視如此海量的航空視頻數據并理解其內容顯然是不現實的。因此,自動解譯航空視頻數據的算法研究非常重要。
對于航空影像理解任務而言,從視頻中學習關鍵特征和表達是至關重要的任務。卷積神經網絡已經展現了卓越的從圖片中學習有效視覺特征的能力。例如,ResNet[1]已經在ImageNet 數據集上,實現了令人印象深刻的識別性能。這個表現甚至好于目前有記錄的人類表現。相對于一張只能提供空間信息的遙感影像,航空視頻更可以提供時間信息。這種信息對于描述一個復雜的動態事件十分重要。因此,從圖像識別到視頻分類的跨越,相關研究者依然需要做大量的努力以提取具有表達力的視頻時空特征。
航拍事件識別是一項較新的任務,其目的在于識別航拍視頻中發生的事件。該任務最重要的步驟是視頻時空特征提取,目前現有的方法可以分為兩類。一方面,多個方法旨在學習一個全局的時空特征表達。這個特征能夠從整體上表達一個視頻。一個最直接的實現方法是利用二維卷積分別從每個視頻幀提取空間特征,然后在疊起的特征圖上進行池化操作以獲取時間特征[2]。然而,這種方法的一個問題是忽視了視頻幀之間的時間互動關系。為了解決這個問題,Donahue[3]利用遞歸神經網絡(Recurrent Neural Network),例如LSTM,在時間維度整合特征以捕獲時間依賴性,基于LSTM 的方法如圖1 所示。然而,這種方法的有效性很大地卻決于長期記憶特征學習的效果。進一步,三維CNNs 是用于視頻表征學習的相對自然的模型,其能夠通過空間和時間維度上執行三維卷積來學習全局的時空特征。有些三維卷積架構已經被深入地研究并展示了令人印象深刻地性能。例如,Tran[4]提出了一個三維CNN 模型,其利用一個3×3×3的卷積核在大型的視頻數據集上去學習視頻特征。除此之外,隨后提出的膨脹三維卷積和分解三維卷積也進一步提高了三維卷積神經網絡的性能。

圖1 基于LSTM 的視頻特征提取算法流程
然而,上述利用二維或者三維卷積的方法受限于較小的時間感受野,無法充分地捕獲多樣的時間依賴性。因此,第二大類方法旨在顯示地建立時間關系模型并展示了十分有潛力的性能。例如:Lin[5]旨在隨機選擇不同數量的幀以了解其因果關系,然后通過累積不同尺度的幀關系來產生多尺度的時間關系。
我們研究了目前存在的視頻分類模型,一類為提取一個整體時空特征的方法,代表模型有C3D[4],P3D[6],I3D[7]等。另一類為學習時間關系特征的方法,代表模型有TRN[8]等。基于對現有動作的調查和研究,我們提出了一個新的深度神經網絡。該融合網絡不僅提取整體特征,而且學習視頻內容的時間關系,并將學習的特征用于航空視頻分類。
該網絡利用了一個雙通路架構,如圖2 所示。其一是一個整體特征通路,其為了學習一個普適性的特征。該特征包含視頻幀的外表屬性和短期的時間變化信息。該通路將視頻視為一個整體并利用膨脹3D 卷積(inflated 3D convolution)操作,學習視頻整體特征。其二是一個時間關系通路,其專注于捕獲任意視頻幀時間的多尺度時間關系,該關系提供長期的時間依賴特征。該通路通過不同的采樣率采樣幀層面的特征向量,并利用一系列的多層感知器(multilayerperceptrons)學習視頻幀之間的多尺度時間關系。然后,我們提出了一個新的融合模塊,該模塊是為了融合來自兩個通路學習的特征,并建立一個更加具有判別能力的表征,以提高分類精度。該模塊按照特征進行仿射變換,線性地調制整體特征和時間關系特征。

圖2 融合網絡處理流程
融合模塊將兩條路徑的輸出結合起來,以建立更具區分性的表示形式。更具體地說,它使用按特征進行線性組合和級聯運算來對整體特征和時間關系之間的高級交互進行建模。將兩個特征饋入模塊以產生融合的特征,最終將其放入完全連接的層中以進行視頻分類。利用兩個具有Dropout 操作的簡單MLP來實現在兩個仿射變換,以產生兩個1024 維向量最終的融合特征是2048 維向量。
我們提出的融合網絡在一個航空視頻分類數據集上被評估。驗證數據集為ERA 數據集[9]。本節介紹了實驗數據集ERA數據集,多個實驗評價指標,以及實驗結果與分析。
首先,我們使用ERA 數據集,它是一個事件識別數據集,由從YouTube 收集的2864 個航拍事件視頻組成。在該數據集中定義了25 個事件。
我們將每個類別的精度,總體精度和混淆矩陣用作評估指標,以比較不同模型的性能。具體而言,使用以下等式計算每類精度:

通過將正確分類的測試樣品的數量除以所有測試樣品的數量,可以計算出總體精度。
我們在ERA 數據集上比較了我們的網絡和其他競爭對手,并在表1 中報告了數值結果。如我們所見,我們的模型具有出色的性能,并提供了66.8%的OA,比第二好的模型高2.5%。

表1 視頻分類結果
在本文中,我們提出了一種新穎的方法,該融合方法采用雙路徑網絡從航拍視頻中學習特征表達。具體而言,該網絡利用膨脹的3D 卷積來捕獲整體表示路徑上的整體特征。同時,時間關系模塊學習多個幀之間的時間依賴性。我們將模型與最新方法進行比較。實驗結果表明,該網絡實現了最優的表現。時間關系路徑的引入可以增強捕獲代表性時間關系的能力。