劉欣宜
(武漢大學資源與環境科學學院,湖北 武漢 430079)
幾十年前,無人機僅僅在科幻小說或有關未來的概念中出現。如今,無人機已經逐漸并迅速成為我們日常生活的一部分。根據美國聯邦航空管理局的統計數據,僅在美國,已注冊的民用無人機數量已從2015 年的14 萬架攀升至2020 年的114 萬架[1]。
毋庸置疑,與衛星相比,大批量無人機投入使用不僅可以促進實現低成本訪問實時、高分辨率的視頻,還可以輔助完成各類應用,例如災后破壞程度估算、精準農業流程優化、野生動物保護監測等。也正因如此,如何更好地發展基于深度學習、卷積神經網絡的自動化視頻解譯方法,現如今是遙感與計算機科學領域的研究熱點之一。
廣義的視頻理解是一個綜合性任務,它包含了場景或環境、物體、行為、事件及各種屬性在內的多種語義識別。航拍視頻理解通常可以通過執行各種計算機視覺任務來實現,比如視頻分類、目標檢測和目標跟蹤等任務。
圖像中包含的信息被稱為空間信息。對于視頻數據,除此之外,多個視頻幀之間還存在時間信息。也就是說,視頻可以提供時空信息。深度卷積神經網絡(Convolutional Neural Networks, CNNs)具有從圖像中學習有效視覺表征的超強能力。同樣的,對于視頻數據,深度卷積神經網絡也能夠通過其時空信息,來實現視頻理解。
現有的視頻理解CNNs 可以被分為兩類,即主要使用三維卷積或二維卷積來學習全局時空表征。三維CNN 方法運用具有時間維度的三維卷積來提取全局時空特征,經典的網絡包括C3D[2],I3D[3],P3D[4]等。對于二維CNN 方法,二維卷積被應用于每一幀視頻以提取空間特征,而幀之間的時間信息通過一個附加模塊來捕捉。代表性二維CNN 方法包括TRN[5]。
在深度學習中,卷積神經網絡的訓練離不開大量數據。對于航拍視頻理解任務來說,實驗數據的標注、描述方法對最終網絡時空特征提取能力的提升至關重要。
當下,絕大多數航拍視頻數據集都是單標簽標注的,即通過給每個實例一個分類標簽來描述視覺現象(活動、事件或動作等)。包括關于人- 人,人- 物體間關系的UCLA 空中事件數據集[6]、關于人類動作的Okutama-Action 數據集[7]、關于緊急事件響應的AIDER 數據集[8],和由2864 個時長5 秒、來源于YouTube 網站(https://www.youtube.com/)、分屬于25個事件類別的無人機航拍視頻數據集ERA Dataset[9]。注意到該ERA 數據集規模較廣、視頻內容多樣化,可以作為航拍視頻深度學習領域的一個基準,具有進一步標注、開發、豐富的潛力。
高級別的表達包括基于類別的表達和基于屬性的表達,因此,對于視角廣、信息量大的航拍視頻而言,僅僅賦予視頻一個類別單標簽是遠遠不夠的。為了更全面地描述、感知視頻中關于地面物體、場景特征及人類觀看感受的信息,基于屬性的多標簽標注和在此基礎上開展多屬性學習是不可忽視、亟待解決的一項研究任務。注意到當下基于多屬性的航拍視頻數據集還是一片空白,相關的基于CNN 的視頻理解方法就更加有限,相關領域研究人員也因此還需要做出進一步的努力。
通過對現有無人機視頻數據集進行調查,我們發現ERA 數據集[9]具有進一步被標注的潛力,因此我們采用對ERA 數據集進行標注的方式來用較低成本建立第一個高質量的多屬性無人機視頻數據庫Multi-Attribute ERA 數據庫。整個創建過程包括屬性集合的確定、標注與質量檢測。此外,本章還對Multi-Attribute ERA 數據庫進行了包括數據統計、數據庫特性與挑戰在內的進一步介紹。
為了找到合適的多屬性標簽集合,我們遵循兩個原則:原則一為場景分類法,意在找出每個場景對應的目標屬性。首先,我們將ERA 數據集中的25 個事件類標簽(震后、賽車、打籃球、洪水、山體滑坡、耕作等)歸為如圖1 所示的四大場景類,其中居民區場景可以細分為三個次類。每個類、次類對應的比較普適的目標屬性包括:樓房、人、車輛、停車場、運動場、賽車道、山、泥石流、田地、自然水域和游泳池。然后,回歸到ERA 數據集的25 個事件類中,我們找到對應事件類的特定目標屬性:條幅/標語牌,旗幟,自行車,船,塔吊,耕作機,火焰/煙霧,收割機,舞臺,水炮。

圖1 將ERA 數據集[9]中的事件標簽按場景歸類
由于人工智能的目標是像人類一樣感知視頻內容,原則二為人類對視頻的描述。當人類觀看視頻時,不可避免會產生對視頻的情感,同時還會注意到視頻中發生的活動、天氣等屬性。由于ERA 數據集本身已經有了活動標簽,這里我們選擇天氣和情感兩個屬性類。結合ERA 數據集的內容,最后確定下來的對應屬性有:天氣:夜晚;情感:競爭性,擁擠,危險,快樂,壓力,緊張。
至此,我們得到了涵蓋地面目標、天氣情況、人類情感在內的Multi-attribute ERA 數據集的全部屬性標簽,共有28個。
Multi-attribute ERA 數據庫的標注工作是在我們為其設計的MATLAB 視頻數據多標簽標注平臺上完成的。為了保證數據集的完整性與準確性,我們還制定并施行了包括標注中準則、標注后檢查在內的質量控制流程。
標注中準則包括參考人對視頻內容的理解、參考視頻片段的源視頻和參考屬性的字面定義三項。標注過程中,無法通過準則進行決策的數據記錄在了標準日志上。整個標注階段完成后,由4 名標注員對不明確的項目進行檢查、討論并調整。
Multi-attribute ERA 數據庫非常適合多屬性視頻分類的任務。它包含28 個有代表性的屬性,每個視頻數據有0 到11 個屬性標簽。而對于每個標簽,樣本數從82 到1887 不等,總共有2864 個樣本。我們給出一些典型示例及其多屬性標簽如圖2。Multi-attribute ERA 數據庫的數據分布非常不平衡(如圖3 所示)、數據集規模不大、類間相似度大、類內差異大,為訓練航拍視頻理解算法帶來了挑戰。

圖2 事件類視頻示例的中間幀及其在Multi-Attribute ERA 數據庫中對應的多屬性標簽
在創建Multi-attribute ERA 數據集的基礎上,我們設計并完成了第一個多屬性航拍視頻理解的任務,即多標簽食品分類。在這個實驗中,4 個當下最有代表性的、先進的CNN視頻分類模型在所提出的Multi-attribute ERA 數據集上進行了評估。
本實驗所選擇的四個基線網絡為C3D[2],I3D[3],P3D[4]和TRN[5]。由于是多標簽分類任務,網絡的分類層激活函數為Sigmoid 函數。
對于視頻多標簽分類任務,我們將主要評價指標設定為平均F1值、平均F2值,此外,參考指標還有基于實例平均精度pe、召回率re、基于標簽的平均精度pl、召回率rl。計算方法如下所示并取均值:
如表1 所示,就平均F1值、平均F2值來看,模型TRN-Inception-v3表現最好,分別為67.27%和67.57%。這可能是因為它的結構是一個帶有時間推理模塊的二維CNN,可以在捕捉時間信息的同時有效提取足夠的空間特征。就平均精度而言,模型P3D-Resnet-199的表現最佳,基于實例、標簽的平均精度分別為73.73%和67.88%。

表1 在Multi-Attribute ERA 上進行基線實驗的定量結果(\%)。最佳結果用粗體表示
圖4 展示了以上兩個網絡的預測結果示例。很明顯,大部分樣本的主要屬性被成功預測,模型TRN -Inception-v3和P3D-Resnet-199已經顯示出它們在學習航拍視頻的各種屬性方面的出色能力。與此同時,注意到夜間場景視頻的預測值假陰性比例較高,屬于比較有挑戰性的樣本。

圖4 TRN - Inception-v3 和P3D- Resnet-199 在多Multi Attribute ERA 數據庫上的多屬性視頻分類實驗結果(預測值)及真實值示例。圖示為對應視頻第一幀與最后一幀。[方括號]的預測值代表假陽性,而(圓括號)真實值代表兩個模型結果的假陰性。
我們提出了第一個多標簽無人機視頻數據庫:Multi-attribute ERA 數據庫。該數據庫在原有最大事件識別航拍視頻數據集ERA 數據集[9]的基礎上,標注了28 個涵蓋地面目標、天氣和人類情緒的,有代表性的多屬性標簽,更好地對航拍視頻進行了描述。它質量高、規模大、類內差異大、類間相似度高。此外,我們設計并完成了視頻分類的多屬性學習任務,即將4 個最先進的視頻分類深度學習CNN 模型在Multi-attribute ERA 數據庫上進行了評估。實驗結果表明,這是一項可行且艱巨的任務,所提出的數據集是一個新的挑戰,可以用來開發、優化更好的航拍視頻理解模型。望眼未來,我們可以在此數據庫基礎上研發專注于視頻屬性識別的深度學習模型、探索屬性和視頻類別之間的相互作用、屬性之間的相關性等,最大化本數據庫在遙感與計算機視覺領域的應用與貢獻。