深度學(xué)習(xí)在多標(biāo)簽遙感影像分類中應(yīng)用的研究現(xiàn)狀

2020-01-04 15:10:30華遠(yuǎn)盛

科學(xué)技術(shù)創(chuàng)新 2020年1期

華遠(yuǎn)盛

（武漢大學(xué) 測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室，湖北武漢430000）

1 背景介紹

影像分類在遙感應(yīng)用中是一項(xiàng)非常重要的任務(wù)。該任務(wù)的目的是通過對目標(biāo)影像紋理，空間，光譜等特征進(jìn)行分析并判斷目標(biāo)影像的語義標(biāo)簽。通常情況下人們所討論的影像分類是指單標(biāo)簽影像分類，即一張遙感影像僅會(huì)被賦予一個(gè)語義標(biāo)簽，例如場景類型。然而值得注意的是，在現(xiàn)實(shí)世界中，一張影像通常會(huì)和多個(gè)標(biāo)簽，例如圖像中包含的所有物體類別，有聯(lián)系。這種情況在復(fù)雜的影像中由為明顯。因此，多標(biāo)簽的遙感影像分類現(xiàn)在正逐漸成為備受關(guān)注的話題。相比較于單一標(biāo)簽分類，多標(biāo)簽影像分類可以更好地幫助人們理解圖像中包含的語義信息。除此之外，相比較于語義分割和目標(biāo)檢測這兩個(gè)任務(wù)，多標(biāo)簽影像分類的優(yōu)勢在于數(shù)據(jù)庫獲取更為容易。前者往往需要標(biāo)注任務(wù)繁重的像素級標(biāo)簽和邊框級標(biāo)簽，而后者僅需要圖像級的標(biāo)簽。顯而易見，訓(xùn)練一個(gè)用于多標(biāo)簽影像分類的模型所需要的數(shù)據(jù)的獲取難度要遠(yuǎn)低于另外兩個(gè)視覺任務(wù)。因此，多標(biāo)簽遙感影像分類正受到越來越多研究者的關(guān)注。

盡管遙感影像分類具有非常重要的意義，傳統(tǒng)的視覺算法通常難以獲得令人滿意的結(jié)果。這是因?yàn)樗麄兌家蕾囉谌藶樵O(shè)計(jì)的特征提取方法，故而較難獲取到有益于圖像識(shí)別的高級語義信息。然而近年來，隨著計(jì)算機(jī)性能的提高與影像數(shù)據(jù)越來越容易的獲取，深度學(xué)習(xí)這一技術(shù)得到了極大的發(fā)展并且正在被廣泛地應(yīng)用在各種視覺識(shí)別任務(wù)中。通過調(diào)研近年來的諸多工作，我們發(fā)現(xiàn)深度學(xué)習(xí)在諸如分類，分割，目標(biāo)檢測等任務(wù)中都取得了令人矚目的成績。相較于依賴人為設(shè)計(jì)特征提取的傳統(tǒng)算法，深度學(xué)習(xí)有著強(qiáng)大的自主學(xué)習(xí)能力，并能夠通過在訓(xùn)練集上的反復(fù)訓(xùn)練學(xué)會(huì)提取影像中的語義信息。在現(xiàn)有的許多工作，深度學(xué)習(xí)算法的效果都被證明遠(yuǎn)優(yōu)于傳統(tǒng)算法的效果。

伴隨著這樣的趨勢，深度學(xué)習(xí)也正在被越來越多地應(yīng)用于多標(biāo)簽遙感影像分類任務(wù)。因此，本文旨在綜述現(xiàn)有的基于深度學(xué)習(xí)的多標(biāo)簽遙感影像分類算法。此外，作為訓(xùn)多標(biāo)簽分類算法不可或缺的數(shù)據(jù)庫也將在本文中被介紹。

2 文獻(xiàn)調(diào)研

近年來伴隨著深度學(xué)習(xí)算法的興起，越來越多的研究者將該算法應(yīng)用于多標(biāo)簽遙感影像分類的任務(wù)中并且取得了一定的成果。Zeggada 等人[1]提出了首先將深度學(xué)習(xí)算法應(yīng)用于多標(biāo)簽的無人機(jī)影像分類。在這篇工作中，他們使用了一個(gè)標(biāo)準(zhǔn)的GoogLeNet 作為分類器的主干，并將原網(wǎng)絡(luò)中最后一個(gè)全連接層后跟隨的Softmax 激活函數(shù)替換成了Sigmoid 激活函數(shù)用以進(jìn)行多標(biāo)簽分類。這是因?yàn)镾oftmax 激活函數(shù)通常被用在單標(biāo)簽分類任務(wù)中，且僅適用于輸出為one-hot 編碼的情況。與之相反，Sigmoid 激活函數(shù)可以適用于輸出為multi-hot 的情況，因此可以被用作多標(biāo)簽分類的任務(wù)。在這篇工作中，作者沒有直接設(shè)定閾值，例如0.5，對Sigmoid 激活后的輸出進(jìn)行二值化得到預(yù)測的多標(biāo)簽，而是采用了RBFNN（Radialbasisfunction neural network）通過學(xué)習(xí)得到合適的閾值。此外，Koda 等人[2]以及Zeggada[3]等人相繼使用了一個(gè)標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)加一個(gè)SVM（supportvectormachine）或者CRF（conditionalrandomfield）組合的方式進(jìn)行多標(biāo)簽分類。然而盡管這些工作均取得了一定的成功，但是標(biāo)簽之間的內(nèi)在關(guān)系并沒有被充分利用。這是因?yàn)樵谶@些分類器中，每個(gè)標(biāo)簽被獨(dú)立預(yù)測。

為了能夠充分利用標(biāo)簽之間的聯(lián)系，Hua 等人在[5]中討論并嘗試?yán)靡粋€(gè)雙向的LSTM（Longshort-termmemory）網(wǎng)絡(luò)來預(yù)測多標(biāo)簽。在這篇工作中，Hua 等人發(fā)現(xiàn)標(biāo)簽之間存在著明顯的共現(xiàn)現(xiàn)象，例如車和路面或者船和水體經(jīng)常同時(shí)出現(xiàn)在影像中。這個(gè)發(fā)現(xiàn)非常符合人們的日常認(rèn)知，例如車通常在路面上行駛或者停靠，而船大概率在河流或者海洋上航行。基于這樣的發(fā)現(xiàn)，Hua 等人利用了雙向的LSTM來進(jìn)行多標(biāo)簽分類。LSTM由于其強(qiáng)大的構(gòu)建前后語義關(guān)系的能力而被廣泛地應(yīng)用在自然語言處理的任務(wù)中。在多標(biāo)簽分類任務(wù)中，雙向LSTM的每個(gè)時(shí)間節(jié)點(diǎn)都會(huì)預(yù)測當(dāng)前標(biāo)簽的存在與否，并將該預(yù)測結(jié)果輸入到下一個(gè)時(shí)間節(jié)點(diǎn)的預(yù)測環(huán)節(jié)中。通過這樣的結(jié)構(gòu)，每個(gè)時(shí)間節(jié)點(diǎn)的預(yù)測結(jié)果都會(huì)受到或者給予前后節(jié)點(diǎn)預(yù)測的影響。此外，Hua 等人[6]還嘗試著利用關(guān)系網(wǎng)絡(luò)進(jìn)行標(biāo)簽關(guān)系的建模并利用其進(jìn)行標(biāo)簽的預(yù)測。

3 常用的多標(biāo)簽遙感影像數(shù)據(jù)庫

在該章節(jié)中，本文將注重介紹三個(gè)遙感領(lǐng)域中常用的多標(biāo)簽數(shù)據(jù)庫：UC-Merced 多標(biāo)簽數(shù)據(jù)庫，DFC15 多標(biāo)簽數(shù)據(jù)庫，以及AID 多標(biāo)簽數(shù)據(jù)庫。

3.1 UC-Merced 多標(biāo)簽數(shù)據(jù)庫

UC-Merced 多標(biāo)簽數(shù)據(jù)庫是由Chaudhuri 等人[4]在2018 年發(fā)布的一個(gè)第一個(gè)應(yīng)用于遙感影像多標(biāo)簽分類的數(shù)據(jù)庫。該數(shù)據(jù)庫中共有2100 張來自UC-Merced 單標(biāo)簽場景數(shù)據(jù)庫且分辨率為0.3 米的256x256 遙感影像。其中每張影像均被賦予了圖像中所包含的不同物體的類別標(biāo)簽。例如場景中若含有車輛和建筑，則該圖對應(yīng)的標(biāo)簽為“車輛，建筑”。據(jù)統(tǒng)計(jì)，該數(shù)據(jù)庫中標(biāo)簽類別共計(jì)17 類，且分別是飛機(jī)，沙子，路面，建筑，車輛，灌木叢，運(yùn)動(dòng)場，樹，碼頭，存儲(chǔ)罐，水體，草地，房車，船，裸地，海，以及田地。

3.2 AID 多標(biāo)簽數(shù)據(jù)庫

AID 多標(biāo)簽數(shù)據(jù)庫是一個(gè)由3000 張高分辨率影像構(gòu)成的數(shù)據(jù)庫。該數(shù)據(jù)是Hua 等人[5]在AID 單標(biāo)簽場景數(shù)據(jù)庫的基礎(chǔ)上進(jìn)行重新標(biāo)注得到的。AID 單標(biāo)簽場景數(shù)據(jù)庫中包含有10000 張裁剪自谷歌地球衛(wèi)星數(shù)據(jù)的600x600 的影像，且分辨率浮動(dòng)在0.5 米到8 米之間。這些影像覆蓋了中國，美國，英國，法國，意大利，日本以及德國。由此可見，該數(shù)據(jù)庫的樣本十分豐富且具有多樣性。因此，Hua 等人在此數(shù)據(jù)庫的基礎(chǔ)上對其中3000 張影像進(jìn)行重新標(biāo)注并最終生產(chǎn)了包含3000 個(gè)圖像樣本且共計(jì)17 個(gè)類的多標(biāo)簽數(shù)據(jù)庫。該數(shù)據(jù)庫中的17 個(gè)類與UC-Merced 多標(biāo)簽數(shù)據(jù)庫中的類別定義一致。

4 結(jié)論

通過對現(xiàn)有工作的介紹，我們可以發(fā)現(xiàn)深度學(xué)習(xí)算法在多標(biāo)簽遙感影像分類這一應(yīng)用中已取得了一定的進(jìn)展。相較于傳統(tǒng)算法，深度學(xué)習(xí)模型能夠自動(dòng)提取到具有豐富語義信息的特征從而做出更為準(zhǔn)確的標(biāo)簽預(yù)測。在后續(xù)的發(fā)展中，如何更加有效的利用標(biāo)簽間的關(guān)聯(lián)性來進(jìn)行多標(biāo)簽的分類將是具有價(jià)值的研究。