朱錦釗
(廣州方圖科技有限公司,廣州 510000)
遙感圖像語義分割在地理信息系統、環境監測、城市規劃等領域具有廣泛應用。準確的語義分割是實現這些應用的關鍵。DeepLab v3+是一種領先的語義分割網絡,但它仍然需要改進以應對遙感圖像的挑戰。本研究旨在通過引入多尺度融合策略和深度可分離卷積,提高DeepLab v3+網絡的性能,從而更好地應用于遙感圖像分割。
本研究聚焦于改進的DeepLab v3+網絡在遙感圖像語義分割中的應用,通過深度學習技術提高遙感圖像的語義分割精度。DeepLab 系列網絡一直在語義分割領域表現卓越,而DeepLab v3+作為其新一代版本,通過引入更多的解碼結構,旨在更好地融合高層和低層特征。在遙感圖像領域,精確的語義分割對于地圖制圖、環境監測等應用具有重要意義。
DeepLab v3+通過引入空洞卷積,有效地擴大了感受野,提高了網絡對圖像的理解能力。同時,網絡結構中的編碼-解碼形式有助于提取關鍵特征并將結果恢復到原始圖像大小。網絡模型主干網絡是DeepLab v3+的核心部分,它采用串行的空洞卷積以增強特征提取能力。同時,主干網絡的輸出被分為兩部分,一部分進入解碼器用于恢復特征到原始圖像大小,另一部分進行并行的空洞卷積來提取特征信息。這兩個部分的特征經過合并后,經過雙線性插值操作,最終進行像素點分類,實現了遙感圖像的語義分割[1]。
深度可分離卷積的結構包括一個3×3 的卷積層,用于數據集的特征提取,但其通道數僅有一層。在此卷積層中,卷積核會遍歷輸入張量的每個通道,生成相應數量的輸出通道。接著,通過1×1 的卷積核來調整通道數的厚度。這種結構的優勢在于降低了計算和內存的消耗,從而使網絡訓練更加高效。
例如,考慮一個傳統的3×3 卷積層,其輸入通道為32,輸出通道為64。這將需要大約18432 個參數。然而,通過應用深度可分離卷積,首先用32 個3×3 的卷積核遍歷32 個通道,生成32 個特征圖。然后,使用64 個1×1 的卷積核遍歷這32 個特征圖,只需要2336 個參數。這大大減少了模型的參數數量,加快了運行速度[2]。
在本文中,介紹了所選用的基礎網絡——Xception65,該網絡是深度學習領域的一項重要成果。Xception 網絡結構包括逐通道卷積和逐點卷積兩部分。首先,逐通道卷積對每個通道進行單獨卷積操作,生成相應數量的輸出通道。然后,逐點卷積(1×1 卷積)用于調整通道數,實現數據降維,從而減少計算量和參數數量。
在本文的遙感圖像處理中,鑒于圖像分辨率較高,采用了數據處理方法,包括添加噪聲、翻轉等,以擴充數據集的大小。此外,為了適應模型訓練的需要,對輸入圖像進行了統一裁剪,將其尺寸調整為256×256[3]。
對于處理高分辨率的遙感圖像,神經網絡的層數通常需要相對較深。然而,深層次網絡存在一個常見問題,即梯度消失,這會導致學習停滯。為了解決這個問題,本文提出了將中間流模塊之間的連接方式改進為密集連接。密集連接的原理很簡單:對于網絡中的每一層,前面層的所有特征映射都被用作輸入,而自身的特征映射也被傳遞給后續層。這種連接方式顯著提高了網絡在每一層中提取語義信息和傳遞梯度的效率,使網絡能夠更好地提取特征信息。與傳統的一層層下采樣的卷積網絡不同,密集連接改變了信息傳遞方式,同時傳遞了有效信息。改進原理如圖1所示。

圖1 中間流改進原理圖
綜上所述,通過引入密集連接方式,中間流模塊的性能得到了顯著提升,網絡能夠更好地處理高分辨率遙感圖像,提高了特征的提取效率和網絡的性能,特別是在深度監督和參數數量方面帶來了優勢。這一改進方法對于提高遙感圖像分割等任務的準確性和魯棒性具有重要意義[4]。
盡管DeepLab v3+網絡在處理遙感圖像分割方面表現出了出色的性能,但仍然存在一些不足之處。這些網絡中的特征響應相對較弱。卷積神經網絡在逐層處理圖像時,面臨一個重要問題,即如何更有效地利用特征信息。在網絡訓練初期,低層網絡具有高分辨率的圖像,強調幾何信息,但在處理語義信息方面較弱。隨著訓練的進行,圖像分辨率降低,幾何信息減少,但語義信息的提取能力增強。高層次的特征對于分割大目標非常有效,而淺層特征適合處理小目標。然而,當圖像的分辨率非常低時,對小目標的分割能力就會受到影響。DeepLab v3+的基礎結構只融合了1/4 和1/16 尺度的特征,難以準確分割一些中等尺寸的目標。此外,深層網絡中經過多次卷積操作,導致小目標的細節信息幾乎被忽略。
因此,本文通過反復的實驗,提出了引入逐層融合多尺度策略,這一策略通過多尺度融合改進了網絡結構,如圖2 所示。在這種策略下,語義信息和幾何信息可以分別融合,極大地改善了深層和淺層網絡訓練中存在的問題。這一策略對于保持物體邊緣的完整性以及捕獲細節信息具有顯著的作用,從而提高了遙感圖像分割任務的性能[5]。

圖2 引入多尺度融合策略優化后的網絡結構圖
某地區遙感圖像預處理:由于遙感圖像數據集的特殊性,首先需要將其轉換為RGB 三通道圖像。由于本文所使用的遙感圖像數據集分辨率較高,無法直接輸入到網絡進行訓練,因此對本地區數據集進行了裁剪操作,將本地區的圖像裁剪為256×256 像素大小。
基本參數設置:初始學習率設置為2e-4,訓練次數均設置為50000 次,并采用Adam 策略來進行模型訓練。
評價指標:本文采用了mIOU(平均交并比)和mPA(平均像素準確性)這兩個評價指標。mIOU 指標常用于衡量模型的預測性能,它反映了數據集中像素標注值和模型預測值之間相同區域的平均比例,即正確預測的像素在總像素數中所占的百分比。而mPA 是每個類別的正確像素占比的平均值,也是分割任務中的一項常見評價指標。較高的mIOU 和mPA 值表示模型的分割性能更好。此外,還會統計每個模型生成一幅預測圖像所需的平均時間,以比較它們的分割速度,進一步評估它們的性能。
某地區遙感圖像對比: 在相同的環境下,本文對比了改進前后的網絡模型的分割性能。分別進行了四種不同的對比實驗,包括DeepLab v3+、改進后的DeepLab v3+、具有多尺度融合策略的DeepLab v3+,以及改進后并帶有多尺度融合策略的DeepLab v3+。這些實驗的評判標準是基于DeepLab v3+在Vaihingen 數據集和Potsdam 數據集上的分割結果。
輸入圖像的分辨率為256×256,而各個模型的batch_size 均設置為16。經過基礎網絡改進和引入多尺度融合策略的網絡模型,均在不同程度上改善了分割性能。特別是,經過基礎網絡改進并引入多尺度融合策略的改進模型,在一定程度上表現出更好的分割效果,盡管預測時間有所增加。但考慮到準確度的提升,這種時間增加可以被接受。圖3 展示了在Vaihingen 數據集上,改進前后模型的可視化分割結果。

圖3 改進前后模型在Vaihingen 數據集上的可視化分割對比圖
梯度損失是分割網絡模型性能的一個重要指標,從圖4 中改進前后模型在Vaihingen 數據集上的Loss 值的變化曲線可以看出,改進后的模型性能更佳。

圖4 改進前后模型在Vaihingen 數據集上的Loss 值變化曲線
SegNet、U-Net、DeepLab v3+都是常用的語義分割網絡模型。分析這些網絡結構可以得出,增大感受也有助于提高每一類的分割準確度。
本文提出的基礎網絡優化和引入多尺度融合策略的DeepLab v3+網絡模型在Vaihingen 數據集上表現出更高的分割準確度。改進后的網絡模型的mIOU 值比原始的DeepLab v3+提高了4.90%。這進一步驗證了基礎網絡優化和多尺度策略的引入,有助于更好地捕獲邊界信息,從而獲得更強的特征響應。
在Potsdam 數據集上,將某地區各個的batch_size 值設置為16,輸入圖像分辨率為256×256,統計各個區域網絡在不同策略下的分割結果,以確定對改進模型的有效性。
在Potsdam 數據集上,引入多尺度融合策略相較于原始的DeepLab v3+區域模型,也可以顯著提升分割區域的精度。此外,區域基礎網絡改進相對于引入多尺度融合策略,mIOU 值和mPA 值也有顯著的提升。這進一步證明了本文提出的方法的有效性,以及改進后區域模型的更好分割性能。
各個區域在數據集上的訓練后的預測圖像如圖5 所示。從圖中所框出的部分可以看出,引入了兩種策略或者單獨引入一種策略相對于DeepLab v3+區域模型,在分割效果上均有顯著提升。同時,引入了兩種策略的區域模型對細節信息的分割也更為完整。

圖5 改善前后區域模型在Potsdam 數據集上的可視化分割對比圖
圖6 中,可以通過改進前后區域模型在Potsdam 數據集上的Loss 值的變化曲線來進行定量分析,結果表明梯度下降更為穩定,改進后的區域模型性能更佳。

圖6 改進前后區域模型在Potsdam 數據集上的Loss 值變化曲線
對比了SegNet、U-Net、DeepLab v3+以及改進后區域模型在Potsdam 數據集上的分割準確度。從應用結果可以看出,本文提出的改進區域模型表現出更高的分割準確度。
通過比較改進前后區域模型在Vaihingen 和Potsdam 數據集上的實驗結果,可以得出深度可分離卷積的優越性以及密集連接對于充分利用各特征響應,從而提高網絡訓練性能的重要性。
本研究通過引入多尺度融合策略、深度可分離卷積和密集連接,顯著改進了DeepLab v3+網絡的性能,使其在遙感圖像語義分割中表現出更高的準確度和魯棒性。這對于解決遙感圖像處理中的復雜任務具有重要意義。我們的研究為遙感圖像分割領域的進一步發展提供了有力支持,有望在地圖制圖、環境監測等應用中產生積極的影響。