鄭文雅
(福州大學環(huán)境與安全工程學院 福建福州 350108)
水是生命之源,是生命存在和發(fā)展的重要資源,及時掌握水資源的時空變化對人類生產生活具有重要意義[1]。隨著遙感技術的發(fā)展,利用衛(wèi)星遙感影像進行水體提取成為有效的手段,眾多學者通過遙感影像對水體提取技術進行研究,提出許多有效的方法。目前水體提取可分為2 大類:①基于影像光譜特征的提取方法,通過分析影像的光譜特征來構造水體運算公式,進行水體的提取,如水體指數(shù)法[2-3]、單波段閾值法[4]、譜間關系法[5]等,這類方法更多地用在中分辨率影像上,提取速度快且簡單,但細小水體提取精度低;②綜合了影像的光譜、紋理、空間等特征的分類器方法,如支持向量機[6]、面向對象[7]、決策樹[8]等,該類方法更常用于高分辨率影像,提取精度高,但分類過程復雜,受外界干擾大[9]。
近年來,隨著深度學習的快速發(fā)展,其優(yōu)秀的特征提取能力受到研究者的青睞,被逐漸用于水體提取。王雪等[10]利用全卷積神經網(wǎng)絡模型有效提取水體;陳前等[11]利用卷積神經網(wǎng)絡和DeepLabv3 語義分割網(wǎng)絡,對高分辨率衛(wèi)星遙感影像進行水體提取研究,證明深度學習提取水體的可行性;張銘飛等[12]利用卷積神經網(wǎng)絡模型提取水體,模型提取精度高達94.78%。
在LONG 等[13]提出全卷積神經網(wǎng)絡(Fully Convolutional Networks,F(xiàn)CN)結構后,端到端的卷積網(wǎng)絡第一次推廣到語義分割領域中。FCN 通過像素級預測實現(xiàn)語義分割,能準確提取物體特征,但由于像素與像素之間的關系考慮不全,導致分割結果不夠精細[14]。為提高算法的精度,學者們在FCN 的基礎上提出許多改進的方法,例如U-Net[15]、PSPNet[16]、SegNet[17]、DeepLab[18-20]等網(wǎng)絡。
因此,本文針對傳統(tǒng)方法提取水體邊緣輪廓較模糊、細小水體提取不完整、水體提取精度不高等問題,構建哨兵遙感影像的語義分割訓練數(shù)據(jù)集,選取常用的U-Net、PSPNet、DeepLabv3 網(wǎng)絡模型來提取水體,并與歸一化差異水體指數(shù)、最大似然法、支持向量機、隨機森林進行比較,探討語義分割模型提取水體的可行性。
福州市位于福建省東部,地理坐標為北緯25°15'~26°39',東經118°08′~120°31′,擁有豐富的水資源。閩江是福建省最大的水系,從武夷山流經三明、南平、寧德等地區(qū)后,在水口鎮(zhèn)匯入福州境內。閩江長530 km,流經福州約150 km。福州市區(qū)內還有不少河流與閩江交匯,包括晉安河、安泰河、茶亭河、白馬河等30 多條河流,共同構成福州市區(qū)的水系網(wǎng)絡。研究以福州市鼓樓區(qū)、臺江區(qū)、倉山區(qū)、晉安區(qū)、馬尾區(qū)為研究區(qū),該區(qū)域水域面積大,有大江、小河流、湖泊、池塘、溝渠等常見的水體類型。
哨兵二號(Sentinel-2)是高分辨率多光譜成像衛(wèi)星,于2015 年6 月23 日發(fā)射。攜帶從可見光和近紅外到短波紅外的13 個波段信息的多光譜成像儀,幅寬為290 km,空間分辨率分別為10、20、60 m。考慮到影像分辨率的不同,一些傳統(tǒng)的水體指數(shù)無法直接應用。若把分辨率重采樣為10 m,其效果可能也會受到影響,所以本文選擇藍、綠、紅、近紅這4 個空間分辨率均為10 m的波段進行研究。考慮到云量和季節(jié)的影響,本文選擇2023 年1 月的福州市區(qū)哨兵二號影像。
歸一化差異水體指數(shù)(Normalized Difference Water Index,NDWI)[2]是目前應用廣泛的水體指數(shù),水體信息在綠光波段具有較強的反射,在近紅外吸收強。因此,可通過二者反差構建指數(shù),突出水體,具體計算見式(1)。
式中:Green、NIR 分別為綠波段和近紅外波段。
深度學習雖然具有強悍的特征提取能力,但是其依賴于標簽數(shù)據(jù),需要消耗大量的人力物力,才能得到精確的標簽數(shù)據(jù)。因此,為減少樣本標記時間,本文先利用NDWI 提取水體,對水體誤提、漏提的區(qū)域進行修改,完成水體標簽的制作,最后構建樣本數(shù)據(jù)集。
U-Net 模型是對FCN 網(wǎng)絡的優(yōu)化,最早應用于醫(yī)學圖像領域,模型結構簡單,適合處理小數(shù)量級的數(shù)據(jù)集。與FCN 網(wǎng)絡的像素相加不同,U-Net 采用通道連接的方式,可保留上下文信息,并加強像素之間的語義聯(lián)系,結構如圖1 所示。主要由左側的下采樣和右側的上采樣組成。下采樣對輸入的影像進行卷積和池化操作,作用是獲取影像上下文信息,上采樣作用則是精準定位目標。輸入的影像通過3×3 卷積與最大池化處理對圖像特征進行提取,由于特征圖每次池化后都會縮小為原來的1/2,因此影像的細節(jié)信息也會損失。特征圖進入解碼器后會通過3×3 卷積與上采樣恢復到原圖相同的尺寸。接著生成的特征圖會被輸入解碼器,與上采樣中生產的相同尺寸的特征圖進行拼接合并,以便獲得更多的細節(jié)信息,有效恢復圖片特征信息。

圖1 U-Net 網(wǎng)絡結構
PSPNet 算法引入金字塔池化模塊,能夠增大深層區(qū)域的感受野,可以將不同尺度上的上下文信息聚集起來,進行場景理解。網(wǎng)絡結構如圖2 所示。首先輸入圖像,通過特征提取網(wǎng)絡得到特征圖像,接著把特征圖送入金字塔池化模塊,以便獲得不同尺寸的區(qū)域特征,然后進行上采樣,得到原圖尺寸,最后連接融合原特征圖和不同層的特征圖并進行卷積,輸出最終的預測結果。

圖2 PSPNet 網(wǎng)絡結構
DeepLabv3 網(wǎng)絡[20]提出的并行和串行結構,能夠高效地獲取多尺度的地物特征。并且通過改進具有空洞卷積的空間金字塔池化方法,以及加入批次歸一化層和全局平均池化,使得算法的收斂性和整體性能都得到提高。DeepLabv3 網(wǎng)絡有級聯(lián)型(Cascaded Model)和多孔空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)2 種模型。本文使用常用的ASPP 模型,結構如圖3 所示,其是由1 個1×1 的普通卷積、3 個3×3 的膨脹卷積和平均池化層組成。ASPP 模型使用4 個不同采樣率的多孔卷積對特征圖像進行分支,然后融合各采樣率的圖像,以獲得最終圖像。全局平均池用于對模型進行特征映射,并將圖像級特征輸入到1×1 卷積中。然后通過雙線性插值將特征上采樣到特定的空間維度。最后,通過連接這5 個分支的輸出并使用1×1 卷積層來進一步融合信息。

圖3 ASPP 模型結構
本次研究選擇混淆矩陣進行水體提取精度的驗證,其中常用的指標主要有精確度(precision)、召回率(recall)、總體精度(Overall Accuracy,OA)及Kappa 系數(shù),具體計算見公式(2)~(6)。
式中:TP(True Positive)表示水體像素被正確識別成水體的像素數(shù)量;TN(True Negative)表示非水體像素被正確識別成非水體的像素數(shù)量;FP(False Positive)表示非水體像素被錯誤識別成水體的像素數(shù)量;FN(False Negative)表示水體像素被錯誤識別成非水體的像素數(shù)量。
采用相同的數(shù)據(jù)集和模型訓練參數(shù)對U-Net、PSPNet、DeepLabv3 模型進行訓練,實驗通過Python 和Pytorch 實現(xiàn)。數(shù)據(jù)集影像大小設為256×256,通過圖像旋轉、鏡像翻轉等操作進行數(shù)據(jù)增強,數(shù)據(jù)集中將80%數(shù)據(jù)集作為訓練集,20%作為測試集。模型參數(shù)批次大小(Batch Size)設置為4,訓練輪數(shù)(Epoch)設為100,基礎學習率(Learning rate)設為0.000 1。
為探討語義分割模型提取水體的可行性,研究選取NDWI、最大似然法(ML)、支持向量機(SVM)、隨機森林(RF)與PSPNet、U-Net、DeepLabv3 等3 種語義分割方法進行對比。其中,NDWI 閾值設置為自定義,保證在錯提較少的情況下提取更多的水體。各方法部分提取結果如圖4 所示。圖4(a)包括小河流、湖泊、池塘,圖4(i)則為寬闊的閩江,圖中均包含大量的建筑和陰影。由圖4可以看出,NDWI 法漏提、錯提水體嚴重,對于小面積水體提取效果較差,建筑物多且密集的區(qū)域容易被檢測成水體,結果受閾值選取的影響,閾值選取過大,水體提取完整,但是誤提嚴重。ML、SVM、MF 都能較好地提取出水體,但存在不同程度的誤提、漏提現(xiàn)象,小部分陰影和建筑被錯誤提取以及小面積水體、水體邊緣線的提取效果較差,3 種分類器方法受到樣本的影響,不同的樣本提取結果差異較大。3 種語義分割方法均能較好地去除陰影和建筑對水體提取的影響,整體效果較好。其中,Deeplabv3 方法提取水體的能力最好,對小面積水體的提取能力優(yōu)于PSPNet 和U-Net,但提取的水體邊緣較平滑,提取水體邊緣線能力欠佳;PSPNet 方法零星的陰影會被提取以及細小水體未能提取到;U-Net 方法很好的區(qū)分水體和非水體,但一些小水體沒能完全提出。綜上可以看出,DeepLabv3 方法提取水體的能力最好。這是由于DeepLabv3 網(wǎng)絡引入批量歸一化層和全局平均池化,以更優(yōu)化的方式對多尺度上下文進行編碼進而獲得整體信息,所以整體提取效果最佳。

圖4 各方法實驗結果
本文采用隨機抽樣方式評估各方法提取水體的精度,結果如表1 所示。由表1 可以看出NDWI 的精確度最低,為80.33%,說明其誤檢嚴重。ML 法的召回率最低,為80%,主要因為ML 法分類過程中平均值和方差只計算1 次,導致提取結果稍差。3 種分類器方法中RF的總體精度和Kappa 系數(shù)是最高的,其次是SVM,最后是ML,均優(yōu)于NDWI 法。其中,ML 的精確度達90.57%,高于NDWI 的80.33%、SVM 的87.93%、RF 的86.89%,表明ML 提取水體的準確較高,誤檢情況少,但是其提取水體的能力較差,導致整體提取效果差。分析表1 可知,3 種語義分割模型總體精度和Kappa 系數(shù)都高于其他4 種方法,這說明語義分割網(wǎng)絡提取水體是可行且準確的,精度優(yōu)于傳統(tǒng)方法。其中,DeepLabv3 網(wǎng)絡的總體精度大于PSPNet 網(wǎng)絡的93.5%和U-Net 網(wǎng)絡的95%,得到最高總體精度96%。DeepLabv3 的精確度為90.6%,召回率為96.67%,總體精度為96%,Kappa 系數(shù)為90.65%,相較于其他6 種方法有很高的準確性。

表1 水體提取精度評價
本文利用哨兵二號影像提取水體,探討語義分割網(wǎng)絡提取水體的可行性,結果表明語義分割模型精度優(yōu)于NDWI、最大似然法、支持向量機、隨機森林。其中,DeepLabv3 整體效果最好,提取精度最高。
(1)各個方法在提取大面積水域時效果都較好,但在提取小面積水體時均存在問題,除DeepLabv3 網(wǎng)絡提取小面積水體較完整外,其他方法提取效果欠佳。但DeepLabv3 網(wǎng)絡提取的水體邊緣比真實的要平滑,導致效果稍差,需要進一步研究。
(2)相比于傳統(tǒng)方法需要對遙感影像的光譜特征進行分析和特征選取,深度語義分割模型則可以直接學習到復雜的地物特征,能夠準確地提取水體,但是其提取精度依賴于樣本數(shù)據(jù)集。為減少樣本標記時間,本文則利用NDWI 作為輔助提取水體,高效完成水體標簽的制作,實驗表明該方法是可靠的。