沈 瑜 王海龍 苑玉彬 梁 麗 張泓國 王 霖
(1.蘭州交通大學電子與信息工程學院, 蘭州 730070; 2.南京航空航天大學電子與信息工程學院, 南京 211106)
遙感圖像精準識別河流對于水資源的合理利用具有重要意義[1]。高分衛星技術的快速發展為高分辨率遙感圖像的獲取提供了新的途徑,對于河流圖像的精準識別具有支撐作用[2-4]。
利用傳統方法對河流進行識別精度較差、效率低[5-6]。近些年,利用深度學習方法研究遙感圖像取得了重大突破,尤其是基于深度卷積神經網絡的遙感圖像語義分割取得了比較大的進展[7-11]。WANG等[12]利用遷移學習方法將UNet和CAM (Class activation maps)算法結合,形成U-CAM網絡,使用弱監督方法在只有100幅圖像的情況下進行訓練,在農田影像數據集上實現了較高的像素級預測精度。ResUNet[13]網絡結合了深度殘差網絡和UNet網絡各自的優勢,使得網絡參數僅為UNet的1/4,并使用預訓練好的網絡進行了微調,在Massachusetts roads dataset的測試集上取得了優于其他網絡的分割性能。LinkNet[14]網絡借鑒了UNet的思想,并引入了residual blocks,然后將每個編碼器的輸入連接到對應解碼器的輸出上,在保證分割精度的同時提升網絡推斷速度,以滿足實時性的任務需求,在Cityscapes測試集上實現了快速分割。D-LinkNet[15]使用預訓練編碼器的LinkNet作為骨干,通過引入殘差單元和串并聯空洞卷積結構,在DeepGlobe道路數據集的驗證集和測試集上,IoU(交并比)分別為64.6%和63.4%。MANet[16]中提出了一種新的具有線性復雜度的注意力機制,以減輕注意力中的大量計算需求,通過多個高效的注意力模塊提取上下文依賴關系,在ISPRS Potsdam等多個數據集上驗證了其準確度均超過了其他8種對比網絡。MUNet[17]是一種多尺度自適應分割網絡,將多個尺度的UNet進行融合,所有分支共用一個下采樣編碼過程,然后進行上采樣,并將預測結果連接后進行卷積融合,在ISPRS Vaihingen等數據集上與UNet++模型進行對比實驗,MUNet模型的預測精度更高,容錯能力更強。GLCNet[18]中提出了一種全局風格和局部匹配對比學習網絡,在ISPRS Potsdam數據集上將Kappa系數提高了6%,效果明顯優于有監督學習。R-LinkNet網絡通過遷移ResNet50到LinkNet網絡中,同時結合Dense ASPP[19]對河流圖像進行語義分割,在分割細節上得到了較大提升,在河流數據集上像素準確率為89.1%。WEI等[20]提出一種編碼器-解碼器架構模型,利用編碼器網絡提取超高分辨率圖像的高層語義特征,利用解碼器網絡將低分辨率編碼器特征圖映射到全輸入分辨率特征圖,并結合了條件隨機場,實現像素級標記,在Vaihingen數據集上平均像素準確率為76.32%。
雖然在遙感圖像領域有很多語義分割算法都取得了較好的效果,但是針對寒旱地區遙感圖像河流的提取算法較少。我國寒旱地區河流分布較為分散,水量較小,因此河流呈現出細小的特點,且存在高山陰影和云霧遮擋的問題。目前的算法對河流邊緣細節以及陰影遮擋處很難識別,容易出現不連續和鋸齒狀,基于以上問題,本文提出一種改進LinkNet模型的分割網絡(AFR-LinkNet),用于對我國寒旱地區遙感圖像河流的識別。
本文遙感圖像數據采集區域位于30°~50°N,80°~100°E,如圖1所示。該地區每年最冷月平均氣溫小于-4.0℃、月平均氣溫大于10℃時間不超過5個月,連年平均降雨量小于500 mm,屬于典型的寒旱地區。該地區生態脆弱、水資源分布不均勻、缺乏水資源統一管理和調度,使得寒旱地區的生態環境日益惡化。因此,寒旱地區河流精準識別顯得尤為重要。

圖1 實驗區域示意圖Fig.1 Schematic of experimental area
數據集選自我國寒旱地區具有不同尺度和代表性的遙感河流圖像,從圖1所示實驗區域的Google Earth中共采集200幅遙感河流圖像,圖像尺寸為1 024像素×1 024像素,覆蓋面積為1 m2。利用標注工具Labelme進行二分類人工語義標注,河流標注為1,背景標注為0。數據集中包含山體陰影、冰雪、道路、云霧、干涸河床等具有代表性的干擾因素,圖2為數據集部分示例。

圖2 河流數據集示例圖Fig.2 Example diagram of a river dataset
為了使數據集足夠大,對采集到的訓練數據集進行數據增強[21],包括圖像旋轉、縮小填充、放大、鏡像、色度變換等操作,使原有數據集擴大5倍達到1 000幅圖像。圖像增強操作示意圖如圖3所示。

圖3 數據擴增效果Fig.3 Data amplification effect
為了實現對寒旱區遙感河流圖像精細化的分割,本文對LinkNet結構進行了改進,提出一種基于編碼-解碼的AFR-LinkNet網絡,其結構如圖4所示。

圖4 AFR-LinkNet網絡結構Fig.4 AFR-LinkNet network structure
LinkNet采用ResNet18作為編碼器,其表征能力和精度有限。本文提出的AFR-LinkNet網絡屬于編碼-解碼結構,包括2個卷積層、1個反卷積層、4個編碼層、4個解碼層、3個非對稱卷積塊、1個殘差通道注意力模塊和密集跳躍連接結構。編碼器部分采用預訓練好的殘差網絡ResNet50,以增強網絡的表征能力,并縮小收斂時間,同時使用最新針對計算機圖像的非線性視覺激活函數FReLU[22],可以使網絡獲得更多的圖像空間關聯性的細節信息。將編碼器階段的每個輸出都經過一個不對稱的卷積塊提供給解碼器,壓縮網絡大小,速度得到提升,將不同級別的圖像信息進一步細化,為解碼器提供更多的圖像空間信息。殘差通道注意力結構位于網絡的編碼器和解碼器之間,該結構中使用了空洞卷積,可以增大網絡感受野,保留更多的有用信息,該結構可以對提取的特征進一步重新標定,重點關注對語義分割任務有效的圖像特征,有利于實現精細化分割。在解碼器階段,使用密集跳躍連接,以將不同級別和尺度的特征進行融合加以利用,減少特征信息的損失,使網絡分割能力得到提升。
在遙感河流圖像語義分割任務中,由于受陽光、山體陰影、云霧、干澀河床以及冰雪等的影響,網絡模型經常會出現分割的語義圖中細小河流不連續或者在邊緣產生鋸齒狀的現象,如果能使網絡關注重點目標區域,便可提升分割精度,因此需要強化對遙感河流圖像語義分割任務有效的高級語義特征信息。不同高級特征通道之間具有一定的關聯性,而且各個高級通道都包含大量豐富的圖像語義信息,只要將這些通道進行建模形成一定的信息依賴,就能實現對有效的高級語義信息的強化作用,因此本文采用具有殘差結構的通道注意力模塊(Residual channel attention block,RCAB),如圖5所示。

圖5 殘差通道注意力模塊結構圖Fig.5 Residual channel attention block structure diagram
在殘差通道注意力結構中,一方面將編碼器得到的具有高級語義信息的特征圖經過全局平均池化操作進行壓縮,得到每個通道的全局特征信息。然后經過兩個卷積層和一個非線性激活函數FReLU構成的bottleneck結構進行通道之間的信息依賴建模,最后通過Sigmoid函數獲取通道權重。另一方面將編碼器得到的特征圖經過兩層膨脹卷積進行處理,然后與得到的權重進行Scale運算,最后得到具備通道注意力的遙感河流圖像的特征圖。殘差通道注意力結構對目標分割任務的特征圖進行了重新標定,強化了有效特征,有助于提高網絡的語義分割精度。
在網絡模型中使用大小為d×d的標準卷積核能夠對圖像特征進行提取,但是普通卷積核的感受野和網絡深度較為有限。文獻[23]提出了使用非對稱卷積(Asymmetric convolutional network,ACNet)代替原有普通卷積,并證明了可以將標準的d×d卷積分解為d×1和1×d,以減少參數和計算量,并增加了網絡深度,使得網絡的非線性表達能力更強。非對稱卷積主要通過逼近方核卷積的方式進行壓縮和加速,但是在逼近過程中會導致部分信息丟失。文獻[24]針對該問題提出了使用兩個一維非對稱卷積分別從水平和垂直方向對方核卷積進行特征增強,以提升局部顯著特征的影響因子。最后將3個并行卷積核獲取的信息集中到方核卷積,用以豐富特征空間信息,使得網絡對圖像具有良好的辨別性能。非對稱卷積塊如圖6所示。

圖6 非對稱卷積塊結構圖Fig.6 Structure diagram of asymmetric convolution block
非對稱卷積塊由3個并行的3×3、1×3、3×1卷積層構成,3個通道具有相同的特征輸入。特征圖分別經過方核、水平核以及垂直核的卷積操作,并將輸出進行求和操作得到融合結果。水平和垂直方向的卷積操作捕獲了更多的空間細節信息,增強了卷積核的表達能力,避免了大量參數計算的引入。最后將融合后的特征圖經過批量歸一化(Batch normalization,BN)操作,減少過擬合,提升訓練速度,并經非線性ReLU激活后輸出。
現實中數據分布大多數都是非線性的,因此引入非線性激活函數可以強化網絡的學習能力,提供更好的建模能力,使卷積神經網絡更接近真實情況。卷積神經網絡圖像語義分割中經常使用的激活函數為ReLU(Rectified linear unit)和PReLU(Parametric ReLU)[25],表達式為

(1)

(2)
式中a——隨機參數x——特征輸入
在ReLU激活函數中,有效導數是常數1,解決了深層網絡中出現的梯度消失問題,也就使得深層網絡可訓練。但是ReLU強制將x≤0部分的輸出置為0可能會導致模型無法學習到有效特征,所以如果學習率設置的太大,就可能導致網絡的大部分神經元處于失效狀態,所以使用ReLU網絡,學習率不能設置太大。PReLU在x≤0部分的線性激活單元引入了一個隨機參數a,該參數可通過學習進行更新。
ReLU和PReLU在卷積神經網絡中應用較為廣泛,但是在圖像處理上對空間特征信息不敏感。針對該問題,文獻[22]提出一種新的非線性計算機視覺任務激活函數FReLU(Funnel ReLU)解決對空間信息不敏感的問題。FReLU的計算式為
FReLU(x)=max(x,T(x))
(3)
式中T(x)——二維空間條件
FReLU激活函數中使用一個依賴于空間上下文的二維漏斗狀條件T(x),該視覺條件有助于提取物體的精細空間布局。FReLU原理圖如圖7所示。二維空間條件創建了像素級別的空間依賴,實現了網絡的像素化建模能力,它能增強網絡對不規則和詳細物體布局的解析,極大地提升了圖像語義分割精度。

圖7 FReLU原理圖Fig.7 Schematic of FReLU
實驗硬件平臺為i9-11980HK CPU、NVIDIA GeForce RTX3080 GPU16GB,內存32GB,Windows 10操作系統。網絡模型使用Python語言和PyTorch框架進行搭建,實驗中優化器為Adam,學習策略為Poly,批量大小為2,迭代次數為100,初始學習率為2×10-4,權重衰減為1×10-4,動量為0.99,損失函數采用二分類交叉熵損失函數,為防止網絡陷入局部最優解,并按多項式衰減,衰減率設置為0.9。在數據集中將訓練集與驗證集比例設置為9∶1,測試數據集從寒旱區單獨采集了100幅尺寸為1 024像素×1 024像素,且含有高山陰影、道路、冰雪等干擾因素的河流圖像作為測試集。
采用召回率(Recall)、交并比(IoU)、F1值、準確率(Accuracy)作為評價指標。
通過對比實驗和消融實驗,驗證AFR-LinkNet網絡模型對遙感圖像河流精準分割的有效性,實驗參數初始化全部使用HE等[26]初始化方法,權值初始化服從正態分布,超參數設置服從3.1節中各項設置。實驗結果表明,AFR-LinkNet網絡的交并比、召回率、F1值和準確率分別為70.9%、88.2%、89.9%和91.8%,均高于FCN、UNet、ResNet50、LinkNet和DeepLabv3+網絡;河流圖像識別結果在細節和精度上均優于其他網絡,對各種干擾因素具有較強的區分能力。
3.3.1對比實驗結果分析
實驗選取5個經典網絡模型FCN、UNet、ResNet50、LinkNet、DeepLabv3+ 作為對比,圖8為不同網絡的準確率變化曲線,表1為相應網絡的評價指標結果。

圖8 不同網絡的準確率對比曲線Fig.8 Accuracy comparison curves of different networks

表1 不同網絡評價指標結果Tab.1 Results of different network evaluation indicators %
由表1可知,AFR-LinkNet網絡相較于FCN、UNet、ResNet50、LinkNet、DeepLabv3+ 網絡,交并比分別提高了26.4、22.7、17.6、12.0、9.7個百分點,像素準確率分別提高了25.9、22.5、13.2、10.5、7.3個百分點。從圖8中看出, AFR-LinkNet網絡在20個迭代周期時像素準確率基本趨于穩定,可達91.8%,其準確率高于其他網絡,具有更好的收斂性與準確性。
圖9為含有冰雪、干澀河床、道路、高山陰影等情形下網絡的4幅遙感河流圖像的語義分割效果圖。圖中紅色矩形為主要的分割差異,可以看出FCN、UNet以及ResNet50網絡在河流較細處出現了中斷,邊緣識別效果較差,并且將一些冰雪、高山陰影、小道等誤識別為河流,抗干擾性以及細節識別效果不理想。LinkNet和DeepLabv3+ 網絡識別效果有一定提升,細小河流處出現中斷的較少,但仍然有許多誤識別且識別精度比較差。AFR-LinkNet網絡受殘差通道注意力結構(RCAB)影響,重點關注了目標分割任務區域(河流),在河流連貫性和邊緣識別精細度上有了較大提高,并且因為非對稱卷積結構(ACNet)豐富了特征空間信息,使得網絡對圖像具有較強的辨析能力,因此受冰雪和干澀河床等的影響較小,對高山陰影遮擋以及道路等干擾因素有較強的區分性,結合視覺激活函數FReLU對河流圖像的像素級空間解析能力,使得網絡分割精度整體提升,分割效果較其他網絡有明顯的區別。但是在特別細小和離目標區域較遠的河流(圖中綠色矩形區)仍有部分識別不了,主要原因可能是網絡重點關注了目標區域且衛星圖像分辨率有限。

圖9 4幅圖像不同網絡識別結果對比Fig.9 Comparison of identification results of different networks
3.3.2消融實驗結果分析
為了驗證ACNet和RCAB對提高遙感河流圖像識別效果的有效性,實驗中將未引入ACNet和RCAB的AFR-LinkNet網絡與AFR-LinkNet + ACNet、AFR-LinkNet + RCAB、AFR-LinkNet+ACNet+RCAB網絡進行對比,其像素準確率變化曲線以及網絡相應的評價指標結果如圖10和表2所示。

圖10 網絡測試準確率變化曲線Fig.10 Accuracy change curves of network test

表2 網絡測試評價指標結果Tab.2 Network test evaluation index results %
根據表2可知,在AFR-LinkNet網絡上分別只引入ACNet和RCAB后網絡收斂速度和像素準確率均有提高,單獨引入RCAB時的各項評價指標優于單獨引入ACNet結構,當同時引入ACNet和RCAB時各項評價指標均達到最優。只引入ACNet模塊后,交并比提高了5.1個百分點,像素準確率提高了2.9個百分點;單獨引入RCAB模塊后,交并比提高了5.5個百分點,像素準確率提高了3.8個百分點;同時引入ACNet和RCAB,交并比提高了7.7個百分點,像素準確率提高了6.1個百分點。
圖11為網絡河流識別效果,紅色方框標注的為主要差異部分,可以看出, AFR-LinkNet網絡識別效果最差,錯誤地將冰雪、道路以及一些山體和陰影遮擋識別為河流,一部分細小河流識別不到,一部分識別出現斷流,河流邊緣識別精度較差;只引入ACNet結構后的網絡從不同方向上對特征信息進行了增強,能夠提取到豐富的特征空間信息,使得網絡對圖像具有良好的辨別性能,因此識別到了細小的河流,沒有將山體陰影和道路錯誤識別為河流,識別到的河流較為完整和連貫,但在邊緣細節上仍有部分誤識別;只添加RCAB結構后的網絡能夠對河流目標分割任務的特征圖進行重新標定,強化有效特征,重點關注河流分割目標,從相應的識別效果圖中可以看出對河流的邊緣細節識別精度較高,對冰雪和遮擋有較強的抗干擾性,細小河流得到了精確識別,但仍有部分斷流;可以看到同時結合ACNet和RCAB的AFR-LinkNet網絡識別效果最佳,識別到的河流最完整,細小河流得到了完整的提取,且邊緣部分的細節精度也較高,沒有將各種干擾因素錯誤地識別為河流,達到了精細化、精準化識別遙感河流圖像的目的,證明了本文網絡的有效性。但是對特別細小的河流和其邊緣(語義標簽圖中的綠色方框部分)的分割精度還有一定的提升空間。

圖11 不同網絡的河流識別效果對比Fig.11 Comparison of identification effects of different networks
根據寒旱區地理特點,制作了相應的高分辨率遙感河流圖像數據集。為了解決寒旱區遙感河流圖像精細化識別精度低的問題,提出了一種基于改進LinkNet網絡的遙感河流圖像識別算法(AFR-LinkNet),網絡的分割結果與原始圖像的分辨率能夠保持一致。首先將ResNet50遷移到LinkNet中,并使用FReLU替換ReLU激活函數,增加密集跳躍連接結構,在增加網絡深度的同時保留更多的空間信息,保證了河流圖像識別的連貫性;其次,引入ACNet和RCAB模塊,使得網絡專注于分割目標,進一步加強了低級圖像空間語義信息與高級圖像語義信息的結合,提升了網絡收斂速度和河流邊緣識別的準確度,增加了抗干擾性。實驗結果表明,AFR-LinkNet網絡的交并比、召回率、F1值和像素準確率分別為70.9%、88.2%、89.9%和91.8%,優于FCN、UNet、ResNet50、LinkNet和DeepLabv3+網絡,證明了其有效性。