沈 瑜 王海龍 梁 棟 牛東興 嚴(yán) 源 李陽陽
(1.蘭州交通大學(xué)電子與信息工程學(xué)院, 蘭州 730070; 2.中國中鐵科學(xué)研究院有限公司, 成都 610032)
河流作為生態(tài)系統(tǒng)的重要組成部分,對自然環(huán)境以及人們的生產(chǎn)生活有著至關(guān)重要的作用,尤其對我國寒旱區(qū)的河流進(jìn)行識別,在農(nóng)業(yè)灌溉、水利水電調(diào)控、生態(tài)監(jiān)測和環(huán)境改善等方面有著重大意義[1-3]。
近年來,使用深度學(xué)習(xí)方法從高分辨率遙感圖像中對河流進(jìn)行識別成為主要方法之一[4-5]。文獻(xiàn)[6]構(gòu)建并訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)和DeepLabv3兩種水體識別模型,其識別精度分別達(dá)到95.09%和92.14%,均高于支持向量機(jī)、面向?qū)ο笠约八w指數(shù)等方法。文獻(xiàn)[7]通過在DenseNet網(wǎng)絡(luò)中增加上采樣和全卷積網(wǎng)絡(luò)內(nèi)的跳層連接,緩解梯度消失和網(wǎng)絡(luò)退化問題,其識別精度優(yōu)于其他深度神經(jīng)網(wǎng)絡(luò),精度高達(dá)96%以上。文獻(xiàn)[8]通過改進(jìn)U-Net網(wǎng)絡(luò),并引入條件隨機(jī)場進(jìn)行后處理,精細(xì)化了分割結(jié)果,實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)對小目標(biāo)水體能夠準(zhǔn)確識別。文獻(xiàn)[9]用自適應(yīng)簡單線性聚類算法(ASLIC)將遙感圖像分割成高質(zhì)量的超像素,再利用新的池化卷積神經(jīng)網(wǎng)絡(luò)提取水體高級特征并進(jìn)行二分類標(biāo)記,該方法實(shí)驗(yàn)平均總準(zhǔn)確率為99.14%,高于傳統(tǒng)方法。文獻(xiàn)[10]采用集成預(yù)測,同時(shí)優(yōu)化有標(biāo)簽樣本上的標(biāo)準(zhǔn)監(jiān)督分類損失及無標(biāo)簽數(shù)據(jù)上的非監(jiān)督一致性損失,來訓(xùn)練端到端的語義分割網(wǎng)絡(luò)。文獻(xiàn)[11]利用半監(jiān)督學(xué)習(xí)中的生成對抗性網(wǎng)絡(luò),用softmax替代最后的輸出層,結(jié)合自動化分類診斷進(jìn)行實(shí)驗(yàn)。
以上研究均依靠大量標(biāo)簽數(shù)據(jù),由于有標(biāo)簽數(shù)據(jù)的制作難度和成本較高,利用無標(biāo)簽數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練的自監(jiān)督學(xué)習(xí)(Self-supervised learning, SSL)方法逐漸引起重視[12-13]。自監(jiān)督學(xué)習(xí)屬于無監(jiān)督學(xué)習(xí),無需大量標(biāo)簽數(shù)據(jù),只需通過構(gòu)建前置任務(wù)(Pretext task)從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)自身的監(jiān)督信息,然后將訓(xùn)練好的模型遷移到下游任務(wù)中,使用少許標(biāo)簽數(shù)據(jù)微調(diào)后訓(xùn)練,最后進(jìn)行目標(biāo)任務(wù)預(yù)測[14-16]。自監(jiān)督學(xué)習(xí)的主流方法包括生成式、對比式、生成式對比自監(jiān)督學(xué)習(xí)(對抗學(xué)習(xí))方法,其中對比式自監(jiān)督學(xué)習(xí)方法應(yīng)用最廣泛[17]。文獻(xiàn)[18]提出了一個(gè)全局風(fēng)格和局部匹配的對比學(xué)習(xí)網(wǎng)絡(luò),在Postdam數(shù)據(jù)集上Kappa系數(shù)提高6%。文獻(xiàn)[19]設(shè)計(jì)了3個(gè)不同的前置任務(wù)和3個(gè)一組的孿生網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,只需10%~50%的標(biāo)記數(shù)據(jù)即可達(dá)到有監(jiān)督網(wǎng)絡(luò)相同的性能。文獻(xiàn)[20]提出一種自監(jiān)督學(xué)習(xí)算法(Inpainting based self-supervised learning,IBS)解決了電力線分割任務(wù)缺乏大規(guī)模數(shù)據(jù)的問題,實(shí)驗(yàn)表明其精度和速度都超越了已有的方法。文獻(xiàn)[21]提出一種視覺表示的自監(jiān)督對比學(xué)習(xí)框架(Simple framework for contrastive learning of visual representations,SimCLR),該結(jié)構(gòu)不需要專門的架構(gòu),也不需要特殊的存儲庫,因此具有通用性且網(wǎng)絡(luò)性能更優(yōu)。自監(jiān)督學(xué)習(xí)方法訓(xùn)練的網(wǎng)絡(luò)模型可以學(xué)習(xí)遙感圖像潛在的特征,獲得更好的擬合起點(diǎn),并取得優(yōu)秀的分割結(jié)果,將自監(jiān)督學(xué)習(xí)獲得的學(xué)習(xí)參數(shù)用作預(yù)訓(xùn)練模型,利用遷移學(xué)習(xí)對后續(xù)遙感圖像任務(wù)進(jìn)行微調(diào),可證明網(wǎng)絡(luò)的泛化能力[22-23]。以上基于自監(jiān)督學(xué)習(xí)范式的研究雖然已經(jīng)取得大量成果,但其大多數(shù)針對分類問題進(jìn)行研究,并且網(wǎng)絡(luò)收斂速度較慢,編碼器常采用ResNet50網(wǎng)絡(luò),識別精度有限,在具有較多干擾的寒旱區(qū)遙感圖像河流提取方面鮮有報(bào)道。
本文針對大量有標(biāo)簽的寒旱區(qū)遙感圖像河流數(shù)據(jù)很難獲得,以及河流邊緣細(xì)節(jié)難以識別的問題,采用自監(jiān)督對比學(xué)習(xí)方式并對其進(jìn)行改進(jìn),充分利用無標(biāo)簽數(shù)據(jù)對遙感圖像河流提取網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,同時(shí)在下游任務(wù)訓(xùn)練好的編解碼網(wǎng)絡(luò)中使用一種新的非均勻采樣方式,提取河流邊緣細(xì)節(jié),通過實(shí)驗(yàn)證明其有效性和泛化性能。
網(wǎng)絡(luò)總體框架如圖1所示,分為基于自監(jiān)督對比學(xué)習(xí)的預(yù)訓(xùn)練階段和下游目標(biāo)任務(wù)提取階段兩部分,以AFR-LinkNet[5]網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)構(gòu)建模型。首先將大量無標(biāo)簽遙感圖像河流數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),獲得大量正負(fù)樣本對,然后輸入基于改進(jìn)的SimCLR框架的自監(jiān)督網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,其編碼器使用下游目標(biāo)任務(wù)中AFR-LinkNet網(wǎng)絡(luò)的編碼器進(jìn)行替換,并在映射頭的Dense層和ReLU激活函數(shù)之間添加BN(Batch normalization)層。編碼器與映射頭結(jié)合的兩次非線性映射能夠大幅度提升對比學(xué)習(xí)性能,編碼器后的圖像特征會有更多包含圖像增強(qiáng)信息在內(nèi)的細(xì)節(jié)特征,即編碼更多與任務(wù)無關(guān)的通用細(xì)節(jié)信息,在高層網(wǎng)絡(luò)映射頭中編碼更多與對比學(xué)習(xí)任務(wù)相關(guān)的信息。網(wǎng)絡(luò)將正樣本對拉近,將負(fù)樣本對拉遠(yuǎn),不斷進(jìn)行對比,直到正樣本對比損失最小,否則不斷梯度回傳更新編碼器參數(shù)。最后將訓(xùn)練好的編碼器模型參數(shù)作為預(yù)訓(xùn)練的編碼器,利用遷移學(xué)習(xí)方式遷移到下游目標(biāo)任務(wù)的語義分割網(wǎng)絡(luò)的編碼器中。其次,將少量帶有標(biāo)簽的遙感圖像河流數(shù)據(jù)輸入AFR-LinkNet語義分割網(wǎng)絡(luò),微調(diào)后進(jìn)行訓(xùn)練。將編碼器輸出的粗粒度語義圖和解碼器輸出的細(xì)粒度語義圖,通過對高頻區(qū)域多采樣、低頻區(qū)域少采樣的非均勻采樣策略后進(jìn)行特征融合,最后將融合后輸出的高精度河流分割語義圖與語義標(biāo)簽圖進(jìn)行損失函數(shù)校驗(yàn),如果損失最小,則輸出分割結(jié)果,否則進(jìn)行模型參數(shù)更新。

圖1 網(wǎng)絡(luò)框架Fig.1 Network framework
機(jī)器學(xué)習(xí)一般分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),而自監(jiān)督學(xué)習(xí)是一種新的無監(jiān)督機(jī)器學(xué)習(xí)方法,能夠挖掘出數(shù)據(jù)自身的監(jiān)督信息關(guān)系作為標(biāo)注樣本進(jìn)行訓(xùn)練,通過這種方式可以獲得更多的語義特征,解決了有監(jiān)督學(xué)習(xí)中需要大量標(biāo)注數(shù)據(jù)的問題,其核心是在無標(biāo)簽的預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行自監(jiān)督任務(wù)的訓(xùn)練,通過最小化損失函數(shù)更新模型參數(shù),得到一個(gè)可以對數(shù)據(jù)產(chǎn)生良好特征表征的編碼器模型[24]。
自監(jiān)督學(xué)習(xí)原理如圖2所示,為了更好地遷移模型參數(shù),自監(jiān)督代理任務(wù)和下游目標(biāo)任務(wù)使用相同的編碼器模型。在自監(jiān)督代理任務(wù)階段,首先將大量無標(biāo)簽數(shù)據(jù)輸入編碼器,得到含有自身監(jiān)督信息的圖像特征,再通過自監(jiān)督訓(xùn)練任務(wù)模型(如生成型、對比型等)得到預(yù)測圖像,然后進(jìn)行損失對比,直到損失最小時(shí)停止梯度回傳,將預(yù)訓(xùn)練好的編碼器模型參數(shù)遷移到下游目標(biāo)任務(wù)。在下游目標(biāo)任務(wù)階段,將少量有標(biāo)簽數(shù)據(jù)輸入到經(jīng)過預(yù)訓(xùn)練的編碼器模型中,然后微調(diào)參數(shù)后開始訓(xùn)練,將提取到的圖像特征通過下游目標(biāo)任務(wù)模型(如圖像分類、語義分割等)獲得預(yù)測圖像,最后進(jìn)行損失函數(shù)校驗(yàn),符合損失函數(shù)最小條件后輸出最終的預(yù)測圖像。

圖2 自監(jiān)督學(xué)習(xí)原理圖Fig.2 Schematic of self-supervised learning
自監(jiān)督對比學(xué)習(xí)是目前主流研究方法之一,并且取得了較好的效果,其核心思想是通過一個(gè)輔助任務(wù),構(gòu)建正負(fù)樣本對,使網(wǎng)絡(luò)通過比較正負(fù)樣本的距離差學(xué)習(xí)到將相似樣本(正樣本對)拉近,不相似樣本(負(fù)樣本對)拉遠(yuǎn)的能力,從而可以獲得特征可區(qū)分性表達(dá)的目標(biāo),即
score(f(x),f(x+))?score(f(x),f(x-))
(1)
式中 score(·)——樣本相似度比較函數(shù)
f(x)——原始圖像預(yù)測圖
f(x+)——正樣本預(yù)測圖
f(x-)——負(fù)樣本預(yù)測圖
其實(shí)現(xiàn)步驟如圖3所示。

圖3 自監(jiān)督對比學(xué)習(xí)原理圖Fig.3 Schematic of self-supervised comparative learning
其中,合理構(gòu)建正樣本對,并包含足夠多且足夠難的負(fù)樣本對能夠有效提升對比自監(jiān)督學(xué)習(xí)的學(xué)習(xí)性能。文獻(xiàn)[25]提出使用動量對比學(xué)習(xí)的方法對負(fù)樣本編碼器進(jìn)行更新,并且保持該負(fù)樣本隊(duì)列足夠大,巧妙地解耦模型批次大小和一個(gè)學(xué)習(xí)批次可容納的負(fù)樣本數(shù)量。
目前,常見的主流自監(jiān)督對比學(xué)習(xí)框架包括MoCo、SimCLR、SwAV、SimSiam等。其中,SimCLR模型兼具框架簡單與網(wǎng)絡(luò)性能高的特點(diǎn),但其收斂速度較慢、預(yù)訓(xùn)練編碼器提取精度有限。因此,本文將對SimCLR框架進(jìn)行改進(jìn),并作為自監(jiān)督預(yù)訓(xùn)練階段的網(wǎng)絡(luò)模型。
SimCLR模型主要包含3部分:數(shù)據(jù)隨機(jī)增強(qiáng)、深度神經(jīng)網(wǎng)絡(luò)和損失對比函數(shù),如圖4所示,其核心原理是利用同一樣本數(shù)據(jù)增強(qiáng)后具有相似特征、不同樣本之間數(shù)據(jù)增強(qiáng)后具有差異特征構(gòu)造損失函數(shù)進(jìn)行特征學(xué)習(xí)。

圖4 SimCLR原理圖Fig.4 SimCLR principle framework
(1)數(shù)據(jù)隨機(jī)增強(qiáng)
自監(jiān)督學(xué)習(xí)利用樣本自身的信息進(jìn)行學(xué)習(xí),不需要樣本標(biāo)簽。自監(jiān)督對比學(xué)習(xí)只需通過原始數(shù)據(jù)構(gòu)造出正負(fù)樣本對即可進(jìn)行學(xué)習(xí)。如圖4所示,從訓(xùn)練集中隨機(jī)選取M幅河流圖像為一個(gè)批次進(jìn)行樣本增強(qiáng),將每幅河流圖像經(jīng)過兩次隨機(jī)裁剪獲得兩個(gè)增強(qiáng)數(shù)據(jù),使得其中任意一幅圖像保持不變,另一幅圖像進(jìn)行隨機(jī)色度變換、旋轉(zhuǎn)、高斯模糊、隨機(jī)顏色失真等。同一圖像經(jīng)數(shù)據(jù)增強(qiáng)后的兩個(gè)樣本為一個(gè)正樣本對,剩余的2(M-1)個(gè)增強(qiáng)的樣本數(shù)據(jù)全部為該圖像的負(fù)樣本。因?yàn)檎龢颖緛碓从谕粓D像,具有內(nèi)在信息聯(lián)系,負(fù)樣本來源于不同圖像,具有內(nèi)在信息差異,因此可以進(jìn)行圖像信息學(xué)習(xí)。
(2)深度神經(jīng)網(wǎng)絡(luò)

(3)損失對比函數(shù)
數(shù)據(jù)增強(qiáng)后的樣本通過特征提取和特征映射模塊,最后需要使用歸一化加權(quán)交叉熵?fù)p失函數(shù)(Normalized temperature-scaled cross entropy loss,NT-Xent)將正樣本對之間的相似度最大化,負(fù)樣本對之間的相似度最小化,最終達(dá)到能夠?qū)W習(xí)遙感河流圖像中的通用特征表示。NT-Xent損失函數(shù)定義為
(2)
式中M——批次大小
其中l(wèi)(j,k)為正樣本對的損失對比函數(shù),定義為
(3)
其中
(4)
(5)
式中z——特征映射網(wǎng)絡(luò)輸出
τ——權(quán)重,取0.1
m——數(shù)據(jù)增強(qiáng)后正樣本
j——用于數(shù)據(jù)增強(qiáng)樣本
f(m,j)——指示函數(shù)
sim(·)——數(shù)據(jù)相似度函數(shù)
圖像采樣可分為均勻采樣和非均勻采樣,河流與非河流邊界處具有不規(guī)則性,且陰影等干擾因素較多,均勻采樣針對河流不規(guī)則邊界處區(qū)分度低、識別精度較差。因此,要對河流邊緣高精細(xì)度提取,只能通過對高頻區(qū)域密集采樣、對低頻區(qū)域稀疏采樣的非均勻采樣方式獲得圖像中不同類別之間清晰的邊界信息和同類別區(qū)域中的細(xì)節(jié)信息,同時(shí)減少模型的冗余度。
目前多數(shù)研究都是針對輸入圖像的非均勻采樣,本文針對編解碼器輸出的粗粒度圖像和細(xì)粒度圖像分別進(jìn)行非均勻采樣,粗粒度圖像中包含不同類別之間詳細(xì)的類別信息,能夠明確局部邊界特征,細(xì)粒度圖像中蘊(yùn)含同類別的細(xì)節(jié)信息,具有更多的語義信息和上下文信息,能夠提供全局特征信息,其原理如圖5所示。首先,原始遙感河流圖像經(jīng)過編解碼網(wǎng)絡(luò)分別輸出粗粒度圖像和細(xì)粒度圖像,再使用輕量級分割頭對檢測到的河流對象進(jìn)行粗濾預(yù)測(紅色框內(nèi)),利用點(diǎn)選擇策略選擇一組點(diǎn)(紅點(diǎn)),使用小的多層感知器(Multilayer perceptron, MLP)對每個(gè)點(diǎn)獨(dú)立預(yù)測,進(jìn)行細(xì)化。使用雙線性插值作用于粗粒度圖像上的這些點(diǎn),獲得圖像低級信息,同時(shí)使用2倍雙線性插值作用于細(xì)粒度圖像上的這些點(diǎn),獲得圖像高級信息,將高級信息和低級信息特征融合后得到最終的特征向量。最后MLP使用在這些點(diǎn)上計(jì)算的插值特征(藍(lán)色虛線)對特征向量進(jìn)行掩膜預(yù)測,獲得每個(gè)點(diǎn)的預(yù)測結(jié)果。不斷使用該過程迭代地細(xì)化預(yù)測掩膜的不確定區(qū)域,實(shí)現(xiàn)非均勻采樣,直到獲得預(yù)期分辨率的河流語義圖。

圖5 非均勻采樣原理圖Fig.5 Non-uniform sampling
2.2.1雙線性插值
原始遙感河流圖像經(jīng)過特征提取器后,其圖像尺寸和圖像中特定點(diǎn)的像素與原始圖像相比較已經(jīng)發(fā)生較大變化,為將其恢復(fù)到原始圖像尺寸,可通過雙線性插值對其進(jìn)行上采樣操作。雙線性插值是在兩個(gè)方向分別進(jìn)行一次線性插值操作,原理是待插點(diǎn)像素取原圖像中與其相鄰的4個(gè)點(diǎn)像素的水平、垂直兩個(gè)方向上的線性內(nèi)插,即根據(jù)待采樣點(diǎn)與周圍4個(gè)鄰點(diǎn)的距離確定相應(yīng)的權(quán)重,從而計(jì)算出待采樣點(diǎn)的像素。其原理和步驟如圖6、7所示,圖中灰色板表示像素點(diǎn)的坐標(biāo),藍(lán)色、紅色和綠色點(diǎn)分別表示初始像素點(diǎn)、中間像素點(diǎn)和輸出像素點(diǎn)。

圖6 雙線性插值Fig.6 Bilinear interpolation

圖7 基于插值的上采樣方法Fig.7 Interpolation based upsampling methods
為得到未知函數(shù)f在點(diǎn)P=(x,y)的值,假設(shè)已知函數(shù)f在Q11=(x1,y1) 、Q12=(x1,y2),Q21=(x2,y1)以及Q22=(x2,y2)4個(gè)點(diǎn)的值。f就是一個(gè)像素點(diǎn)的像素值,首先在x方向進(jìn)行線性插值,得到
(6)
(7)
然后在y方向進(jìn)行線性插值,得到
(8)
綜合得到雙線性插值結(jié)果為
(9)
2.2.2點(diǎn)選擇策略
針對遙感圖像中不規(guī)則的河流邊界,如果對全局點(diǎn)采樣將增大計(jì)算量,非均勻采樣方式基于點(diǎn)選擇策略,只對預(yù)測困難點(diǎn)進(jìn)行采樣,可以大幅度降低計(jì)算量,增加采樣靈活性,有效恢復(fù)圖像中河流的邊緣細(xì)節(jié)。
點(diǎn)選擇策略核心思想是能夠在河流圖像平面上的高頻區(qū)域附近(如河流邊界等)靈活、自適應(yīng)、密集地選擇用于預(yù)測分割標(biāo)簽的點(diǎn)。選擇過程中只計(jì)算值與鄰近值顯著不同的可能性較大的位置,實(shí)現(xiàn)高分辨率圖像的有效分割,對于所有其他位置的預(yù)測值是通過插值已經(jīng)計(jì)算的輸出值(粗預(yù)測圖)來獲得。針對各個(gè)區(qū)域,均使用由粗到細(xì)的方式不斷地迭代輸出預(yù)測圖,對規(guī)則網(wǎng)格上的點(diǎn)只需要進(jìn)行最粗級別預(yù)測即可。在每次迭代預(yù)測中,利用雙線性插值對其之前預(yù)測的河流語義分割圖實(shí)行上采樣,然后在較為密集的網(wǎng)格上選取概率為0.5的N個(gè)點(diǎn),最后計(jì)算這N個(gè)點(diǎn)的特征表征,同時(shí)預(yù)測出它們的標(biāo)簽,并不斷重復(fù)該步驟,直到獲得期望的分辨率。如圖8所示,使用雙線性插值將分辨率4×4上的預(yù)測進(jìn)行2倍上采樣,獲得分辨率8×8,然后對這N個(gè)點(diǎn)(藍(lán)色點(diǎn))進(jìn)行預(yù)測,以便于在更高分辨率的圖像上恢復(fù)河流邊緣的細(xì)節(jié)信息。

圖8 分辨率4×4細(xì)化到分辨率8×8示意圖Fig.8 Resolution 4×4 refined to resolution 8×8 schematic

為了平衡網(wǎng)絡(luò)數(shù)據(jù)計(jì)算量和均勻覆蓋問題,本文k取4,α取0.75(適度偏置能夠使得訓(xùn)練更有效),在進(jìn)行訓(xùn)練時(shí),只計(jì)算N個(gè)采樣點(diǎn)上的預(yù)測值和損失函數(shù)值,使計(jì)算效率更高。
實(shí)驗(yàn)數(shù)據(jù)集從高分二號衛(wèi)星圖像中截取600幅尺寸為1 024像素×1 024像素的寒旱區(qū)遙感河流圖像,將其中300幅圖像進(jìn)行二值化人工標(biāo)注,河流標(biāo)注為1,其他的均標(biāo)注為0。通過數(shù)據(jù)擴(kuò)增將這300幅原始圖像和對應(yīng)的語義圖像按照相同的數(shù)據(jù)擴(kuò)增方式均拓展為1 500幅,最后將剩余未標(biāo)注的300幅圖像通過數(shù)據(jù)擴(kuò)增拓展為1 500幅無標(biāo)簽數(shù)據(jù),并單獨(dú)截取100幅相同規(guī)格的河流圖像進(jìn)行語義標(biāo)注,作為網(wǎng)絡(luò)的測試集。
因此,遙感圖像河流數(shù)據(jù)集共3 100幅河流圖像,其中訓(xùn)練集、驗(yàn)證集、測試集比例為24∶6∶1。訓(xùn)練集中1 200幅無標(biāo)簽數(shù)據(jù)用于訓(xùn)練自監(jiān)督對比學(xué)習(xí)網(wǎng)絡(luò),1 200幅有標(biāo)簽數(shù)據(jù)用于訓(xùn)練有監(jiān)督網(wǎng)絡(luò)和對自監(jiān)督對比學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行微調(diào),圖9為數(shù)據(jù)擴(kuò)增示意圖。

圖9 數(shù)據(jù)擴(kuò)增示意圖Fig.9 Schematic of data amplification
使用最大最小標(biāo)準(zhǔn)化對原始圖像進(jìn)行歸一化預(yù)處理,可以將所有數(shù)據(jù)映射到[0,1]區(qū)間內(nèi),減少模型計(jì)算量以及加快模型的收斂速度。
實(shí)驗(yàn)平臺為Windows 10操作系統(tǒng)、CPU i9-11980HK、GPU RTX3080 (16 GB顯存)、內(nèi)存 32 GB,使用PyTorch框架搭建網(wǎng)絡(luò)模型,編程語言為Python。自監(jiān)督學(xué)習(xí)時(shí)的批次大小M設(shè)置為10,同批次生成增強(qiáng)樣本時(shí)按概率0.25進(jìn)行隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)和顏色失真,由此構(gòu)成正負(fù)樣本對。自監(jiān)督學(xué)習(xí)的初始學(xué)習(xí)率設(shè)置為2.5×10-4,迭代輪次為400,優(yōu)化器均選擇Adam優(yōu)化器,在少量帶標(biāo)簽數(shù)據(jù)上微調(diào)模型時(shí)使用相同的學(xué)習(xí)率和優(yōu)化器,迭代訓(xùn)練至網(wǎng)絡(luò)收斂,網(wǎng)絡(luò)全部使用文獻(xiàn)[26]的初始化權(quán)重。
采用像素準(zhǔn)確率(Accuracy, ACC)、召回率(Recall)和交并比(Intersection over union, IoU)作為評價(jià)指標(biāo)。
通過對比和消融實(shí)驗(yàn),證明本文提出的基于自監(jiān)督對比學(xué)習(xí)的遙感圖像河流識別網(wǎng)絡(luò)在只有少量標(biāo)簽數(shù)據(jù)情況下,只需對用無標(biāo)簽數(shù)據(jù)訓(xùn)練好的自監(jiān)督網(wǎng)絡(luò)進(jìn)行微調(diào),各項(xiàng)評價(jià)指標(biāo)便超過了使用大量標(biāo)簽數(shù)據(jù)訓(xùn)練的有監(jiān)督網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,網(wǎng)絡(luò)模型的像素準(zhǔn)確率、交并比和召回率分別達(dá)到93.7%、73.2%和88.5%,超過有監(jiān)督網(wǎng)絡(luò)AFR-LinkNet、DeepLabv3+、LinkNet、ResNet50和UNet,河流圖像提取結(jié)果在邊緣細(xì)節(jié)上有了較高提升,優(yōu)于其他有監(jiān)督網(wǎng)絡(luò);使用360幅有標(biāo)簽數(shù)據(jù)微調(diào)網(wǎng)絡(luò)時(shí),其像素準(zhǔn)確率達(dá)到90.4%,與有監(jiān)督AFR-LinkNet網(wǎng)絡(luò)提取精度相當(dāng)。
4.3.1對比實(shí)驗(yàn)
將使用1 200幅有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)的SimCLR+AFR-LinkNet+非均勻采樣網(wǎng)絡(luò)(自監(jiān)督對比學(xué)習(xí)網(wǎng)絡(luò))與使用相同數(shù)量有標(biāo)簽數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練的網(wǎng)絡(luò)AFR-LinkNet、DeepLabv3+、LinkNet、ResNet50和UNet進(jìn)行對比,圖10為驗(yàn)證集上各網(wǎng)絡(luò)的像素準(zhǔn)確率變化曲線,圖11為網(wǎng)絡(luò)在訓(xùn)練集和驗(yàn)證集上的損失值變化曲線,表1為各網(wǎng)絡(luò)在測試集上的評價(jià)指標(biāo)結(jié)果。

表1 各網(wǎng)絡(luò)評價(jià)指標(biāo)Tab.1 Evaluation indicators of each network %

圖10 各網(wǎng)絡(luò)像素準(zhǔn)確率變化曲線Fig.10 Change curves of pixel accuracy of each network

圖11 訓(xùn)練集與驗(yàn)證集上網(wǎng)絡(luò)損失值變化曲線Fig.11 Change curves of network loss function on training set and test set
由圖10、11可以看出,自監(jiān)督網(wǎng)絡(luò)在50個(gè)迭代輪次時(shí)已經(jīng)趨于穩(wěn)定,像素準(zhǔn)確率高于其他有監(jiān)督網(wǎng)絡(luò),收斂速度較快,訓(xùn)練集和驗(yàn)證集上的損失都較小,在驗(yàn)證集上的損失稍大于訓(xùn)練集上的損失,在前50個(gè)迭代輪次時(shí)損失下降較快,驗(yàn)證了自監(jiān)督網(wǎng)絡(luò)的各種超參數(shù)設(shè)置較為合理且網(wǎng)絡(luò)對河流提取準(zhǔn)確率較高、收斂性較好。
由表1可知,自監(jiān)督網(wǎng)絡(luò)像素準(zhǔn)確率、交并比和召回率分別達(dá)到93.7%、73.2%和88.5%,各項(xiàng)評價(jià)指標(biāo)均高于有監(jiān)督網(wǎng)絡(luò)AFR-LinkNet、DeepLabv3+、LinkNet、ResNet50和UNet,像素準(zhǔn)確率分別提高3.1、7.6、12.3、14.9、19.8個(gè)百分點(diǎn),交并比分別提高3.5、8.7、10.5、16.9、24.0個(gè)百分點(diǎn),召回率分別提高2.1、4.8、6.7、9.4、12.9個(gè)百分點(diǎn)。
圖12為3幅不同網(wǎng)絡(luò)的遙感河流圖像的語義分割效果圖,圖中紅色標(biāo)記為不同網(wǎng)絡(luò)提取效果的主要區(qū)別點(diǎn)。從圖12可以看出,UNet網(wǎng)絡(luò)的識別效果最差,ResNet50、LinkNet和DeepLabv3+網(wǎng)絡(luò)錯(cuò)誤地將道路、冰雪以及山體陰影識別為河流,在細(xì)小河流處出現(xiàn)較多斷續(xù),AFR-LinkNet網(wǎng)絡(luò)與SimCLR+AFR-LinkNet+非均勻采樣網(wǎng)絡(luò)在細(xì)節(jié)提取上更精細(xì)、更準(zhǔn)確,但是因?yàn)樽员O(jiān)督對比學(xué)習(xí)模型以AFR-LinkNet網(wǎng)絡(luò)的編碼器為基礎(chǔ)進(jìn)行無標(biāo)簽數(shù)據(jù)訓(xùn)練,具有較強(qiáng)的抗干擾性,并且學(xué)習(xí)到了有監(jiān)督模型無法學(xué)習(xí)到的圖像內(nèi)在蘊(yùn)含的一些細(xì)節(jié)信息,因此在河流的邊緣細(xì)節(jié)提取效果上表現(xiàn)更好,在特別細(xì)小的河流處基本沒有出現(xiàn)斷流和誤識別的情況,河流識別結(jié)果更加完整,但是在特別復(fù)雜的干擾因素以及更少的標(biāo)簽數(shù)據(jù)情況下的提取精度還有一定提升空間。

圖12 3幅圖像不同網(wǎng)絡(luò)識別結(jié)果對比Fig.12 Comparisons of recognition results of three images with different networks
4.3.2消融實(shí)驗(yàn)
為驗(yàn)證各個(gè)模塊的有效性,從改變用于微調(diào)的標(biāo)簽數(shù)量、樣本數(shù)據(jù)增強(qiáng)以及自監(jiān)督對比學(xué)習(xí)與非均勻采樣3方面進(jìn)行消融實(shí)驗(yàn),驗(yàn)證其對網(wǎng)絡(luò)性能的影響。
(1)微調(diào)標(biāo)簽數(shù)量對網(wǎng)絡(luò)性能的影響
為了驗(yàn)證用于微調(diào)下游任務(wù)模型的標(biāo)簽數(shù)量對網(wǎng)絡(luò)性能的影響,將標(biāo)簽數(shù)據(jù)按1/10、3/10、5/10、7/10、1的比例對下游任務(wù)模型進(jìn)行微調(diào)訓(xùn)練,圖13為測試集上像素準(zhǔn)確率和交并比隨著標(biāo)簽數(shù)量比例的不同而變化的曲線,表2為微調(diào)標(biāo)簽數(shù)量對網(wǎng)絡(luò)模型性能影響的各項(xiàng)評價(jià)指標(biāo)。

表2 不同標(biāo)簽數(shù)量比例下網(wǎng)絡(luò)各項(xiàng)評價(jià)指標(biāo)Tab.2 Network evaluation index under different label quantity ratios %

圖13 網(wǎng)絡(luò)像素準(zhǔn)確率與交并比變化曲線Fig.13 Change curves of network pixel accuracy and intersection over union
由圖13可知,隨著微調(diào)標(biāo)簽數(shù)量的不斷增加,網(wǎng)絡(luò)的像素準(zhǔn)確率和交并比均呈不斷提高趨勢,當(dāng)標(biāo)簽比例由1/10增加為3/10時(shí),提升速度最快,后面隨著標(biāo)簽比例的增加,提升速度較慢,當(dāng)所有標(biāo)簽數(shù)據(jù)全部用于微調(diào)模型時(shí),像素準(zhǔn)確率和交并比都達(dá)到最大值,此時(shí)像素準(zhǔn)確率為93.7%,交并比為73.2%(表2);當(dāng)微調(diào)標(biāo)簽比例為3/10時(shí)(即使用360幅標(biāo)簽數(shù)據(jù)對模型進(jìn)行微調(diào)訓(xùn)練),網(wǎng)絡(luò)像素準(zhǔn)確率、交并比和召回率分別達(dá)到90.4%、68.6%和83.2%,已經(jīng)和使用1 200幅標(biāo)簽數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練的AFR-LinkNet網(wǎng)絡(luò)各項(xiàng)評價(jià)指標(biāo)(像素準(zhǔn)確率90.6%、交并比69.7%、召回率86.4%)相當(dāng);當(dāng)使用1 200幅全部標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)時(shí),其網(wǎng)絡(luò)性能的各項(xiàng)評價(jià)指標(biāo)相比有監(jiān)督訓(xùn)練有了較大的提高。這驗(yàn)證了本文提出的自監(jiān)督對比學(xué)習(xí)方式進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練,并結(jié)合非均勻采樣,可以在少量有標(biāo)簽數(shù)據(jù)情況下使網(wǎng)絡(luò)達(dá)到較高的河流提取效果,解決了遙感圖像河流標(biāo)簽數(shù)據(jù)難以大量獲取的問題。
(2)樣本數(shù)據(jù)增強(qiáng)對網(wǎng)絡(luò)性能的影響
通過數(shù)據(jù)增強(qiáng)可以增加訓(xùn)練樣本的多樣性,提高模型魯棒性,有效避免網(wǎng)絡(luò)過擬合。圖14為經(jīng)過數(shù)據(jù)增強(qiáng)和沒有進(jìn)行數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò)各項(xiàng)評價(jià)指標(biāo)的對比,從圖14可以看出,經(jīng)過數(shù)據(jù)增強(qiáng)后,網(wǎng)絡(luò)的像素準(zhǔn)確率、召回率和交并比相較于沒有經(jīng)過數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò),分別提高5.3、4.4、4.8個(gè)百分點(diǎn),這表明將樣本進(jìn)行數(shù)據(jù)增強(qiáng)能更好地提升網(wǎng)絡(luò)性能。

圖14 數(shù)據(jù)增強(qiáng)對網(wǎng)絡(luò)評價(jià)指標(biāo)的影響Fig.14 Influence of data enhancement on network evaluation index
(3)自監(jiān)督對比學(xué)習(xí)與非均勻采樣對網(wǎng)絡(luò)性能的影響
選用AFR-LinkNet網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò),使用1 200幅有標(biāo)簽數(shù)據(jù)訓(xùn)練有監(jiān)督網(wǎng)絡(luò)AFR-LinkNet,同時(shí)對通過自監(jiān)督對比學(xué)習(xí)方式訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào),并將非均勻采樣與兩種網(wǎng)絡(luò)分別結(jié)合,驗(yàn)證其對網(wǎng)絡(luò)性能的影響。圖15為驗(yàn)證集上各網(wǎng)絡(luò)像素準(zhǔn)確率變化曲線,表3為測試集上網(wǎng)絡(luò)對應(yīng)的各項(xiàng)評價(jià)指標(biāo)。

表3 網(wǎng)絡(luò)各項(xiàng)評價(jià)指標(biāo)Tab.3 Network evaluation indicators %

圖15 像素準(zhǔn)確率變化曲線Fig.15 Change curves of pixel accuracy of each network
由圖15和表3可知,沒有引入非均勻采樣時(shí),僅通過自監(jiān)督對比學(xué)習(xí)方式預(yù)訓(xùn)練編碼器,使得網(wǎng)絡(luò)學(xué)習(xí)到有監(jiān)督網(wǎng)絡(luò)無法學(xué)習(xí)到的圖像內(nèi)在信息,網(wǎng)絡(luò)收斂速度快于有監(jiān)督的AFR-LinkNet網(wǎng)絡(luò),像素準(zhǔn)確率達(dá)到92.1%,提高1.5個(gè)百分點(diǎn),交并比、召回率分別提高2.2、1.4個(gè)百分點(diǎn);當(dāng)引入非均勻采樣后,有監(jiān)督和自監(jiān)督網(wǎng)絡(luò)像素準(zhǔn)確率都進(jìn)一步提升,自監(jiān)督網(wǎng)絡(luò)的像素準(zhǔn)確率達(dá)到93.7%,相比有監(jiān)督網(wǎng)絡(luò)AFR-LinkNet提高2.2個(gè)百分點(diǎn),交并比和召回率分別提高2.4、1.2個(gè)百分點(diǎn),驗(yàn)證了非均勻采樣的有效性和較強(qiáng)的泛化性能。圖16為3幅相應(yīng)網(wǎng)絡(luò)的遙感圖像河流分割效果,通過自監(jiān)督對比方式訓(xùn)練并引入非均勻采樣的網(wǎng)絡(luò),其河流提取的連續(xù)性得到提升,細(xì)小河流更加連貫,邊緣細(xì)節(jié)提取也更加準(zhǔn)確,能夠有效優(yōu)化河流邊緣細(xì)節(jié),在邊緣容易誤判處提取效果也更加平滑,降低了對道路、冰雪、高山陰影的錯(cuò)誤識別。

圖16 3幅圖像不同網(wǎng)絡(luò)提取結(jié)果對比Fig.16 Comparisons of extraction results of three images with different networks
針對有監(jiān)督網(wǎng)絡(luò)訓(xùn)練需要大量遙感圖像河流標(biāo)簽數(shù)據(jù)以及河流提取邊緣細(xì)節(jié)分割效果不佳問題,提出一種通過自監(jiān)督對比學(xué)習(xí)方式利用大量無標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練編碼器,并將訓(xùn)練好的編碼器利用遷移學(xué)習(xí)方式遷移到下游河流提取任務(wù)中,并使用少量標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)編碼器,然后結(jié)合一種新的非均勻采樣方式對寒旱區(qū)遙感河流圖像進(jìn)行提取的網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,僅用360幅有標(biāo)簽數(shù)據(jù)就達(dá)到與使用1 200幅有標(biāo)簽數(shù)據(jù)訓(xùn)練的有監(jiān)督網(wǎng)絡(luò)相當(dāng)?shù)奶崛⌒Ч?當(dāng)全部標(biāo)簽用于微調(diào)網(wǎng)絡(luò)編碼器時(shí),其像素準(zhǔn)確率、交并比和召回率分別達(dá)到93.7%、73.2%和88.5%,均高于有監(jiān)督網(wǎng)絡(luò),解決了大量標(biāo)簽數(shù)據(jù)難以獲取的問題,并提高了河流提取精細(xì)度,證明了其有效性和泛化性。