邵光輝,楊 坤,郭南南
(山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)
中國(guó)是世界上最大的水產(chǎn)養(yǎng)殖國(guó)家,海岸線總長(zhǎng)度達(dá)18000公里,海域總面積約為300萬(wàn)公頃。我國(guó)的海水養(yǎng)殖約占世界海水養(yǎng)殖總產(chǎn)量的2/3[1],其中筏式養(yǎng)殖就是一種重要的集約化的海水養(yǎng)殖方式。它主要是在淺海海域,通過利用浮子架,由浮子和繩索組成,并用纜繩固定于海底,將海藻(如海帶、紫菜)和固著動(dòng)物(如貽貝)幼苗放在浮子架上,懸掛于浮筏的一種養(yǎng)殖方式。筏式養(yǎng)殖能夠帶來(lái)巨大的經(jīng)濟(jì)效益,導(dǎo)致容易產(chǎn)生了非法水產(chǎn)養(yǎng)殖[2],另外隨著養(yǎng)殖規(guī)模的擴(kuò)大和集約化程度的提高,海水養(yǎng)殖病害問題突出,養(yǎng)殖環(huán)境的治理和污染防控形勢(shì)堪憂。因此掌握養(yǎng)殖區(qū)的空間分布和面積等信息具有重要意義。
遙感技術(shù)具有覆蓋范圍廣,獲取信息速度塊,周期短,數(shù)據(jù)綜合性強(qiáng)等優(yōu)點(diǎn)[3],因此適合筏式海水養(yǎng)殖區(qū)的提取工作。現(xiàn)階段國(guó)內(nèi)外提出了許多基于遙感圖像的水產(chǎn)養(yǎng)殖提取的方法。通過專家經(jīng)驗(yàn)的目視解譯法[4],紋理特征信息直方圖閾值分割的海上養(yǎng)殖區(qū)自動(dòng)識(shí)別方法[5],將處理的對(duì)象從像元過渡到了圖斑的對(duì)象層次的面向?qū)ο蠓指钐崛》╗6],無(wú)人機(jī)影像解譯法和 SAR影像解譯法[7-8]等。這些方法對(duì)于海水養(yǎng)殖區(qū)具有較高的識(shí)別精度,但只能應(yīng)用在某些特定的小范圍內(nèi),并且需要手動(dòng)的調(diào)節(jié)和分析,造成大量人力和時(shí)間的浪費(fèi)。隨著軟硬件的不斷發(fā)展以及高性能計(jì)算水平的提高,深度學(xué)習(xí)逐漸嶄露頭角,深度學(xué)習(xí)方法為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)帶來(lái)了革命性的進(jìn)步。深度學(xué)習(xí)在圖像識(shí)別上的準(zhǔn)確率已經(jīng)超越了人類。受 ASPP[9]和 SE[10]結(jié)構(gòu)的啟發(fā),我們提出了具有SE結(jié)構(gòu)的改進(jìn)的PSPNet模型。本文的動(dòng)機(jī)包括兩個(gè)方面。首先,我們通過使用 ASPP結(jié)構(gòu)來(lái)捕獲同一特征層下的不同分辨率的空間信息,將局部信息和全局信息相結(jié)合,來(lái)更有效的識(shí)別小樣本類別。其次,更加可靠和合理的特征圖應(yīng)具有更高的置信度[11,25],我們將 PSPNet捕獲的多尺度特征圖放入到 SE模塊中來(lái)進(jìn)行通道維度的整合,以自適應(yīng)性地學(xué)習(xí)各個(gè)特征圖的重要程度,有效的減少誤分現(xiàn)象。該模型結(jié)合了 ASPP模塊和 SE模塊,以融合多尺度特征圖。通過利用改進(jìn)的 ResNet50來(lái)進(jìn)行編碼,獲得高層的語(yǔ)義特征,并利用ASPP模塊和SE模塊進(jìn)行解碼。
本文通過利用GF1號(hào)分辨率為1.8 m的融合圖像在連云港筏式水產(chǎn)養(yǎng)殖區(qū)域進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與經(jīng)典的FCN,U-Net以及PSPNet模型相比,具有SE結(jié)構(gòu)的改進(jìn)的PSPNet在紫菜養(yǎng)殖區(qū)提取方面獲得了最高的F1分?jǐn)?shù)值。
CNN通常用于圖像級(jí)分類任務(wù),因?yàn)樗鼈兌驾敵霾煌悇e上的概率分布[12]。它會(huì)在卷積層之后添加若干個(gè)全連接層,所以CNN輸入圖像的大小是固定的。通過 Softmax函數(shù)來(lái)得到圖像屬于每一類別的概率,將最高概率的一類作為該圖像的類別。與典型的 CNN相比,F(xiàn)CN是對(duì)圖像進(jìn)行像素級(jí)別的分類,用卷積和上采樣代替全連接層來(lái)實(shí)現(xiàn)語(yǔ)義級(jí)別的圖像分割問題,在上采樣的特征圖上逐像素的計(jì)算Softmax分類損失進(jìn)行逐像素分類,做到了端到端像素級(jí)學(xué)習(xí)任務(wù)。
編碼器-解碼器結(jié)構(gòu)是常用的語(yǔ)義分割結(jié)構(gòu),UNet、PSPNet等模型均采用這種結(jié)構(gòu)。編碼器-解碼器網(wǎng)絡(luò)首先通過執(zhí)行卷積和下采樣來(lái)學(xué)習(xí)特征表示,然后執(zhí)行卷積和下采樣運(yùn)算來(lái)解碼這些特征表示。編碼器能夠自動(dòng)的學(xué)習(xí)特征,并且可以學(xué)習(xí)到多個(gè)層次的特征:較淺的卷積層所獲得的感受野較小,學(xué)習(xí)到一些局部區(qū)域的特征;較深的卷積層具有較大的感受野,學(xué)習(xí)到的特征也更加抽象。能夠?qū)W習(xí)到更加抽象的特征。這些抽象特征對(duì)物體的大小、位置和方向等敏感性更低,從而有助于識(shí)別性能的提高。解碼器的作用是向上采樣編碼器的輸出,只微調(diào)細(xì)節(jié),恢復(fù)圖像空間分辨率[13]。
空洞卷積的空間金字塔結(jié)構(gòu)能夠增加感受野對(duì)特征圖進(jìn)行采樣。使用K個(gè)擴(kuò)張卷積的空間金字塔,本文中的K=3,采樣率為rates = {6,12,18}的空洞卷積。采用不同的采樣率的空洞卷積對(duì)3 3×的卷積核并行重新采樣特征圖。這種金字塔卷積運(yùn)算被稱為擴(kuò)張卷積的空間金字塔,因?yàn)槊總€(gè)擴(kuò)張卷積核都學(xué)習(xí)具有不同感受野的權(quán)重,因此類似于空間金字塔。
學(xué)習(xí)一個(gè)高性能的網(wǎng)絡(luò)是十分困難的,現(xiàn)在許多的做法是在空間域上來(lái)提升網(wǎng)絡(luò)性能,而Squeezeand-Excitation(簡(jiǎn)稱SE)結(jié)構(gòu)是在通道域上顯式的建模特征通道的相互依賴關(guān)系,來(lái)進(jìn)行特征的重定標(biāo)工作[14]。SE結(jié)構(gòu)的關(guān)鍵操作為 Squeeze以及Excitation。如圖 1所示,給定的特征圖 X,X ∈RH×W×C,其中H,W和C分別是指特征圖的高度,寬度和通道數(shù)。經(jīng)過 Squeeze操作(全局平均池化[15])生成 y ∈ RC×1,其中 ym是y的第m個(gè)元素,Xm是X的第m個(gè)特征圖:

Excitation操作通過使用兩個(gè)為參數(shù) W1,W2全連接層和兩個(gè)激活函數(shù)來(lái)實(shí)現(xiàn),生成 y? ∈RC×1,如下所示:

最后是Reweight 操作通過將Excitation操作得到的權(quán)重與先前的特征逐通道相乘,從而完成通道域上的特征的重定標(biāo)工作,生成重定標(biāo)后的特征圖簇個(gè)特征下圖所示:


圖1 SE結(jié)構(gòu)Fig.1 SE structure
在本節(jié)中,我們首先介紹針對(duì)紫菜養(yǎng)殖區(qū)三分類提取的一般過程。然后,我們?cè)敿?xì)描述了具有SE結(jié)構(gòu)的改進(jìn)的PSPNet網(wǎng)絡(luò)。
紫菜養(yǎng)殖區(qū)三分類提取過程包括三個(gè)階段:數(shù)據(jù)預(yù)處理階段,訓(xùn)練階段和測(cè)試階段。在遙感數(shù)據(jù)預(yù)處理階段,我們利用 labelme進(jìn)行手動(dòng)標(biāo)記,三個(gè)類別分別為養(yǎng)殖區(qū),海水,和其他類(包括陸地,島嶼,碼頭等)。通過裁切研究區(qū)域生成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)包括訓(xùn)練集和驗(yàn)證集,利用K折交叉驗(yàn)證來(lái)實(shí)現(xiàn)訓(xùn)練集和驗(yàn)證集的自動(dòng)劃分。在訓(xùn)練階段,將預(yù)處理訓(xùn)練樣本喂到具有 SE結(jié)構(gòu)的改進(jìn)的PSPNet網(wǎng)絡(luò),該網(wǎng)絡(luò)模型架構(gòu)如圖2所示。使用小批量梯度下降算法進(jìn)行迭代優(yōu)化。當(dāng)損失不再下降時(shí),結(jié)束迭代任務(wù)。在測(cè)試階段,將訓(xùn)練好的最優(yōu)的模型應(yīng)用于測(cè)試圖像,進(jìn)行紫菜養(yǎng)殖區(qū)三分類提取工作。

圖2 具有SE結(jié)構(gòu)的改進(jìn)的PSPNet架構(gòu)圖Fig.2 Improved PSPNet architecture diagram with SE structure
圖 2展示了本文提出的具有 SE結(jié)構(gòu)的改進(jìn)的PSPNet模型結(jié)構(gòu)。該模型采用編碼器-解碼器結(jié)構(gòu),編碼器使用常規(guī)卷積和帶有空洞卷積的殘差結(jié)構(gòu)來(lái)提取高級(jí)語(yǔ)義特征,在每一層卷積之后都跟有 BN和Relu激活函數(shù)。解碼器中的主要操作是,首先將編碼得到的高階語(yǔ)義特征通過金字塔池化來(lái)獲取不同尺度的信息,在通過線性插值來(lái)擴(kuò)大特征圖分辨率,然后在經(jīng)過 SE模塊來(lái)自動(dòng)學(xué)習(xí)每個(gè)通道的重要程度來(lái)更好地進(jìn)行語(yǔ)義分割任務(wù)。接著通過線性插值使特征圖恢復(fù)原圖像大小,最后使用 Softmax激活函數(shù)和 Argmax函數(shù)[17]得到最后的預(yù)測(cè)結(jié)果,從而實(shí)現(xiàn)了端到端的分類任務(wù)。
本文使用的殘差網(wǎng)絡(luò)都是由兩部分組成,一組是恒等映射上加1 1×卷積的殘差模塊,另一組直接恒等映射的殘差模塊。其中Res3是步長(zhǎng)為2填充為2的卷積,Res4是填充為4的卷積,Res5是填充為8的卷積,利用空洞卷積在不增加模型參數(shù)下獲取更多的上下文信息使用BN進(jìn)行歸一化,ReLU作為激活函數(shù)。模型具體參數(shù)見表1。為了防止過擬合,本文在Conv11后使用了Dropout[18],比率為0.1。
表1是具有SE結(jié)構(gòu)的改進(jìn)的PSPNet完整的網(wǎng)絡(luò)結(jié)構(gòu)。Res,AtrousRes,ConvInterp分別表示殘差模塊,帶有空洞卷積的殘差模塊,線性插值模塊。

表1 網(wǎng)絡(luò)模型參數(shù)Tab.1 Network model parameters
研究區(qū)為江蘇連云港近岸海域,是2017年2月10日分辨率為1.8m的融合后的GF1號(hào)影像。其坐標(biāo)為 34°43′22″~35°5′34″N,119°8′15″~119°37′43″E。研究區(qū)域的圖像如下圖所示,訓(xùn)練集和測(cè)試集圖像大小都是 7168×7168,通道數(shù)為 3,下圖中綠色框的3塊圖像作為訓(xùn)練集,紅色框的1塊圖像作為測(cè)試集用來(lái)驗(yàn)證模型的性能。

圖3 研究區(qū)示意圖Fig.3 Schematic diagram of the study area
本文通過選取研究區(qū)域的數(shù)據(jù)進(jìn)行三分類的實(shí)驗(yàn),包括養(yǎng)殖區(qū)、海水以及其他類別(包括陸地,島嶼,碼頭等),研究區(qū)域如圖3所示。本文隨機(jī)選取了研究區(qū)域中的3塊圖像(圖3中的綠色小框)作為訓(xùn)練集,并將每塊圖像切割成128×128大小,切割步長(zhǎng)為128,分別得到9408個(gè)訓(xùn)練樣本和9408個(gè)訓(xùn)練標(biāo)簽。
本文實(shí)驗(yàn)使用TensorFlow作為后端引擎,均采用 Keras框架來(lái)進(jìn)行模型的實(shí)現(xiàn)工作,在 NVIDIA P100 GPU上迭代100個(gè)周期,利用Adam作為模型的優(yōu)化器,動(dòng)量為0.95,學(xué)習(xí)率為0.0001,batch size設(shè)置為 2,使用交叉驗(yàn)證的方式來(lái)進(jìn)行訓(xùn)練集和驗(yàn)證集的自動(dòng)劃分,共進(jìn)行了10折交叉驗(yàn)證,即90%的樣本作為訓(xùn)練,10%樣本用來(lái)驗(yàn)證。
為了驗(yàn)證我們提出的紫菜養(yǎng)殖區(qū)提取方法的實(shí)用性,在我們的數(shù)據(jù)集上我們與經(jīng)典的用于醫(yī)學(xué)圖像處理的Unet以及傳統(tǒng)的PSPNet網(wǎng)絡(luò)模型進(jìn)行了比較,并且我們通過使用三種評(píng)價(jià)指標(biāo)來(lái)檢驗(yàn)我們提出的模型的有效性,即Precision,Recall以及F1分?jǐn)?shù)來(lái)進(jìn)行最終的評(píng)測(cè)。F1分?jǐn)?shù),又稱為平衡F分?jǐn)?shù)(balanced F Score),它被定義為精準(zhǔn)率和召回率的調(diào)和平均數(shù),Precision,Recall以及F1分?jǐn)?shù)的公式如下所示:

其中,TP代表樣本為正,預(yù)測(cè)結(jié)果為正;FP代表樣本為負(fù),預(yù)測(cè)結(jié)果為正;FN代表樣本為正,預(yù)測(cè)結(jié)果為負(fù)。本文實(shí)驗(yàn)分別計(jì)算了各個(gè)類別的Precision,recall以及 F1分?jǐn)?shù)。此外,該模型的魯棒性通過十次K折交叉驗(yàn)證實(shí)驗(yàn)得到了認(rèn)可。最終結(jié)果的Precision,recall以及F1分?jǐn)?shù)如表2所示。

表2 Precision,recall以及F1分?jǐn)?shù)對(duì)比結(jié)果Tab.2 Comparison results of precision,recall and F1 scores
表2中我們對(duì)實(shí)驗(yàn)的方法進(jìn)行了對(duì)比,從上表中可以看出,養(yǎng)殖區(qū)準(zhǔn)確率,召回率最高的分別是OurNet,PSPNet,海水的準(zhǔn)確率,召回率最高的分別是FCN和OurNet,其他類的
準(zhǔn)確率,召回率最高的分別是OurNet和FCN,三個(gè)類別的F1分?jǐn)?shù)最高的都是我們提出的網(wǎng)絡(luò)。通過實(shí)驗(yàn)結(jié)果證明了我們提出的網(wǎng)絡(luò)模型具有更好地泛化能力和魯棒性。
下圖中的圖4顯示了測(cè)試集的圖像,真值圖以及用于提取紫菜養(yǎng)殖區(qū)域的不同方法的結(jié)果圖,其中紫色代表紫菜養(yǎng)殖區(qū)域,黑色代表海水,綠色代表其他類別。

圖4 實(shí)驗(yàn)結(jié)果對(duì)比圖Fig.4 Comparison of experimental results
根據(jù)圖4我們可以得知,因?yàn)镕CN將一部分海水和養(yǎng)殖區(qū)誤分為其他類,并且島嶼這個(gè)其他類別基本全部識(shí)別出來(lái)了,所以可以解釋表2中FCN模型的其他類的召回率最高的原因。U-Net模型島嶼這個(gè)其他類識(shí)別出來(lái)了一部分,而且與海水紋理特征相近的養(yǎng)殖區(qū)域識(shí)別的不是很好。PSPNet模型由于整合了不同分辨率的特征,對(duì)于島嶼的識(shí)別效果明顯,但是誤分了部分養(yǎng)殖區(qū)變成了其他類別。我們提出的網(wǎng)絡(luò)模型在 PSPNet的基礎(chǔ)上改進(jìn)膨脹率并且加上了 SE結(jié)構(gòu),既在他空間上整合了不同分辨率的特征,又在通道上自適應(yīng)的學(xué)習(xí)通道之間的重要程度,實(shí)驗(yàn)結(jié)果表明,我們提出的網(wǎng)絡(luò)模型對(duì)于紫菜養(yǎng)殖區(qū)的三分類任務(wù)有更好的效果。
在本文中,我們針對(duì)于高分遙感影像通過深度學(xué)習(xí)實(shí)現(xiàn)了對(duì)于紫菜養(yǎng)殖區(qū)三分類的語(yǔ)義分割任務(wù),并且提出了具有SE結(jié)構(gòu)的改進(jìn)的PSPNet,有效的實(shí)現(xiàn)了對(duì)于紫菜養(yǎng)殖區(qū)的識(shí)別工作。通過更大的膨脹率在不增加模型參數(shù)下獲得了更大的感受野,利用金字塔池化來(lái)獲取空間上的不同分辨率的特征,來(lái)更好的實(shí)現(xiàn)對(duì)于小樣本的識(shí)別任務(wù),最后加入 SE結(jié)構(gòu)在通道上自適應(yīng)的學(xué)習(xí)各通道之間的重要程度,有效的減少了誤分現(xiàn)象。但我們的模型仍然存在小樣本識(shí)別問題,在未來(lái)我們需要繼續(xù)改進(jìn)我們的模型,并且考慮不同衛(wèi)星拍攝的影像,來(lái)更加適應(yīng)相關(guān)部門的需要。