王睿川 王巖飛
①(中國科學院空天信息創新研究院 北京 100190)
②(中國科學院大學電子電氣與通信工程學院 北京 101408)
極化合成孔徑雷達 (Polarimetric Synthetic Aperture Radar,極化SAR) 是一種主動微波遙感探測技術,能夠獲得地球表面的多通道后向散射回波信息,具有全天時全天候對地成像能力[1]。極化SAR圖像地物分類是極化SAR圖像解譯任務的基礎,在城市規劃,海洋、森林環境調查和災害評估等[2]很多實際應用中都起到了重要作用。
傳統的極化SAR圖像地物分類技術主要流程可被歸納為首先進行特征提取,再使用分類算法進行類別預測[3]。極化目標分解是本領域中一種重要的特征提取方式。常見的極化目標分解方法有Pauli分解、Cloude-Pottier分解[4]、Freeman[5]分解等。分類算法主要包含各種機器學習算法,如期望-最大化算法[6]、支持向量機[7]、稀疏表征分類器[8]、譜聚類[9]和隨機森林[10]等。期望-最大化算法使用概率分布對極化SAR圖像數據進行迭代分類。常用概率分布有Wishart分布[11]、K-Wishart分布[12,13]和U分布[14]等。
近年來,隨著深度學習技術的快速發展,很多基于深度學習的極化SAR圖像地物分類算法被提出,其中主要包含卷積神經網絡 (Convolutional Neural Networks,CNN)[15]和全卷積網絡 (Fully Convolutional Network,FCN)[16]。
CNN考慮輸入數據的空間信息,自動地提取分層的隱含特征,達到良好的分類性能[15]。Zhou等人[17]首先將CNN引入極化SAR圖像地物分類任務中,并通過可視化表明CNN能夠提取各個地物類別的空間特征。Chen等人[18]的研究表明通過引入均勻極化矩陣旋轉理論[19]等專家知識為CNN提取輸入特征,能夠有效提升CNN的分類性能。
基于CNN的極化SAR圖像地物分類算法采用逐像素分類的運行模式,由于在運算中重復提取了鄰域中相同的像素,因此具有大量的冗余運算。而FCN具有端到端 (End-to-end)、逐像素輸出 (Pixelto-pixel)特性,能夠充分利用空間信息,并同時對整幅輸入圖像中的每一個像素進行分類[20]。Liu等人[21]提出基于極化散射編碼矩陣的極化卷積網絡(Polarimetric Convolutional Network,PCN),其分類性能高于CNN模型。在文獻[20,21]中,基于FCN的方法采用整幅圖像作為輸入。當輸入圖像尺寸較大時,FCN模型在訓練和推理過程中需要很大的計算存儲,限制了FCN模型的應用。Li等人[22]提出基于滑動窗口的全卷積神經網絡,將輸入數據切分成較小的區塊提升訓練速度和內存使用靈活性,但是SFCN在標注數據量較小的情況下性能不佳。Chen等人[23]提出對抗重建-卷積網絡 (Adversarial Reconstruction-Convolutional Network,ARCN),使用基于對抗訓練的重建正則項,以更長的訓練時間為代價,相比SFCN提升了在較小標注樣本集規模下的分類性能。
當前基于全監督(Supervised learning)深度學習的極化SAR圖像地物分類算法的性能提升瓶頸在于極化SAR圖像標注樣本數量少。提升全監督學習分類方法的精度主要有兩種方法,第1種是增加更多的真實標注樣本,第2種是提升分類算法對不同地物類別的辨識能力。由于獲取真實標簽的成本較高,半監督學習(Semi-supervised learning)方法可以通過利用無標注樣本中蘊含的信息提升模型的分類性能,因此受到了廣泛關注。Geng等人[24]提出了一種基于多重判決的半監督學習算法,依據空間意義上的局部、非局部判決準則生成偽標簽并重新進行訓練。Bi等人[25]提出了基于圖模型的卷積神經網絡,使用CNN和馬爾可夫隨機場交替進行多次迭代訓練,逐步向無標注樣本傳播標簽信息。Xie等人[26]提出了循環復數CNN模型,使用Wishart距離生成無標注樣本的偽標簽,然后訓練模型驗證偽標簽,再擴充標注樣本集。Hua等人[27]提出了一種基于鄰域最小生成樹的半監督學習方法,通過利用空間信息擴充標注樣本集,在極少訓練樣本條件下達到了良好的分類精度。這些半監督學習能夠有效提升分類模型的精度性能,但是都需要兩次及以上的重復訓練過程。通過將擴充偽標簽的過程融入模型的訓練過程,半監督學習方法的運行效率能夠得到有效提升。
針對極化SAR圖像地物分類中標注樣本少的問題,本文在提升模型辨識能力與高效半監督學習方法兩個方面,提出了一種采用預選-聯合優化半監督學習方法的空間-通道選擇性卷積核全卷積網絡(Spatial-Channel Selective Kernel Fully Convolutional Network with Semi-supervised Preselection and United Optimization,SCSKFCN-SPUO)。
在提升模型辨識能力方面,提取多尺度特征有利于增強模型對極化SAR圖像中不同地物的分辨能力。選擇性卷積核網絡[28](Selective Kernel Network,SKNet)通過使用注意力機制根據輸入數據在通道維度上自適應地對多尺度特征進行加權融合,提升了自然圖像分類任務中對不同尺寸目標的分類能力。然而極化SAR圖像中包含多種不同的地物類型,僅使用通道注意力不足以提取圖像中不同地物的差異性。通過使用通道注意力、空間注意力[29,30]計算SKNet不同感受野特征的權值,SCSKFCN使圖像中每個像素的預測結果能夠自適應地融合多尺度特征,在標注樣本數量較少的情況下提升了模型的分類性能。同時,為了充分利用無標注樣本中隱含的信息,本文提出了一種預選-聯合優化的半監督學習方法對模型進行參數優化。這種方法在模型優化過程前使用K-Wishart距離對無標注樣本進行預選,并生成偽標簽;在SCSKFCN的優化過程中,采用兩步驗證過程排除不可靠的偽標注樣本,再將驗證后的偽標注樣本與真實標注樣本結合,用于優化模型參數。這種訓練方式通過一次訓練過程即可有效地提升SCSKFCN模型的分類精度。
本文的結構安排如下所示:第2節介紹空間-通道選擇性卷積核單元;第3節詳細闡述空間-通道選擇性卷積核全卷積網絡(SCSKFCN);第4節介紹預選-聯合優化半監督學習方法及其運行流程:第5節為實驗驗證部分,展示SCSKFCN-SPUO方法在標注信息較少條件下的分類性能和時間效率;第6節進行總結歸納。
CNN通過采用局部感受野(Local receptive field)、共享權重(Shared weights)和下采樣(Downsampling)的思想,達到一定程度的平移、尺度縮放和扭曲不變性[15]。CNN模型主要包含卷積運算、非線性激活函數運算和池化運算。卷積運算和非線性激活函數運算的表達式如式(1)所示

膨脹卷積[33]是卷積運算的一種變體,實現形式為對卷積核空間相鄰的參數之間進行空洞填充(Hole padding)。在卷積核的參數量以及卷積核覆蓋區域的不變情況下,膨脹卷積能夠利用不同的膨脹因子(Dilation factor),靈活地改變感受野的大小。以卷積核大小3×3、膨脹因子為2的膨脹卷積為例,相比相同感受野大小的5×5普通卷積,膨脹卷積具有更少的參數,減少了運算量。
注意力機制(Attention mechanism)基于不同特征的重要程度不同的假設,自適應地調整模型對不同特征的重視程度。注意力機制中的特征權值的計算通常借助門控函數(Gating function)實現,例如Softmax函數或Sigmoid函數。Hu等人[34]提出了SENet,使用注意力機制自適應地對不同通道的特征進行幅度調制。Li等人[28]提出了SKNet,如圖1(a)所示,SKNet對不同感受野特征計算每個感受野特征在通道維度上的融合權重。首先,SKNet對不同感受野的特征進行求和,再對全局平均池化后的求和特征分別計算每個感受野的權重;使用Softmax在通道維度上對感受野的權重進行幅度歸一化,分別對每個感受野特征與其對應權值使用逐像素相乘,最后通過逐元素相加得到融合后的特征。由于極化SAR圖像地物分類需要對每個像素都進行類別預測,而圖像中可能包含多種不同的地物類型,在一個通道中對不同類型的像素使用同一個融合權值不能凸顯類型之間的差異性。Woo等人[29]和Park等人[30]提出了空間注意力,對不同像素之間的重要性進行加權,增強了網絡提取感興趣區域中信息的能力。Woo等人[29]提出的空間注意力模塊如圖1(b)所示,對輸入特征分別求解通道維度上的均值與最大值,并使用卷積運算和Sigmoid函數計算空間注意力權值。本文將空間注意力思想[29,30]用于SKNet中特征融合的權值運算過程,提出了空間-通道選擇性卷積核單元(Spatial-Channel Selective Kernel Unit,SCSK單元),為每個像素的每個通道計算多尺度特征的融合權值,以適應一幅輸入圖像中不同類別、不同尺寸的地物特征。

圖1 SKNet模塊與空間注意力模塊Fig.1 SKNet module and spatial attention module
本節定義SCSK單元輸入特征的維度為Fin∈其中第1個維度為特征的通道數,第2和第3個維度分別表示特征的高和寬。SCSK單元的結構如圖2所示。
首先,SCSK單元使用兩組不同感受野大小的卷積核對輸入特征進行特征提取,其中FR3和FR5分別表示感受野為3和5的卷積核提取到的特征。為計算不同像素的各個通道上兩種感受野特征融合的權重,SCSK單元對兩種特征進行逐元素相加(Elementwise addition)得到特征和(Feature Sum)Fsum,并計算通道注意力(Channel Attention,CA)和空間注意力(Spatial Attention,SA)權重,對兩種不同的感受野特征在每個像素的每個通道上進行融合。
如圖2(b)所示,在計算CA權值時,對求和后特征Fsum求取其每個通道中所有像素的均值Fgap,即全局平均池化(Global Average Pooling,GAP),再使用全連接層進一步提取特征Femb。Fgap和Femb分別由式(2)和式(3)計算:


其中,⊕為逐元素相加。圖2中,感受野為5的卷積核使用膨脹卷積運算實現。在具體實現上,膨脹卷積運算的卷積核大小為3,膨脹因子為2。
本節將對空間-通道選擇性全卷積網絡(SCSKFCN)的輸入特征提取及其結構進行詳細講解。
極化SAR圖像中的每個像素都能夠表示為后向散射矩陣S的形式,其表達形式為

其中,SHH和SVV分別表示水平、垂直極化通道的同極化回波功率,而SHV和SVH則分別表示交叉極化通道的回波功率。考慮單站雷達的情況,根據互換條件(Reciprocity condition),有SHV=SVH。Pauli散射向量k可以表示為

其中,上標 T表示轉置運算。因此,極化SAR圖像的相關矩陣T可以表示為

其中,上標 H表示埃爾米特轉置(Hermitian transpose)。根據特征分解模型[4],相關矩陣可以分解為

其中,[λ1,λ2,λ3]和U3=[e1,e2,e3]分別為相關矩陣的特征值和特征向量。基于特征分解模型,Cloude等人[4]提出了Cloude-Pottier分解模型,包含有熵(Entropy)H、平均alpha角度(Mean alpha angle)和異質度(Anisotropy)A,如式(12)–式(14)所示

其中,e1i為ei向量的第1個元素。SCSKFCN的輸入特征為極化相關矩陣的上三角元素(Upper-triangular elements)和Cloude-Pottier分解模型元素的結合,即

其中,?(·)為復數的取實部運算,?(·)為取虛部運算。
SCSKFCN采用了空間-通道選擇性卷積核單元,通過聯合使用空間注意力和通道注意力機制,在為輸入圖像中每一個像素提取不同尺度特征的同時,也使用計算得到的特征權重進行不同尺度特征的融合,提升了模型提取特征的能力。如圖3所示,SCSKFCN的架構中包含了編碼器、解碼器、跳線連接(Skip connection)和Softmax分類器。圖中,SCSKConv表示SCSK單元;Max Pooling表示最大池化下采樣運算層;Upsampling表示上采樣單元,它由一個卷積核尺寸為3×3的卷積運算層和一個最近鄰插值(Nearest neighbor interpolation)上采樣運算層構成;Skip Connect表示跳線連接(Skip connection);R3Conv表示卷積核尺寸為3×3的卷積運算層。特征圖下方的數字表示該特征圖的通道數量,左上方的數字表示該特征圖的空間尺寸。編碼器包含3個SCSK單元和兩個最大池化(Max pooling)下采樣運算層,對輸入圖像自適應地提取多尺度的特征并進行下采樣。解碼器負責將編碼器提取的分層語義特征恢復到與原始圖像相同的尺寸,它包含兩個上采樣單元和一個標準卷積運算層。由于下采樣導致圖像中細節信息丟失,解碼器對編碼器淺層特征與上采樣的深層特征進行跳線連接,保留空間上的細節信息。本文使用的跳線連接為一個卷積核尺寸為1×1的卷積運算層構成。除Softmax分類器外,SCSKFCN中使用的非線性激活函數均為Leaky ReLU,其公式為

圖3 空間-通道選擇性卷積核全卷積網絡(SCSKFCN)的架構Fig.3 Architecture of Spatial-Channel Selective Kernel Fully Convolutional Network (SCSKFCN)

其中,ε ∈(0,1)表示一個較小的斜率。當輸入特征x的取值小于0時,ε不僅起到引入非線性映射的作用,還避免了ReLU激活函數在輸入為負數時出現的死區(Dying ReLU)問題[32]。
由于極化SAR圖像地物分類的標注像素的分布在空間上較為稀疏,與文獻[22,23]類似,SCSKFCN采用大小為128×128的滑動窗口、步長為32對輸入圖像進行切割。SCSKFCN中的卷積運算層通道維度Dd=32,卷積核參數使用Xavier Uniform初始化,偏置項參數初始化為0。
根據文獻[24–27],半監督學習算法能夠有效地提升極化SAR圖像地物分類算法的精度性能。本文提出了預選-聯合優化半監督學習(SPUO)方法,通過在訓練前對偽標注像素進行預先選擇,在訓練時使用真實標注像素和經過驗證偽標注像素對SCSKFCN進行聯合優化。
SPUO的預選過程在SCSKFCN的訓練過程開始前進行,使用K-Wishart距離對無標注樣本進行選擇,并生成偽標簽。選用K-Wishart距離的原因是K-Wishart分布具有非高斯統計特性,通過采用形狀參數τ,相比Complex Wishart分布對極化SAR數據中非均質區域具有更好的描述能力。

設極化SAR圖像的地物類別總數為C。K-Wishart距離的定義為其中,n為極化SAR圖像多視視數,d是向量維度,τ是形狀參數(Shape parameter)。Vc表示類別c的平均相關矩陣,c=1,2,···,C。|·|和Tr(·)分別是矩陣的行列式和矩陣的跡。Γ(·)表示標準gamma函數,Bv(·)表示v階第2類修正貝塞爾函數?;贙-Wishart距離對無標注像素的類別判定過程是利用一個無標注像素的相關矩陣計算與每一個類別平均相關矩陣Vc的K-Wishart距離,將該距離值最小的類別作為該像素的判定結果。本文使用每個類別真實標注像素的相關矩陣平均值分別對每個類別的平均相關矩陣Vc進行初始化。在估計每個像素的形狀參數τ時,首先計算每個像素點的3×3鄰域內9個像素的相對峰值(Relative kurtosis)XRK,由式(18)所示

其中,|·|表示復數的模長,E(·)表示均值。形狀參數τ可由式(19)計算:

對每一個地物類別,SPUO在預選過程中使用K-Wishart距離對距離該類別真實標簽像素小于r1=21的無標簽像素進行類別判定,并對判定結果與該真實標注類別相同的無標簽像素賦予偽標簽。r1的定義為兩個像素之間橫、縱坐標的差值的二范數,單位為像素。考慮到極化SAR圖像中不同地物類別的像素數量存在較大的不平衡現象,本文對每個類別的偽標簽像素進行隨機采樣,采樣數量為該類別真實標簽像素數量乘以采樣因子μ=10。采樣得到的各個類別的偽標簽像素作為預選偽標簽樣本,參與SCSKFCN的聯合優化過程。
在SCSKFCN訓練過程中,聯合優化基于交叉熵(Cross entropy)損失函數,使用真實標簽和經過驗證的偽標簽對SCSKFCN進行聯合優化。
交叉熵源于KL散度(Kullback-Leibler divergence)。KL散度用于衡量兩個概率分布之間的差異,可由式(20)表示

其中,x表 示輸入數據的分布,y和p分別表示真實標簽分布和模型輸出的預測概率分布。KL散度為0表示真實標簽分布和預測概率分布為同一分布。由于真實標簽分布y是確定量,KL散度的第2部分為常數,在模型優化過程中可以省略,故本文使用交叉熵作為聯合優化的基礎損失函數,通過訓練過程減小預測分布與真實分布之間的差異。
半監督學習方法在生成偽標簽時,可能會引入與真實地物類別不同的偽標簽。針對這個問題,本文提出了針對偽標簽像素的兩步驗證過程(Two-step Verification),分別為預測一致驗證(Correctness Verification)和預測概率驗證(Probability Verification)。預測一致驗證的定義是驗證SCSKFCN對偽標簽像素的預測結果是否與其偽標簽相同,預測概率驗證的定義是SCSKFCN對偽標簽像素的預測概率是否大于概率閾值超參數δ。聯合優化方法針對一個輸入滑窗數據條件下的流程框圖如圖4所示。
本節以極化SAR圖像中的一個滑動窗口為例對SCSKFCN的聯合優化過程進行介紹。首先,SCSKFCN對滑動窗口內的像素進行類別預測,輸出該滑動窗口的類別預測圖(Prediction)。其次,依據該滑動窗口內的偽標簽像素位置,依次對偽標簽像素進行預測類別驗證和預測概率驗證,得到滿足兩步驗證條件的偽標簽像素。然后,聯合使用真實標簽像素與滿足條件的偽標簽像素在交叉熵的準則下計算SCSKFCN的損失值,如式(21)所示。

其中,Nla和Npe分別代表當前滑動窗口中真實標簽像素數量和通過兩步驗證的偽標簽像素數量;{y}la和{y}pe分別代表當前滑動窗口中真實標簽像素與通過兩步驗證的偽標簽像素的索引集合;yi為像素i的標簽的獨熱向量(One-hot vector),pi為該像素的預測概率向量。最后,使用Adam優化器,依據損失值對SCSKFCN中的參數進行更新,再使用下一個滑動窗口重復聯合優化過程,直至訓練過程終止。
本文提出的預選-聯合優化半監督學習方法的流程圖如圖5所示,具體步驟如下:

圖5 預選-聯合優化半監督學習方法流程圖Fig.5 The framework of semi-supervised preselection and united optimization method
步驟1 通過使用K-Wishart距離對符合條件的無標注樣本進行預選,并判定被預選樣本的偽標注標簽;
步驟2 對極化SAR圖像原始輸入進行特征提取,并對提取得到的特征及其對應的標簽圖切分尺寸為128×128的滑動窗口;
步驟3 在每一次模型參數更新中,對偽標注樣本進行兩步驗證,使用真實標注樣本和通過驗證的偽標注樣本,對SCSKFCN的參數進行聯合優化;
步驟4 使用優化后的SCSKFCN對極化SAR圖像進行類別預測。
為了驗證SCSKFCN-SPUO算法的有效性和魯棒性,本節將展示SCSKFCN-SPUO算法在兩個真實數據集上與CNN,PCN,ARCN等模型的對比實驗結果。本文使用的CNN模型的輸入尺寸大小為15×15,包含兩個卷積核尺寸為3×3、通道數分別為32和64的卷積運算層和一個通道數為128的全連接層,以及一個Softmax分類器。PCN,ARCN的參數設置分別與文獻[21–23]中表述一致。為了體現SCSKFCN的有效性,本節還使用R5FCN,SKFCN的實驗結果與SCSKFCN進行比較。其中,R5FCN表示使用感受野大小為5的卷積運算層代替SCSK單元,保證了兩個模型的最大感受野大小相同;SKFCN表示使用感受野大小分別為3和5的特征的SK單元替代SCSK單元。
本文實驗部分采用的評價指標包括各類別準確率、全局分類準確率(Overall accuracy,OA)和一致性指標Kappa系數,在極化SAR圖像的驗證集上對各方法的性能指標進行評估。本文對所有方法進行了10次重復的實驗過程,并使用得到的10次實驗結果的平均值作為最終結果。本文實驗使用的計算平臺為Dell T640服務器,32GB內存和Tesla T4顯卡,使用的深度學習框架為Tensorflow 1.8.0。
本數據集是AIRSAR平臺于1989年在Flevoland地區獲取得到的,該圖像尺寸為1024×750。圖6(a)展示了該圖像的PauliRGB偽彩色圖像,圖6(b)和圖6(i)分別展示了該圖像對應的真實地物類型標簽圖(Ground truth)和標簽圖中顏色與類別的對應關系。圖6(c)–圖6(h)展示了各個分類算法的分類結果。所有用于實驗對比的方法均使用1%采樣率對標簽圖中各個類別的地物進行采樣,用于模擬人工標注信息。由于各個地物類別之間的標注數量存在較大差異,這對分類算法在不平衡數據集中的魯棒性要求較高。

圖6 Flevoland圖像分類結果圖Fig.6 Classification results of Flevoland image with different methods
表1展示了各個算法在Flevoland圖像上的分類精度以及運行時間效率,在訓練時間中括號內的部分為預選過程耗時??梢钥闯觯趦H使用真實標注像素用于模型優化的算法中,SCSKFCN達到了更高的分類精度。由于感受野較小及特征提取能力較弱,CNN的分類性能弱于其他基于FCN的方法。PCN基于FCN架構并使用極化特征編碼提取特征,有效提升了模型的分類性能。R5FCN使用滑動窗口作為輸入,在參數更新時僅使用窗口中的真實標注樣本,其參數更新過程類似于小批量(minibatch)訓練[35],相比PCN在分類性能和應用靈活性上得到了提升。SKFCN通過使用通道注意力選擇的方式,針對輸入特征自適應地融合多尺度卷積核提取到的特征,在多數類別上相比R5FCN有所提升。通過聯合使用空間-通道注意力對多尺度卷積核的特征進行加權,SCSKFCN進一步提升了模型的分辨能力,在Potatoes,Grasses,Beet這些小尺寸地物上相比R5FCN和SKFCN能夠達到更高的分類正確率,同時能在其他類別上達到同等性能。SPUO算法在訓練前預選部分無標簽像素,生成了偽標簽;在訓練過程中,SPUO算法對偽標簽像素的可靠性進行判定,并使用可靠的偽標簽像素與真實標注像素一起對SCSKFCN進行優化,相比全監督學習方式以額外約30%的訓練時間為代價,進一步提升了模型的分類性能。根據結果可以看出,使用SPUO算法對SCSKFCN進行優化,在絕大多數類別上相比僅使用真實標注樣本進行全監督學習的情況都有提升,在測試集上的OA指標提升了0.44%。

表1 Flevoland圖像分類結果表(%)Tab.1 Classification accuracy comparison on Flevoland image (%)
第2個數據集是由ESAR平臺在德國Oberpfaffenhofen地區獲取的。本幅極化SAR圖像尺寸為1300×1200。圖7(a)中為該圖像的PauliRGB偽彩色圖像,圖7(b)和圖7(i)分別為該圖像對應的真實地物類型標簽圖和顏色與類別對應關系圖。除CNN方法使用1%的采樣率,其他方法均使用0.2%的采樣率對標簽圖中各個類別的地物進行采樣,用于構建標注樣本集。圖7(c)–圖7(h)展示了各個分類算法的分類結果,表2展示了各個算法的分類精度,在訓練時間中括號內的部分為預選過程耗時。

圖7 Oberpfaffenhofen圖像分類結果圖Fig.7 Classification results of Oberpfaffenhofen image with different methods

表2 Oberpfaffenhofen圖像分類結果表(%)Tab.2 Classification accuracy comparison on Oberpfaffenhofen image (%)
由于CNN模型受限于較小的感受野和較淺的網絡架構,在使用1%的真實標注像素作為訓練集的前提下,其分類精度仍然低于其他基于FCN的方法。ARCN使用基于對抗訓練的重建學習,增強了編碼器提取特征的能力,其在驗證集上的OA指標比R5FCN高約1%。通過使用基于通道注意力對不同感受野的卷積核提取的特征進行通道加權融合,SKFCN在特征提取能力上相比R5FCN得到提高,同時在OA和Kappa指標上也高于R5FCN和ARCN。SCSKFCN通過使用空間-通道注意力對每個像素的多尺度特征進行加權融合,相比僅使用通道注意力的SKFCN在Built-up areas這個地物表征細節較多的類別和其他類別上均有提升。通過在訓練過程中使用經過驗證的偽標簽像素與真實標注像素共同對網絡進行優化,SCSKFCN-SPUO相比全監督學習方式以約40%的額外訓練過程用時為代價,進一步提升了模型的分類性能。同時在圖7(c)–圖7(h)中,SCSKFCNSPUO方法在Built-up areas和Wood land兩個類別上分類結果一致性在所有方法中是最好的。
預測概率驗證過程中的超參數δ是聯合訓練過程中直接決定每個偽標簽像素是否被引入 SCSKFCN模型的優化過程的關鍵參數,與本文算法的分類性能直接相關。因此,本小節對參數δ進行進一步探討,以[0.6,0.9]為搜索范圍、0.05為步長,驗證該參數的取值對SCSKFCN-SPUO算法的分類性能的影響,由圖8所示??梢钥闯觯敠娜≈滴挥赱0.65,0.80]范圍內時,SCSKFCN-SPUO算法的分類性能較好。因此本文中SCSKFCN-SPUO算法在兩幅極化SAR圖像上均選用δ=0.70作為預測概率驗證的閾值。

圖8 預測概率驗證閾值δ 對性能的影響Fig.8 Impact of different values ofδ
本文中實驗部分對兩個極化SAR數據集構建的訓練集分別由每個類別隨機采樣1.0%與0.2%的樣本構成。為進一步驗證本文算法的有效性,本小節在兩個數據集上分別使用了原始采樣百分比的2倍、4倍進行額外的對比實驗,其結果如圖9所示,藍色的線條表示采用SPUO方式對SCSKFCN模型進行參數優化的結果??梢钥闯觯琒PUO能夠在使用較少的訓練樣本條件下有效提升模型的分類性能,在原始采樣百分比條件下,SCSKFCN-SPUO能夠近似達到SCSKFCN使用2倍數量的樣本作為訓練集的分類性能。

圖9 不同訓練集大小的影響Fig.9 Impact of different sizes of training set
本文中SCSK單元采用的卷積核尺寸為3和5,其中卷積核尺寸為5的卷積核使用參數大小為3×3,膨脹因子為2的膨脹卷積實現。為進一步驗證卷積核尺寸選擇的合理性,本小節使用卷積核尺寸1和3,1和5,以及使用普通卷積核尺寸為3和5的卷積核進行對比實驗,其結果由圖10所示。圖10中,“1and3”和“1and5”表示卷積核尺寸為1和3,1和5的組合,“3and5”和“3andD5”分別表示使用普通卷積與膨脹卷積的尺寸為3和5的卷積核。可以看出,兩種卷積核尺寸為3和5的SCSK單元構成形式的性能優于包含卷積核尺寸包含1的形式,說明較大的卷積核尺寸能夠獲取更具有類別辨識力的特征。同時,使用普通卷積的尺寸為5的卷積核與使用膨脹卷積的分類性能差距不明顯,而使用膨脹卷積因為具有較小的參數量,其運算量也較小。因此,本文的SCSK單元選擇使用的卷積核尺寸為3和5,尺寸為5的卷積核使用膨脹卷積。

圖10 SCSK單元中卷積核尺寸組合的影響Fig.10 Impact of different combinations of kernel sizes in SCSK unit
為了對SCSK單元的不同結構對模型性能的影響進行研究,本小節使用了3種不同于SCSK單元的構造進行對比實驗。在SCSK單元中,CA權值與SA權值分別由Softmax形式和Sigmoid形式計算得到,它們的結構圖如圖2(b)和圖2(c)所示。為了驗證SCSK單元的有效性,本節對兩種不同的權值計算方式進行了實驗,分別為SCSKFCN_Var1及SCSKFCN_Var2。其中,SCSKFCN_Var1對CA和SA權值均使用Sigmoid形式計算;SCSKFCN_Var2對CA和SA權值均使用Softmax形式計算。使用Sigmoid形式的CA與使用Softmax形式的SA的計算方式示意圖由圖11所示,其中圖11(b)的Softmax施加在兩個權重特征的每一個元素上。另外,本節還包含了兩種不同的僅使用CA的權重計算方式的結果,分別是使用Softmax形式的SKFCN和使用Sigmoid形式的SKFCN_2。實驗結果由圖12所示,SKFCN的性能優于SKFCN_2,說明CA權值以Softmax形式能夠獲得更好的性能。在Flevoland數據集上,SCSKFCN_Var1的性能略低于SCSKFCN。SCSKFCN和SCSKFCN_Var2的性能差距不大,均高于SKFCN,這表明引入SA權值能夠有效提升模型對不同地物的分辨能力。由于使用Sigmoid形式計算SA權值的計算量相比Softmax形式更小,故本文采用Sigmoid形式計算SA權值。

圖11 不同結構的SCSK單元的組成部分Fig.11 Building blocks of different architectures of SCSK unit

圖12 不同結構的SCSK單元的影響Fig.12 Impact of different architectures of SCSK unit
為研究SPUO中距離參數r的影響,本小節對距離參數r進行了對比實驗。實驗結果如圖13所示,距離參數r的取值范圍是[9,29],間隔為4。從圖13可以看出,在Flevoland圖像和Oberpfaffenhofen圖像中r參數在大于等于13時對分類性能的影響不明顯。這個現象的主要原因是本文在SPUO中對偽標簽像素進行了采樣因子μ=10的采樣過程,使得偽標簽樣本集的規模在距離參數r增加的情況下沒有明顯的變化。

圖13 SPUO中使用不同距離參數r的影響Fig.13 Impact of different values of r in SPUO
為研究SPUO中判斷準則采用Wishart和K-Wishart的影響,本小節對SPUO分別采用上述兩種判斷準則進行了對比實驗。實驗結果如圖14所示,可以看出SPUO使用K-Wishart距離的分類性能優于使用Wishart距離的分類性能。這是由于K-Wishart分布具有非高斯統計特性,相比Wishart分布能夠更好地描述極化SAR圖像數據。

圖14 SPUO中判斷準則使用Wishart距離和K-Wishart距離的影響Fig.14 Impact of using Wishart distance and K-Wishart distance as criterion in SPUO
本文提出了一種基于空間-通道選擇性卷積核全卷積網絡和預選-聯合優化半監督學習的極化SAR圖像地物分類方法。該方法能夠在人工標注像素數量較少的情形下對極化SAR圖像進行準確、高效的地物分類。該方法首先對無標簽像素進行預選,并使用K-Wishart分類器對預選的像素進行偽標簽生成,然后使用聯合優化的方式同時使用真實標注像素和偽標簽像素對SCSKFCN進行訓練。在訓練過程中,只有通過兩步驗證過程的偽標簽像素才會被用于對SCSKFCN進行優化,降低了算法引入噪聲標簽的可能性。通過這種訓練方式,該方法提高了分類模型的性能和訓練效率。在Flevoland和Oberpfaffenhofen兩個數據集上的實驗結果驗證了SCSKFCN-SPUO算法能夠達到良好的分類性能和運行效率。