錢 佩,皮原征*,雷 靂,黃慶飛
(1.廣東省國土資源測繪院,廣東 廣州 510500)
建筑物提取的方法大致可分3類[1-5]。目前,卷積類深度神經網絡在遙感影像處理方面多是監督式學習且自適應性低,但在農村建筑物提取過程中,影像的干擾性地物復雜多樣,對深度神經網絡的自適應性要求較高。無監督學習的神經網絡以其數據降維與特征提取方面的優勢[17-22],被廣泛應用于高維影像數據的目標檢測等領域的研究[23]。
本文采用棧式稀疏自編碼神經網絡的方法從遙感影像中提取農村建筑物。首先使用高分辨率遙感數據集,以無監督學習的方式對棧式稀疏自編碼神經網絡進行訓練,提取遙感影像中農村建筑物的特征,然后利用標記數據和提取的農村建筑物特征以監督學習的方式對其分類,從而實現對建筑物的準確提取。
由于遙感影像中相鄰像素之間存在很強的相關性,這種強相關性信息對于深度神經網絡的訓練來說是冗余的,白化(Whitening)是算法為有效降低輸入影像像素間的相關聯度而引入的一種預處理手段。主成分分析(PCA)白化是一種能夠有效提高無監督學習算法處理速度的數據降維技術。因此,本文首先采用PCA白化對數據進行預處理,以降低神經網絡輸入數據的冗余度。
PCA白化預處理的具體過程如下:首先,為保持樣本數據特征分布不變,對樣本數據的進行零均值化,得到去均值化后的矩陣X,根據X計算樣本數據集各個特征的協方差矩陣如下:

式中,C是樣本數據集的協方差矩陣;m是無標簽樣本的數目。根據公式(1)顯然可得協方差矩陣C是一個實對稱矩陣,其對角線分別是特征維中各個特征的方差,而第i行第j列和第j行第i列元素相同,表示i和j2個字段的協方差。
然后,根據實對稱矩陣的性質,可利用奇異值分解等方法求解該協方差矩陣的特征值及對應的特征向量,之后將特征向量按對應特征值大小從上往下按行排列成特征值矩陣,根據如下的PCA誤差表達式:

式中,δ表示PCA的誤差大小;k表示前k維;m是樣本的無標簽樣本的數目;P表示特征值矩陣。在保證控制在2%以內的誤差的前提下,取相應的k值及前k維對應的特征值矩陣P,根據如下公式將數據降至k維:

1.2.1 自編碼器
自編碼(auto-encoder,AE)神經網絡是一種無監督的學習算法,它使用反向傳播算法(Back-Propaga?tion)和最優化方法(如梯度下降法、L-BFGS優化算法等),借助輸出值等于或接近于輸入值這一規則,來訓練神經網絡學習一種映射關系,這種映射關系能夠自動從無標注的數據中抽離出比原始數據更好的特征描述,進而實現對原始數據的重構。如圖1所示。

圖1 自編碼神經網絡結構示意圖
一個單隱藏層的自編碼神經網絡可分為三層,即輸入層、隱藏層和輸出層,其中“1”表示偏置項系數。假設表示連接第l層第j個神經元和第l+1層第i個神經元的權重系數,表示第l+1層第i個神經元的偏置項,表示第l+1層第i個神經元對輸入值的加權和,sl表示第l層神經元的總數,則有:

在自編碼神經網絡的訓練過程中,采用反向傳播來訓練學習權重和偏置項系數參數,使無標簽輸入樣本xi與輸出結果目標yi相等的方式來建立最小化損失函數。對于一個包含m個樣本的數據集,則自編碼神經網絡的損失函數可表示為:

1.2.2 稀疏自編碼器
當隱藏層神經元的節點個數少于輸入和輸出層時,自編碼神經網絡試圖使用更小的維度數據去描述和刻畫原始數據,同時又盡可能保證不損失原始的數據信息。因此,此時的自編碼神經網絡在訓練的過程中傾向于去學習數據內部規律,如相關性等,可看作是對原始數據的降維或壓縮操作。如果隱藏層維度比輸入數據層維度大時,為防止網絡出現過擬合現象,則通過對隱藏層施加稀疏性約束,同樣也能夠得到輸入數據內部的結構與規律,該模型被稱為稀疏自編碼器(SAE)。稀疏自編碼首先是學習原始數據信息的高維表達,再借助稀疏性的規則從高維表達中進行特征選擇,找出大量維度中真正起重要作用的若干維,進而只讓這些重要的若干隱藏層節點處于“活躍”狀態,使自編碼器被推動以減少編碼層中活動神經元的數量,迫使自編碼器將每個輸入表示為少量激活的組合。
本文算法的神經元激活函數采用非線性sigmoid函數,即,神經網絡中第l層第i個神經元的激活值用表示。該神經元激活函數的閾值為(0,1),當神經元的輸出接近于1時則可以認為該神經元處于激活狀態;當神經元的輸出接近0時則可以認為該神經元處于抑制狀態。因此,稀疏自編碼的實質是在自編碼神經網絡的損失函數中添加適當的稀疏性約束,使大部分神經元處于抑制狀態。假設表示第n個樣本輸入xn情況下第j個神經元的激活值(輸出值),用神經元j對于所有樣本的平均激活值,具體如公式(6)。為了使控制在一個接近于零的范圍,引入相對熵概念,令為相對熵中其中一個隨機變量,令P為相對熵中另外一個隨機變量,這里通過給定P一個固定值(通常設置為一個較小
值,本文令P=0.05),當和P越接近時,的值越小。本文的相對熵的計算公式如公式(7):增加稀疏限制之后,以β作為稀疏約束懲罰項的系數,則稀疏自編碼神經網絡的代價目標函數為:


公式(8)由三部分的和構成,其中第一部分是均方差項;第二部分是正則化懲罰項;最后一部分是稀疏約束懲罰項。公式(8)是關于各個權值和偏置項的非線程函數,且整體為非凸函數,因此采用迭代法求解,本文采用的是L-BFGS優化算法。具體為:首先進行前向傳播,之后依據后向傳播思想、代價目標函數和優化算法優化參數;再進行前向傳播,以此往復直到代價目標函數停留在一個較小值附近。
1.2.3 棧式自編碼器
棧式稀疏自編碼器是指多個稀疏自編碼器疊加構造的網絡結構,棧式自編碼的結構如圖2所示。

圖2 棧式自編碼神經網絡結構
從圖中可以看出,棧式自編碼神經網絡中其中一層提取的特征結果是下一層的輸入數據。具體訓練過程為:首先訓練棧式中某一層,然后保持其他層的參數不變,前一層訓練完成之后訓練下一層,以此類推。當所有層訓練完成之后,利用反向傳播算法對所有參數進行微調,最終達到最優的結果。
農村房屋的真實形狀各異,經過神經網絡提取到的特征層所包含的特征形狀也是多種多樣。因此考慮到logistic回歸解決的僅僅是二分類問題,本文選擇可以進行多分類問題的softmax函數,該函數是logistic回歸函數的一個擴展。用于softmax回歸模型訓練的樣本集通過棧式稀疏自編碼提取到的特征,采用相應的標記數據對訓練過程進行監督。通過向softmax回歸模型代價函數中加入正則化權重衰減項后,新的代價函數是凸函數,因此存在唯一的極小值。通過一些迭代算法優化之后可以得到全局最優解。
為了有效提取出遙感影像中的農村建筑物目標,本文在地理國情監測生產基礎上,選取場景均為農村地區的影像及相應的矢量化地表覆蓋分類成果,將其裁切為512×512像素大小的數據塊,最終形成本次實驗的數據集。該數據集中包含訓練數據和測試數據。其中,訓練數據是用于訓練無監督特征學習網絡和softmax特征提取過程,而測試數據則是用于測試本文算法對高分辨率遙感影像中農村建筑物的提取效果。
為降低遙感影像像素間的相關聯度、進一步提高無監督學習算法的速度,在數據預處理階段引入PCA白化處理。通過計算得到樣本數據的平均值和協方差矩陣,進而求解出樣本數據協方差矩陣的特征值及對應的特征向量,在保留下來的方差占比大于98%的前提下,選取前k個最大特征值所對應的特征向量,通過矩陣運算使數據的維度降至k維,實現數據維度降低。在預處理過程中,隨機抽取100個數據塊進行展示,原始數據塊影像與預處理結果分布如圖3a、b所示。

圖3 數據預處理結果展示
為了有效評價棧式稀疏自編碼神經網絡從遙感影像中提取農村建筑的的效果,本文采用目前運用最廣泛的傳統BP神經網絡作為本次實驗的對比算法。直觀實驗結果如圖4所示。
圖4中分別給出了農村地區原始遙感影像圖、對應的參考真值影像以及傳統BP方法的實驗結果,其中的參考真值影像是在原始影像數據上進行人工目視圖解進行建筑物提取得到的。通過對比農村地區原始遙感影像圖、對應的參考真值影像與傳統BP方法實驗結果發現,傳統BP方法能夠將大部分農村建筑物提取出來,但其結果也存在誤提取現象,即將與建筑物結構相似或與建筑物顏色相近的非建筑物地表覆蓋錯誤地提取為建筑物,傳統BP方法提取結果影像中還存在較多誤提的細小且瑣碎的不規則圖斑、建筑物提取邊界模糊以及部分農村建筑物沒有被提取出來等問題。
圖5給出了農村地區原始遙感影像圖、對應的參考真值影像以及本文提出的基于棧式稀疏自編碼神經網絡建筑物提取的實驗結果。通過與對比提取結果發現,本文算法能夠更加全面地將遙感影像中的建筑物提取出來,且提取圖版邊界較為清晰規整,但在提取結果中也存在一定程度的建筑物的漏提、誤提以及存在細碎圖斑等現象。與圖4c中傳統BP算法提取結果的目視效果相比,本文算法的提取結果中漏提、誤提比例明顯較低,提取結果中的破碎圖斑也相對較少,提取的建筑物圖斑邊界更為規則清晰。

圖4 傳統BP方法建筑物提取結果

圖5 本文方法建筑物提取結果
為了定量評估本文算法的提取效果,采用精準率和召回率作為評價實驗結果的相關評價指標。其中,精準率(Precision)又叫查準率,是相對于實驗預測結果而言,表示預測為真的樣本中有多少預測對,其含義是在所有被預測為真的樣本中實際為真的樣本的概率,即“找得對”。其公式可表示為:

式中,TP表示預測結果為真,實際也為真;FP表示預測結果為真,而實際為假。
召回率(Recall)又叫查全率,是相對于原樣本真值而言的,其含義是在實際為真的樣本中被預測為真的樣本比例,即“找得全”。其公式如下:

式中,FN表示預測結果為假,而實際為真。
根據實際要求,需盡可能將遙感影像中農村地區的建筑物全部提取出來,即建筑物盡可能的“找全”。因此,在進行傳統BP方法與本文算法的實驗過程中,需盡可能地提高召回率。而在保證高召回率的同時,實驗結果不可避免地錯誤提取了較多非建筑物的圖斑和大量瑣碎圖斑,導致2種算法在建筑物提取過程中精準率的統計值大幅降低。具體實驗結果如表1所示。

表1 不同分辨率的建筑物提取結果/%
從上表中可以看出,無論是召回率還是精準率評價指標,本文算法的統計結果均優于傳統BP神經網絡。其中,召回率平均提高了5.48%,精準率平均提高了5.31%。實驗結果表明,本文提出的基于棧式稀疏自編碼的農村建筑物提取算法能夠有效提取出農村地區的建筑物,為違法占用耕地建房現象的早發現、早制止和早處理提供有力的技術支撐。
本文提出的棧式稀疏自編碼深度神經網絡以無監督和有監督結合的特征學習方式,有效提高了高分辨率遙感影像中農村建筑物的提取準確率。該算法首先通過PCA白化技術進行預處理,去除了原始影像數據中的高冗余度與強相關性強,然后利用棧式稀疏自編碼器構建了深度神經網絡模型,通過無監督訓練得到遙感影像的學習特征,最后結合有標簽數據對Softmax分類器進行監督訓練,實現對農村建筑物信息的有效提取。實驗結果表明,與傳統的BP神經網絡相比,在應對計算量大、分辨率高的高分遙感影像的農村建筑物目標提取中,本文算法具有更高的提取精度。但若從農村占用耕地建房問題的需求出發,遙感影像農村建筑物的提取精度仍有待進一步提高。限制精度的原因可能是訓練數據集較小等,可通過加大樣本數據集、增加神經網絡的層數等方式,來進一步挖掘并充分發揮出無監督特征學習潛在強大的泛化能力,并借助并行計算等策略提高處理速度,以期取得更好的農村建筑物提取效果。