謝躍輝,李百壽,2,劉聰娜
(1.桂林理工大學 測繪地理信息學院,廣西 桂林 541004;2.廣西空間信息與測繪重點實驗室,廣西 桂林 541004)
城市建筑物信息對城市規劃與管理領域有著重要的應用價值。在遙感影像建筑物信息提取方面,產生了諸如建筑物形態學指數、局部結構(邊、線和角)等幾何約束及視覺機制、感知編組等諸多方法[1-5],通過上述方法可以很清晰地闡釋遙感圖像建筑物信息提取的全過程。但模型創建過程的復雜度較高,建模的人工成本也較高,有時針對特征選擇具有主觀性,無法快速選擇最優特征,需要進行多次優選,才能發現對提取精度有較大影響的關鍵特征,且所設計的模型無法應用于城市各種類型的建筑物提取,對不同形狀類型、不同語義干擾環境下的建筑物提取精度也會產生不同的影響。
隨著卷積神經網絡(convolutional neural networks,CNNs)精度和性能的逐步提高,近年逐漸成為國內外圖像識別領域人員的關注重點和熱點。Long等[6]通過卷積層代替CNNs的全連接層,以端對端的方式直接學習從圖像像素到類別標簽的映射,提高了圖像分類的精度。目前在網絡結構[7-9]、分類策略[10-12]方面對標準數據集開展了相關優化研究,調節網絡深度和網絡結構參數,但對網絡輸入圖像的選擇,主要采用原始圖像旋轉、加噪等預處理,對原圖像變換和多特征提取后的重構特征圖像對分類結果的影響開展的工作較少。
僅采用原始輸入光譜圖像無法進一步提高建筑物提取的精度,可以采用多種特征描述作為卷積網絡的輸入數據,如尺度特征與紋理特征、幾何形狀特征等。多特征可以增加地物類別之間的可分離性,如紋理特征的使用會產生理想的分類效果[13-16]。以局部二值模式(local binary patterns,LBP)特征為例,在一些研究中,紋理信息對提高提取精度至少有2%左右的幫助[15]。又如LBP紋理特征與光譜信息結合,比僅采用光譜信息,相對精度提高了6%~9%[16]。在多尺度特征提取方法中,高斯金字塔是一種常用且有效的特征提取方法[17-20],一些研究結果顯示也提高了分類精度。如周全等[17]通過引入高斯金字塔獲取多尺度遙感云圖,在采用相同算法與分類器的條件下,高斯金字塔的引入使得分類精度提高了2.73%。在車牌照圖像提取方面,劉軍等[19]結合高斯金字塔與梯度方向直方圖的方法提取車牌漢字特征,在相同的樣本空間下,高斯金字塔的引入與傳統的K-L變換及HOG變換在精度上分別有著33.7%和19.4%的提升。根據上述規律,本文首先利用LBP紋理結合高斯金字塔尺度模型,獲取高分影像紋理特征以及多尺度特征,并以此為數據源構建卷積網絡深度學習樣本集,結合SegNet卷積網絡對多特征影像進行分類,采用條件隨機場模型對分類結果進行優化。
首先,通過LBP對高分影像進行紋理特征提取,并選取適當尺度參數由高斯金字塔獲取影像多尺度特征,在此基礎上同原始影像共同構建樣本數據集,增強網絡對于建筑物多尺度信息和紋理特征信息利用;其次,對含有影像光譜、紋理及多尺度等特征的數據集進行卷積、池化等前向傳播計算,得到影像特征圖;然后,將影像特征圖進行反向解碼,通過重復使用最大池化索引,改善邊界劃定,減少訓練參數,并通過標簽數據反向傳播算法更新網絡權重;接著,將特征向量輸入Softmax進行逐像素分類,輸出每個像素隸屬于各個類別的概率,完成建筑物粗提取;最后,通過條件隨機場(conditional random field,CRF)優化邊界信息,完成建筑物的精細輪廓邊界提取。本文方法的具體流程如圖1所示。

圖1 方法步驟原理框圖
將待處理像素與周圍8個像素進行比較,若像素值比中心像素值大,賦值為1;若像素值比中心像素值小,則賦值為0,獲取二進制序列。隨后對獲取的二進制序列不斷地進行旋轉,獲得LBP旋轉不變模式特征,其計算如式(1)所示。
(1)
式中:(xc,yc)為中心像素;ic為灰度值;ip為相鄰像素的灰度值;s為符號函數,采用式(2)計算。

(2)
高斯金字塔尺度-光譜特征生成過程包括:對原始光譜影像進行高斯平滑濾波,平滑后對輸出影像進行降采樣處理,獲得設定尺度因子下的尺度-光譜特征。其中尺度因子有著重要作用,決定了尺度-光譜特征影像的平滑程度。
高斯金字塔多尺度特征提取方法如下:設原始二維影像表示為I(x,y),高斯函數表示為G(x,y,σ),通過式(3)、式(4)構造高斯尺度空間L(x,y,σ)計算式。
L(x,y,σ)=G(x,y,σ)?I(x,y)
(3)
(4)
式中:(x,y)為空間坐標;?為卷積運算符;σ為尺度因子。
SegNet網絡模型在每一個卷積層之后都緊跟一個批歸一化(batch normalization,BN)層。解碼器部分同FCN一樣,舍棄全連接層,取而代之的為一系列的卷積操作,并且每個編碼器層都與相應的解碼器層對應,實現一個端到端架構。在池化過程中引入最大池化索引信息,保存了最大特征值所在的位置。在解碼過程中,通過池化索引來實現非線性的上采樣,使得邊界信息得以保存。在解碼過程中重復使用最大池化索引,不僅改善了邊界的劃定,同時也減少了進行端對端訓練的參數,是擁有較少參數的輕量級網絡,有著存儲效率高和速度快等優點,非常適合本文的研究。
在網絡輸出分類后,采用條件隨機場對網絡輸出進行優化。條件隨機場是由各像素之間的相關關系作為邊構成,其中每個像素節點i具有對應的類別標簽xi,以及特征映射值yi。其滿足吉布斯分布,見式(5)。
(5)
式中:E(x|I)為能量函數,如式(6)所示。
(6)
(7)
為深入研究多種影像特征及卷積神經網絡對城市建筑物提取的影響,本文分別從紋理因素、尺度因素以及卷積網絡優化因素(原始影像張數、樣本個數、迭代次數)對實驗進行設計。以實驗1作為基礎實驗結果,并在此基礎上依次加入紋理特征或多尺度特征,構建實驗2與實驗5的設計內容。實驗3、4、6分別考慮網絡優化因素的影響,用于調節網絡模型。具體實驗參數設計如表1所示。

表1 實驗參數設計
為探究模型對相同數據源下不同研究區域的泛化能力以及同其他方法間的性能比較,本文以實驗6訓練所得模型對不同研究區進行預測,并同其他方法進行對比分析。同時,為進一步探究本文所提出方法對不同數據源是否具有較好的泛化能力,對武漢大學的國內航空影像也進行預測分析。
實驗運行環境為Win7 64位操作系統,以TensorFlow+Keras開源深度學習框架作為開發平臺,利用基于Python的cv2、matplotlib等第三方庫進行數據預處理及繪制等操作。硬件環境為因特爾Core i7-7700 K處理器,搭配NVIDIA GeForce GTX 1070顯卡,8 GB顯存,CUDA 9.0加速計算。

圖2 訓練與測試影像選取
本文采用的數據同文獻[21]中使用的馬薩諸塞州航空影像建筑物數據集(含地表真實標簽數據)。該數據集為1 m高分辨率影像,對高分辨率遙感影像來說是具有代表性和典型性的,對于國內的高分航空航天遙感影像具有啟發意義,且該數據集數據量較豐富,比較適合做探究。該數據集包括波士頓地區的151幅航空影像,每幅影像大小為1 500像素×1 500像素,覆蓋面積2.25 km2。影像集中小型建筑物邊長為20~30像素,大型建筑物長為150~250像素,寬為70~150像素。實驗1~實驗5從訓練圖像中抽取1張影像進行預處理,如圖2(a)所示。實驗6在基礎實驗上增加分類訓練圖像數量到8張。測試集影像為3張,分別為不同區域下的馬薩諸塞州航空影像建筑物數據,圖2(b)為其中一幅。
1)紋理與多尺度特征提取。考慮到基于復雜場景下的建筑物往往存在大量的陰影,植被、復雜屋頂材料等因素交雜在一起,單獨依靠影像的光譜特征、空間特征進行建筑物提取,效果往往不是很理想,本文方法利用LBP算法引入基礎視覺中的紋理特征,將提取的紋理特征加入訓練集參與模型訓練。同時基于高斯金字塔模型對原始訓練影像進行多尺度光譜特征提取,其中尺度因子平滑系數設置為0.5,獲取750×750和375×375 2個尺度的尺度-光譜特征圖像,如圖3所示。

圖3 多特征影像
2)訓練樣本集制作。對樣本尺寸與建筑物尺寸關系研究后發現,利用256像素×256像素的尺寸既滿足建筑物識別提取分辨率的需要,又可滿足本實驗硬件環境下計算效率需求,因此采用OpenCV對原始訓練影像隨機裁剪256像素×256像素大小樣本,形成樣本集。同時采用多角度旋轉(90°、180°、270°)、鏡像變換、亮度調整以及添加噪聲點等虛擬樣本增強操作擴充樣本集,樣本集中訓練集和驗證集樣本數目比例設計為3∶1,測試集選取馬薩諸塞州航空影像建筑物數據集中未參與模型訓練的3幅原始1 500像素×1 500像素大小的不同區域影像數據進行預測,以此來探究模型的泛化能力。
圖4為光譜、紋理和光譜-多尺度特征圖像及其標簽,圖4(a)~圖4(c)為光譜、光譜-尺度圖像標簽,圖4(d)為紋理圖像標簽。

圖4 訓練樣本及其標簽
網絡由13個卷積層和5個池化層組成,卷積網絡采用大尺寸的卷積核可以獲得更大的感受野,但同時也增加了參數量。為獲得最優感受野,本文將卷積核大小分為3×3、5×5、7×7 3種情況,在相同環境下進行實驗分析。通過對每種情況進行3次實驗,獲取相對應的精度及所需時間,求取3次平均值作為最終結果,如表2所示。實驗表明,以3×3作為感受野能獲得較好召回率和F1評分,而時間成本上卻有著大幅度的縮減。因此,本文選擇以3×3作為本實驗的最優感受野進行實驗分析。

表2 不同卷積核對比
(8)
式中:yi為第i個像素的真實值,yi=0表示該像素屬于背景區域,yi=1則表示該像素為建筑物區域;ai為預測值,取值范圍為(0,1)內,ai越趨近于1,則該像素屬于建筑物的概率就越高。訓練過程采用隨機梯度下降(SGD)不斷調整網絡的權重參數,通過反向傳播使得損失函數L達到最小。文中使用來自Vggnet的所有預先訓練的卷積層權重作為預先訓練的權重,其中學習率初始值為0.01,受限于計算機資源批次大小設置為4。在模型訓練之前,數據標準化是必要的。本實驗采用0均值歸一化方法將RGB影像[0,255]歸一化到[0,1],使得網絡輸入限制在一定范圍內,避免了訓練樣本差異造成的訓練過程不收斂,加速梯度下降優化過程。以實驗6為例,迭代20次之后,模型的損失率隨著訓練數據的損失率的減少而逐漸收斂。
Softmax分類器采用逐像素分類,通過分類概率最大值確定最終類別結果。采用Softmax分類器對實驗1~實驗6進行建筑物分類提取,同時采用CRF法對實驗6分類結果進行優化。
為探究模型對相同數據源下不同研究區域的泛化能力以及同其他方法間的性能比較,本文以實驗6訓練所得模型對不同研究區進行預測,并同其他方法進行對比分析。同時,為進一步探究本文所提出方法對不同數據源是否具有較好的泛化能力,對武漢大學的國內航空影像也進行預測分析。
1)提取結果誤差分布分析。實驗1~實驗6提取結果如圖5(a)~圖5(f)所示;采用條件隨機場優化結果如圖6所示;不同方法下馬薩諸塞州航空影像建筑物數據集不同研究區的提取結果如圖7所示;不同數據源下提取結果如圖8所示。利用ENVI軟件結合已知建筑物標簽樣本,對建筑物提取結果中的誤差分布進行標記,紅色標記為錯分像元,藍色標記為漏分像元,綠色顯示為正確提取像元。
多特征因素影響分析。圖5(a)顯示加入多特征前提取結果包括很多錯分和漏分像元;加入LBP紋理特征,建筑物提取精度有著顯著提高,錯分像元減少。在對比紋理加入前后影像發現,加入的紋理特征對于剔除與建筑物屋頂光譜產生混淆的水泥地面具有很好的作用,容易從水泥地面中提取出建筑物,如圖5(b)所示。在紋理特征的基礎上加入多尺度特征提取結果誤差分布如圖5(e)所示。

圖5 不同實驗設計的提取結果
網絡參數對提取結果的影響。為獲取最優網絡參數,分別從迭代次數、樣本數量以及原始影像張數入手。由圖5中的(c)可以看到,在10 000個樣本數量、迭代次數為10的條件下,分割結果中存在大量的漏分像元;迭代次數增加有利于提高模型對于建筑物深層特征的學習效果,減少漏分現象(圖5(d));樣本數量的增加可以增加可學習的特征,進而區分與背景易混淆的小尺度建筑物,進一步減少漏分像元,提取結果如圖5(e)、圖5(f)所示。
對圖5(a)~圖5(f)綜合分析發現,紅色錯分像元主要分布在建筑物的邊緣。建筑物被植被遮擋,較小的卷積核(3×3的卷積核)降低了網絡的感受視野,對像元鄰域信息利用不足是錯分像元產生的主要原因。采用條件隨機場優化結果如圖6所示,與圖5相比,增加了正確提取的建筑物像元個數。
路基路面防水處理在設計階段和施工階段需要遵循的事項如下:(1)在設計階段,要降低或是阻隔可能影響公路路基路面整體穩定性的地下水,必要情況下,可疏干地下水,將地下水引流至路基路面施工范圍以外,對于影響路基路面整體穩定性的地面水,采取同樣的引流方式,可適當攔截,防止地面水沿公路路面下滲;(2)在施工階段中,要對路基路面防水設計進行核對,根據施工現場實際情況對設計方案進行必要的修改或是完善,確保后期施工穩妥。在路基施工現場要預先設置臨時排水渠道。同時在后期的路基養護中要對排水設施進行定期檢修,以保證沉降在路基路面的水能夠及時被導出并排除[1]。
不同方法下不同研究區間的對比實驗。為探究模型對相同數據源下不同研究區域的泛化能力,本文以實驗6訓練所得模型對不同研究區進行預測,并同其他方法進行對比分析;通過與Lenet神經網絡以及傳統監督分類方法進行對比實驗,驗證本文提出方法的可行性。實驗結果如圖7所示。對比本文模型在馬薩諸塞州3個不同區域的提取結果可以看出,相對于圖7(a)區域1來說,圖7(b)區域2與圖7(c)區域3存在較多的漏分,其原因主要在于,圖7(b)區域2與圖7(c)區域3位于鄉村與郊區地區,植被茂密,存在較多的建筑物被植被覆蓋以及陰影的遮擋現象,導致漏分像元較多;另一方面由于個別標簽中存在的建筑物在實際影像中未有與之對應的建筑物,而造成漏分,進而影響整體的精確率。

圖6 實驗6+CRF提取結果

圖7 不同方法下不同研究區提取結果
將本文方法與Lenet方法及傳統監督分類方法中的最大似然法進行對比可以發現,在相同數據、相同實驗環境下,只存在模型差異的2種卷積神經網絡方法都能比較好地區分地物,進而更好地提取建筑物。而相對于Lenet模型而言,本文所使用的SegNet模型對更為復雜的區域的提取效果優于Lenet模型,如區域1,而對于道路與建筑物的區分度更強,如區域3。對照最大似然法提取結果可以直觀看出,相對于卷積神經網絡算法,最大似然分類算法很難有效地區分出建筑物與道路,造成大量的錯分。
不同數據源下模型泛化能力探究。為進一步探究本文所提出方法對不同數據源是否具有較好的泛化能力,以實驗6訓練所得模型對武漢大學的航空影像進行預測,預測結果如圖8所示。從圖中可清晰地看出,針對國內建筑物提取,直接利用已有的訓練模型進行提取效果不是很理想,存在比較多的漏分和錯分現象。其中,漏分部分主要因素是建筑物屋頂被綠色植被覆蓋,以及一些建筑物差異性較大;而錯分部分主要來源于建筑物周圍陰影的影響,以及河流中的船只被錯分成建筑物。

圖8 不同數據源下提取結果
2)精度評價。為進一步對本文所提方法的有效性進行驗證,對分類結果作進一步分析,以精確率、召回率和F1評分3個指標來定量評價模型預測的精度。
加入特征后的精度情況。從表3中對比實驗1與實驗2的定量精度評價指標可以看出,將紋理特征加入模型進行訓練確實能提高預測精度,精確率P、召回率R以及F1評分3個指標分別提升了7.58%、2.83%和4.81%。對比實驗2和實驗5可以發現,采用高斯影像金字塔構建多尺度特征對模型的精度產生影響,其中精確率和F1評分分別提升了0.63%和0.17%。對比實驗1與實驗5可以發現,基于紋理信息和多尺度特征增強下的建筑物提取精度取得了進一步提升,3個指標分別提高了8.01%、2.71%和4.98%。同時也顯示了2種特征對提升分類精度貢獻不同:提取大小2個尺度的特征光譜,分別表征高分影像的光譜多尺度特征,與紋理特征相比,對卷積網絡深度學習分類結果精度影響較小,對精度貢獻較小。

表3 不同組實驗精度對比 %
網絡優化后的精度情況。從實驗3與實驗4看,循環訓練的次數在一定范圍上對模型訓練的精度是有益的,不管是精確率、召回率,還是F1評分都有大幅度的提升,分別為4.10%、9.96%和9.64%。對于實驗4與實驗5來說,訓練樣本的數目對模型的預測精度起到了決定作用,隨著樣本數據的增加,模型也得到質的提升,3個指標分別提高了4.79%、17.31%和13.81%。在實驗6中,加入另外7張1 500像素×1 500像素的建筑物數據集,并通過LBP提取相應的紋理特征,以及多尺度特征的提取,以此分割成100 000個樣本數據集進行模型訓練,精確率達到了80.35%,表明增加樣本數據的數量及特征對模型精度的提高有著很好的促進作用。
條件隨機場優化后的精確率相較于優化前有著大幅度的提升,精確率增加了12.38%, CRF對于邊緣正確提取精度有著較好的效果,但召回率下降了2.40%,F1評分整體增加了3.16%。
不同方法下不同研究區間的精度情況。表4列出了本文方法、Lenet方法以及傳統監督分類的最大似然法對馬薩諸塞州區域1、區域2與區域3(依次從上到下順序)共3個不同區域進行的定量分析。可以看出,對于精確率而言,存在一定的跳躍,即漏分像元數量存在較大差異。其原因與“提取結果誤差分布分析”中對應部分相吻合。本文方法對區域1的精確率最高,達到80.35%。對于召回率以及F1評分而言,均較為穩定,介于66%~77%之間。對比本文方法與其他2種方法可以看出,本文方法與Lenet卷積神經網絡方法相對于傳統的監督分類方法,能更好地區分不同地物,具體體現在召回率上,最大似然法的召回率最高只達到26.40%,而卷積神經網絡方法平均有70%以上的召回率。而對比同為卷積神經網絡且在完全相同的數據下的本文方法與Lenet卷積神經網絡方法,在精確率上,本文方法3個區域的平均精確率比Lenet方法高1.36%,而在平均召回率上,僅有著0.19%的微小差距。

表4 不同方法下不同研究區域實驗精度表 %
不同數據源下提取精度情況。從表5武漢大學國內航空數據精度上可以看出,直接將本文訓練所得模型應用于不同數據源航空數據,在精確率、召回率以及F1評分上也有著相對較好的精度,分別為43.00%、68.52%以及52.84%。

表5 不同數據源實驗精度表 %
本文通過建筑物提取理論和實驗研究提出一種基于多種特征與卷積神經網絡的城市建筑物提取方法,從數據增強的角度出發,研究了紋理特征和尺度特征對CNN模型分類精度的影響研究。采用LBP和高斯金字塔來分別獲取高分影像的紋理特征和多尺度特征,并將其輸入卷積神經網絡中參與建筑物提取。結果表明,紋理、尺度、光譜等多特征SegNet網絡模型方法實現的準確率、召回率、F1評分分別為92.73%、65.39%、76.70%。將紋理特征和尺度特加入模型進行訓練可以提高預測精度,精確率、召回率以及F1評分3個指標分別提升了8.01%、2.71%和4.98%。與紋理特征相比,尺度特征對精度貢獻較小,其中精確率和F1評分分別提高了0.63%和0.17%。網絡優化結果表明:增加循環訓練次數對模型訓練的精度是有益的,不管是精確率、召回率還是F1評分都有著大幅度的提升,分別為4.10%、9.96%和9.64%;訓練樣本的數目對模型的預測精度起到了決定作用,本文研究發現隨著樣本數據的增加,3個指標分別提高了4.79%、17.31%和13.81%。條件隨機場優化后的精確率相較于優化前有著大幅度的提升,增加了正確提取建筑物像元的個數,精確率增加了12.38%, CRF對于邊緣正確提取精度有著較好的效果,但召回率下降了2.40%,F1評分總體增加了3.16%。
通過對比不同方法下不同研究區間的精度情況表明,基于本文方法所獲取的模型對相同數據源下不同研究區域的泛化能力較好,平均精確率68%以上,平均召回率在72%左右,相對于Lenet卷積神經網絡精確率有著1.36%的提升;而對于傳統監督分類算法在平均精確率、召回率以及F1評分上,分別有著6.96%、51.69%和39.33%的提高。
對比不同數據源下提取精度情況表明,直接將本文訓練所得模型應用于不同數據源航空數據在精確率、召回率以及F1評分上也有著相對較好的精度,分別為43%、68.52%以及52.84%,但與直接應用于相同數據源下的精度還存在較大上升空間。
本文使用馬薩諸塞州1 m高分辨率影像建筑物數據集,對高分辨率航空航天影像而言具有代表性和典型性,對于國內的高分航空航天遙感影像具有一定的啟發意義。為了進一步研究提升結合多種特征和CNN方法的精度,將來可采用其他高分遙感標準化數據集做進一步處理研究。針對不同數據源分類精度有待提高的問題,可在已有的基礎上通過遷移學習做進一步的研究,同時開展更多特征融入卷積網絡的實驗研究,例如形狀特征如何融入,目前尚未有很好的解決思路和研究。此外,研究中也發現通過條件隨機場方法對預測結果做進一步精細化處理,可以提高建筑物提取的精確率和F1評分指標值。