陳 斌,王宏志,徐新良,王首泰,張亞慶
(1. 華中師范大學城市與環境科學學院地理過程分析與模擬湖北省重點實驗室,湖北 武漢 430079; 2. 中國科學院地理科學與資源研究所資源與環境信息系統國家重點實驗室,北京 100101)
近年來,伴隨著人工智能技術的應用推廣及卷積神經網絡模型結構的不斷優化,深度學習技術在圖像識別[1-3]、模式識別[4-5]、語音識別[6-7]、自然語言處理[8-10]等領域取得了一系列研究進展,這使得學術界不少地理學者開始關注深度學習這一研究領域。當前,國內外已有部分學者將深度學習技術應用于遙感分類研究之中[11-15],借助深度學習技術開展地物遙感分類研究已逐漸成為現代地理學遙感領域的研究熱點之一。
當前,基于衛星影像分類方法大致可劃分為兩類:一類是傳統基于像素值遙感分類方法,其實質即根據地物光譜特征差異對像元進行空間聚類分析,并將亮度值差異較小的像元歸屬為同一類別,多用于中低分辨率遙感影像分類研究[16-18];另一類是面向對象的遙感分類方法,它將待分類影像視為有聯系的地塊單元,不再局限于單個像元[19],在分類過程中不僅考慮地物光譜特征,還引入地物形狀、結構及紋理等信息特征參與分類,多用于中高分辨率遙感影像分類研究[20-21]。
以上兩種方法雖然能滿足現代地理學遙感分類研究的基本需要,但由于中分辨率遙感影像分類過程中同譜異物和同物異普現象的存在,使得傳統基于像素遙感分類結果中常會出現不同程度的椒鹽噪聲。雖然面向對象分類方法能在一定程度上減少椒鹽噪聲的出現,但其在執行分類操作之前需要手動篩選出最優特征值,建立起分類規則。分類規則的建立通常需要反復嘗試且執行分類操作過程耗時較長。基于這一思考,本文擬選用武漢市為研究區,基于GoogleNet模型中的Inception V3網絡結構,借助遷移學習方法構建出遙感分類模型,并利用該模型實現對研究區地物的自動化分類提取,同時將分類結果與傳統ML分類結果進行對比分析。研究表明:基于深度學習技術的遙感分類方法,在中分辨率影像中的分類精度明顯優于ML分類精度,且有效抑制了傳統像素分類方法過程中可能出現的地物混分問題,實現了機器對衛星影像的智能化自動分類提取過程。
武漢市位于江漢平原東部的長江中下游平原,東臨鄂州、西接孝感、南連咸寧、北通黃岡,長江和漢江貫穿而過,“兩江三鎮”形成了武漢最基本的地理分布格局。武漢市現轄13個區,包括7個中心城區和6個遠郊城區。本區屬于亞熱帶季風濕潤性氣候,冬季盛行偏北風,夏季則盛行偏南風。氣候溫暖而濕潤,年平均氣溫在18.1℃,年均降水量900~1400 mm,四季分明,雨熱同期。地勢整體呈現西高東低態勢,平原丘陵交錯分布,地貌類型主要以平原為主。區內自然資源豐富,河流湖泊眾多,水熱組合條件優越,農業自然資源稟賦得天獨厚,因而享有“魚米之鄉”的美譽。
本文選取研究區2016年5月12日Landsat 7 ETM+衛星影像和2016年2月2日高分2號影像作為研究基礎數據(來源于中國科學院資源環境科學數據中心,http:∥www.resdc.cn)。與Landsat 5 TM影像相比,Landsat 7 ETM+衛星影像不僅增加了空間分辨率為15 m的PAN全色波段,同時第6波段空間分辨率也由TM 5的120 m提高到了60 m。高分二號衛星擁有兩臺成像光譜相機:一臺空間分辨率為1 m的全色光譜相機,星下點空間分辨率達0.8 m;另一臺為空間分辨率4 m的多光譜相機,星下點空間分辨率為3.2 m。數據預處理主要包含Landsat影像的幾何校正、配準及對精校正后的高分二號影像的多光譜和全色影像進行融合處理,得到研究區分辨率為0.8 m的高分遙感影像。
根據研究區地物類型結構特征將用地類型劃分成不透水層、植被、水體和其他用地(主要指裸土及灘涂)等4類。在執行遙感分類之前通常需要建立起樣本數據集,而樣本數據集選取是否準確且具有代表性將直接影響到后期模型訓練效率與模型分類精度的高低,因此本研究借助與遙感影像成像時間相對接近的高分影像和歷史谷歌影像,通過目視解譯方法,分亮度分區域選取上述4種類型用地樣本各500塊,再分別按照3∶1∶1隨機選取訓練樣本,驗證樣本和測試樣本數據集。
首先對研究區Landsat 7影像進行多尺度分割,結果如圖1所示,借助研究區高分影像進行目視解譯驗證,選取分割參數為30,形狀因子權重和緊湊度因子權重參數分別為0.4和0.6的矢量分割結果對影像進行批量裁剪,得到待分類影像斑塊;然后,通過機器對訓練樣本進行分層學習,提取樣本影像中的底層特征形成抽象的高層屬性特征數據集,再利用特征數據集訓練分類模型;最后利用模型對研究區影像斑塊進行自動提取。
GoogleNet深度卷積神經網絡結構簡潔,其最大特點在于它的Inception網絡結構(如圖2(a)所示),與傳統Inception結構GoogleNet模型相比,它不僅減少了過濾器及模型訓練參數個數,而且最大限度地增加了網絡深度及寬度,使得模型性能較引入Inception結構之前提升了2到3倍。而Inception V3(如圖2(b)所示)在Inception Module結構的基礎上進一步優化,它通過分解因式思想將Inception Module中的多維卷積層拆分成多個較小的一維卷積層,從而實現了在縮減模型參數的同時,也有效抑制了模型在訓練過程中可能出現的過擬合問題。
在深度學習遙感分類模型構建中,訓練樣本數量、卷積神經網絡的寬度、深度等都會影響到模型最終分類精度高低。若訓練樣本數量過少,模型很容易出現過擬合現象;若樣本數量滿足要求,增加網絡模型深度,模型訓練參數數量便會成倍上漲,模型訓練耗費的時間成本也隨之增加,而且越到后期下降梯度也越容易消失,使得模型難以進行優化。為此,本研究借助遷移學習方法,從GoogleNet模型中的Inception V3網絡結構中提取卷積層和池化層作為分類模型的特征處理器來提取樣本數據集特征,再將提取到的特征集傳入Logistic分類器中參入訓練,通過訓練樣本訓練網絡模型,并用驗證樣本去驗證模型精度,不斷調整模型學習率、Batches和Epochs等參數大小,省去了模型中大量參數的重新構建,從而極大地提升了分類模型的構建效率。
深度學習模型常由5部分組成,即輸入層、卷積層、池化層、全連接層和輸出層。其中卷積和池化層是深度學習神經網絡隱藏層的核心組成部分,卷積層主要通過卷積核對要素特征進行自動提取,而池化操作主要是在卷積操作的基礎上,對目標要素的特征進行二次采樣,這進一步提高了模型算法的穩健性。基于深度學習方法遙感自動分類即通過模型中的卷積和池化等操作,實現對影像斑塊特征集的抽樣提取,形成影像斑塊特征數據集矩陣,隨后指導模型對特征數據集進行深度學習,最終利用從特征數據集中學習到的“經驗矩陣”指導模型對影像斑塊進行自動分類的過程。
為驗證本文研究方法在中分辨率遙感影像分類中的可行性,將其分類結果(如圖3(a)所示)與傳統ML法分類結果(如圖3(b)所示)進行對比分析。由圖3可知,傳統ML方法分類結果中,地物斑塊多呈破碎狀分布,而且由于同譜異物或同物異譜現象的存在,地物像元混分現象較為嚴重,而本文提出的基于深度學習技術的遙感分類方法則有效抑制了地物混分現象;同時也在一定程度上減少了分類過程中出現的椒鹽噪聲。由此可見該方法在中分辨率遙感影像地物分類應用研究中具備較高的可行性,能夠滿足研究的基本需要。
本研究采用隨機抽樣方法對分類結果進行精度評價[22],在研究區范圍內隨機生成300個驗證樣本點,結合研究區高分影像和歷史谷歌影像,通過人工目視解譯人機交互模式對結果進行精度驗證和評價見表1。

表1 ML和深度學習分類方法分類結果混淆矩陣
總體分類精度和Kappa系數是用來評價遙感分類結果的量化指標,總體分類精度即為樣本中所有被正確分類的樣本數量之和與驗證樣本總數的比值,被正確分類樣本類別數量即沿混淆矩陣的對角線分布。本研究中的驗證樣本總數大小為300,Kappa系數取值范圍在0~1之間,越接近1,表明分類的精度越高。本文分別對兩種方法的遙感影像總體分類精度、Kappa系數進行綜合分析和評價。Kappa系數計算公式為
(1)
式中,N為驗證樣本總數;Aij為驗證結果混淆矩陣中第i行第j列的樣本數量;Ai+和Ai-分別為第i行和第i列總像素個數;n為研究區樣本類型數量。采用混淆矩陣得到兩種分類方法精度評價結果見表2。由結果可知,本文研究方法總體分類精度高達88.33%,Kappa系數為0.834 2,總體分類精度和Kappa系數均高于傳統ML方法總體分類精度83%和Kappa系數0.755 0。傳統ML方法分類結果中(見表2),除其他用地制圖精度較低外,其余3種類型用地制圖精度均在80%以上,其中不透水層分類精度最高,為88.07%;其次為水體和植被,分別為87.67%、83.33%。總體來看,不透水層、植被和水體的分類精度較高,而其他用地錯分誤差相對較大,這是由于研究區其他用地面積整體占比較小,而且多是以灘涂和裸土地為主,而裸土與不透水層之間的光譜特征差異不如植被和水體顯著,因而錯分或漏分現象較多。而不透水層、植被和水體三者間的光譜特征差異較大,因此各類型的分類精度較高。在基于深度學習方法遙感分類結果中,不同地物類型邊界相對清晰且整齊劃一,較少出現破碎狀圖斑,而且各類型用地分類精度均優于ML方法。
本研究基于中分辨率衛星影像,分別運用深度學習方法與ML分類方法對武漢市主城區4類典型地物進行分類提取研究,并對分類結果進行精度驗證和評價。本文主要結論如下:
(1) 基于深度學習技術的遙感分類方法總體精度高達88.33%,明顯優于ML法分類精度83%,表明該方法在中分辨率遙感影像分類提取研究中具備較高的可行性,能夠滿足遙感影像分類研究的基本需要。

表2 ML方法和深度學習方法的錯分誤差、漏分誤差、制圖精度與用戶精度
(2) 在研究區4種典型地物類型分類研究中,ML方法分類結果中不透水層、植被和水體的錯分和漏分誤差整體均低于其他類型用地,這是由于這3類地物像元亮度差異較大,而其他用地主要指裸土及灘涂,裸土地與不透水層的光譜特征較為接近,僅僅根據地物光譜特征差異很難將它們區分開,最終導致總體分類精度不高。深度學習方法在地物光譜特征的基礎上加入形狀、結構及紋理等特征參入分類,使得各用地類型分類精度均有不同程度的提升,這表明引入形狀及紋理結構特征對分類精度的提升是有效的。
(3) 基于深度學習技術的遙感分類方法不僅有效抑制了傳統方法在分類過程中產生的椒鹽噪聲,而且在一定程度上減少了地物像元混分現象。表明在中尺度遙感影像分類研究中,深度學習分類方法比傳統ML方法具備更高的可行性及適用性,這也為今后遙感影像智能化解譯研究提供了一種新的視角。
與傳統ML分類方法相比,深度學習分類方法在中分辨率影像地物分類研究中取得了較好結果,但這是建立在對研究區遙感影像取得較為理想分割參數基礎之上的,畢竟遙感影像分割參數選取是否合理,將直接影響到模型最終分類精度的高低。通常不同類型傳感器和不同空間分辨率衛星影像分割參數之間存在較大差異,如何針對不同研究區域和不同空間分辨率的衛星影像選取合適的分割參數,還有待進一步研究。