張寶燕
(晉中學院,山西 晉中 030600)
得益于衛星技術、無人機技術、遙感技術和攝影技術的發展,大范圍采集地理圖像成為可能,這給我們對地理空間信息進行分析提供了基礎。但是地理圖像數據由于體量龐大,又對研究者進行深入分析提出了挑戰。此外,將地理圖像分為不同的類型也是一個十分困難的問題,與常規的圖像分類不同,地理分類需要極其細微的特征,而地理圖像中特征差別可能在視覺感官上差別不大,因此分類難度較大。如圖1所示,其中可以看出,河流和道路在視覺感知上極為相似。

圖1 不同類型的地理圖像(左河流右道路)
深度學習技術的發展,為細粒度的地理圖像分類奠定了基礎,本文針對地理圖像信息研究的圖像分類部分進行深入研究,通過深度卷積神經網絡對大規模地理信息圖片進行監督學習,自動化地對大規模地理圖像進行分類。本文提出的方法能夠通過深度卷積神經網絡提取出地理信息圖像中的細粒度特征,采用多維融合的方式將特征進行融合,同時針對地理圖像特征差異度小的問題,將模式識別與分類相結合,提高分類的準確率。
本文的主要貢獻如下:(1)提出了一個有效針對地理圖像分類的深度卷積網絡;(2)將先驗性知識加入模型中,進一步提高分類性能。
本文主要針對地理信息圖像的分類工作進行研究,關于圖像分類的研究可以溯源到Haralick[1]于1973年提出的圖像紋理分類一文,但是受到時代的限制,其方法有著極大的局限性。隨著技術的進步,基于紋理的分類逐漸無法滿足高精度的地理信息圖像分類要求,隨著機器學習算法的出現,圖像分類逐漸進入到一個新的領域。
二十一世紀,隨著計算機硬件設備的發展,基于深度學習網絡的圖像分類方法逐漸成為主流。He K[2]在2016年提出的ResNet 通過將殘差連接用于特征重用和防止梯度消失方面,極大提高了圖像分類的準確度。Huang[3]將原本相加的特征結合方式改為通道級別的相連,極大提高了特征重用效率。2017年Jie[4]將注意力機制引入到圖像分類之中,與ResNet相比,其在不提高復雜度的基礎上有效提高了分類的性能。Radosavovic[5]從設計網絡空間并參數化網絡整體的角度出發,提出了RegNet 網絡,再一次提高了圖像分類的性能。Zhang[6]結合注意力機制和特征加權聚合方法,高效地捕捉到同道關系模塊,并將其置入到網絡中進行訓練,在分類、檢測和分割的任務中都有顯著提升。
針對地理圖像分類的研究較少,Yang[7]提出了基于協方差的迭代優化框架來針對高分辨率航拍機圖像進行分類,這是一種粗粒度的分類方式,能夠在一定程度上解決地理圖像分類的問題,但是對于僅存在細微差別的細粒度地理圖像,其分類效果不佳。Aodha[8]將拍攝地點和時間信息作為外部輸入信息加入到地理圖像分類任務中,其提出的分類方法結合了時間先驗性和空間先驗性,極大提高了細粒度圖像的分類效率,但是由于其分類準確率極大依賴于先驗性信息,因此本文思考是否在不加入額外信息的前提下提高分類性能。此外,Dornik[9]針對土壤類型進行分類研究,Haw ryo[10]通過植被或土地覆蓋面積進行分類等,都從不同的視角對地理圖像分類進行了研究。
為了提高細粒度層面的地理圖像分類的準確度,我們參考了Aodha[8]的方法,引入外部標記信息,但是與其不同的是,本文提出的是一種改進的基于深度卷積網絡的細粒度地理圖像分類方法,該方法的主要框架如圖2所示。

圖2 本文的算法框架
本文主要使用了8層卷積神經網絡,將標記好的地理信息圖像輸入到該網絡中進行訓練,具體步驟如下:
(1)收集地理圖像數據集GImage=[GImage1,GImage2,…,GImagen],并 將其進行標記Label=[Label1,Label2,…,Labeln],本文共標記地理圖像類別6 類,分別是森林、河流、水域、戈壁(荒漠)、城市和丘陵(山峰)。GImagei(i=1,2,…,n)意為第i類地理圖像的集合,Labeli 表示第i類地理圖像的標簽集合。
(2)將地理信息數據集隨機分為訓練集和測試集,其中80%的數據作為訓練集,20%的數據作為測試集。
(3)搭建模型,其中輸入層為256*256*3 的地理信息圖片,第1層至第6層為卷積層,每一層包含卷積層conv和池化層pool,池化層使用MAX 方法,除第1 層卷積層步長為4之外,其余卷積層的步長均為1。第7層和第8層為全連接層。
(4)使用訓練集中的地理信息圖像和對應標簽進行訓練,假設第i層為卷積層,那么當前層的第j個特征圖的計算如公式(1):

池化層的特征計算如公式(2)所示:

全連接層的特征計算如公式(3)所示:

其中yi-1是第i-1層中所有特征圖的加權結果。
本文使用百度衛星地圖作為數據源,我們隨機采集了地圖尺度為12-18 的圖像20000 張,每張圖片尺寸為256*256。數據集主要分為6類,具體如圖3所示。

圖3 地理圖像分類(分別為森林、河流、水域、隔壁、城市和丘陵)
本文分別對上述內容進行人工標記,并將其中的16000張地理圖像作為訓練集訓練分類模型,4000張地理圖像作為測試集測試模型的準確率。
本文根據3.1 節設計的卷積神經網絡提取地理圖像的特征,主要包括底層特征、底層組合特征、基本紋理特征、復合紋理特征、區域性特征以及具有類別性的分類特征。這些特征分別對應第1 到第6 卷積層,而網絡最終輸出結果是當前圖像的所有特征圖。其中各層特征具體如下:
第1層卷積核,主要提取地理信息圖像的底層特征,包括邊、線、角、弧等,其為組成地理信息圖像的最基本單元。
第2層卷積核,主要提取由底層特征組合而成的圖像特征,包括多邊形、圓、橢圓等,第2層特征可以簡單對應到地理信息圖像中的湖泊輪廓、山脈輪廓等簡單特征中。
第3層卷積核,主要提取地理信息圖像的基本紋理特征,包括紋理的稠密程度和粗細程度,根據第3層特征可以對應到地理信息圖像中繁茂程度不同的叢林,密集程度不同的水路網等。
第4層卷積核,主要提取地理信息圖像的復合紋理特征,主要是基礎紋理特征的組合,能夠更加詳細地對應到地理信息圖中的組成成分。
第5層卷積核,主要提取地理信息圖像中的區別性特征,即代表水域圖像的大面積不規則仿圓多邊形,代表森林的高密集數目等,該層特征已經能夠在一定程度上體現出地理信息圖像不同種類之間的差別。
第6層卷積核,主要提取地理信息圖像中的完整的辨別性特征,該層特征能夠很好地區分細粒度層面上的圖像差別,例如河流和道路在周邊環境中存在差別等,這些完整的辨別性特征能使我們的網絡很好地對地理信息圖像進行分類。
最后全連接層將全部特征進行計算,得出不同地理信息圖像的高層特征。
全連接層將卷積層的不同級別特征進行融合,首先需要對特征進行降維,我們使用線性判別分類(Linear Discrim inant Analysis)進行降維。LDA是線性降維算法,其主要目的是使得降維后的數據特征更加容易被區分。
本文輸入的地理信息圖像為256*256,那么每個像素為一個特征,會有65536個特征,而對應的標簽類別值有多種。這么多的特征不僅僅訓練復雜,而且存在很多不必要的特征,因此必須要進行特征降維。我們給定特征為d維度的n個樣例,其中n1個樣例歸為類別w1,n2個樣例歸則為類別w2。
本文的目標是盡可能地將原始特征進行降維,同時保證類別能夠保持準確度的情況下映射到低維數據中,即當前降維之后的維度能夠決定每種地理圖像的類別。本文將最佳維度向量標記為w,那么樣例x映射到w中的投影計算方式如下:

其中y表示的是x投影到直線上的點到原點的距離,其樣本均值如下:

即投影后的高維信息均值就是地理信息圖像維度中心點的投影。特征融合主要是全連接層對多維特征的融合,融合計算公式如下:

Y為整個網絡訓練之后的特征向量。
為了能夠進一步提高圖像分類性能,我們在訓練開始之前引入了先驗性知識。本文的先驗性知識是除去基本標記之外的圖像信息內容,例如在圖1左中,本文除了標記該圖像為河流圖像外,還進行了更加細致的標記,具體為[河流,城市,丘陵],即將更加細節的標簽信息進行標記。
由于地理信息圖像的復雜性,在同一張圖像中可能存在多種明顯的地理特征,因此在分類中存在同一張圖片的具有多種類別的情況,我們根據最高概率為主的方式,即分類器預測該圖像為何種類別,則將該圖像標位該類別。
本文在測試集中的分類結果具有較高的準確率,部分識別結果如圖4所示。

圖4 測試集分類結果
由圖中可以看出,本文的深度學習網絡對于城市、水域、戈壁、河流的分類結果較好,而對于丘陵和森林的分類結果相對較差,本文認為這是由于丘陵和森林在細粒度層面上的特征依舊較為相似所致,同時還由于丘陵往往由森林覆蓋,因此在分類過程中較難明確當前地理信息圖像是屬于丘陵還是屬于森林。
我們與Zhang[11],Wan[12]的方法進行對比,具體準確率如表1所示。

表1 三種算法的對比
本文針對地理信息圖像分類困難的問題,設計并提出了深度卷積網絡框架,通過監督學習的方法有效地對地理信息圖像進行分類。
此外,針對地理信息圖像特征復雜的問題,本文使用LDA降維算法對高維地理信息圖像進行降維,同時將先驗性知識加入到網絡訓練之中。同時本文將地理信息圖像的特征分為6個維度,分別為底層特征、底層組合特征、基本紋理特征、復合紋理特征、區域性特征以及類別特征。
本文與已有方法進行對比測試,根據結果顯示,本文的方法的訓練時間較長,但是準確率和平均誤差有所提升。但是本文的方法依舊存在一些不足,例如對于森林圖像和丘陵圖像難以區分等,本文認為這是由于丘陵往往密布森林所致。除此之外,本文的算法效率依舊有較大的提升空間。