焦學軍,趙春峰,張瑞香*,王金娜
(1. 河南省地質礦產勘查開發局測繪地理信息院,河南 鄭州 450000;2. 中化地質(河南)勘測規劃設計院有限公司,河南 鄭州 450000;3. 河南省天空地遙感智能監測工程技術研究中心,河南 鄭州 450000;4. 河南省自然資源天空地遙感智能監測研究科技創新中心,河南 鄭州 450000)
隨著衛星資源的快速發展和深度學習技術的進步,利用遙感影像進行地物分類提取得以開展并且取得許多成果。本文采用VGG-16 網絡模型,利用遷移學習模式,采用自建的訓練樣本訓練識別精度較高的模型,以期實現對露天礦山的露天采場、尾礦庫、固體廢棄物、中轉場地、恢復治理等重點監管目標對應的圖斑范圍及圖斑類別的智能識別[1]。
本文結合河南省基于實景三維的露天礦山智能監管示范研究項目及河南省礦業權人信息公示項目,采用河南省衛星遙感中心提供的GF-1(空間分辨率2 m)、GF-2(空間分辨率0.8 m)遙感影像。利用露天礦山遙感解譯項目成果中歷年的人工解譯成果作為標簽制作的數據基礎。
對選取的衛片進行目視解譯,在解譯成果SHAPE面文件中添加Value 字段,將人工解譯的圖斑類別按表1 轉換為對應的Value 值,將沒有解譯的部分造面填充,Value 值設為255。將被固定大小圖框裁剪好的解譯結果轉為柵格圖片,柵格值為Value,格式為.jpg,分辨率與解譯的原影像保持一致。圖片的命名規則為原始圖片分兩部分,訓練集中的原始圖片命名DT+六位流水碼.jpg, 驗證集中的原始圖片命名DV+六位流水碼.jpg;標簽圖片的命名與原始圖片相同,保證原始圖片與標簽圖片的名稱完全相同,后綴為.png。

表1 標簽制作分類標準
原始影像為img 格式的數據,為了與數據的坐標保持一致性,將其轉換為相同坐標的同時,確保數據的位數不會發生改變。img 轉jpg 格式時需要將nodate屬性值為空的影像數據手動設定為255。
把原始影像與解譯標簽對應的數據組進行旋轉變換(旋轉角度90°、180°、270°)與翻轉變換,把訓練圖像集擴充到12 049幅,擴充訓練集與驗證集。最后把圖像縮放到224×224像素。
FCN是對輸入的圖像進行像素級的分類,從而實現了語義級別的圖像分割問題。通過若干卷積層(conv)、激活層(relu)、池化層(pool)進行圖像特征提取,采用若干反卷積層、池化層對圖像進行上采樣,把圖像分析成果恢復到與原始圖像一致,從而可以對每一個像素都產生預測,同時保留了原始輸入圖像中的空間信息,最后在奇偶上采樣的特征圖進行像素的分類。FCN將傳統CNN中的全連接層轉化成單個的卷積層,所有的層都是卷積層,故稱為全卷積神經網絡。
卷積核也稱為過濾器,每個卷積核,具有長、寬、高3 個維度。在卷積層中,可以包含多個卷積核,卷積核個數即多卷積核的深度待處理圖像的深度(要素圖的張數)相同,需人工指定參數。卷積核的尺寸根據實際需要指定,常用的過濾器長寬尺寸為3×3、5×5 等較小數值,指定卷積核需指定長和寬2 個參數。ReLU(激活函數)的加入,使深度神經網絡具備了分層的非線性映射學習能力[2-6]。在本文中采用的ReLU函數是一種常用的激活函數:


式中,當x<0 時,ReLU硬飽和;而當x>0 時,則不存在飽和問題。ReLU 能夠在x>0 時保持梯度不衰減,從而緩解梯度消失問題[7]。
遷移學習是將某個領域或任務上學習到的知識或模式應用到不同但相關的領域或問題中,從相關領域中遷移標注數據或者知識結構、完成或改進目標領域或任務的學習效果[8]。
為了優化原始模型,本文將遷移學習應用到深度卷積神經網絡中。與傳統的機器學習不同,遷移學習的源域和目標域、源任務和目標任務均可不同[1]。本文中使用成熟神經網絡模型VGG-16,包含了16個隱藏層(13個卷積層和3個全連接層)。數據集采用ImageNet 子集,數據集圖像總量140 萬幅,共1 000 個分類。
在VGG-16 模型上的應用分為參數導入和輸出節點修改2 個部分。每個連接層后都添加了Dropout 層,以抑制過擬合[2]。經過預訓練的VGG-16 模型的所有卷積層參數和前2 個全連接層的參數導入到初始模型中,然后對自建數據集進行訓練。
2.3.1 FCN模型
核心VGG網絡結構如圖1、2所示。

圖1 核心VGG網絡結構

圖2 遷移學習流程
首先輸入圖像尺寸224×224,分類數目為255。VGG的前5層步長都是2,也就是前5層的size依次減小1倍,前4層的采用的是平均池化;第5層的池化采用的是最大池化。其中:pool1 size 縮小2 倍, pool2 size縮小4倍,pool3 size縮小8倍,pool4 size縮小16倍,pool5 size縮小32倍。
其次就執行丟棄層(Dropout),讓某個神經元按照一定的概率停止工作,使模型的泛化性更強,避免過擬合,同時也減少模型訓練時間。再次,通過全連接輸出分類。最后執行對應的5 次反卷積上采樣,提升圖像尺寸到與原始輸入圖像尺寸相同。
2.3.2 空洞卷積
空洞卷積又稱膨脹卷積,顧名思義就是在標準的卷積核里注入空洞,以此來增加感受野。相比原來的正常卷積,空洞卷積多了一個超參數稱之為擴張率,是指卷積核的間隔數量。Dilated Conv 的優勢是不做pooling損失信息的情況下,增大了感受野,讓每個卷積輸出都包含較大范圍的信息。
本文采用tensorflow Gpu 框架,進行遷移模型訓練。自建數據集中訓練集包含10 974組成對的影像和解譯數據標簽,測試集包含1 075 組成對的影像和解譯數據標簽,訓練集與測試集比例約為10∶1。
設置學習率為0.000 1,輸入數據為RGB 三通道,每批次24 幅圖片,訓練過程中以損失率驗證準確率。每10組數據顯示一次損失率,每500組數據顯示損失率并送入模型預測損失保存生成的檢查點文件,同時記錄訓練周期,本文設置最大迭代次數100 000,FCN訓練損失率與迭代次數關系如圖3、4所示。

圖3 訓練損失率

圖4 FCN訓練分項準確率統計
采用遷移學習,學習率為0.000 1時,與原始圖像數據集準確率相比,擴充圖像數據作為訓練集測試準確率分別提高了6%,表明擴充訓練的圖像數據集可增加數據的多樣性,提升機器視覺的準確率,表明擴充圖像數據提高了模型的魯棒性。提高效果的遷移學習訓練全部層提高4 個百分點,不同擴充數據集的訓練準確率與測試準確率相差不大(圖5)。遷移學習使模型在ImageNet數據集上訓練得到更優于數據集擴充的效果,減弱了數據集擴充提效的作用。但擴充數據較原始數據集的訓練測試準確率有所提高,是由于數據擴充為模型訓練提供一定量的訓練數據量。測試說明遷移學習降低了對自建數據集的擴充作用,但訓練集還是必要保證有一定的數據量,以增加礦山特征地物的識別能力。

圖5 遷移學習訓練分項準確率統
本文采用FCN對河南省露天礦山監管目標進行自動提取,并采用了數據集擴充、空洞卷積、遷移學習等技術提升目標提取的準確率。
基于FCN 的遷移學習減少了機器學習的訓練時間,通過自建數據集的擴充提高了露天礦山監管目標的識別性能,在目標圖像類別和范圍識別方面取得不錯的識別精度。對露天礦山監管目標訓練數據集進行數據擴充的遷移學習可以提升模型的識別精度。在本文的遷移學習中,測試集準確率由原來的79.66 提升到86.53%,效果比較明顯。