潘勇卓,謝洪斌,楊 雪,姜良美,張 勇
(1.外生成礦與礦山環境重慶市重點實驗室(重慶地質礦產研究院),重慶 401120;2.煤炭資源與安全開采國家重點實驗室重慶研究中心,重慶 401120)
礦產資源是人類社會存在與發展的重要物質基礎,礦產資源的合理開發、利用是國土資源監管的重要主題。為及時發現礦產資源的偷采、盜采、亂采行為,國土資源部開展了土地礦產衛片執法專項行動,對違法采礦行為進行了有力打擊,有效維護了礦業開采秩序。然而衛片執法過程中,海量遙感影像的礦山信息提取工作主要為人工解譯,不僅成本高、時效性差,而且解譯結果受人為主觀影響,容易出現錯誤和遺漏。隨著遙感技術的發展,影像的獲取將更加快捷、頻繁,影像所包含的監測信息也更加海量,這無疑對傳統的人工信息提取工作帶來更大的考驗。
遙感影像信息自動提取分類常用的方法有BP 神經網絡、支持向量機(SVM)等,然而這些分類方法難以應用于衛片執法工作,究其原因主要在于其自動提取的精度難以達到生產需求,因此難以代替人工解譯。近年來,人工智能領域的深度學習技術在計算機視覺、語音識別、信息檢索等領域取得了良好的效果,具有高精度、高時效的特點,為遙感影像信息的分類提取提供了新的思路。
在此,本文以石灰巖礦山為例,將深度學習的方法引入到遙感影像礦山信息精確識別中,利用大量人工解譯的礦山圖斑制作樣本,通過深度卷積神經網絡框架Mask R-CNN 進行機器訓練圈取礦山,并結合采礦權信息與GIS空間分析技術,探索露天礦山疑似違法圖斑線索快速提取的應用方法。
Mask R-CNN是由HE等提出的一種用于實例分割(Instance Segmentation)的深度卷積神經網絡(Convolutional Neural Networks,CNN)框架,是當前實例分割領域的研究熱點。該框架擴展自該作者提出的Faster R-CNN,模擬人腦神經網絡進行信號識別,能并行地在邊緣檢測器(Bounding Box Recognition)分支上添加一個用于預測目標掩模(Object Mask)的新分支,不僅可對圖像中的目標進行檢測,還可以對每一個目標給出一個高質量的分割結果,有效實現圖片中目標物體的像素級識別圈取。
Mask R-CNN 框架的工作分兩階段進行,其網絡結構如圖1所示。第一個階段掃描圖像,通過CNN和區域建議網絡(Region Proposal Networks,RPN)生成有可能包含目標區域的感興趣區(Region of Interest,RoI),第二個階段平行于預測類別和坐標信息,利用一個小的全積神經網絡(Fully Convolutional Network,FCN)對每個RoI 輸出一個預測分割掩膜Mask。
為了提供網絡的分層非線性映射學習能力,減小預測值與真實值之間的差距程度,Mask R-CNN 提供如下損失函數來參與訓練,并對每個RoI 輸出一個二值Mask:

上式中,Lclass表示分類識別的損失,本文采用softmax的分類交叉熵形式表示;Lbbox表示邊框回歸的損失,邊框回歸的目的是增大輸出邊框與真實邊框之間的重疊度;Lmask表示掩膜的損失,根據RoI 中每個像素點計算sigmoid 形式的平均二值交叉熵得出,該定義允許每個類都生成掩膜,并且不會存在類間競爭關系。

圖1 Mask RCNN 網絡結構圖

圖2 ResNet 結構示意圖
常見的CNN 網絡模型由LeNet、AlexNet、GoogleNet、VGG、ResNet等,不同的模型結構對樣本容量有不同的適應性,樣本容量過低或過高則會出現訓練欠擬合或過擬合的問題。深度殘差網絡ResNet 由He 提出,核心思想是用學習輸入x的殘差F(x)替代映射H(x),解決了網絡加深的同時梯度彌散越發顯著的問題[,該網絡模型在小樣本研究中表現出相比其他模型更高的準確率,因此本文選擇ResNet 作為CNN的網絡模型,選擇ReLU 作為激活函數。其結構如圖2所示。
Mask R-CNN 可用于遙感影像的訓練與目標識別,從而圈取影像中的目標圖斑。本文以露天礦山作為自動提取的對象,通過Mask R-CNN 獲得礦山圖斑后,需對存在開采問題的圖斑進行判定。
采礦許可證是采礦權人行使開采礦產資源權利的法律憑證,是國家有關部門指導和規范礦山開發秩序的有效參考。采礦權許可證明確規定了礦山合法開采的空間范圍,即采礦權范圍內的視為合法開采,采礦權范圍外的則為疑似違法開采。因此本文以采礦權矢量圖層作為疑似違法檢測依據,通過GIS空間疊加法[14]判定存在開采問題的圖斑。
實驗所使用的影像為高分二號遙感影像(包含紅、綠、藍、近紅外4 波段,分辨率0.81m),選取石灰巖、砂巖作為礦山識別對象。首先,對52 幅影像進行人工解譯,圈取共632個礦山矢量圖斑;其次,以圖斑中的每個影像像素為中心,按50 像素的步長逐點裁切為512×512大小的樣本影像,同時裁切對應的矢量范圍。最終形成礦山樣本(包含影像和矢量)共約110 000個。
為了增加樣本的相關性,使模型具有更好的泛化能力,本文依次對訓練樣本進行旋轉(90°、180°、270°)和翻轉(水平、垂直、對角線)操作,最終礦山樣本擴充至880 000個。
Mask R-CNN的訓練數據集通常為COCO數據格式,該格式文件包含了,即樣本圖片和該圖片對應的掩膜。根據高分二號影像采集的樣本包含了樣本影像(tif圖像格式)和影像中對應的礦山矢量范圍(shp文件格式),輸入到Mask R-CNN 進行訓練之前需將樣本轉換為COCO數據格式。
實驗樣本的tif圖像包含四個波段信息,與常規RGB 三通道圖片不同,COCO 文件無法直接讀取tif圖像,因此通過二進制文件流的形式讀取tif圖像并保存到COCO數據的圖片信息中。
shp 文件包含有礦山矢量范圍的節點坐標,可用于生成COCO 中的掩膜本。文中礦山樣本的shp 文件坐標系為空間地理坐標系,然而COCO數據中的掩膜節點坐標為圖形坐標,因此需通過如下公式進行坐標轉換。

上式中,xgeo、ygeo為shp 文件中的節點坐標;x′、y ′為影像左上角頂點坐標,可從tif 頭文件中獲?。籶為像素的空間分辨率,高分二號影像p值取0.81;x、y為轉換后的圖像坐標。
根據上述方法將樣本構建為COCO數據集輸入到Mask R-CNN 中進行訓練,直至損失函數不再下降,即完成模型訓練。
通過Mask R-CNN 訓練后的模型即可用于礦山圖斑的自動提取,而該過程的輸入影像尺寸應與訓練樣本的影像尺寸保持一致。在識別一幅完整的遙感影像之前,通過切割處理將影像分割為數個512×512尺寸的小影像。為避免影像邊緣的目標被切割后區域過小而導致識別遺漏,本文設置一定的重疊區域提高目標切割的完整性。
自動提取的圖斑成果基于切割后的小影像,圖斑掩膜節點坐標為圖形坐標,無法與采礦權矢量圖層進行疊加分析。因此根據式(2)反算節點的空間地理坐標,從而構建礦山圖斑矢量文件。利用自動提取的礦山圖斑矢量文件與采礦權矢量圖層進行空間疊加分析,位于采礦權矢量圖層范圍外的礦山圖斑即可提取判定為疑似違法圖斑。

圖3 礦山提取效果圖
1)人工解譯遙感影像制作礦山圖斑,并切割為512×512 尺寸的小樣本,樣本包含tif 影像和shp 矢量文件。
2)擴充樣本,對樣本進行旋轉、翻轉操作。
3)制作COCO數據集用于Mask R-CNN 網絡模型訓練,直至損失函數不再下降即完成訓練。
4)利用訓練好的模型提取遙感影像中的礦山圖斑。
5)根據采礦權矢量圖層提取疑似違法圖斑。
本文實驗采用Linux系統,Mask R-CNN 搭建采用Caffe2-GPU平臺,算法仿真采用Python 語言,計算機顯卡為GeForce GTX1080(顯存8G),處理器為Core i7-4790 CPU@3.60GHz(內存16G)。模型訓練時長約380小時,損失函數停留在1.05左右。提取效果如圖3所示。
mAP(mean,Average,Precision)是深度學習目標檢測中衡量識別精度的常用指標,通過目標、非目標的正確、錯誤分類的數量反映識別的效果。本文以像素為單位,橫向對比本文方法與KNN和SVM 方法在本文數據上的實驗效果。各類方法mAP 精度如下表。由表可知,本文方法的精度高于傳統方法,在露天礦山疑似違法圖斑提取的問題上具有很強的有效性和優越性。

提取精度表
本文提出了一種基于Mask R-CNN的遙感影像露天礦山疑似違法圖斑自動檢測提取方法,通過人工采集大量礦山圖斑樣本并對其進行擴充處理,制作特定的COCO數據集輸入到Mask R-CNN 進行訓練,得到的分類網絡模型用于目標識別,實現遙感影像礦山圖斑的自動提取,再以采礦權矢量圖層作為疑似違法的判定依據,圈取影像中的問題圖斑,從而實現疑似違法圖斑的自動提取。經實驗,本文方法的提取精度高于傳統分類方法20%以上,能有效圈取目標圖斑。
同時本文方法仍有不足,實驗過程中發現對部分礦山邊緣輪廓的勾畫不準確;錯解、漏解的數量遠高于人工解譯,因此難以替代實際衛片執法工作中的人工解譯勞動力;數據輸入和成果輸出以裁切后512×512的小圖形式為單元,未實現整幅遙感影像的直接輸入和成果展示。
礦產資源衛片執法工作中,本文方法提取成果可作為初步解譯結果輔助人工判讀,為深度學習在衛片執法中的應用研究作出了實踐性嘗試。今后的研究重點將著力于提高識別的準確性、精確性以及勾畫完整性,并嘗試實現完整影像的輸入與輸出。