999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Mask-RCNN的遙感影像建筑物提取①

2020-09-22 07:45:20何代毅施文灶林志斌喬星星劉芫汐林耀輝
計算機系統應用 2020年9期
關鍵詞:特征

何代毅,施文灶,林志斌,喬星星,劉芫汐,林耀輝

1(福建師范大學 福建省光電傳感應用工程技術研究中心,福州 350117)

2(福建師范大學 醫學光電科學與技術教育部重點實驗室,福州 350007)

3(福建師范大學 福建省光子技術重點實驗室,福州 350007)

1 引言

基于遙感影像建筑物提取的基礎理論研究始于20世紀80年代,隨著遙感衛星技術的進步,高分辨率遙感影像在地面目標地自動提取中得到了廣泛應用.高分辨率遙感影像具有更加精細豐富的信息,建筑物是其中最普遍且最復雜的地物信息之一.建筑物提取是城市遙感影像的主要研究方向,一方面,建筑物的精確提取有利于遙感影像在城市規劃[1]、智慧城市建設等領域的深入應用和擴展,對遙感影像制圖、城市變化監測、三維建模、地理信息系統的數據獲取、城市空間數據庫的更新和建設“數字化城市”具有重要的應用價值;另一方面,遙感影像中紋理和特征豐富,建筑物的檢測和分割提取方法種類繁多,過程具有很大相似性和通用性,可以為其他圖像的目標檢測和語義分割提供借鑒,因此建筑物提取方法的研究具有重要的科學意義.

然而,遙感影像含有豐富的地物信息,建筑物在遙感影像中多以面目標的形式存在,城區和鄉村綠化區域較多[2],綠色植被對于建筑物的覆蓋和干擾嚴重,且建筑物類型和形態等復雜多樣,這些均對建筑物提取帶來了極大的挑戰.

近年來,研究者嘗試使用多種方法來實現遙感影像中建筑物的自動提取,遙感影像的大規模使用,對遙感信息和地物信息的處理與分析提出了更多的要求和挑戰.傳統基于手動提取特征的方法在需要人工動態調整各種參數和閾值,方法的魯棒性和泛化能力較差.利用深度卷積神經網絡可以從大量數據中自動學習特征,具有高效的特征表達能力.然而基于深度卷積神經網絡的方法,也存在著計算效率低,提取結果的準確率低、邊界不完整等問題.

傳統 Mask-RCNN 網絡基于TensorFlow 作為后端的Keras 深度學習框架搭建而成,由于框架的制約,網絡的性能不能夠很好地發揮出來.基于PyTorch 框架搭建網絡,其體現出的優勢不僅僅是PyTorch 相比于以TensorFlow 作為后端的Keras 框架的優勢,更表現為Mask-RCNN 網絡在全新的框架下性能的提升.計算機顯存資源利用效率更高,計算的速度和精確度也得到了顯著提升.而且新的框架不僅便于調試,高度模塊化,搭建模型十分方便,數據參數在CPU 與GPU 之間遷移十分靈活.

針對遙感影像提取建筑物現有相關的研究成果的缺陷和不足,本文提出了一種采用全新開源的PyTorch深度學習框架和基于Mask-RCNN 改進的網絡結構模型的實例分割算法,更加高效與魯棒地實現了建筑物的自動精確分割和提取.

2 算法原理與網絡調整

2.1 網絡結構

本文采用的深度學習分割算法基于由He KM于2017年提出Mask-RCNN 實例分割算法.算法網絡來源于Faster-RCN 和全卷積網絡(Fully-Convolutional Network,FCN),作者在此基礎上新增了改進措施.在Faster-RCNN 網絡的基礎上新增了一個任務分支完成目標物體的像素實例分割任務,網絡輸出最終包含了3 個任務分支,分別是目標的分類、目標框的坐標及目標區域的二值掩碼實例分割,算法結構流程圖如圖1所示.

圖1 算法結構流程圖

圖1中分類和回歸部分都是由基于區域的目標檢測網絡Faster-RCNN[3]完成,目標區域的像素分割由FCN[4]完成.從圖1可以看出,對于輸入的圖片,首先進行的是將圖片輸入到殘差網絡(ResNet)中進行特征提取,得到的主干特征圖(Feature Map)通過區域生成網絡(Region Proposal Network,RPN)提取可能存在的目標區域(Region Of Interest,ROI).這些ROI 經過ROIAlign 層被映射成固定維數的特征向量,其中兩個分支經過全連接層進行分類和目標框的回歸[5],另一個分支經過全卷積運算進行上采樣得到了分割區域的圖片.

算法網絡訓練采用的多任務損失函數,通過學習減小損失函數的值,直到獲得全局最優解.損失函數包含分類誤差、目標框回歸誤差和掩碼誤差.

2.2 Mask-RCNN 的調整和優化

傳統的Mask-RCNN 網絡功能強大,網絡的主要模塊RPN 存在著運算量大,效率不高的問題,FPN 網絡特征圖中的最高層級特征和較低層級特征之間的路徑太長,不利于信息的有效融合;Mask 預測僅在單個視野上執行,無法獲得更加多樣化的信息,針對于特殊目標的檢測和分割效果欠佳.本文在繼承Mask-RCNN優點的同時,根據遙感影像中建筑物的特殊性,對網絡做了以下改進.

2.2.1 RPN 網絡的改進

RPN 網絡采用9 種面積尺寸各異的目標框來估算原始目標在每個滑動窗口上位置上的大小,本文考慮訓練集遙感影像尺寸大小,分別修改為64×64、128×128、256×256,長寬比皆為1:1.調整后能夠提高小目標的檢測和分割效果,提高目標框的檢出率.

針對RPN 網絡采用3×3 的固定滑動窗口掃描特征圖提取候選框帶來重復的估計目標和計算的問題,本文提出了一種改進的RPN 網絡,結構如圖2所示.將固定的滑動窗口修改為固定尺寸分割,分割后每一個窗口同樣經過不同尺寸的候選框提取出ROI,之后的處理和原RPN 網絡相同.由于采用固定尺寸分割,改進后的RPN 大大減少了估計目標區域,多種分割方法相當于構建了多種尺度的RPN,計算的效率更高,使用更少的內存空間.

圖2 改進的RPN 運行機制

2.2.2 FPN 網絡的改進

特征金字塔網絡(Feature Pyramid Networks,FPN)的提出是為了更好地實現頂層和底層特征圖的融合和各個階段的特征有效利用,Mask-RCNN 中使用自頂向下的方式將高層級的特征與低層級的特征混合,從而提高FPN 中所有具有合理分類能力的特征.

本文使用自底而上的思想進一步融合特征[6],使得高層級特征獲得低層級特征的路徑變短,如圖3(a)到圖3(b)的虛線所示,創建自底向上的增強路徑,用于縮短信息路徑,改進的FPN 網絡利用自底向上特征中存儲的精確定位信號,提升特征金字塔架構.

圖3 改進的FPN 網絡結構

2.2.3 新增微全連接層支路和掩模mask 的改進

在建筑物提取試驗中,對于小型的建筑物,Mask-RCNN 網絡的提取結果較好;而在提取大建筑物時,大建筑物由于縮放比例過高而損失了大量細節信息,掩膜mask 的邊界存在不太完整和精確之處.本文將原始網絡中mask 大小14×14 像素與28×28 像素分別修改為40×40 與80×80 像素.

Mask-RCNN 網絡中負責預測mask 的組件是一個輕量級、易實現的分支,mask 分支的輸入是每個候選區域融合后的池化特征網格,如圖4所示,主分支(傳統的FCN 支路)是4 個連續的卷積層和一個反卷積層.其中每個卷積層核大小為3×3 通道為256 個,后面再接一個上采樣2 倍的反卷積層,用于預測每個類別mask 的二進制像素值.

圖4 mask 組件與全連接層融合

本文使用一條支路從conv3 連接到全連接層,中間過兩個3×3 大小卷積層conv4_fc,conv5_fc.Conv5_fc卷積層通道數減半以減少計算量,mask 大小設置為40×40 和80×80.全連接層產生的向量再重塑成和FCN 預測的mask 同樣的空間尺寸.最終與FCN 的輸出相加得到最終預測.全連接層用于預測類不可知的背景或前景 mask,不僅效率高,而且允許更多樣本訓練全連接層的參數,泛化能力更強.

為了捕捉每個提議的不同視圖,用微小的全連接層來增加掩模預測,全連接層與最初使用的FCN 具有互補的特性,通過融合這兩種觀點的預測,信息的多樣性會增加,產生質量更好的掩模效果.

2.3 基于全新的PyTorch 框架搭建網絡

PyTorch 是由Facebook 于2017年初首次推出開源的神經網絡框架,Mask-RCNN Benchmark 是一個完全由PyTorch 1.0 寫成,快速、模塊化的Faster R-CNN和Mask-RCNN 組件.該組件旨在讓用戶更容易地創建一種模型,實現對圖片中目標的識別與分割.利用Mask-RCNN Benchmark 開源項目,結合經過預處理的IAILD 數據集,通過監督學習和遷移學習的方式,結合網絡的預訓練權重訓練網絡,保存最終的訓練權重,利用預測函數預測和分割遙感影像中建筑物,實現遙感影像中的建筑物提取.

3 建筑物自動提取流程

3.1 總體流程

本文的建筑物提取流程如圖5所示,具體步驟為:(1)獲取遙感影像;(2)對遙感影像進行預處理;(3)對預處理后遙感影像進行拓展、裁剪,得到大小為512×512的3 通道子圖像;(4)裁剪得到的遙感影像訓練集和驗證集隨機分成4 個子數據集;(5)利用標注工具labelme標注訓練集和驗證集中的遙感影像;(6) 設置網絡參數、調整網絡配置,如初始化學習率,Epoch 數目等;(7)載入預訓練權重開始訓練網絡,保存訓練得到的權重結果;(8)載入訓練得到的結果權重,讀取測試集圖片得到二值掩模圖片;(9)將二值掩模圖片和建筑物標記二值圖像進行像素的顏色處理;(10)對處理結果進行性能評估和對比.

圖5 遙感影像建筑物提取流程

3.2 遙感影像中建筑物自動提取的兩個階段

Mask-RCNN 是一種多任務的深度神經網絡,提取建筑物的過程分為兩個階段:第1 階段,Mask-RCNN主干網絡(即ResNet101 和FPN)提取遙感影像的特征圖,隨后使用RPN 生成目標的候選框,并對候選框篩選得到感興趣區域.第2 階段,對每個感興趣區域做類別的分類和預測、目標框的回歸和目標建筑物的二值掩膜分割.

3.3 Mask-RCNN 算法步驟

(1)網絡讀取一幅經過預處理后的圖片;將其輸入到一個預訓練好的主干網絡(即ResNet101 和FPN)中,獲得對應的圖像特征圖的集合.(2)對特征圖集中的每一點設定預定數量的ROI,最后獲得多個最佳的候選ROI.(3)將候選的ROI 送入RPN 網絡進行前景或背景的二值分類和邊框回歸,過濾一部分候選的ROI.(4)對剩余ROI 進行ROIAlign 操作,即先將原圖和特征圖的像素對應起來,隨后將特征圖和固定的特征對應起來.(5)最后,對ROI 進行N 類別的分類、位置的預測,目標框回歸.通過改進的分割網絡進行mask 的預測和語義的分割,得到二值的掩模圖像.具體步驟如圖6.

圖6 改進的Mask-RCNN 算法步驟

4 數據集的制作及預處理

4.1 數據源與數據集

本文實驗采用的遙感影像數據源為法國國家信息與自動化研究所提供的Inria 航空影像標簽公開數據集(Inria Aerial Image Labeling Dataset,IAILD 數據集).該數據集包含180 張5000×5000 像素,空間分辨率為0.3 米的航空正射彩色圖像,數據集中每張圖片的覆蓋面積大約是405 平方公里.這些遙感影像覆蓋了五個不同的城市居民點,從人口稠密地區(如美國舊金山的金融區)到高山城鎮(如美國利恩茨和奧地利蒂羅爾小鎮).

在神經網絡訓練的過程中,往往對輸入圖像的大小需要進行調整,首先是為了滿足擁有固定節點數的全連接層的神經網絡的輸入要求,其次是對于不同規則大的圖片,為了使輸入的圖片不進行壓縮,減輕過高的縮放比例帶來的信息損失;而且如果圖片尺寸太大,直接使用會造成計算速度緩慢甚至顯卡內存溢出等問題.

本文把數據集隨機劃分為3 部分:訓練集(150張)、驗證集(5 張)、測試集(25 張).為了契合神經網絡的需要、遙感影像信息和計算機內存資源的有效利用,統一數據集中遙感影像的大小,將5000×5000 像素影像使用黑色像素在四周邊緣填充60 像素,填充后遙感影像樣本如圖7所示,影像大小拓展為5120×5120.隨后利用大小為512×512、步長為512 的滑動窗口,將影像裁剪為10 行10 列,得到100 張512×512 大小的3 通道遙感影像.將數據集中的所有影像填充后裁剪,最終,得到了訓練集(15000 張)、驗證集(500 張)、測試集(2500 張),裁剪后的訓練集和測試集中包含不同傳感器不同城市,不同風格、用途、尺度的遙感影像建筑物樣本,樣本的增加既增強了分割模型的學習泛化能力,也緩解了數據樣本的重復學習產生的過擬合問題.樣本示例如圖8、圖9所示.

圖7 原始遙感影像四周邊緣填充60 黑色像素

圖8 不同風格、用途、尺度的建筑物樣本

圖9 數據集中不同傳感器不同城市的遙感影像建筑物樣本

為了更好地進行網絡的訓練和效果的調試,將訓練集和測試集影像分為4 個子數據集,各個數據集的影像均為處理后的512×512 大小的3 通道遙感影像,其訓練集、驗證集影像數量如表1所示.實驗過程中可以選擇4 個不同量級的數據集,既可用于評估模型的準確率,還可驗證本文方法的魯棒性和泛化能力.

表1 數據集說明

4.2 遙感影像預處理

由于衛星的飛行速度、軌道高度、傳感器的瞬時視角等原因[7],在將數據進行建模前,必須先對其進行影像的預處理.

4.2.1 高斯濾波

遙感影像噪聲的來源主要有兩個方面,在采集過程中,圖像傳感器CMOS 在采集圖像中受傳感器材料屬性、電子器件的結構和工作環境的影響引入的各種噪聲[8];另外在傳輸過程中也會受到多種噪聲污染.本文采用空間域濾波中的高斯濾波,可以平衡對圖像的噪聲的抑制和對圖像的模糊.

4.2.2 直方圖均衡化

本文采用了限制對比度的自適應直方圖均衡化技術,該技術將圖像分割為小的區域后進行直方圖均衡化,并對局部對比度進行了限幅,這個特性也應用到全局直方圖均衡化中.該技術克服了自適應直方圖均衡化噪聲過度放大的問題,使得圖像細節更加清晰.

4.2.3 影像增強

本文采用的影像增強技術包括鄰域增強和主成分分析等算法,鄰域增強能夠用于去噪、圖像平滑、銳化等相關操作.主成分分析可用于消除特征中向量中各個特征之間的相關性,進行特征的選擇,還可用來進行高光譜圖像數據的壓縮和信息融合,訓練影像的增強,緩解了模型的過擬合風險[9].

5 實驗與算法評價

5.1 實驗過程

本文實驗使用開源的PyTorch 學習框架,使用Python語言編程實現算法網絡,硬件環境為聯想Think Station P900 工作站,配備有NVIDIA GeForce GTX TITAN X顯卡(12GB)、64 位Ubuntu16.04 操作系統.

本文采用遷移學習方法,將COCO2014 數據集訓練得到的權重模型作為本文建筑物自動提取算法模型的預訓練模型,在此預訓練模型的基礎上訓練遙感數據集[8].遷移學習不僅減少了訓練數據且提升了訓練效率,遷移學習的模型泛化能力更好,有效提升檢測模型的整體檢測精度和模型性能.

本文選取數據集1 進行學習訓練,將epoch 數值設置為5,batch size 值設置為8,每個epoch 設置步數為10000,利用Adam 算法進行網絡優化,學習率設置為0.00001,所有參數根據正太分布進行初始化.整個過程在訓練大概20 小時后損失函數不再下降,停留在1.070左右.

5.2 評價指標

為了定量評價遙感影像提取算法的綜合性能,本文分別采用式(1)~式(4)的平均查全率(mRecall)、平均查準率(mPrecision)、平均準確率(mAP)和F1[10]分數對測試集影像進行評價.k為隨機選取的k組測試影像,Pij為測試的準確率,Pii為正確提取的準確率.

TP(True Positive)代表本文算法和人工標注法均提取到建筑物.FN(False Negative)代表本文算法未提取到建筑物而人工標注法能提取到建筑物.FP(False Positive)代表本文算法能提取到建筑物而人工標記法未提取到建筑物.

為了驗證本文方法與主流提取算法有著較大的優勢,使用基于SVM[11]、FCN[12]、U-net[13]、Mask-RCNN[14]等建筑物提取方法對IAILD 數據集進行了測試.本文也測試了幾個開源的數據集以驗證本文方法在不同開源數據集中的泛化能力和魯棒性.

由表2可知,相比于SVM、FCN、U-net 和Mask-RCNN 算法,本文算法的是個評價指標在數值上均有5%以上的提高,表明本文方法的總體效果更佳,性能優異,有效性、準確性和魯棒性明顯提高.

表2 在IAILD 數據集上各種算法的比較(%)

與本文的數據集相比,Massachusetts 數據集的質量和分辨率要低很多,而且存在著很多錯誤標簽,其中的平均查全率和平均查準率比本文數據集相差甚遠,這對神經網絡在精確分割提取建筑物產生了負面影響.WHU 和DOTA 是兩個大場景、高分辨率的遙感建筑物數據集,數據集中包含不同用途、不同色彩、不同大小的建筑物,這為神經網絡的訓練提供了豐富的數據來源.綜合對比來看(表3),4 個評價指標的高分數說明本文方法的性能優異,精確性、魯棒性和網絡的泛化性能均有不俗的表現.

表3 在不同開源數據集中的性能表現(%)

5.3 實驗結果分析

圖10隨機展示了5 組利用本文方法對IAILD 數據集中奧斯汀和芝加哥地區建筑物的提取結果,其中圖10中第1、2、4 為奧斯汀地區遙感影像,第3 和5為芝加哥地區遙感影像.(a)為原始影像,(b)為對應的建筑物標記,(c)為建筑物提取結果掩模覆蓋圖,(d)為本文建筑物提取結果,(e)為(b)和(d)的對比結果,可以發現各個類型的建筑物均大部分可以很好地提取出來.其中使用深藍色表示TP(True Positive),即預測結果為建筑物,實際樣本也為建筑物;使用紅色表示FP(False Positive),即實際樣本為非建筑物,但預測結果為建筑物;用綠色表示FN(False Negative),即實際樣本為建筑物,預測結果為非建筑物;最終將所有建筑物的預測結果用分類圖來表示.

圖10 奧斯汀和芝加哥地區建筑物提取結果

本文測試所用的IAILD 測試集試驗區中建筑物有五種,隨機選取奧斯汀地區和芝加哥地區建筑物試驗,兩個地區選擇的背景是基于奧斯汀郊區和芝加哥城區,從兩個不同地區的不同建筑物大小分析對比本文方法的有效性和精確性.

以圖10奧斯汀地區為例,數據集中的奧斯汀地區主要以郊區為主,郊區植被茂盛建筑物與周圍環境信息混淆,建筑物分散且以中小型建筑物為主,植被覆蓋對于建筑物的影響較大,從圖10(b)(d)(e)對比可知,本文方法對中型建筑物提取較好,對于小型建筑物也能很好地提取出來,但對被植被覆蓋的建筑物提取效果欠佳.芝加哥城區建筑物覆蓋密集且相對集中,主要以大型建筑物為主,植被覆蓋影響較小,對比發現可知,本文方法對密集型大型建筑物均能很好的提取出來.為了更加直觀地觀察提取結果對比,如圖11所示,特選取1 張尺寸為1024×1024 的對比效果圖.

綜合圖10和圖11及所有測試集圖片結果分析,本文方法具有較好的網絡的泛化性能和魯棒性,對IAILD數據集中的不同地區、不同地域、不同類型的建筑物均能取得很好的提取效果;但對于數據集中大型建筑物和植被覆蓋的建筑物提取時也存在著空洞現象,邊緣毛糙,漏檢問題依然存在.分析主要原因為數據集影像數量的不足、迭代次數設置影響、網絡模型的缺陷和數據集標記的誤差等,在以后的研究中要著力解決這些問題.

圖11 大尺寸奧斯汀建筑物提取結果樣張

6 總結

本文將遙感影像中建筑物提取與深度學習相結合,提出了一種基于PyTorch 框架改進的Mask-RCNN 網絡提取方法,為建筑物提取提供了一種有效的新方案.研究結果表明,本文提出的方法對于復雜類型的建筑物不僅能高效準確快捷地提取,而且提取結果的mAP等評價指標均有較高的得分;和其它算法的提取結果進行對比,本文方法的精確性、魯棒性和泛化能力均優于對比算法.實現本文方法參數的最佳設置、訓練影像標記的規范化以增強邊緣提取效果、使其適應較大地理區域內中大型建筑物的提取、支持城市規劃等相關業務是后續的研究目標.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 一级做a爰片久久免费| 毛片视频网址| 国产美女无遮挡免费视频网站 | 亚洲综合婷婷激情| 国产精品福利社| 国产草草影院18成年视频| AV不卡国产在线观看| 伊人网址在线| 99视频免费观看| 亚洲三级影院| 啊嗯不日本网站| 国产91精品调教在线播放| 亚洲精品无码久久久久苍井空| 久久情精品国产品免费| 亚洲精品免费网站| 国产精品精品视频| 亚洲无码高清一区二区| 国产菊爆视频在线观看| 波多野结衣久久高清免费| 国产成人精品一区二区秒拍1o| 综合成人国产| 青青青视频91在线 | 区国产精品搜索视频| 国产一级裸网站| 国产成人无码AV在线播放动漫 | 伊人久久大香线蕉成人综合网| 亚洲69视频| 91网址在线播放| 亚洲第一香蕉视频| 国产成人综合网| 在线综合亚洲欧美网站| 免费a级毛片18以上观看精品| 国产制服丝袜无码视频| 日本91视频| 国产大片喷水在线在线视频| 欧美一道本| 国产亚洲精| 国产视频一区二区在线观看 | 久久semm亚洲国产| 亚洲中文字幕av无码区| 亚洲国产天堂久久综合| 国产女人18水真多毛片18精品| 中文无码精品a∨在线观看| 国产乱子精品一区二区在线观看| 成人国内精品久久久久影院| 成人在线观看一区| 国产欧美视频综合二区| 高清国产va日韩亚洲免费午夜电影| 国产人成在线视频| 亚洲国语自产一区第二页| 四虎永久在线精品影院| 亚洲AV无码乱码在线观看代蜜桃| 色综合天天操| 亚洲精品在线观看91| 一区二区三区四区精品视频 | 性欧美在线| 99久久精品久久久久久婷婷| 国产香蕉97碰碰视频VA碰碰看| 久久一日本道色综合久久| 精品视频一区二区三区在线播| 成年人视频一区二区| 国产全黄a一级毛片| 国产精品第一区| 97视频在线精品国自产拍| 成人国产一区二区三区| 久久青青草原亚洲av无码| 国产主播喷水| 免费又爽又刺激高潮网址| www.亚洲天堂| 五月综合色婷婷| 日韩精品无码不卡无码| 毛片久久久| 午夜精品影院| www.99在线观看| 国产日韩久久久久无码精品| 欧美成人一级| 人人爱天天做夜夜爽| 国产高清国内精品福利| 欧美成人看片一区二区三区 | 精品自窥自偷在线看| av免费在线观看美女叉开腿| 99热国产在线精品99|