張博洋 倪海明 胡馨月 戚大偉



摘 要:針對傳統方法進行圖像分割易受噪聲影響的問題,提出一種基于U-Net網絡的無人機圖像語義分割網絡模型。該模型不需要對圖像進行預處理,利用反卷積恢復圖像分辨率,采用U型結構連接低層網絡和高層網絡的特征圖,利用跳躍連接降低網絡復雜度,同時使用Dropout正則化隨機激活網絡隱藏單元以防止過擬合。實驗結果表明:該網絡模型可以自動定位林木信息,準確分割林木區域,進一步優化邊緣分割結果,實現端對端的圖像分割。該模型具有良好的泛化能力,在其他圖像分割領域也具有應用價值。
關鍵詞:無人機圖像;圖像分割;U-Net;跳躍連接
中圖分類號:S758.5??? 文獻標識碼:A?? 文章編號:1006-8023(2021)02-0067-07
Research on Tree Image Segmentation Based on U-Net Network
ZHANG Boyang, NI Haiming, HU Xinyue, QI Dawei*
(College of Science, Northeast Forestry University, Harbin 150040, China)
Abstract:Aiming at the problem that traditional image segmentation is susceptible to noise, a U-Net network-based semantic segmentation network model for UAV images is proposed. The model does not need to preprocess the image, uses deconvolution to restore the image resolution, uses a U-shaped structure to connect the feature maps of the low-level network and the high-level network, uses skip connection to reduce network complexity, and uses Dropout regularization to randomly activate network hiding Unit to prevent overfitting. The experimental results show that the network model can automatically locate forest information, accurately segment the forest area, further optimize the edge segmentation results, and achieve end-to-end image segmentation. The model has good generalization ability and has application value in other image segmentation fields.
Keywords:UAV image; image segmentation; U-Net; skip connection
收稿日期:2020-11-09
基金項目:國家自然科學基金項目(31570712)
第一作者簡介:張博洋,碩士研究生。研究方向為圖像處理與模式識別。E-mail: zhangbyang0624@163.com
通信作者:戚大偉,博士,教授。研究方向為圖像處理與模式識別。E-mail: qidw9806@126.com
引文格式:張博洋,倪海明,胡馨月,等.基于U-Net網絡的林木圖像分割研究[J].森林工程,2021,37(2):67-73.
ZHANG B Y, NI H M, HU X Y, et al. Research on tree image segmentation based on U-Net Network [J]. Forest Engineering,2021,37(2):67-73.
0 引言
林木資源是我國生態系統的重要組成部分,在維持生態系統穩定方面具有決策性的作用。一旦林木資源遭到破壞,會很難恢復,從而造成巨大的經濟損失。由于傳統圖像分割方法難以處理復雜場景下的分割任務[1],準確率低,耗時長,難以大規模部署。因此,如何精確識別出每個像素的所屬類別一直是圖像語義分割領域內最具挑戰的問題之一[2]。
傳統的圖像分割方法包括閾值分割[3-6]、邊緣檢測和分水嶺算法[7]等。針對這些方法進行的模型優化提高了分割精度,減少了計算量,但是難以處理復雜的分割任務,一般不會在圖像語義分割領域部署應用。近年來,卷積神經網絡的提出對于圖像分割具有獨特的優勢[8]。LONG等[9]提出了全卷積網絡(FCN),拉開了使用深度學習進行圖像語義分割的序幕。將條件隨機場(CRF)融合到全卷積網絡(FCN)中[10-11],可以對全卷積網絡(FCN)的分割結果進行精化。擴大感受野和融合多尺度上下文信息往往是提高圖像語義分割精度的重要方法,為解決這個問題,研究人員相繼提出了多種模型和方法。其中,以RefineNet[12-13]、GCN[14]、DFN[15]、ParseNet[16]等算法為代表。除此之外,ZHAO等[17]將PSPNet引入全局平均池化到空間金字塔池化(SPP)結構中,加快了網絡收斂速度。DeepLab v3網絡中提出了帶孔卷積和金字塔池化[18],保持了特征圖的感受野以及分辨率。馬玥[19]利用卷積網絡結合殘差模塊對土地的多種植被預測分類,有效提高了預測準確率。王琢等[20]構建全卷積神經網絡,采用有監督的學習方法,實現了對葉片端對端的分割。以上方法雖然能夠過濾掉噪聲,但也丟失了一定的空間信息,不能夠對無人機圖像的林木區域得到精細實時的分割。
針對上述所存問題,為使得網絡能夠精確分割林木區域,精準定位林木信息。本文在利用無人機獲取林場圖像的基礎上,提出一種基于U-Net網絡的無人機圖像語義分割網絡結構,使得低層網絡的林木信息和高層網絡的林木信息能夠有效融合,彌補了之前網絡模型輸出邊緣粗造的缺陷,同時提高了網絡的分割精度。經實驗驗證,該模型可以細化林木圖像邊緣,能夠在林木圖像上實現精確分割。
1 基本理論
1.1 激活函數
ReLU是近幾年在圖像語義分割領域使用較為廣泛的激活函數,其函數為:
f(x)=max(0,x)。(1)
圖1是ReLU的可視化圖,當輸入值大于0時,神經元被激活,梯度得到保證,始終是1,不會隨著輸入值的改變逐漸變成0。當輸入值小于0時,神經元沒有被激活。該激活函數避免反向傳播過程中調節權重的梯度消失等問題,計算簡單方便。
1.2 優化算法
RMSProp是基于AdaGrad優化算法的改進算法,在迭代過程中,該算法既能增大學習率,又能降低學習率,通過引入一個衰減系數,讓衰減率(γ)每回合都衰減一定比例。其計算公式為:
G1=γGt-1+(1-γ)g2t。(2)
Δθ=-ηGt+ε。(3)
式中:gt是第t時刻參數的梯度;γ是衰減率;ε是常數;η是基礎學習率;Gt表示對梯度的平方做了一次平滑處理。
1.3 反卷積
反卷積(Transposed Convolution),又稱轉置卷積,對應于卷積操作的后向和前向傳播,在優化上做顛倒。按照一定比例通過外圍全補零操作來擴大圖像的尺寸,與正常卷積相比,網絡能夠直接將誤差信息傳遞到所需要的位置,快速恢復圖像尺度,加快訓練速度。反卷積結構如圖2所示。
1.4 跳躍連接
跳躍連接(Skip Connection),指的是在普通的卷積神經網絡中,較淺層網絡的輸出結果作為相鄰下一層網絡的輸入,或者可以作為更深一層網絡層或者多層網絡層的輸入。也就是建立了低層網絡和高層網絡的連接通路,淺層網絡用來解決像素定位的問題,深層網絡用來解決像素分類的問題,這樣使得信息能夠跨通道的融合,可以向高層網絡提供底層網絡的信息特征來輔助進行圖像重構。此外,跳躍連接不僅能夠精化分割結果,還可以減少網絡參數,減小計算量和內存消耗。
1.5 損失函數
網絡對林木圖像中所有像素點的交叉熵和取平均值作為該模型的損失函數(Loss Function),如公式所示:
J(θ)=-1N∑mi=1∑kj=11yi=jlneθTjxi∑kj=1θTixi。 (4)
式中:N為樣本數,k為標簽數;θ是計算概率值的偏移量;對于其中一幅林木圖像m來說,(xi,yi)表示像素i及其對應的類別標記,最后通過梯度下降更新參數。
圖3是損失函數學習方式。由圖3可知,通過對無人機拍攝的大量林木圖像進行網絡模型的迭代訓練,選定提到的損失函數,來計算U-Net網絡得到的林木提取結果與樣本標簽的差異,從而判斷該網絡模型是否能夠適應數據集以及模型對林木圖像的分割能力能否達到預期標準。將得到的誤差信號傳遞到U-Net神經網絡,網絡接收之后,自我學習訓練林木標簽和輸入的林木圖像之間的非線性關系,通過不斷地調節超參數來加快網絡模型的收斂速度,使得誤差逐漸降低且穩定收斂,從而提高邊緣分割的準確率。
2 網絡結構
本文的實驗框架是基于U-Net模型,如圖4所示。U-Net網絡模型短小而又精悍,不僅可以在小樣本數據集上進行模型的訓練,而且網絡收斂較快和分割速度很快。網絡整體由2大部分組成:收縮路徑和擴張路徑。收縮路徑不斷提取豐富的林木特征,用于捕獲林木圖像中完整的上下文信息,使得局部信息和全局信息得以充分融合,不易丟失空間信息。在收縮路徑中,每兩個3×3的卷積操作之后,會有一個2×2的最大池化操作,連續4次下采樣,特征圖分辨率逐漸降低,通道數逐漸增大;擴張路徑對稱于收縮路徑,用來精確定位輸入圖像中待分割的林木區域,網絡采用2×2的上采樣層恢復圖像分辨率,后接2個3×3的卷積層,使用ReLU函數作為整個網絡的激活函數。網絡的最后一層采用1×1的卷積核進行跨通道之間的信息交互和融合,最后通過softmax獲得最終的分類結果。
網絡結構有兩個最大特點:U型結構和跳躍連接。編碼器的特征圖和每個對應階段解碼器通過上采樣操作得到的特征圖進行拼接,從而形成一個U型;通過跳躍連接的結構,在每個階段都將編碼器在池化過程中丟失的相關特征提供給解碼器進行學習。為了能夠重構圖像特征,網絡采用跳躍連接的方式,使得低層網絡的特征圖和高層網絡的特征圖連接,較淺的網絡層體現細節特征,用于林木信息定位;較深的網絡層體現語義特征,用于林木和非林木信息的分類。無人機圖像的林木區域分割需要處理豐富的邊緣細節特征,該網絡能夠有效實現精確的像素級分割效果。
3 實驗及結果分析
3.1 實驗軟硬件配置
實驗在Windows 10系統上使用python語言,PyCharm 2019.2.2平臺,基于pytorch框架實現,所用的計算機配置是Intel四核2.50 GHz處理器,內存是4 GB,GPU內存是8 GB。
3.2 實驗數據集
本文使用的基礎數據集拍攝于黑龍江省哈爾濱市香坊區的某實驗林場,使用水平鏡像、上下翻轉等方法對無人機采集到的林木圖像進行數據增強,共得到985張512×512大小的林木圖像,按照訓練集和測試集4∶1的比例劃分數據集,得到788張林木訓練集,197張林木測試集,如圖5所示,主要使用這兩種數據集對U-Net模型進行訓練和測試,實驗分為林木和空地2個類別;通過labelme圖像標注工具對林木圖像進行標注,如圖6所示。
[4]馬軍,賈鶴鳴,趙國強,等.基于優化粒子群的最大熵閾值法葉片圖像分割[J].森林工程,2019,35(3):63-68.
MA J, JIA H M, ZHAO G Q, et al. Leaf image segmentation based on the maximum entropy threshold method of optimized particle swarm[J]. Forest Engineering, 2019, 35(3): 63-68.
[5]張浩然,東佳毅,張岱,等.木材節子缺陷圖像分割方法比較研究[J].林業機械與木工設備,2020,48(8):22-26.
ZHANG H R, DONG J Y, ZHANG D, et al. Comparative study on image segmentation methods of wood knot defects[J]. Forestry Machinery & Woodworking Equipment, 2020, 48(8):22-26.
[6]郭康樂,黃元,楊妮,等.基于TVCV模型的多通道木材缺陷圖像分割算法[J].林業機械與木工設備,2020,48(9):22-26.
DUO K L, HUANG Y, YANG N, et al. Multi-channel wood defect image segmentation algorithm based on TVCV models[J]. Forestry Machinery & Woodworking Equipment, 2020, 48(9):22-26.
[7]孫釗,潘磊,謝運鴻,等.分水嶺算法在林業中的應用[J/OL].世界林業研究:1-6[2020-11-03].
SUN Z, PAN L, XIE Y H, et al. Application of watershed algorithm in forestry[J/OL]. World Forestry Research:1-6[2020-11-03].
[8]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv:1409.1556[cs.CV].
[9]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[10]李宇,肖春姣,張洪群,等.深度卷積融合條件隨機場遙感圖像語義分割[J].國土資源遙感,2020,32(3):15-22.
LI Y, XIAO C J, ZHANG H Q, et al. Remote sensing image semantic segmentation using deep fusion convolutional networks and conditional random field[J]. Remote Sensing for Land & Resources, 2020, 32(3):15-22.
[11]林朝劍,張廣群,楊潔,等. 基于遷移學習的林業業務圖像識別[J]. 南京林業大學學報(自然科學版), 2020, 44(4): 215-221.
LIN C J, ZHANG G Q, YANG J,et al. Transfer learning based recognition for forestry business images[J].Journal of Nanjing Forestry University (Natural Science Edition), 2020, 44(4): 215-221.
[12]LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[EB/OL]. 2016: arXiv:1611.06612[cs.CV].
[13]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[14]PENG C, ZHANG X Y, YU G, et al. Large kernel matters: improve semantic segmentation by global convolutional network[EB/OL]. 2017: arXiv:1703.02719[cs.CV].
[15]YU C Q, WANG J B, PENG C, et al. Learning a discriminative feature network for semantic segmentation[EB/OL]. 2018: arXiv:1804.09337[cs.CV].
[16]RABINOVICH A, LIU W, BERG A C. ParseNet: looking wider to see better[EB/OL]. 2015: arXiv:1506.04579[cs.CV].
[17]ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2881-2890.
[18]CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]. Cham: Springer International Publishing, 2018.
[19]馬玥.基于多源遙感信息綜合的濕地土地覆被分類研究[D].長春:吉林大學,2018.
MA Y. Land cover classification of wetland based on multi-source remote sensing[D]. Changchun: Jilin University, 2018.
[20]王琢,汪雅婷,宋文龍,等.基于深度學習的葉片圖像分割算法[J].森林工程,2019,35(1):42-46.
WANG Z, WANG Y T, SONG W L, et al. Leaf image segmentation algorithm based on deep learning [J]. Forest Engineering, 2019, 35(1): 42-46.