郭亞男
摘要:近年來,隨著信息技術的不斷發展,圖像越來越成為信息傳播的重要載體,對圖像的的分析處理技術更是飛速發展,影像設備的不斷更新使圖像不管是數量還是質量都呈現上漲趨勢,這就需要我們快速且準確的提取圖像中的有用信息,語義分割技術應運而生。本文主要論述了深度學習中卷積神經網絡的理論模型及其衍生模型,介紹了不同模型在實際中的應用及發展情況,并對未來圖像的語義分割領域發展進行展望。
關鍵詞:深度學習 全卷積神經網絡模型 圖像語義分割及應用
引言
在近幾年深度學習的快速發展,使其在圖像的語義分割方面發展迅速,從而加快了語義分割在不同領域的實際應用。卷積神經網絡是深度學習的代表算法之一,自卷積神經網絡問世以來,網絡深度越來越深,架構越來越復雜,解決反向傳播時梯度消失的方法也越來越巧妙,在圖像的語義分割領域發揮著不可代替的作用。本文主要論述了深度學習中卷積神經網絡的理論模型及其衍生模型、簡要說明數據在不同卷積神經網絡中的訓練過程、介紹了不同模型在實際中的應用情況,并對未來圖像的語義分割領域發展進行展望。
1 全卷積神經網絡模型
1.1 模型架構
全卷積神經網絡自2015年提出以來,基本的架構都是一致的:輸入、卷積、池化、輸出。在卷積層,利用不同尺寸的卷積核,以一定的步長進行卷積,由淺到深提取出特征,經過多層的池化,從而提取出不同深度的特征,完成最終的分割。
1.2 全卷積神經網絡模型的發展過程
經過卷積池化后,圖像的分辨率降低,從而影響分割結果的準確性。在最近的幾年中,為了提高分割精度,恢復分割圖像的分辨率,許多學者基于全卷積神經網絡提出不同的改善模型。
1.2.1 FCN模型
在2015年,UC Berkeley的Jonathan Long等人提出了全卷積神經網絡(FCN)[1],它與傳統的全卷積神經網絡相比,優點首先在于加入了上采樣的過程,其次引入了跳級結構,對圖像分割有精化作用。
原圖像經過五次池化后,圖像尺寸變為原圖像的1/32,將conv7后輸出的圖像32倍上采樣,得到原圖像相同尺寸的特征圖,FCN32的分割結果非常粗糙,作者為了改善結果,將此conv7后的圖像2倍上采樣與pool4后剪切的特征圖做融合,將融合后的圖像進行16倍上采樣,得到FCN-16的分割結果,為了使結果更精細,將conv7后輸出的圖像4倍上采樣,將pool4后輸出的圖像2倍上采樣,得到原圖像的1/8的圖像,將此圖像與經pool3后剪切的特征圖做融合;這樣最終的特征圖FCN-8既包含了深層的高級別語義信息也包含了淺層的空間信息,提高分割結果的魯棒性和精確性。
1.2.2 U-net模型
在2015年,Philipp Fischer等人在Kaggle挑戰賽中第一次使用了U-net網絡,U-net同樣只有卷積層和池化層,沒有全連接層,在卷積池化之后也有上采樣過程。與FCN網絡不同的是,U-net的卷積過程與反卷積過程采用了相同數量層次的卷積操作,且使用skip connection結構將卷積池化層與反卷積層相連,使得下采樣提取到的特征可以直接傳遞到反卷積層,這使得U-net網絡的像素定位比起FCN網絡更加準確,分割精度更高。
1.2.3其他模型
最近兩年,許多學者在FCN網絡和U-net網絡的基礎上進行改善,并實驗后得到了更好的分割效果。在2018年,中國科學技術大學的張一恒等人提出了用于語義分割的全卷積自適應網絡,它將外觀自適應網絡(AAN)和表達自適應網絡(RAN)相結合,AAN模塊用來在像素空間里學習從一個域向另一個域的轉換,得到源域和目標域相結合的自適應圖像,RAN模塊以對抗性學習方式進行優化,最后用ASPP模塊并行提取不同尺度上的特征,最后得到分割結果。另外,今年提出的基于隨機推理的弱半監督語義圖像分割、快速語義分割網絡在語義分割方面也有著不俗的表現。
2不同模型的實際應用
2.1全卷積神經網絡在地理信息系統的應用
衛星遙感技術的發展,使其逐漸深入到國民經濟、社會生活與國家安全的各個方面,計算機輸入衛星遙感影像,通過神經網絡自動識別道路,河流,莊稼,建筑物等,并且對圖像中每個像素進行標注。憑借分割結果完成一系列分析工作極大的提高了工作人員的工作效率,且比傳統分割算法的準確度高。在2017年ISPRS競賽中,ResNet的FCN模型被用來實現對航空圖像進行分割并取得了不錯的成績。
o.o全卷積神經網絡在智能交通領域的應用
在智能交通領域,語義分割最突出的應用是在無人駕駛技術當中,它是無人駕駛眾多算法中的核心算法,車載攝像頭將街道的實時視頻分楨傳遞給神經網絡,后臺計算機可以自動將圖像分割歸類,以避讓行人和車輛等障礙。
LinkNet網絡在街道圖像中良好的分割能力可以輔助無人駕駛技術,通過語義分割,開車過程中能夠自動且準確的識別視線范圍能的目標,從而做出停車或繞過目標的動作,在智能交通領域發揮作用。
2.j全卷積神經網絡在醫療影像分析領域的應用
U-net網絡適于醫學圖像的分割。Wang等人提出一種傷口圖像分析系統,先用U-net網絡對傷口圖像進行分割,再用SVM分類器對分割出的傷口圖像進行分類,判斷傷口是否感染,最后用GP回歸算法對傷口愈合時間進行預測。Brosch等人使用U-net網絡對腦部MRI中的腦白質病灶進行分割,并在U-net網絡的第一層卷積和最后一層反卷積之間加入跳躍連接結構,使得該網絡結構在訓練數據較少的情況下仍得到了很好的分割結果。此外,語義分割還應用在腫瘤圖像分割等。
2.4全卷積神經網絡在智能機器人領域的應用
全卷積神經網絡在智能機器人領域的主要應用是穿戴式機器人,如谷歌智能眼鏡,用眼鏡上的攝像機對視線中的物體拍照傳輸給計算機,計算機通過全卷積神經網絡進行語義分割,從而完成對不同目標的自動識別,再將結果以不同形式輸出,若輸出形式是語音,就會對盲人買東西、逛街等提供實質性幫助。
3結束與展望
全卷積神經網絡憑借自身強大的特征提取能力和準確的分割預測功能,在各個領域中得到越來越廣泛的應用。但不同的神經網絡適用的領域不同,如Deeplab網絡、Linknet網絡適用于街道交通圖像的分割,但U-net及其衍生網絡雖然也能實現多分類,但分割效果并不盡人意,它們更適用于醫療圖像的分割,因此設計一個通用的深度學習網絡使它能適應所有類型的數據集訓練,依舊是研究者們今后的研究重點。
參考文獻
[1]Jonathan Long, Evan Shelhamer. and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. In Proceedingsof the IEEE conference on conLputer visionand patternrecognition, pages 3431 3440. 2015.
[2]Ronneberger O, Fischer P, Brox T. UNet: ConvolutionalNetworks for Bionledical Image Segnlentation[M]// Medical IiuageConLputing and ConlputerAssisted InterventionMICCAI 2015.Springer International Publishing,2015: 234241.
[3]Zongwei Zhou. Md Mahfuzur Rahman Siddiquee, NinLaTajbakhsh, and Jianming Liang.U-net++: A Nested UNetArchitecture for Medical Image Segnlentation. arXiv preprintarXiv:1807.10165.2018.