基于改進Deeplab V3+網絡的語義分割①

2020-09-22 07:45:28席一帆孫樂樂何立明

計算機系統應用 2020年9期

席一帆,孫樂樂,何立明,呂悅

(長安大學信息工程學院,西安 710064)

1 引言

圖像分割是計算機視覺領域的重要分支,在無人駕駛,醫學圖像,3D 重建等場景用廣泛的應用.傳統的圖像分割算法利用圖像的顏色、紋理、形狀等低級語義信息進行分割,缺失像素的對比度,方向度等中級語義[1-4];聚類是利用像素中級語義進行分割,但缺少像素之間的實體類別之間的高級語義;深度學習算法學習圖像中的高級語義.深度學習的語義分割是對圖像像素進行逐個分類,解析圖像的深層次語義信息.Shelhamer 等[5]提出FCN (全卷積網絡)可以對任意大小的圖片進行處理,同時還引入跳級連接使低級語義信息和高級語義信息的融合,反卷積上采樣恢復圖像分辨率,但在細節上分割效果不好;Ronneberger 等[6]提出一種基于編碼解碼器架構的U-net,編碼器對圖像進行深層次的特征提取,生成高級語義信息,解碼器利用跳級連接的思想,對不同分辨率特征圖進行通道融合產生較好的分割效果.Vigay Badrinaryanan 等[7,8]提出SegNet,該網絡架構與U-net 類似,不同的是SegNet 上采樣利用編碼器池化操作的下標去恢復圖像分辨率,加速網絡的推理,且占用更少的內存.Zhao 等[9]提出PSPnet 利用空間金子塔模塊以不同的感受野提取全局特征,融合上下文信息進行上采樣得到預測結果.Lin 等[10]提出Refinet,充分利用下采樣的特征圖,利用長范圍殘差鏈接的思想,將粗糙的高層語義特征和細粒度的底層特征進行融合,通過Renfinet block 將特征圖進行逐層融合生成分割圖像.谷歌提出一系列Deeplab 模型[11-14],其中Deeplab V3+的分割效果最優,但該模型在處理速度和模型容量上并不占優勢,本文依據Deeplab V3+模型提出一種優化算法,對骨干網殘差單元重新設計,對ASPP 模塊進行優化,且在公開數據集進行對比實驗,改進后的模型在準確度和精度提高的情況下,進一步提高網絡的處理速度,優化該模型的內存消耗.

2 方法與網絡

2.1 Deeplab V3+網絡概述

Deeplab V3+網絡模型主要基于編碼解碼器結構,如圖1所示.該模型的編碼器架構由骨干網ResNet101和ASPP 模塊組成,骨干網提取圖像特征生成高級語義特征圖,ASPP 模塊利用骨干網得到的高級語義特征圖進行多尺度采樣,生成多尺度的特征圖,在編碼器尾部將多尺度的高級語義特征圖在通道維度上進行組合,通過1×1 的卷積進行通道降維.解碼器部分將骨干網的低級語義特征通過1×1 卷積進行通道降維,保持與高級語義特征圖串聯在一起時的比重,增強網絡學習能力.再用3×3 的卷積提取特征,編碼器尾部進行上采樣,產生最終的語義分割圖.

圖1 Deeplab V3+模型圖

2.2 骨干網的改進

骨干網ResNet101 利用基于瓶頸設計的殘差塊作為基本單元,組成101 層的殘差網絡.如圖2(b)骨干網由通道數為w0的殘差塊組成,w0的組合為(64,128,256,512),這4 類瓶頸殘差單元的數目分別為(3,4,23,3),加上網絡前端的7×7 的卷積和最后1×1 卷積層共101 層.瓶頸單元擁有更少的參數,可以訓練更深層次的網絡,而非瓶頸單元(如圖2(a))隨著深度增加,可以獲得更高的準確率,結合瓶頸單元和非瓶頸單元的優點,重新設計殘差單元.文獻[15,16]已證明二維卷積能被分解成一系列一維卷積的組合.依據文獻[17]在卷積層松弛秩為1 約束的條件下,卷積層f i可以重新寫成:

圖2 骨干網

式中,L為卷積層的數目,φ(·)為ReLU.將骨干網的瓶頸單元替換為1D 非瓶頸單元(如圖2(c)).在3×3 卷積輸入特征圖通道數相同的條件下,1D 非瓶頸單元能減少33% 非瓶頸單元的參數和29% 的瓶頸單元參數.(假如c為3×3 卷積輸出通道數,則3×3 常規卷積參數量為w0×3×3×c,2D 分解后的參數量為w0×3×1×c+w0×1×3×c,分解后能減少約33%權重參數;1D 非瓶頸單元總參數量12w02,瓶頸單元的總參數量17w02,非瓶頸單元的總參數為18w02)分解2D 卷積后,增加ReLU 非線性操作,能增強1D 非瓶頸單元的學習能力.因此1D 非瓶頸單元擁有非瓶頸單元的準確率高的和瓶頸單元參數少,易訓練深層網絡的優點.

2.3 ASPP 模塊的改進

ASPP 模塊主要是對骨干網的特征圖進行多尺度語義信息提取.由于ASPP 模塊中3×3 卷積會學到一些冗余信息,參數數量多,因此會在訓練中耗費很長時間.常規卷積已被證明會計算許多重疊的冗余信息.依據骨干網改進的方法,將ASPP 中3×3 的空洞卷積進行2D 分解(如圖3所示),將其分解成3×1 和1×3 的卷積,保持其空洞率.該改進的ASPP 模塊卷積參數量比常規卷積的參數量要少33%,在速度上比3×3 卷積快,能夠提取到重要的語義信息,有效的減少該模塊計算量.

圖3 改進的ASPP 模塊

3 實驗與分析

3.1 實驗環境

實驗運行環境Win10 操作系統,工作站 GPU 型號為:NVIDIA GeForce GTX 1070 (8 GB 顯存),基于Tensorflow深度學習框架,本文利用Deeplab V3+原文的tensorflow官方源碼,并對其進行改進,進行對比實驗.

3.2 實驗訓練與結果分析

實驗用的是PASCAL-VOC2012 增強版數據集,訓練集10582 張,驗證集1449 張,該數據集包括20 個類別.本實驗將圖片分辨率縮放至513×513 像素,由于真實標簽和預測結果是灰度圖,為了顯示分割效果采用RGB 彩色圖顯示.訓練網絡前,將圖像轉化為Tfrecord文件,便于高效讀取數據.

本實驗將基于的1D 非瓶頸單元的骨干網在Imagenet數據集上進行預訓練,再將其預訓練權重加載到改進的模型中.利用上述數據集進行訓練,超參數設置如表1所示.

表1 訓練參數

學習率采用多項式衰減,當迭代次數超過 Max iteration 次,學習率為End learning rate.采用動量梯度下降法去優化損失函數,總共迭代71 epochs,如圖4所示,總共迭代150307 次,每迭代一次大約耗時7 s.總損失(總損失包括交叉熵損失、權重正則化損失)在大約12 萬次左右開始收斂,選取總損失最低的模型作為測試模型.改進模型在訓練集上的MIoU為89.9%,像素的平均準確率97.3%.

圖4 總損失函數圖

圖5所示,改進后的模型在擁有多個類別對象的圖像上,有良好的分割結果,尤其是在第一幅圖將車與人兩個類別的邊界處分割效果較好.

圖5 改進后模型在驗證集分割結果

3.3 實驗對比

語義分割有4 種評價指標,分別為像素精度(PA),均像素精度(MPA),均交并比(MIoU),頻權交并比(FWIoU).假設有K+1 個類,pij表示被屬于第i類但預測為第j類的像素數目,即pii為真正的像素數量(TP),pij為假負的像素數量(FN),pji為假正像素數量(FP).

PA:為被分類正確的像素占總像素數目的比例:

MPA:計算每個類被正確分類的像素比例,再取平均:

MIoU:真實標簽與預測標簽的交集比上它們的并集,計算每個類的IoU,再取平均:

FWIoU:在IoU 的基礎上將每個類出現的頻率作為權重:

為了便于對比,實驗將MPA,MIoU作為原模型與改進后的模型衡量標準.

表2說明,改進后的模型在均像素精度上比原模型高0.78%,且在MIoU上比原模型高0.63%,因此改進模型擁有更準確和可靠的分割結果.表3可以得出,改進后的模型在設備上所占內存大小和單張圖片處理速度上,明顯優于原模型,其中在單張圖片的運行時間上,改進后的模型速度提高約9.44%,且模型容量減少了19.6%.主要由于對骨干網和ASPP 模塊的卷積層進行改進,去掉冗余的權值,參數量變少.

表2 Deeplab V3+與Modified Deeplab V3+的均像素精度和均交并比比較(%)

表3 Deeplab V3+與Modified Deeplab V3+在單張圖片處理時間與模型大小的比較

圖6所示總損失函數,Deeplab V3+和Modified Deeplab V3+模型的損失函數收斂速度幾乎一樣,原模型Total loss 最終收斂到1.91,而改進后模型Total loss收斂到1.73,且改進模型的損失函數擺動幅度小更穩定,訓練時間比原模型短3.5 小時.

圖6 總損失函數

圖7中圓圈標記出的圖像區域,Modified Deeplab V3+的分割結果更精細.例如:第一幅圖Modified Deeplab V3+將椅子的空當分割出來,而原模型未分割出,且原模型將窗戶誤分類為顯示屏;第二幅圖改進模型將飛機機翼準確分割出,原模型未分割出機翼;第三幅圖改進模型能將車頂的人的跳躍姿態和車下的人準確分割,原模型對車頂的人分割結果模糊,且車下的人未被分割出;第四幅圖改進模型準確將椅子分割;最后一幅圖改進模型在馬的腿部分割效果比原模型要完整.明顯可以看出改進模型分割效果更好,且誤分類少.主要歸因于Modified Deeplab V3+的1D 非瓶頸單元提高了圖像分類的準確度,且ASPP 模塊卷積分解后,引入非線性操作,增強網絡學習能力,有助于減少誤分類,同時在分解的卷積上再引入空洞卷積,進一步擴大感受野,提高網絡在圖像邊緣分割的精細度.

圖7 Deeplab V3+與Modified DeeplabV3+測試集分割結果對比

4 結論

本文提出了一種基于卷積分解優化Deeplab V3+網絡的算法,該算法主要利用2D 卷積分解減少參數冗余,提高處理速度,同時引入非線性操作,增強模型學習能力.本文利用該算法重新設計Deeplab V3+模型骨干網的殘差單元,使其既擁有非瓶頸單元的準確度,又有瓶頸單元參數少,易訓練深層網絡的優點;同時又對ASPP 模塊也進行優化,加速網絡的推理速度,減少其訓練和處理時間.實驗結果證明Modified Deeplab V3+與原模型相比在提高均像素精度的同時,明顯提升均交并比,且網絡處理速度提高9.44%,優化網絡模型的內存消耗.測試集的結果表明,Modified Deeplab V3+在圖像細節處分割結果更精確.進一步的工作是探究如何控制感受野的大小,提高模型對小目標分割的精確度.