薛程, 葉少珍, 2
(1. 福州大學數學與計算機科學學院, 福建 福州 350108; 2. 福州大學智能制造仿真研究院, 福建 福州 350108)
圖像理解是圖像分割中重要處理環節, 將有助于促進自動駕駛、 機器人和增強現實等技術的實際應用. 在深度學習技術應用之前, 圖像解析、 場景解析和全圖像理解等已經得到一定的發展, 隨著深度學習在語義分割和實例分割的應用, 文獻[1]將其命名為全景分割(panoptic segmentation, PS), 將圖像內容分為Stuff不可數語義類(例如草地、 天空、 道路)和Things可數實例類(例如人、 交通工具), 任務的目的是為圖像中每一個像素分配語義分類標簽和實例ID. 在Things實例類中, 實例ID用于區分每一個目標, 因此其對于Stuff語義類來說是非必需的, 但是分類標簽對于Stuff語義類和Things實例類是必需的. 所以, 對于同一個實例的像素擁有相同的實例ID. 目前, 主流研究方法為: 選取一個主干網絡進行特征提取, 然后將特征圖分別輸入到語義分割分支和實例分割分支中, 實現共享特征, 最后經過一個啟發式策略將兩者的輸出進行合并. 但其仍存在兩大問題, 一是語義分割結果和實例分割結果的重疊沖突, 二是實例分割中出現的重疊沖突. 全景分割任務包含了傳統的兩大任務: 語義分割和實例分割. 其中語義分割是全圖像每一個像素的分類, 包括了Stuff語義類和Things實例類, 無法分割出具體的實例. 實例分割, 關注于Things實例類的檢測和分割, 并沒有對Stuff語義類進行檢測和分割. 本研究在原有全景分割網絡的基礎上通過改動卷積結構以及增添新的卷積模塊分別提高了AP評價指標和mIoU評價指標.
在常用的Cityscapes數據集上, 人工對一張圖片進行像素級的標簽注釋需要較長的時間, 如何在全景分割標注數據不夠的情況下完成全景分割任務, 文獻[2]提出使用弱監督的方法, 利用弱邊框和圖像級別的分類標簽來減少標注數據少引起的問題. 針對實現全景分割落地, 埃因霍芬理工大學團隊嘗試了端到端的方法[3], 提出了JSISNet, 將語義分支和實例分支的損失函數合并, 從而達到聯合訓練, 實現端到端的方法. TASCNet采用從共享的骨干網提取特征圖, 在實例分支使用基于候選區域的方法Mask R-CNN[4]完成Things類的分割并生成Things類的二進制掩碼, 語義分支使用一系列的卷積和上采樣操作完成Stuff類的分割, 以及生成Things類的二進制掩碼, 通過與實例分支的Things二進制掩碼和語義分支的Things二進制掩碼的互補, 最終將實例分支的輸出、 二進制掩碼的輸出及語義分支的輸出進行融合, 輸出最終的全景分割結果, 實現了Things和Stuff類的一致性. 文獻[5]根據語義分割和實例分割存在上下文信息聯系, 提出了AUNet, 利用前景上下文信息來提高背景Stuff分割的效果. 由于之前的一些全景分割的工作使用單獨和不同的網絡進行實例和語義分割, 而沒有進行任何共享計算, PanopticFPN[6]致力于為全景分割任務提供一個良好的基線, 認為全景分割旨在架構級別上統一這些方法, 應該為語義分割和實例分割設計一個單一完整的網絡. 通過使用共享的特征金字塔網絡獲取特征圖, 為實例分支Mask R-CNN賦予語義分割分支FCN[7]來完成分割. UPSNet[8]遵循以往的做法, 使用ResNet[9]的FPN[10]作為共享骨干網來提取特征圖, 實例分支基本使用Mask R-CNN, 使用可變形網絡的子網絡輸出語義分支的結果, 根據PQ的計算方式, 創新地引入一個未知類, 當對某一個像素預測沖突時, 將其置為未知類, 既解決了語義分割結果和實例分割結果的沖突, 也提高了PQ評價, 在全景頭中, 通過使用實例分割結果修正語義分割結果的方式來融合兩個分支結果進行全景預測. UPSNet算法比之前的算法在PQ評價指標和推理速度上都有進一步的提高, 使用的語義分支更加輕量, 但是UPSNet算法對細長物體的分割效果較差(例如電線桿), 未知類的引入雖然解決了沖突, 但是對于沖突像素點的分類預測有一定的失誤.
綜上所述, 對于解決全景分割任務, 主要在于建立一個統一完整的網絡架構, 直接實現對每一個像素點的分類標簽和實例類的實例ID的預測, 在現有大多數框架中, 采用方法主要是提取一個共享特征, 分別對語義分割和實例分割進行預測, 最后將兩者的預測結果進行融合, 雖然這類方法不同于PS中提出的實現一種統一完整的網絡框架, 但是在一定程度上能夠解決全景分割任務.

從UPSNet結構改進出發, 針對實例分支定位和語義分支分割存在的兩個問題, 首先提出在特征金字塔殘差網絡中添加一條自底向上的定位信息增強路徑, 其次在語義分支中添加一個并行的四個克羅內克卷積, 實現對語義和實例分支效果的提升.


圖1 本研究改進算法框架模型Fig.1 The algorithm framework model of the paper

圖2 自底向上和橫向連接的結合Fig.2 Combination of bottom-up and lateral connections
本研究提出了如圖2所示的自底向上的操作. 在圖像分割以及目標檢測領域使用多尺度特征表示往往有更好的效果, 傳統特征金字塔網絡是一種通用的多尺度信息特征提取器, 因為高層神經元對整個物體有強烈的反應, 而其他神經元更容易被局部紋理和模式激活, 所以需要添加一條自頂向下的路徑來傳播語義上強大的特征. 通過在所有尺度上構建高層語義特征圖, 使用一種通用的用于圖像分類的模型, 例如ResNet, 在分類模型中, 通過自頂向下和橫向連接, 將特征層次中的兩個相鄰層依次組合, 建立特征金字塔. 對語義強但分辨率低的高層次特征自頂向下進行上采樣, 并與高分辨率低層特征相結合, 生成高分辨率和語義強的特征表示. 但是語義強的高層特征缺少更多的低層的物理特征, 而信息在神經網絡中傳播的方式是重要的, 低層物理特征能夠促進實例物體定位到更準確的位置. 在此方面, 用于實例分割的PANet[11]在自頂向下后的特征圖后面添加一條自底向上的路徑增強模塊, 其模仿了傳統特征金字塔的橫向連接, 通過和自底向上的特征進行結合, 輸出最終特征圖, 這樣在較低層次上用精確的定位信號增強整個特征層次, 縮短了低層和高層的信息路徑.

圖3 自底向上和自頂向下的結合Fig.3 A combination of bottom-up and top-down
鑒于低層定位信息對于實例分支中實例定位的重要性, 結合傳統特征金字塔網絡, 使用ResNet分類模型, 在ResNet的卷積過程中, 額外添加一條自底向上的路徑, 對每一層先進行下采樣, 再與原來的特征圖橫向連接進行相加結合, 一層層將低層信息傳播到最高層, 產生了{PL2,PL3,PL4,PL5}特征圖; 然后, 再與傳統特征金字塔的自頂向下的{PR2,PR3,PR4,PR5}特征圖結合, 結合方法如圖3所示; 最后再通過一個3×3卷積輸出最后的{P2,P3,P4,P5}多尺度特征圖, 從而實現將低層定位信息傳播到高層語義信息強的特征圖中, 彌補了高層特征表示缺乏低層定位信息的缺點, 使共享主干網的特征輸出更適合之后的實例分支.
本研究提出了如圖2所示的自底向上的操作. 而在圖像分割領域中, 感受野對于圖像分割精度的好壞是一個重要的因素, 而通常情況下是使用標準卷積再加上池化操作來增大感受野, 但是減小了特征圖尺寸. 由于圖像分割是逐像素預測, 所以在進行預測時, 需要在尺寸較小的特征圖上采樣至原始大小尺寸, 這個過程經歷了將圖片尺寸縮小再放大, 會導致丟失信息. 擴張卷積實現了在增大感受野的同時, 不會縮小圖像尺寸, 并且設置不同的擴張率的擴張卷積一起使用, 可以捕獲多尺度上下文信息, 但會受到棋盤問題的影響, 導致丟失了局部信息. 因此在設置不同擴張卷積時, 可以滿足兩個特性, 一是疊加擴張卷積的擴張率不能有大于1的公約數, 二是將擴張率設計成鋸齒狀結構.
由于擴張卷積會導致局部信息的丟失, 所以引入了克羅內克卷積[12], 使得在卷積的過程中能夠捕獲局部信息, 并且不會增加參數, 網絡不會更加復雜, 克羅內克卷積通過兩個因子來調節大小, 分別是內部膨脹因子和內部共享因子. 內部膨脹因子控制克羅內克卷積擴張率, 而內部共享因子控制用于捕獲局部信息子區域的大小. 也就是說, 克羅內克卷積不僅繼承了擴張卷積的優點, 而且還克服了擴張卷積會丟失局部信息的缺點. 通過一個有效特征比(valid feature ratio, VFR)來對比克羅內克卷積和擴張卷積, 從而驗證克羅內克卷積可以捕獲局部信息, 發現克羅內克卷積的有效特征比較高. VFR用來計算所涉及的特征向量數與卷積塊中所有特征向量數之比.
克羅內克卷積的數學理論基礎是克羅內克積, 使用一個內部膨脹因子大小r1×r1的方陣與原始核進行克羅內克積, 使得原始核大小可以擴展到原來的r1倍.為了避免額外帶來參數, 可以將r1×r1的方陣設計為一個全1矩陣和零矩陣的結合, 而全1矩陣的大小可以設置為內部共享因子的大小為r2的方陣.
克羅內克積公式如下:

(1)
其中,A是一個m×n的矩陣;B是一個r×s的矩陣.則克羅內克卷積公式可以表述為:

(2)
這里,cout∈[1,coutput]∩Z,cin∈[1,cinput]∩Z;K′是經過克羅內克積后的克羅內克卷積核;K是原始卷積核.令每一個通道上的特征矩陣定義為M, 克羅內克卷積核K′映射到M中的中心坐標是(p,q), 則可以定義特征矩陣M中參與計算的區域矩陣為S.以上可以推出參與計算的坐標為: (p+ir1+u,q+jr1+v), 其中i,j∈[-k,k]∩Z,u,v∈[0,r2-1]∩Z, 那么在每一個通道上的克羅內克卷積操作可以表示為:

(3)
由上述公式可知, 當r1≥1,r2=1時, 克羅內克卷積退化為擴張卷積, 當r1=r2=1時, 克羅內克卷積退化為標準卷積.
本研究使用四個克羅內克卷積, 將多尺度特征分別輸入到克羅內克卷積網絡中, 得到的輸出與可變形卷積網絡的輸出進行融合, 接著上采樣拼接, 輸入到1×1卷積中進行語義類別預測.
Cityscapes城市街道場景數據集, 主要提供無人駕駛環境下的圖像分割數據, 用于評估算法在城區場景語義理解方面的性能: 像素級、 實例級和全景語義標注. 該數據集中所有圖片來自于50個不同城市春、 夏、 秋的街道場景, 每一張圖片的分辨率都是1 024 px×2 048 px, 并且還包含了5 000個精細標注的圖片和20 000個粗糙標注的圖片, 圖像中物的類別來自于30種語義類, 其中19個常用類用于語義分割的基準評估. 這些圖像分為8大類: 平面、 人、 交通工具、 建筑、 小物體、 自然、 天空、 空類. 5 000個精細標注的圖片分為了三個文件, 分別是包含2 975張圖片的訓練集文件、 包含1 525張圖片的測試集文件和包含500張圖片的驗證集文件. 部分示例圖像如圖4所示:

(a) 示例1 (b) 示例2 (c) 示例3圖4 Cityscapes數據集示例Fig.4 Cityscapes dataset example
實驗使用ResNet-50作為共享主干網低層信息增強特征金字塔網絡的圖像分類模型, 學習率為0.005, 動量為0.9, 優化器為SGD, 歸一化方法使用組歸一化, 訓練輪數為48 000, GPU使用NVIDIA GeForce GTX 1080Ti.
為了對全景分割方法性能進行客觀評價, 采用PQ、 AP和mIoU作為本研究提出的全景分割方法效果的衡量指標. 其中, PQ是由RQ和SQ的乘積而來; RQ是在檢測中應用廣泛的F1 score, 用來計算全景分割中每一個實例物體識別的準確性; SQ表示匹配后的預測分割和標注分割的mIoU, 當預測分割和標注分割的IoU嚴格大于0.5, 則表示預測的分割和標注的分割匹配. PQ的計算式如下所示:

(4)
AP指標是實例分割常用的評價指標, 指的是實例的平均精度, 是PR曲線和坐標所圍成的面積:

(5)
mIoU指標是語義分割廣泛使用的評價指標, 指的是每一個類的預測分割和標注分割的交并比再取平均. mIoU 表示分割結果與原始圖像真值的重合程度.

(6)
從表1的對比結果可以看出, 在評估實例分支的AP指標和語義分支的mIoU指標相對于UPSNet有了更進一步的提升, 但是反而降低了PQ指標, 說明UPSNet的全景頭融合方法還存在一定的缺陷, 需要更好地解決兩個分支在融合時產生的沖突問題.

表1 在Cityscapes 驗證集上的對比結果
從圖5的UPSNet方法的全景分割結果圖片中看出, 在遠處的語義類和實例類顏色相近的實例類像素點會被分配為語義類, 從而有的實例會直接消失, 并且在細節的刻畫上, 會導致很多的凹凸不平, 使得分割出來的物體不夠有線條性. 在第一行圖片中, 本研究方法的草地分割更加準確并且更加平滑; 第二行圖片中, UPSNet方法中右邊墻面沒有分割出來, 而本研究方法分割出了一部分; 第三行圖片中, 在UPSNet方法中中間拿著包的人的手臂出現了斷續, 本研究方法完好地分割出來; 第四行圖片中, 本研究方法對于UPSNet方法在分割道路時更接近于標注圖片.

(a) 原圖 (b) GroundTruth (c) UPSNet方法 (d) 本研究方法圖5 本研究方法與UPSNet在Cityscapes上的全景分割效果對比Fig.5 Comparison of panoramic segmentation effect between UPSNet and our method on Cityscapes
為了提高語義分支和實例分支的分割能力, 設計了一個新型的基于多尺度定位信息增強的全景分割模型, 其能夠有效增強分割能力主要源于兩方面.
1) 多尺度定位信息增強特征. 根據傳統特征金字塔網絡的高層特征缺乏低層物理特征的缺點, 在傳統特征金字塔網絡的另一邊添加一條自底向上的路徑, 增強了高層特征的定位信息.
2) 克羅內克卷積組. 在語義分支中添加四個克羅內克卷積分別對應四個多尺度特征, 增大了此時的多尺度特征的感受野, 并且防止了特征的局部信息丟失.
針對UPSNet的不足進行了改進, 在Cityscapes公開數據集上進行了多組多種方法的對比實驗, 實驗結果表明了本研究方法相對于UPSNet在語義分支和實例分支中的效果更好. 此外, 未來的工作將進一步研究全景頭中語義分支結果和實例分支結果的融合方法以及語義分支和實例分支之間的相關性, 探索出更好的融合方法以提高整體的分割能力.