任鳳至,毛 琳,楊大偉
(大連民族大學 機電工程學院,遼寧 大連 116605)
全景分割由無定形區和實例區兩部分分割組成,其分割質量由兩部分分割效果共同決定。實例區中包含人、車等實例目標;無定形區則包含諸如道路、草地、建筑物等具有相同結構和材質的目標[1]。在無人駕駛中,無定形目標約束駕駛環境與條件,是無人車正常工作的視覺信息保障。
特征金字塔網絡(Feature Pyramid Networks,Panoptic FPN[2])針對實例分割和語義分割這兩類相互獨立的任務設計一種可以為二者共享的主干結構,提高對實例目標的分割精度,但對無定形區的分割效果并不理想;AUNet[3](注意力分割網絡)通過為區域建議網絡和掩模網絡設計兩種注意力機制,提高語義分割性能,但該算法網絡結構復雜,計算量大,對要求快速反應的無人駕駛場景適用性較差;均一化全景分割網絡(Unified Panoptic Segmentation Network,UPSNet[4])引用FPN主干網絡,提出全景融合機制對語義分割全卷積網絡[5]和實例分割Mask R-CNN[6]的輸出進行融合,提高全景分割精度,在諸多算法中表現性能優越,該算法以殘差網絡(Residual Network,ResNet[7])為基礎,結合FPN特征提取模塊作為網絡主干,采用自上而下路徑進行融合,以對實例目標的特征提取為重點,可獲得實例及其細節信息,但忽略了對全景中無定形區的關注,導致語義分割中無定形目標特征不顯著,使全景分割結果不夠準確。
針對分割目標特征不顯著的問題,提出了基于增強特征融合解碼器的語義分割算法[8],通過提出增強特征融合解碼器,實現特征增強。解碼器級聯深層特征與降維后的淺層特征,在卷積運算后引入自身平方項的注意力機制,利用卷積預測自身項與自身平方項各通道的權重并以乘法做增強,最后將結果融合。該算法通過引入注意力機制提高上下文信息,增強了目標的語義特征,但該特征增強方法面向語義分割,對實例分割的適用性不強,進而無法應用于全景分割。
本文提出一種無定形區特征增強的全景分割算法(Amorphous region feature enhanced Panoptic Segmentation,APS),通過改變特征金字塔的融合方式,構造空洞特征金字塔,改善UPSNet對無定形目標分割不準確的問題,提高語義分割精度,使全景分割算法取得一流的性能表現,并能更好地應用于無人車、自主駕駛等領域。
APS全景分割算法對UPSNet算法的改進有兩點:第一,采用自下而上的融合結構代替UPSNet中FPN自上而下的路徑,有效利用下層包含的無定形區特征,解決無定形目標分割效果不理想的問題;第二,將空洞卷積引入特征提取網絡,相比UPSNet,能更好地提取目標邊緣特征信息,解決邊緣輪廓模糊的問題。
APS算法利用殘差網絡構造圖像金字塔,還原輸入圖片信息,保證輸入信息的完整性;采用自下而上的結構構造空洞特征金字塔,在剔除實例細節信息的同時,保存更豐富的無定形區特征信息,保證無定形區和實例區特征信息的完整性,提高全景分割質量。APS全景分割算法結構如圖1。

圖1 APS全景分割算法整體結構
APS全景分割算法改進結構如圖2。UPSNet的FPN特征金字塔采用自上而下路徑提取特征,其輸出特征映射圖中,每一層都包含本層和更上層信息而不包含更下層信息,因為上層包含更強的語義信息,下層包含更強的位置信息[9],所以導致下層包含的特征沒有被充分提取,大量無定形區的特征信息丟失。另外,由于上層特征信息被充分提取,實例區不僅保留了邊緣輪廓特征,還留存了許多對分割結果沒有意義的實例細節信息。
APS的空洞特征金字塔采用自下而上的路徑對殘差網絡的輸出特征層進行特征融合,更有效地利用特征層下層的位置信息,保證無定形區特征的完整性;引入空洞卷積來擴大卷積核感受野,使無定形目標輪廓特征大大增強,分割效果更好,性能得到提升。
算法實施步驟如下:
步驟1:輸入圖片x,經殘差網絡輸出后提取特征層組Ci~Ci+3(i為卷積層數,i∈[0.3],i∈Z+)作為特征金字塔的輸入。以F(x,W)為殘差映射函數,輸出特征層C計算通式為
C=F(x,W)+x。
(1)

a)UPSNet算法特征金字塔 b)APS算法空洞特征金字塔
步驟2:使用自下而上的路徑代替原FPN特征金字塔自上而下的方向。
將殘差網絡底層Ci輸出給特征金字塔的底層Pi。特征金字塔自下而上特征融合時引入空洞卷積,結合殘差的輸出和增強邊緣特征的需求,選取空洞卷積參數,構造空洞特征金字塔。
空洞卷積能在不丟失分辨率的前提下,通過增大卷積核的感受野,使模型得到更為豐富的邊緣特征信息,提高分割的精度。另外,空洞卷積可以保持卷積核內部的參數數量不變,不會額外增加計算量。
空洞卷積核尺寸計算公式(假定卷積核的寬和高一致):
K′=D(K-1)+1 。
(2)
式中,K為待擴張卷積核的原尺寸,D為擴張系數,在經過擴張后,得到的空洞卷積核尺寸K′。進而利用卷積操作的尺寸變換公式,計算輸出特征圖的尺寸大小。
特征圖經空洞卷積操作后的尺寸變換公式:
(3)
式中:O為卷積操作后輸出的特征圖;I為輸入待卷積的特征圖;P(padding)為在特征圖外側補0操作;F為卷積核的尺寸(假設卷積核的寬和高一致);S(stride)為卷積核每次在特征圖移動的步長。
基于空洞卷積優勢所在,將空洞卷積引入全景分割算法的特征提取網絡,利用空洞卷積對不同特征層的特征信息進行提取,獲取更加豐富的特征信息,增強目標邊緣特征,提高分割精度。
步驟3:計算空洞金字塔特征層Pi經過空洞卷積變換后的尺寸大小Pi′,將輸出層Pi代入卷積公式(3):
(4)
步驟4:計算空洞金字塔輸出特征層組Pi~Pi+3尺寸大小。Pi+1由Pi′和殘差輸出層Ci+1進行相加得到,Pi~Pi+3的計算公式為
Pi=Ci;
(5)
Pi+1=Pi′+Ci+1。
(6)
特征層Pi+2、Pi+3尺寸計算同上。
輸入圖片經殘差網絡和空洞特征金字塔的處理,增強了無定形區特征。將提取到的無定形區特征與UPSNet算法中無定形區特征進行可視化對比,如圖3。

a)原圖 b)UPSNet c)APS
圖3a為原始圖像,圖3b為UPSNet算法中卷積層的可視化表達,圖3c為APS算法中經無定形區特征增強模塊的可視化表達。APS全景分割算法增強無定形目標的特征,提高了無定形目標邊緣特征的表達能力,有利于目標分割。
步驟5:將空洞金字塔輸出特征層組Pi~Pi+3送入語義分割和實例分割兩分支并行進行分割處理。
步驟6:利用全景分割模塊對語義、實例分割兩分支的輸出信息進行融合處理,輸出全景分割結果。
本算法運行環境硬件配置為NVIDIA GeForce 1080Ti顯卡,軟件系統為Ubuntu 16.04,使用Pytorch 0.4.1深度學習框架。訓練使用語境中通用目標(Common Objects in Context,COCO[10])2017訓練集,共有118 287張圖片,其中包括80個實例種類和53個無定形種類。測試使用COCO 2017驗證集,共有5 000張圖片。
在COCO 2017數據集下,將批尺寸設置為1,學習率設為0.001 25,迭代次數為90 000次,對兩算法分別進行訓練。訓練結束后對模型進行測試,根據Panoptic Segmentation[1](全景分割)提出的全景分割評價指標,將分割質量(segmentation quality,SQ)的值作為評估測試結果的衡量標準,其值越高,代表分割質量越好,算法的性能越優。仿真結果對比見表1。

表1 仿真結果對比
仿真結果表明APS全景分割算法SQ為66.1高于SQ為63.1的UPSNet全景分割算法。在COCO數據集133個分割類別中,APS全景分割算法相比UPSNet在分割質量上具有較大優勢。APS與UPSNet分割結果對比如圖4。

a)原圖 (b)UPSNet分割結果 c)APS分割結果
圖4中,如行(1)、(2)可見,在日間的簡單場景中,APS對無定形區的分割相較于UPSNet更為準確。行(1)中的綠色草地沒有被UPSNet識別出來,而APS能夠對其進行準確的識別并將其分割出來;在行(2)中,APS對圖中沙地和圓形區的分割效果相比UPSNet更好;如行(3)可見,在夜間并存在多目標的場景中,由于光線的影響,導致UPSNet對無定形目標草地的分割質量較差,而APS卻可以很好地避免該干擾實現準確的分割;如行(4)可見,在日常復雜的道路場景中,UPSNet對街道和馬路的分割存在較大誤差,這會對自主駕駛產生嚴重的影響,但APS在這一場景中表現優良,對道路的分割基本準確,可以較好應用于無人駕駛汽車等領域。
本文針對UPSNet全景分割算法對無定形區分割效果不佳的情況,加入無定形區特征增強網絡,提出無定形區特征增強全景分割算法,通過增強無定形區特征信息,提高語義分割精度,進一步提高全景分割性能。與UPSNet算法相比,APS改善了對無定形目標的分割效果,并得到較優結果。APS算法為無人車目標感知提供了一種新的思路,使全景分割算法更好地應用于無人車自主駕駛等場景。后續工作中,希望進一步提高對存在目標重疊的復雜場景的分割精度,增強無定形目標與實例目標的區分和識別的能力。