999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向交通場景解析的局部和全局上下文注意力融合網絡

2023-03-24 13:24:46王澤宇布樹輝黃偉鄭遠攀吳慶崗張旭
計算機應用 2023年3期
關鍵詞:特征提取特征融合

王澤宇,布樹輝,黃偉,鄭遠攀,吳慶崗,張旭

(1.鄭州輕工業大學 計算機與通信工程學院,鄭州 450002;2.西北工業大學 航空學院,西安 710072)

0 引言

場景解析[1]作為計算機視覺方向的基礎工作,它的核心技術問題是如何準確地為圖像中的每個像素分類。高精度的場景解析對于機器人任務規劃[2]、自動駕駛[3]以及語義SLAM(Simultaneous Localization And Mapping)[4]等智能計算機視覺任務的實現至關重要。真實的場景復雜多變,特別是交通場景,圖像中不僅包含多個不同類別的物體,而且物體的空間位置并不固定。因此,高精度的場景解析需要解決如下3 個問題:1)如何有效地提取圖像中物體的視覺外觀信息;2)如何準確地推理物體的全局上下文信息;3)如何自適應地完成上述兩類特征的融合。

文獻[5]首次基于卷積神經網絡(Convolutional Neural Network,CNN)提出面向場景解析的全卷積網絡(Fully Convolutional Network,FCN),并通過有效的視覺特征提取獲得巨大成功。但是,CNN 卷積核的感知域較小,空間結構化學習能力較弱,提取的視覺特征一般缺少全局上下文信息。條件隨機場(Conditional Random Field,CRF)作為CNN 的后端,通過優化圖模型上定義的能量函數,使特征相近的相鄰物體類別相同,相差較大的類別不同,從而實現場景解析的一致性和平滑性優化[6]。另外,由于具有門和存儲結構的長短期記憶(Long Short-Term Memory,LSTM)網絡可以模擬人腦的機制記憶和遺忘信息,因此將LSTM 加入CNN 的后端,從而通過逐像素地遍歷圖像視覺特征以獲取物體間的空間依賴關系[7]。此外,PSPN(Pyramid Scene Parsing Network)[8]、DASPP(Densely connected Atrous Spatial Pyramid Pooling)[9]、DeepLab(Deep Labelling)[10]和多層 多尺度 注意力網絡(Hierarchical Multi-scale Attention Network,HMAN)[11]等方法通過具有多尺度感受野的空洞空間金字塔池化單元提取物體所處場景的局部和全局上下文信息,避免了單一視覺特征可能導致的分類錯誤。但是,上述方法在上下文信息推理過程中沒有充分考慮全局場景的空間結構化特征與局部對象自身的視覺外觀特征間的相關性,導致全局噪聲信息融入視覺特征當中,影響分類特征的魯棒性。

為了解決此問題,基于注意力機制[12]的全局上下文信息推理方法[13-31]在場景解析研究中應用廣泛。文獻[13]中提出了基于空間和通道注意力模塊的雙注意力網絡(Dual Attention Network,DAN),根據物體的視覺外觀特點自適應地聚合全局上下文信息。門控金字塔網絡(Gated Pyramid Network,GPN)[19]通過門控金字塔模塊過濾全局噪聲信息,保證了融合生成特征的質量。上下文先驗網絡(Context Prior Network,CPN)[16]內嵌基于親和損失的上下文先驗層,根據親和損失監督學習的上下文先驗知識有選擇性地獲取類別內和類別間的上下文依賴關系,從而提升特征表示的魯棒性。語義約束的注意力細化網絡(Semantic Constrained Attention Refinement Network,SCARN)[18]通過語義約束的注意力機制有效地學習類別內的上下文依賴關系,有效地增強了整個物體特征信息的一致性。另外,對象上下文表示網絡(Object Contextual Representation Network,OCRN)[14]基于對象上下文表示實現像素上下文的有效聚合。該方法首先初步分割場景中的物體并聚合得到對象上下文表示;然后計算像素自身特征與場景中每個對象上下文表示的相關性;最后根據相關聯程度自適應地聚合對象上下文信息,從而有效地增強每個像素的特征表示,并取得較優的場景解析準確率。但是,上述方法未充分考慮全局場景的空間結構化特性,如:騎手和行人的上方一般是天空,而騎手和行人的下方分別是自行車和道路,如何有效地聚合騎手和行人下方的上下文信息是區分騎手和行人的關鍵。而現有方法直接自適應聚合所有像素的上下文信息,從而由于依賴關系過度復雜而無法有效聚合有用上下文信息并屏蔽噪聲上下文信息,進而影響聚合后特征表示的質量,甚至導致分類錯誤。

本文面向復雜交通場景提出局部和全局上下文注意力融合網絡(Local and Global Context Attentive Fusion Network LGCAFN),LGCAFN 由特征提取模塊、結構化學習模塊和特征融合模塊構成。主要工作如下:

1)基于串聯空洞空間金字塔池化(Cascaded Atrous Spatial Pyramid Pooling,CASPP)單元改進了ResNet-101[32],通過增大感知域來提取物體不同尺度的局部上下文信息。

2)通過8 路LSTM 分支分別在8 個不同的方向上逐像素地遍歷多尺度局部特征,從而顯式地學習8 個不同場景區域的全局上下文信息,推理生成的空間結構化特征能夠全面而準確地描述全局場景的結構化特性。

3)將物體鄰近8 個不同場景區域的全局上下文信息與它自身局部視覺外觀信息的相關性進行加權特征融合,自適應聚合生成的多模態融合特征能夠高質量地表達物體的綜合語義信息。

在Cityscapes 數據集[33]上進行對比實驗,實驗結果表明,LGCAFN 能夠提升交通場景解析的準確率。

1 局部和全局上下文注意力融合網絡

LGCAFN 共包含3 個部分:特征提取模塊、結構化學習模塊和特征融合模塊。特征提取模塊由ResNet-101 構成,在此基礎上,修改ResNet-101 第2~5 層的結構為CASPP,從而通過級聯改進ResNet-101 各層的輸出特征,以提取物體的多尺度局部特征。結構化學習模塊由8 路LSTM 分支組成,8 路LSTM 分支分別在8 個不同的方向上逐像素地遍歷多尺度局部特征,從而學習物體鄰近8 個不同場景區域的全局上下文信息,進而推理生成空間結構化特征。特征融合模塊采用3階段特征融合方式對物體的多尺度局部特征和空間結構化特征依次進行基于多層卷積操作的降維融合、基于注意力機制的加權融合以及基于反池化和反卷積操作的解碼融合,最后利用Softmax 分類器根據自適應聚合的多模態融合特征逐像素地標注交通場景類別。LGCAFN 的框架如圖1 所示。

圖1 局部和全局上下文注意力融合網絡Fig.1 Local and global context attentive fusion network

1.1 基于串聯空洞空間金字塔池化單元的特征提取模塊

特征提取模塊通過改進的ResNet-101 提取輸入RGB 圖像的多尺度局部特征(Multi-scale Local Features,MLF),圖2為多尺度局部特征的提取過程。原始的ResNet-101 共包含5層:第1 層由7×7 卷積操作(Conv)和3×3 最大池化操作(maxpool)組成;第2~5 層分別由兩類殘差卷積單元(Residual Convolution Unit,RCU)構成,RCU1 和RCU2 均由1×1、3×3 和1×1 卷積操作堆疊而成[32]。為進一步增大特征提取模塊的感知域,將ResNet-101 第1 層中7×7 卷積改為空洞卷積操作,并修改RCU1、RCU2 內的3×3 卷積操作為稀疏采樣率可自設定的空洞卷積操作,從而改進ResNet-101 第2~5層為稀疏采樣率順序遞增的CASPP。

圖2 基于CASPP單元的特征提取模塊Fig.2 Feature extraction module based on CASPP unit

特征提取模塊采用端到端的方式逐層提取特征,模塊中第l層的輸出特征可以定義為如下形式:

其中:I為輸入RGB 圖像;FlMLF為特征提取模塊第l層的輸出特征;Conv1和maxpool 為第1 層中的7×7 空洞卷積與3×3 最大池化;r1為Conv1的稀疏采樣率;Casppl為第l層CASPP 單元對應的操作;rl為Casppl中3×3 卷積對應的稀疏采樣率組。

為了提取RGB 圖像的多尺度局部特征,首先通過上采樣提取各層的輸出特征,使新生特征尺寸為輸入圖像尺寸的1/4,然后級聯各層上采樣后的特征并送入多層卷積操作進行特征降維,從而生成RGB 圖像的多尺度局部特征FMLF:

其中:Conv2表示3層1×1 卷積操作;n、H/4和W/4分別為多尺度局部特征的維數、高度和寬度;表示上采樣操作,nl為特征提取模塊第l層輸出特征的維數。

多尺度局部特征中的像素(i,j)的特征可以表示為:

為了提取物體高質量的視覺特征表示,本文在特征提取模塊各層采用稀疏采樣率順序遞增的CASPP 單元,以顯著地增大特征提取模塊的感知域,從而使模塊各層的輸出特征包含更加豐富的局部上下文信息。通過級聯各層輸出特征得到的多尺度局部特征由物體不同抽象級別的局部上下文信息組成,能夠更加準確地描述物體的視覺外觀特點。

1.2 基于8路長短期記憶網絡分支的結構化學習模塊

為有效學習全局場景的空間結構化特性,將物體所處全局場景劃分為上、下、左、右、左上、右下、右上和左下8 個不同區域,并采用8 路LSTM[7]分支顯式地推理物體鄰近8 個不同區域的全局上下文信息,進而通過級聯不同區域的上下文信息獲取物體的空間結構化特征(Spatial Structural Features,SSF)。圖3 為SSF 的推理過程。8 路LSTM 分支均包含5 層單向的LSTM 單元,分別在8 個不同方向上逐像素遍歷特征提取模塊輸出的多尺度局部特征:1)從上到下(↓);2)從下到上(↑);3)從左到右(→);4)從右到左(←);5)從左上到右下(↘);6)從右下到左上(↖);7)從右上到左下(↙);8)從左下到右上(↗)。結構化學習模塊的處理流程可表示為如下形式,其中,b∈Z:

圖3 基于8路LSTM分支的結構化學習模塊Fig.3 Structural learning module based on eight LSTM branches

其中:LSTMl↓(LSTMl↑)為從上(下)到下(上)遍歷分支中的第l層LSTM 單元的操作,對圖像中每列i=b按j值遞增(遞減)的順序逐像素遍歷;LSTMl→(LSTMl←)為從左(右)到右(左)遍歷分支中的第l層LSTM 單元的操作,對圖像中每行j=b按i值遞增(遞減)的順序逐像素遍歷;LSTMl↘(LSTMl↖)為從左上(右下)到右下(左上)遍歷分支中的第l層LSTM 單元的操作,對圖像中每條斜線i=j-b按j值遞增(遞減)的順序逐像素遍歷;LSTMl↙(LSTMl↗)為從右上(左下)到左下(右上)遍歷分支中的第l層LSTM 單元的操作,對圖像中每條斜線j=-i+b按i值遞減(遞增)的順序逐像素遍歷;hl,i,j↓、hl,i,j↑、hl,i,j→、hl,i,j←、hl,i,j↘、hl,i,j↖、hl,i,j↙和hl,i,j↗分別表示第l層LSTMl↓、LSTMl↑、LSTMl→、LSTMl←、LSTMl↘、LSTMl↖、LSTMl↙和LSTMl↗的隱藏層狀態;dl為第l層各LSTM單元隱藏層狀態的維數;多尺度局部特征fi,jMLF表示第1 層各LSTM 單元的輸入;hl-1,i,j表示第(l2≤l≤5)層各LSTM 單元的輸入特征,它由第l-1 層各LSTM 單元隱藏層狀態級聯降維構成。

假設從上到下遍歷分支中的第l層LSTMl↓,對于遍歷到的像素(i,j),LSTMl↓計算它的全局上下文信息(隱藏層狀態)hl,i,j↓的過程可以定義為如下形式:

物體的空間結構化特征由鄰近8 個不同區域(上、下、左、右、左上、右下、右上和左下)的全局上下文信息組成,能夠全面而準確地描述物體所處全局場景的空間結構化特性。當語義類別間的物體具有相似的視覺外觀信息時(如行人和騎手),LGCAFN 就可以結合物體鄰近場景區域的全局上下文信息準確地區分物體的類別;同時,當語義類別內的物體整體特征信息不一致時(如地面上有樹影的馬路),LGCAFN又能夠依據物體所處全局場景的結構化特性避免分類錯誤。

1.3 基于注意力機制的3階段特征融合模塊

經過特征提取模塊和結構化學習模塊的學習,LGCAFN分別生成物體的多尺度局部特征MLF 和空間結構化特征SSF。為了實現上述2 類模態特征的自適應融合,本文首先采用多層卷積操作將物體的多尺度局部特征依次與8 個鄰近場景區域推理的空間結構化特征進行第1 次降維融合,從而有效地挖掘2 類特征之間存在的復雜非線性關系;然后,根據2 類模態特征之間的相關性自適應地賦予8 個不同方向上的降維融合特征對應的權重,并基于注意力機制對8 個方向上的降維融合特征進行第2 次加權融合,從而有效地實現物體鄰近8 個不同場景區域上下文信息的自適應聚合;最后,將加權融合特征和特征提取模塊前2 層輸出的低抽象級別局部特征級聯,并通過多層反池化和反卷積操作進行第3次解碼融合,從而準確地解碼還原出每個像素的綜合化語義信息。圖4 展示了特征融合模塊的原理。

圖4 基于注意力機制的3階段特征融合模塊Fig.4 Three-stage feature fusion module based on attention mechanism

首先,將每個像素(i,j)的多尺度局部特征依次與8 個方向上推理的空間結構化特征級聯,并采用共享參數的3 層1×1 卷積操作對8 個方向上級聯的混合特征作第1 次降維融合,可以表示為如下形式:

然后,利用Softmax 函數分別計算不同方向上的降維融合特征對應的注意力權重

其中:e2為注意力權重的維數;[0,1]為權重的取值范圍。

對8 個不同方向上的降維融合特征進行加權求和,從而生成以下特征:

最后,本文級聯加權融合特征和特征提取模塊前2 層輸出的低抽象級別局部特征,并通過反池化和反卷積操作解碼還原出物體的多模態融合特征(Multi-modal Fusion Features,MFF),進而利用Softmax 函數對RGB 圖像逐像素地標注語義類別。上述解碼融合過程可以表示為如下的形式:

其中:unpool 表示反池化操作;deconv 表示反卷積操作;FMFF表示RGB 圖像的多模態融合特征;e3表示多模態融合特征的維數;F1MLF和F2MLF分別表示特征提取模塊第1 和2 層的輸出特征;P表示語義分類概率;K表示語義類別個數。

本文的特征融合模塊不僅能夠準確地聚合有用的上下文信息,而且可以有效地避免全局噪聲信息的引入,聚合生成的多模態融合特征不僅含有物體自身的視覺外觀信息,而且包含與它相關性較高的鄰近場景區域的全局上下文信息,從而較為準確地表示物體的綜合語義。

2 實驗與結果分析

2.1 訓練數據集和性能評價標準

為了評價LGCAFN,在標準交通場景RGB 數據集Cityscapes[33]上進行性能測試。Cityscapes 數據集共包含5 000 張高分辨率(1 024×2 048)的交通場景圖像,訓練、驗證與測試圖像分別有2 975、500、1 525 張。該數據集共包含9.43×109個細粒度標注的像素,被標記為19 個交通場景語義類別。為進一步提升網絡性能,使用Cityscapes 擴展數據集[11]進行訓練,擴展集包含20 000 張自動標注的圖像,從而確保各語義類別分布的均衡性。另外,使用平均交并比(mean Intersection over Union,mIoU)評價場景解析[5]。

2.2 實驗環境和參數設置

本文基于開源的深度學習開發框架TensorFlow[34]編碼實現LGCAFN,并在一臺2 顆2.4 GHz Intel Xeon Silver 4214R CPU(2×12 Cores),24 GB NVIDIA GeForce GTX 3090 GPU 以及128 GB 內存的計算機上進行訓練和測試。在訓練階段,本文定義目標函數為多類別交叉熵損失[5],并利用反向傳播算法[35]實現LGCAFN 各層的聯合優化。

在特征提取模塊通過CASPP 單元改進的ResNet-101[32]提取物體的多尺度局部特征。首先,設定網絡第1 層內7×7卷積操作的稀疏采樣率為2;并設定第2~5 層中3×3 卷積操作組對應的稀疏采樣率組分別為(2,4,8),(2,4,8,16),(2,4_6,8_4,8_4,16_4,24_4)和(4,8,16)。隨后使用ImageNet數據集訓練的公用參數模型resnet_v1_101_2016_08_28[32]初始化特征提取模塊的參數,同時設置該模塊的學習率為5×10-4;上采樣改進ResNet-101 各層的輸出特征,各層輸出特征的維數分別為64、256、512、1024 和2 048;最后,級聯各層上采樣后的特征,并將級聯后的特征送入3 層1×1 卷積進行降維,各卷積層輸出特征的維數分別為2 048、1 024 和512。

在結構化學習模塊,本文通過8 路LSTM 分支學習物體鄰近8 個不同場景區域的全局上下文信息,從而生成空間結構化特征。每路LSTM 分支均由5 個單向的LSTM 單元堆疊而成,各單向LSTM 單元輸出的隱藏層狀態的維數分別為512、256、128、256 和512。本文在[-0.05,0.05]的均勻分布下隨機地初始化8 路LSTM 分支的網絡參數,并設定結構化學習模塊的學習率為10-3。

在特征融合模塊,本文首先通過級聯的3 層1×1 卷積操作將多尺度局部特征依次與8 個鄰近場景區域內學習的空間結構化特征進行第1 次降維融合,各卷積層輸出特征的維數分別為512、256 和256;然后,利用Softmax 分別計算8 個方向上降維融合特征對應的注意力權重,并基于注意力機制對8 個方向上的降維融合特征加權求和,從而完成第2 次加權融合;接著,級聯加權融合特征和特征提取模塊第1、2 層輸出的低抽象級別局部特征,并通過2 層2×2 反池化和3×3 反卷積操作對級聯后的特征進行第3 次解碼融合,解碼生成的多模態融合特征的維數為128;最后,利用Softmax 分類器并根據多模態融合特征逐像素地標注RGB 圖像的語義標簽。本文在均值為0、標準差為0.05 的正態分布下初始化各卷積層的網絡參數,同時設置特征融合模塊的學習率為5×10-4。

在完成LGCAFN 的網絡參數和學習率配置后,設置LGCAFN 的訓練 參數為:batch_size=8,momentum=0.9,weight_decay=10-4,epoch=500,并采用隨機梯度下降算法[36]優化LGCAFN 的網絡參數。

在測試階段,本文將測試圖像依次輸入LGCAFN,并在LGCAFN 的網絡參數指導下依次輸出圖像的場景解析結果。

2.3 實驗結果與分析

2.3.1 與當前先進方法的對比實驗結果

在Cityscapes 原始數據集上,將LGCAFN 與OCRN[14]、基于空間金字塔的圖推理網絡(Spatial Pyramid Based Graph Reasoning Network,SPBGRN)[15]、CPN[16]、語義邊界增強和定位網絡(Semantic Boundary Enhancement and Position Network,SBEPN)[17]、SCARN[18]、GPN[19]、通道化軸向注意力網絡(Channelized Axial Attention Network,CAAN)[20]、行列注意力網絡(Row-Column Attention Network,RCAN)[21]、上下文集成網絡(Contextual Ensemble Network,CEN)[22]和統計紋理學習網絡(Statistical Texture Learning Network,STLN)[29]等方法進行比較;添加了Cityscapes 擴展數據集后,將LGCAFN 與HMAN[11]、擴展殘 差網絡(Scaling Wide Residual Network,SWRN)[30]和逆變 換網絡(Inverse Transformation Network,ITN)[31]等進行比較。HMAN、OCRN、RCAN 和ITN 等采用HRNet-W48(48-Width High Resolution Network)[37]作為主干網 絡,SWRN采用SWideRNet-(1,1,4.5)(Scaling Wide Residual Network with factors(1,1,4.5))[30]作為主干網絡,其他方法采用ResNet-101 作為主干網絡。對比結果如表1所示。

在僅使用Cityscapes 原始數據集進行訓練時,LGCAFN的平均mIoU 為84.0%,相較于次優的OCRN 提升了0.7 個百分點,而且在12 種語義類別上的mIoU 取得了最優。使用Cityscapes 擴展數據集后,LGCAFN 的平均mIoU 為86.3%,取得了最優;同時在14 種類別的mIoU 取得了最優。值得注意的是:1)LGCAFN 在圍欄、桿、信號燈和交通標識等尺寸較小的語義類別上均取得了最優的mIoU,一方面說明基于CASPP 單元的特征提取模塊能夠有效地保留尺寸較小物體的視覺細節信息;另一方面說明基于注意力機制和解碼結構的特征融合模塊不僅能準確聚合有用的局部和全局上下文信息,而且能有效避免引入全局噪聲信息,確保聚合生成的多模態融合特征的魯棒性。2)LGCAFN 在較易混淆的語義類別(如行人和騎手、摩托車和自行車)上也取得了最優的分割結果,一方面說明基于8 路LSTM 分支的結構化學習模塊能準確學習物體鄰近8 個不同場景區域的全局上下文信息;另一方面也說明基于注意力機制的特征融合模塊可以根據物體自身局部特征和所處場景全局特征的相關性自適應地聚合有用上下文信息。相較于先進方法,LGCAFN 能夠更加有效地自適應聚合物體所處全局場景的上下文信息,生成的特征表示可以更加全面準確地表達物體的綜合語義信息。

本文以浮點數參數量和解析1 024×2 048 分辨率圖像所需浮點運算量作為網絡模型復雜度的評價標準,不同方法的對比結果如表2 所示。可以看出,LGCAFN 不僅具有最小的參數量,而且具有較低的單幀圖像預測運算量,說明LGCAFN 模型尺寸較小且預測延遲較低。另外,LGCAFN 具有最優的mIoU,從而證明LGCAFN 可以較好地平衡準確性和復雜度。

表2 在Cityscapes數據集的模型復雜度對比Tab.2 Model complexity comparison on Cityscapes dataset

2.3.2 消融學習

在表3 中,Baseline 為原始ResNet-101,Baseline+CASPP表示加入CASPP 單元模型,Baseline+CASPP+LSTM 表示添加基于8 路LSTM 分支的結構化學習模塊后的模型,Baseline+CASPP+LSTM+Attention 為添加基于注意力機制的模型。

表3 Cityscapes數據集上的消融學習 單位:%Tab.3 Ablation study on Cityscapes dataset unit:%

可以看出:1)相較于Baseline,Baseline+CASPP 的mIoU提高2.8 個百分點,說明CASPP 單元能夠顯著增大特征提取模塊的感知域,使提取的多尺度局部特征能夠更加準確地描述物體的視覺外觀特點;2)相較于Baseline+CASPP,Baseline+CASPP+LSTM 的mIoU 提高了2.4 個百分點,說明結構化學習模塊能通過8 路LSTM 分支顯式地學習物體鄰近8個不同場景區域的全局上下文信息,推理生成的空間結構化特征能更加準確地描述物體所處全局場景的結構化特性;3)Baseline+CASPP+LSTM+Attention 取得了最優的mIoU,說明基于注意力機制的3 階段特征融合模塊不僅能自適應地聚合物體鄰近8 個場景區域的有效上下文信息,而且能避免引入相關性較弱的全局噪聲信息,聚合生成的多模態融合特 征能更加準地表達物體的綜合語義信息。

2.3.3 特征提取模塊的稀疏采樣率設置學習

假設特征提取模塊(基于CASPP 單元改進的ResNet-101)中第1 層的7× 7 大小的空洞卷積的稀疏采樣率為r1,第2 到5 層中的3× 3 大小的空洞卷積組對應的稀疏采樣率組依次為r2、r3、r4和r5。本文在Cityscapes 原始數據集(不包含擴展數據集)上學習不同的稀疏采樣率設置ResNet-101(r1,r2,r3,r4,r5)對特征提取模塊的性能影響,如表4 所示。由于ResNet-101 第4 層中共包含多達23 個3× 3 空洞卷積,因此本文將它們分為6 組,每組的空洞卷積個數分別為1、6、4、4、4 和4(用下劃線后的數字表示),并為每組空洞卷積設置相同的稀疏采樣率(用下劃線前的數字表示)。

從表4 可以看出:1)如果為所有空洞卷積均設置相同的稀疏采樣率(方法1),隨著稀疏采樣率由1 逐步增大到8,模塊的mIoU 由77.6%逐步提升到78.9%,說明增大采樣率能夠顯著地增大卷積核的感知域,從而獲取更豐富的局部上下文信息;但是,如果稀疏采樣率設置為更大的16 或24,雖然卷積核的感知域進一步增大,但是模塊的性能卻開始下降,說明在較低層次的ResNet-101 中,如果稀疏采樣率過大,即卷積核的感知域過大,會無法有效地學習物體的視覺細節信息,從而影響特征表示的質量。2)僅為ResNet-101 每層中的空洞卷積組設置相同的稀疏采樣率(方法2),而對于不同層中的空洞卷積,在較低層次則設置較小的采樣率,反之設置較大的采樣率。相較于方法1 的ResNet-101(2,(4,4,4),(8,8,8,8),(8,8_6,8_4,8_4,8_4,8_4),(16,16,16)),方法2 的mIoU 提升了0.6 個百分點,說明該設置下的模塊不僅能利用低層次網絡中感知域較小的空洞卷積提取物體的視覺細節信息,而且可以通過高層次網絡中感知域較大的空洞卷積獲取物體的局部上下文信息。3)為ResNet-101 每層中的空洞卷積組設置順序遞增的稀疏采樣率(方法3),即將各層的結構修改為CASPP 單元。相較于前2 種方法,方法3 取得了最優的性能,說明基于CASPP 單元的特征提取模塊能有效地避免特征提取過程中有用視覺信息的丟失,從而更加全面地表達物體的視覺特點。

2.3.4 結構化學習模塊的消融學習

在Cityscapes 數據集(不包含擴展數據集)上通過消融學習驗證3 種不同的LSTM 遍歷方式對LGCAFN 的性能影響,結果如表5 所示??梢钥闯觯合噍^于前2 種遍歷方式,第3 種遍歷方式取得了最優的mIoU,說明基于8 路LSTM 分支的結構化學習模塊可以顯式地學習物體鄰近8 個不同場景區域的全局上下文信息,推理生成的空間結構化特征能夠更加準確地表達物體所處全局場景的結構化特性。

表5 不同LSTM遍歷方式對性能的影響 單位:%Tab.5 Effect of different LSTM traversal methods on performance unit:%

2.3.5 特征融合模塊的消融學習

在Cityscapes 數據集(不包含擴展數據集)上通過消融學習驗證3 種不同融合方式對LGCAFN 的性能影響,如表6 所示。Concatenation 為直接級聯多尺度局部特征和空間結構化特征后送入6 層1×1 卷積操作進行融合的方式;Elementwise addition 為替換特征融合模塊中第2 次加權融合為點加融合的方式,即令各方向上的注意力權重相同;Attention mechanism 表示本文的基于注意力機制的3 階段融合方式。

從消融學習中可以發現:基于注意力機制的3 階段特征融合方式使LGCAFN 取得最優的mIoU,說明本文的特征融合方式不僅能夠有效地挖掘多尺度局部特征和空間結構化特征之間存在的復雜非線性關系,而且可以根據2 類模態特征之間的相關性自適應地聚合有用信息和屏蔽噪聲信息,進而基于低抽象級別的視覺細節信息確保解碼還原的綜合語義信息的質量。

2.3.6 Cityscapes數據集上的場景解析視覺效果

LGCAFN 在Cityscapes 數據集上的場景解析視覺效果如圖5 所示,圖5(d)為LGCAFN 的預測結果與真值之間的誤差??梢钥闯觯?)相較于ResNet-101,LGCAFN 的場景解析結果更接近Ground Truth,LGCAFN 不僅能更加清晰地分割物體輪廓,而且可以更加準確地標記語義類別,從而再次證明了LGCAFN 的優勢;2)LGCAFN 不僅能夠有效地解析尺寸較小的物體(如桿、信號燈和交通標識,實線框標記),而且可以準確地區分易混淆的語義類別(如行人和騎手、摩托車和自行車、汽車和卡車,虛線框標記),從而再次證明特征提取模塊有效提取尺寸較小的物體的視覺細節信息的能力、結構化學習模塊顯式推理全局上下文信息的能力以及特征融合模塊自適應聚合上下文信息的能力。

圖5 Cityscapes數據集上LGCAFN的場景解析視覺效果Fig.5 Scene parsing visual effects of LGCAFN on Cityscapes dataset

綜上所述,LGCAFN 在交通場景解析上獲取的成功可以歸納為如下3 點:1)基于CASPP 單元的特征提取模塊不僅可以有效地學習更加豐富的局部上下文信息,而且能夠避免局部細節信息的丟失,提取的多尺度局部特征能更準確地描述物體的視覺外觀特點;2)基于8 路LSTM 分支的結構化學習模塊能顯式地學習物體鄰近8 個不同場景區域的全局上下文信息,推理生成的空間結構化特征可以更加準確地描述物體所處全局場景的結構化特性;3)基于注意力機制的3 階段特征融合模塊能夠有效地根據2 類模態特征間的相關性自適應地聚合有用上下文信息和屏蔽噪聲上下文信息,聚合生成的多模態融合特征能夠更加準確地表達物體的綜合語義。

3 結語

本文提出了面向交通場景解析的LGCAFN,不僅能有效學習物體自身的視覺外觀信息和所處場景的全局上下文信息,而且可以基于注意力機制自適應地聚合上述2 類信息,聚合生成的多模態融合特征能夠更加全面且準確地表達物體的綜合語義信息。實驗結果表明,LGCAFN 在Cityscapes數據集上能準確地解析場景,有助于實現車輛自動駕駛、語義SLAM 等智能計算機視覺任務。但像素級標簽的制作成本昂貴,因此后續將研究無監督領域自適應學習方法,使LGCAFN 能自適應更加復雜的現實交通場景解析任務。

猜你喜歡
特征提取特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 亚洲黄网在线| 欧美精品伊人久久| 国产视频你懂得| 日本一区二区三区精品国产| 尤物精品国产福利网站| 91精品国产麻豆国产自产在线| 中国黄色一级视频| www欧美在线观看| 亚洲毛片一级带毛片基地| hezyo加勒比一区二区三区| 亚洲av片在线免费观看| 国产福利观看| 国产精品第5页| 色婷婷成人| 国产玖玖玖精品视频| 高清无码手机在线观看| 性欧美在线| 精品伊人久久大香线蕉网站| 2022国产无码在线| 一区二区在线视频免费观看| 热伊人99re久久精品最新地| 国产精品亚洲五月天高清| www.精品国产| 国产波多野结衣中文在线播放| vvvv98国产成人综合青青| 免费人成在线观看成人片| 五月丁香在线视频| 免费国产好深啊好涨好硬视频| 欧美一区日韩一区中文字幕页| 国产毛片基地| 国产女人18水真多毛片18精品| 97视频精品全国免费观看| 日本国产在线| 中文字幕亚洲第一| 久久精品国产在热久久2019| 99在线小视频| 久久99精品久久久久久不卡| 国产精品高清国产三级囯产AV| 婷婷色一区二区三区| 成人伊人色一区二区三区| 国产一级毛片网站| 97在线观看视频免费| 在线中文字幕日韩| 最新国产高清在线| A级毛片无码久久精品免费| 最新国产精品第1页| 91精品人妻一区二区| 国产精品密蕾丝视频| 99热6这里只有精品| 亚洲黄色激情网站| 香蕉视频在线观看www| 国产大片喷水在线在线视频| 伊人久久大香线蕉综合影视| 国产一区二区福利| 国产欧美日韩在线一区| 2021国产精品自产拍在线观看| 色香蕉网站| 中国特黄美女一级视频| 亚洲人成电影在线播放| 伊人久久精品无码麻豆精品 | 色久综合在线| 亚洲Aⅴ无码专区在线观看q| 夜夜操天天摸| 国产三级国产精品国产普男人 | 亚洲va欧美ⅴa国产va影院| 国产免费高清无需播放器| 九色综合伊人久久富二代| 怡红院美国分院一区二区| 色视频国产| 欧美精品xx| 国产美女91视频| 久久国产V一级毛多内射| 原味小视频在线www国产| 99视频全部免费| 国产欧美日韩综合在线第一| 久久久久88色偷偷| 日本在线视频免费| 青青草久久伊人| 国产男人天堂| 99视频国产精品| www成人国产在线观看网站| 午夜国产精品视频|