999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于增強特征融合解碼器的語義分割算法

2020-05-18 11:08:06馬震環高洪舉
計算機工程 2020年5期
關鍵詞:語義特征融合

馬震環,高洪舉,雷 濤

(1.中國科學院光電技術研究所,成都 610209; 2.中國科學院大學 電子電氣與通信工程學院,北京 100049;3.32183部隊,遼寧 錦州 121000)

0 概述

圖像語義分割是指利用圖像的高級語義[1](圖像或圖像區域所包含對象或實體的類別信息)為圖像中每個像素分配一個對應表示其語義的類別標簽。圖像語義分割是計算機視覺、模式識別與機器學習等領域的重要研究方向,是場景理解、圖像重構等任務的預處理環節。研究者能夠利用圖像語義分割技術在醫療圖像中精確查找病變部位,在自動駕駛過程中準確掌握道路信息,在無人機著陸時高精度定位陸區域中心,因此,該項技術具有重要的應用價值。

與此同時,GPU迅猛發展,適合大數據處理的深度學習技術日趨成熟,同時也出現了像素級別標注的數據集,這使得深度模型從大數據中發掘有價值的信息[2]和知識成為可能。語義分割在結合深度學習技術后能夠使性能得到大幅提升。為此,本文設計一種增強特征融合的解碼器模塊。該模塊通過級聯高層特征與低層特征,并以卷積的形式加以融合,同時在降維后引入自身平方項的全局平均池化層,利用兩個卷積預測自身項與自身平方項的權重并以殘差的形式相結合,從而改善特征融合效果。

1 相關研究

文獻[3]提出的AlexNet方法在ILSVRC2012圖像分類競賽中取得了出色的效果,這為深度學習方法在語義分割中的應用拉開序幕。文獻[4]提出全卷積神經網絡(FCN),其以VGG16[5]作為基礎網絡,替換網絡后端的全連接層為卷積層以接受任意尺度的圖像輸入。輸入圖像在經過5個最大池化層之后得到32倍下采樣的結果,對于解碼器部分,則將該結果直接插值得到原始輸入尺寸。為得到更精細的分割結果,FCN通過插值的上采樣方式,得到更高分辨率的深層特征圖,并與淺層特征以直接作和的方式融合,以產生密集的預測結果。該工作在語義分割中具有里程碑的意義,端到端的方法由此成為主流。

文獻[6]提出deeplab v1,其在VGG16網絡的基礎上去掉最后兩個池化層,引入空洞卷積以維持特征圖分辨率并擴大感受野。該方法最終得到8倍下采樣的特征圖,最后以雙線性插值的方式作為解碼器恢復原圖尺寸。文獻[7]提出了SegNet,同樣以VGG16作為基礎網絡,在最大池化過程中保留池化的索引。在恢復高分辨率特征圖的過程中,解碼器利用這些保留的索引得到稀疏的特征圖,然后使用可訓練的卷積核進行卷積操作,生成密集的特征圖。相比FCN直接使用淺層特征的方式,該方法在內存使用上更為高效。

文獻[8]遵循恒等映射的思想設計了RefineNet,其將ResNet-101[9]作為編碼器,輸出不同下采樣層的特征圖作為多個路徑。每個路徑的特征圖經過RCU(Residual Conv Unit)做兩次卷積與激活后與自身作和。在解碼器部分,將不同分辨率的特征圖分別做卷積,以插值的方法處理到同一尺度,最后以加法的方式融合,逐層恢復到4倍下采樣結果,最后上采樣得到最終結果。

文獻[10]提出的GCN方法,將k×k的卷積分解成1×k加上k×1與k×1加上1×k兩種方式,使用大的參數k以捕獲大尺度信息。在解碼器部分,將ResNet輸出的深層特征經過轉置卷積與淺層特征通過作和的方式融合,在逐層融合后得到2倍下采樣的特征圖,再經過轉置卷積恢復到原圖大小。

文獻[11]針對航拍影像分割任務,在網絡后端使用不同擴張率的空洞卷積,得到多尺度的特征圖,然后將這些同一深度不同尺度的特征圖通過注意力機制計算各個尺度每個位置像素的重要性,最后通過加權和的方式融合特征。

文獻[12]提出的DeepLab v3+,使用DeepLab v3作為編碼器,對DeepLab v3輸出的16倍下采樣的深層特征做4倍上采樣,然后與網絡輸出的4倍下采樣的特征圖級聯做卷積,最后輸出分類結果。與直接做加和的特征融合方式相比,先級聯再卷積的方式包含了加和這一操作,并且卷積還能得到深層特征與淺層特征之間的權重關系,因此更具有普適性。

文獻[13]提出了PAN(Pyramid Attention Network),對于特征融合部分,該文將深層特征做全局平均池化得到一組特征向量以編碼每個通道的全局信息,隨后用1×1的卷積做變換以考慮通道與通道間的關系,再與淺層特征做乘法,最后將深層特征與淺層特征作和。

文獻[14]指出高層特征與低層特征之間存在語義鴻溝,直接融合的方式無法解決這個問題,進而提出SEB(Semantic Embedding Branch)方法進行特征融合。該文先將深層的特征圖做卷積,然后通過雙線性插值的方式做上采樣,再與淺層特征做乘法。與使用全局平均池化的注意力機制相比,該方法無法獲取通道的全局信息但保留了各個特征圖的空間信息。

文獻[15]針對遙感影像道路提取問題提出一種編解碼結構的網絡,該網絡具有較淺的深度,特征圖具有較高的分辨率等特點。該模型在解碼階段,通過跳躍連接將原圖分辨率大小的特征圖與2倍下采樣分辨率的特征圖融合,融合的方式為卷積級聯的方式。

文獻[16]設計了一種快速的語義分割算法,該算法密集層實現了兩路傳播,將前級連接與經過卷積后的后級連接直接相連融合,并且該算法在每層之間均使用跳躍連接融合不同層間的信息。

對于基于特征融合的解碼器的結構,深層特征與淺層特征融合的方式主要有3類方法:1)將淺層特征與深層特征級聯做卷積;2)將深層特征做全局平均池化,通過注意力機制對淺層特征做變換,再將深層特征與變換后的淺層特征作和;3)將深層特征經過卷積后直接與淺層特征做逐像素的乘法。除卷積級聯形式以外,其他兩種形式均遵循了恒等映射的思想。

2 本文方法

本文設計分為編碼器與增強特征融合解碼器(EFFD)兩個部分,整體網絡結構如圖1所示。

圖1 整體網絡結構

2.1 編碼器

本文將DeepLab v3算法[17]作為編碼器,在此基礎上進行研究。編碼器部分主要包含3個部分,即基礎網絡ResNet-101、空洞卷積和ASPP(Atrous Spatial Pyramid Pooling)模塊。輸入圖像經過ResNet-101提取特征,在深層引入空洞卷積。最后使用ASPP獲取多尺度的上下文信息,將這些方式得到的特征圖級聯,經過1×1的卷積將通道數降低到256。

2.1.1 空洞卷積

為識別大尺度的目標,要求網絡深層有較大的感受野,步長為2的卷積、池化的方式使得感受野呈指數增長,但是這種方式輸出的特征圖分辨率同樣呈指數級下降趨勢,最后的結果難以恢復。而以步長為1的卷積堆疊的方式感受野呈線性增長,難以得到足夠大的感受野。空洞卷積在一定程度上解決了這一問題。對于一維情況有:

(1)

其中,y表示輸出信號,w表示濾波器(卷積核),x是輸入信號,r是對輸入信號采樣的步長,即擴張率,標準卷積r的值為1。使用步長為1的空洞卷積,在卷積核中按照擴張率在特征圖兩端插入0,使得感受野呈指數增長且不會使特征圖分辨率下降。

2.1.2 ASPP模塊

現有的先進方法往往都需要級聯大尺度的空間上下文信息,編碼器部分通過ASPP模塊實現這一步。ASPP使用1×1的卷積、3×3擴張率分別為6、12、18的卷積捕獲多尺度信息。ParseNet證明了全局信息的重要性,該結構同樣引入了圖像級池化,利用這些部分并行的處理基礎網絡輸出的特征圖,最后將結果級聯。

2.2 EFFD

編碼器部分輸出了16倍下采樣的特征圖,通過插值的方式直接做16倍的上采樣,這樣解碼器過于簡單。自FCN開始及以后的Unet、DeepLab v3+等均證明了在上采樣階段引入淺層特征的有效性。本文的EFFD同樣考慮將深層特征與淺層特征做融合。然而在語義分割任務中,深層特征與淺層特征以何種方式融合沒有定論,且融合的方式缺乏可解釋性。因此,本文考慮將加法、乘法等運算均融入到網絡中,端到端的學習解決此問題。首先,以往的工作證明了簡單的將高層特征與低層特征作和或者級聯起來做卷積的方式是有效的,本文考慮把級聯隨后做卷積的方式作為第1步。ParseNet證明了全局信息的有效性,本文考慮使用乘法結構來利用這些全局信息,因此,在第2步引入注意力機制,通過殘差的方式將經過注意力機制得到的特征與第一步的特征作和。

2.2.1 級聯卷積

本文先使用傳統的特征融合方式將DeepLab v3高層特征與低層特征級聯再做卷積。高層的特征帶有豐富的語義信息,重要性高于低層特征,相對而言,直接卷積的方式應使高層特征具有更大的權重。然而深度網絡常用L2正則化以提升網絡的泛化能力。L2正則化在反向傳播過程中傾向于將所有輸入對應的權重調整到比較小的均勻值,避免出現過大的權重。因此,首先使用1×1的卷積對低層特征降維,通過減少通道數的方式來降低淺層特征的權重。然后將經過雙線性插值后的深層特征與淺層特征級聯。級聯結果輸入到3個卷積層中,其中最后一個卷積層使用1×1的卷積降低通道數,得到融合后的特征圖。級聯卷積過程如圖2所示。

圖2 級聯卷積過程

2.2.2 注意力機制

注意力機制如圖3所示,其中主要包含全局平均池化、通道注意力和激活函數3個部分。

圖3 注意力機制示意圖

1)全局平均池化

原始的全局平均池化(Global Average Pooling,GAP)將每一個通道的特征圖按照每個位置產生的響應直接求和,公式如下:

(2)

其中,yi表示第i個位置的權重向量,H、W分別為輸入特征圖高和寬,xi,j,k表示輸入特征圖第i個通道第j行第k列的響應值。筆者認為歐氏距離越大的特征重要性越大,然而直接做GAP對于特征圖中小于0的部分會減小該通道注意力權重向量的響應。因此,將融合后的特征圖與自身做乘法得到更能突出每個位置重要性的特征圖,再做GAP。

2)通道注意力

在得到GAP的結果后,本文使用兩個卷積分別預測出原始特征圖自身項與自身平方項權重,經過各自的激活函數后分別對自身項與自身平方項做乘法變換,公式如下:

zi,j,k=yi·xi,j,k

(3)

其中,zi,j,k為經過注意力機制后的輸出特征圖,yi表示第i個位置的權重向量,xi,j,k表示輸入特征圖第i個通道第j行第k列的響應值。通道注意力將權重向量yi與每一個通道相乘以突出不同通道的重要性。

3)激活函數

在視覺任務中廣泛使用relu作為激活函數以解決梯度消失的問題,考慮到sigmoid函數僅一層,不存在梯度消失的問題,本文在解碼器部分使用sigmoid作為激活函數,公式如下:

(4)

其中,S(x)為輸出響應,x為輸入。在注意力機制中,經過全局平均池化后各個通道權重向量與各個通道相乘,與relu相比,使用該函數能夠將權重限制在(0,1)范圍內,避免出現過大的結果。

3 實驗與結果分析

3.1 實驗設置

本文實驗的相關設置如下:

1)評價指標。使用平均交并比(mean Intersection over Union,mIoU)作為評價指標,公式如下:

(5)

其中,k是目標類別數目,pij表示第i類物體的像素被分到第j類物體的像素的數量。

2)數據集。使用pascal voc2012[18]數據集,該數據集包含飛機、輪船、人、火車等20類場景下的目標,所有背景均分為1類,共21類。該數據集背景豐富,單張圖片中往往包含了一個或者多個類別、多個目標,并且該數據集中圖片包含了目標較大的尺度變化、光照變化、目標間的遮擋等問題,具有較大的分割難度。該數據集訓練集僅有1 464張圖片,本文通過文獻[19]提供的額外的標注對數據集做了增強,使訓練圖像達到了10 582張。本文使用pytorch實現以上算法,并在pascal voc2012訓練集上訓練,驗證集不參與調參,在驗證集上做測試。

3)實驗環境。系統環境ubuntu18.04,python 3.6.7,pytorch 1.0,顯卡NVIDIA TITANX Pascal 12 GB,CPU為intel i7-7700k 4.2 GB。

4)數據增強。對輸入的訓練圖像做數據增強,輸入圖像以1/2的概率做水平翻轉、隨機縮放,以1/2的概率做高斯濾波使圖像模糊,最后做中心裁剪得到513像素×513像素的圖像。

5)訓練。使用ResNet-101作為基礎網絡,加載在ImageNet上預訓練的參數。整個網絡學習率初始化為0.007,ASPP模塊與解碼器部分學習率為基礎網絡學習率的10倍。學習率策略使用多項式衰減,batch size 取8,訓練60個epoch,近80 000次迭代達到收斂。

3.2 結果對比與分析

本文方法與原始網絡的mIoU指標值對比如表1所示。可以看出,原始網絡中加入本文解碼器后性能有明顯的提升。解碼器模塊將編碼的帶有豐富語義信息的高層特征與高分辨率的帶有空間位置信息的低層特征相結合,恢復了高分辨率的分類結果。

表1 與原網絡的mIoU指標對比

Table 1 Comparison of mIoU index with original network %

網絡mIoU原網絡77.21加入本文解碼器的網絡79.35

由于目前主流的特征融合方法使用不同的網絡和多尺度策略,難以進行比較,因此本文使用上文中的解碼器部分統一比較。本文先使用了卷積再引入了attention機制做乘法,為保證相當的網絡層數與參數量,在其他方法特征融合之后接同樣層數的卷積層。其中,SEB為文獻[9]提出的語義融合分支,Attention表示文獻[8]提出的注意力融合方式,Concat表示文獻[7]提出的級聯方式。4種方法的實驗結果對比如表2所示。

表2 基于ResNet的mIoU指標對比

Table 2 Comparison of mIoU index based on ResNet %

網絡 mIoUResNet-SEB77.61ResNet-Attention77.31ResNet-Concat78.89ResNet-EFFD79.35

為證明本文解碼器的有效性,嘗試更換了基礎網絡,將ResNet換成MobileNet[20],參數使用ImageNet上預訓練的參數,batch size使用16,其他使用與ResNet同樣的方法,在pascal voc上做訓練測試,對比本文解碼器與其他方式的解碼器,實驗結果如表3所示。

表3 基于MobileNet的mIoU指標對比

可見,本文方法相比基于注意力機制的方法、基于SEB的方法和傳統的級聯方法,性能均有提升。

4 結束語

本文設計一種增強特征融合解碼器模塊,通過級聯高層特征與低層特征,以卷積的形式做第一步融合,通過降維后在第二步引入自身平方項的全局平均池化,用兩個卷積預測自身項與自身平方項的權重,并以殘差的形式進行融合。實驗結果表明,該策略相比原網絡與其他特征融合方式mIoU均有提高。下一步將結合深度神經網絡可解釋性方面的工作,研究性能更優的特征融合方式。

猜你喜歡
語義特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美日韩资源| 毛片卡一卡二| 二级特黄绝大片免费视频大片| 91精品专区| 亚洲无码高清免费视频亚洲| 麻豆AV网站免费进入| 国产呦精品一区二区三区网站| 高h视频在线| 九色在线观看视频| 欧美色图久久| 乱色熟女综合一区二区| 九九久久精品免费观看| 2048国产精品原创综合在线| 国产凹凸一区在线观看视频| 国产99视频精品免费观看9e| 福利片91| 国产手机在线观看| 2021最新国产精品网站| 毛片网站观看| 欧美.成人.综合在线| 香蕉视频国产精品人| 国产xx在线观看| 少妇被粗大的猛烈进出免费视频| 国产成人亚洲日韩欧美电影| 91探花国产综合在线精品| 亚洲成a人在线观看| 亚洲伊人天堂| 免费看一级毛片波多结衣| 无码aⅴ精品一区二区三区| 国产区福利小视频在线观看尤物| 精品自拍视频在线观看| 国产一级毛片高清完整视频版| 欧美一级高清片欧美国产欧美| 欧美97色| 99ri国产在线| 国产精品网曝门免费视频| 最近最新中文字幕在线第一页 | 亚洲第一黄色网| 性色一区| 亚洲欧美另类专区| 四虎亚洲国产成人久久精品| 精品小视频在线观看| 亚洲av片在线免费观看| 国产sm重味一区二区三区| 香蕉精品在线| 久久福利片| av午夜福利一片免费看| 茄子视频毛片免费观看| 亚洲美女一区二区三区| 午夜欧美理论2019理论| 亚洲天堂伊人| 思思热精品在线8| 亚洲男人天堂2018| 亚洲第一成网站| P尤物久久99国产综合精品| 天天干天天色综合网| 欧美综合一区二区三区| 九九热精品免费视频| 无码丝袜人妻| 亚洲动漫h| 五月综合色婷婷| 福利在线不卡| 9啪在线视频| 日本五区在线不卡精品| 无码AV高清毛片中国一级毛片| 永久天堂网Av| 亚洲黄色片免费看| 久久亚洲高清国产| 亚洲第一精品福利| 久久香蕉国产线| 日韩黄色精品| 久久伊人久久亚洲综合| 成人福利在线视频免费观看| 亚洲欧美另类日本| 亚洲日本韩在线观看| 久久99热66这里只有精品一| 国产成人无码Av在线播放无广告| a毛片基地免费大全| 色久综合在线| 国产簧片免费在线播放| 最新亚洲av女人的天堂| 亚洲中文字幕久久精品无码一区 |