999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像語義分割方法研究綜述

2021-08-19 08:25:20曾文獻馬月丁宇張淑青李偉光
現代計算機 2021年21期
關鍵詞:語義監督特征

曾文獻,馬月,丁宇,張淑青,李偉光

(1.河北經貿大學信息技術學院,石家莊050061;2.中國電子科技集團第五十四研究所,石家莊050081)

0 引言

語義分割如今成為計算機視覺研究的關鍵技術之一,通過對圖像中的像素點進行分類,然后得到目標像素點的標簽和位置信息,并將不同目標分割出來。早期的圖像語義分割方法主要是利用人工提取一些淺層的特征,如基于邊緣[1]、基于閾值[2]等。但是對于復雜的場景圖片,無法達到分割的預期效果。隨著深度學習的發展,基于深度學習的語義分割方法取得了突出表現,常用的深度學習語義分割網絡有:卷積神經網絡CNN(Convolutional Neural Network)、全卷積網絡FCN(Fully Convolutional Network)[3]、循環神經網絡RNN(Recurrent Neural Network)和對抗神經網絡GAN(Gen?erative Adversarial Network)[4]等。后來出現的基于FCN、RNN和GAN等改進的方法,與早期方法相比不管是準確率還是速度上都有了很大的提高。本文針對基于深度學習的圖像語義分割方法進行了歸納總結,對圖像語義分割方法進行了分類討論和性能對比,并對今后的發展趨勢進行了總結。

1 基于全監督學習的語義分割方法

圖像語義分割方法主要是基于全監督學習方法,全監督語義分割方法使用像素級標簽數據進行網絡訓練,訓練樣本提供了大量的細節信息和局部特征,有助于提高網絡的分割效果。

1.1 基于改進的FCN的方法

基于候選區域的方法在語義分割方面雖然取得了一定的成果,但是容易丟失圖像中小目標信息,直接影響圖像語義分割效果。2014年,文獻[3]提出的FCN,可以輸入任意尺寸的圖像。FCN是將卷積神經網絡最后一層的全連接層替換成1×1的卷積層,然后通過反卷積層對最后一個卷積層進行上采樣,使輸出恢復到輸入圖像相同的尺寸,最后每個像素進行預測。FCN在圖像語義分割方面取得了不錯的成果,但該方法存在一定的局限性,一是雖然上采樣恢復了圖像的尺寸但丟失部分像素的位置信息。二是FCN沒有考慮全局上下文的信息,缺乏空間一致性。針對FCN的不足,研究者提出一系列基于FCN改進的方法。

1.1.1 基于空洞卷積的方法

FCN上采樣雖然恢復到原來圖像的大小,使得很多細節信息被丟失。空洞卷積(Atrous Convolution)則可在不減小圖像大小的情況下還可以增大感受野提高圖像特征圖的分辨率。感受野計算如公式(1),其中rn表示第n層layer的輸入的某個區域,sn表示第n層layer的步長,kn表示filter的尺寸。

DeepLab[5]深度卷積網絡模型,通過利用空洞卷積代替反卷積操作來增加感受野,獲得更多上下文信息。該方法還增加了條件隨機場CRF(Conditional Random Field),用來提高網絡語義分割的準確性。CRF模型的能量函數E(x)如公式(2),其中x是像素的標簽,θi(xi)是一元勢能函數,用來描述觀測序列對標記變量的影響。θij(xi,yi)是二元勢能函數,描述變量之間的相關性和觀測序列的影響。

在DeepLab的基礎上提出了DeepLab-v2[6],解決了圖像中存在的多尺度問題。該方法提出了空洞空間金字塔池化ASPP(Atrous Spatial Pyramid Pooling)模塊,利用4種采樣率的擴張卷積核提取多尺度特征,然后利用全連接隨機場優化分割效果。加入空洞卷積后,處理速度達到8FPS,CRF達到0.5s。隨后,在DeepLab-v2的基礎上提出了DeepLab-v3[7]網絡。該網絡改進了ASPP,在空洞卷積之后添加了批量歸一化層,將結果經過1×1卷積,然后利用雙線性插值上采樣得到所需的空間維度。該網絡在數據集PASCAL VOC 2012上的性能比DeepLab、DeepLab-v2有了明顯的提升。

基于空洞卷積的方法總結如表1所示,通過引入空洞卷積和CRF不僅有效解決了因為連續池化和降采樣而導致的分辨率降低、細節信息丟失的問題,而且可以獲取不同尺度的圖像信息。

表1 全監督語義分割方法

1.1.2 基于編解碼的方法

編碼器-解碼器(Encoder-Decoder)結構可以解決FCN因上采樣操作而導致的像素位置信息丟失的問題。編碼器由多個卷積層組成,用來獲取圖像的總體特征和局部特征。解碼器則是由多個反卷積或上池化組成,用來恢復特征圖的空間分辨率,并進行像素分類。

2015年,Noh等人[8]提出了一個基于反卷積的De?convNet網絡。它是基于編碼器-解碼器體系結構,將上池化操作與反卷積操作結合起來,可以適應多尺度的目標。Badrinarayanan等人[9]將DeconvNet網絡進一步擴展成SegNet網絡。SegNet網絡去掉了DeconvNet的FC層,減少了參數量和存儲空間,而且在下采樣時不僅輸出pooling結果還輸出pooling過程中的索引。隨后,Fourure等人[10]將SegNet擴展為基于貝葉斯的模型(Bayesian SegNet),在編碼器和解碼器之間添加了ratio=0.5的dropout層。進一步提升了網絡學習能力。2018年,Chen等人[11]提出DeepLab-v3+模型,該模型設計了一個Encoder-Decoder結構,用于恢復目標的邊緣信息,獲得更豐富的上下文信息,還增加了Xcep?tion模塊,提高了網絡的運行速度和語義分割精度。

卷積神經網絡通過犧牲空間信息和像素位置信息來獲取高層次的圖像特征,丟失的細節信息往往對后面的操作有著很大的影響。由上池化或者反卷積組成的解碼器通過對卷積層輸出的特征圖進行上采樣,就可以避免因為特征圖分辨率降低帶來的問題。

1.1.3 基于特征融合的方法

FCN學習到的是局部特征,感受野不夠、缺乏對圖像全局特征和上下文的信息的利用。該技術包括合并全局特征(從網絡中的上一層提取)與從下一層提取的更局部的特征圖。研究發現,因為FCN的實際感受野比理論要小的多,提取到的特征圖就會缺乏全局特征信息,為了解決這個問題,ParseNet[12]模型引入全局池化層來彌補感受野不足的問題。先通過一個全局池化提取全局特征就,然后再采用早融合的方式將全局特征與局部特征進融合,因為特征圖尺度不一樣,融合時準確率會下降,所以特征融合之前需要進行L2正則化處理如公式(3)所示,其中輸入x=(x1…xd),‖x‖2是定義的x的L2范數。

SharpMask[13]網絡中引入了一種漸進式優化模塊,以自頂向下的體系結構將低維特征與高維語義信息相結合,即先由卷積神經網絡生成一個粗略的mask,然后逐層與低維特征融合進行一系列的Refine,來優化物體的邊緣信息。Refine的過程中,Refine模塊Ri合并粗略的mask(Mi)和對應層的特征Fi得到新的mask(Mi+1)如公式(4)所示。

針對下采樣過程導致的信息丟失問題,研究者們提出了反卷積操作和空洞卷積來解決這一問題。除此之外,RefineNet[14]提出了一種多路徑神經網絡,通過遞歸方式獲取低層特征來優化高層特征,有效地利用多級特征來生成高分辨率特征圖。MSPP[15]模型提出了Global-Attention Fusion(GAF)模塊,包含兩個分支,一個用來將高層特征圖進行全局平均池化作為注意力機制圖,另一個將低層特征圖通過瓶頸架構初步學習獲得淺層特征,然后利用生成的注意力機制圖與淺層特征圖相融合得到加權特征圖。最后將高層特征圖與加權特征圖連接起來進行上采樣得到最終預測。

1.2 基于RNN的方法

根據RNN處理處理序列數據的特點,RNN可以用來解決無法充分利用上下文信息的問題。2D LSTM模塊[16]是一種二維長短記憶遞歸神經網絡模塊,由四個LSTM塊組成,將四個方向的上下文信息存儲在序列數據中,并對圖像中的長期依賴記性建模。每個LSTM包含三個門,輸入門i、忘記門f和輸出門o。在x和y的方向上計算輸入門如公式(5),其中,W、H和C是權值矩陣,是x和y方向的輸出激活,f1(·)和f2(·)是sigmoid和tanh函數。

輸出門的輸出ot如公式(6)。

ReSeg網絡[17]在ResNet基礎上進行的改進,該方法由局部特征提取層、ResNet層和反卷積層三個部分組成。圖像先經過VGG16進行預訓練得到局部特征,然后送入ResNet網絡獲得全局特征和上下文信息,這個過程減小了空間分辨率,最后再通過反卷積組成的上采樣層,恢復空間分辨率,獲取分割結果。

使用RNN處理圖像語義分割,解決了長期依賴關關系進行建模的局限性,通過將圖像像素進行連接按順序處理,建立像素與像素之間的時間依賴模型,充分利用上下文的關系。

2 基于弱監督學習的語義分割方法

圖像語義分割算法大都采用有監督學習,但是訓練模型需要大量像素級標記數據,不僅成本高,還費時費力。近幾年,弱監督學習的方法廣泛應用到語義分割中,主要方法是基于以下兩種經典網絡:基于CNN的方法和基于GAN的方法。

2.1 基于CNN的方法

基于CNN的方法如今仍然占大多數。CCNN(Constrained Convolutional Neural Network)[18]是基于弱監督的約束卷積神經網絡,該方法使用圖像級標注作為CNN分類器輸出的標簽分布的約束條件,并提出損失函數MULTI-CLASS MIL LOSS來對具有任意線性約束的卷積網絡進行優化。訓練過程可以看作是求線性約束條件最優問題如公式(7),其中P(x)是一個隱含的類別分布,Q(x)是CNN預測類別分布。

陳辰等人[19]提出基于動態掩膜生成的弱監督語義分割方法。該方法首先利用CNN提取圖像特征,然后通過迭代的方式整合多層特征,每次迭代的輸入采用一層特征圖,得到圖像前景目標邊緣,再根據目標邊緣信息生成掩膜,最后通過CNN特征對掩膜進行修正。訓練損失函數L如公式(9),其中l(hij,yij)表示Softmax損失函數,hij和yij分別表示預測結果h偽標簽y在(x,y)處的數據。

由于弱監督語義分割減弱了對密集注釋的依賴,其性能遠不如全監督語義分割方法,受多尺度特征在圖像處理應用中的啟發,SAFN[20]是通過注意力機制為不同尺度和不同位置的特征分配權重,然后將所有尺度的特征圖加權求和得到目標定位。因為注意力機制損失函數可以進行反向傳播,所以可將注意力機制與分類進行聯合訓練。

2.2 基于GAN的方法

生成對抗網絡(GAN)通過巧妙地利用博弈的思想來學習生成式模型,由兩個網絡組成,一個是生成器網絡,用于生成樣本;另一個是判別器網絡,區分從訓練數據抽取的樣本和從生成器抽取的樣本。如今,GAN在弱監督學習領域有廣泛的應用。Souly等人[21]對GAN網絡進行了改進,將GAN網絡應用于弱監督學習的圖像語義分割。該方法通過生成對抗網絡創建大量非真實圖像,使判別器學習到更準確的特征。還通過添加噪聲和使用圖像級標簽作為附加信息的樣本用于生成圖像,為確保GAN生成更高質量的圖像。通過向網絡中添加圖像級類別標簽,損失函數如公式(10)所示,其中Pl(l)類標簽的先驗分布,D(x,l)是數據x和標簽l的聯合分布,G(z,l)是噪聲z和標簽l的聯合分布,Pz(z|l)是z和l的條件分布。

為了解決分類網絡僅對小而稀疏的區域做出響應的問題,對抗性擦除方法(Adversarial Erasing,AE)[22]被提出來解決這一問題。該方法首先使用圖像級標注的樣本訓練網絡,利用分類網絡定位圖像中最具判別力的區域,然后從原始圖像中擦除該區域,并將擦除后的圖像用于訓練定位其他區域的網絡。重復進行對抗擦除操作,直到網絡在被擦除的訓練圖像上不能很好地收斂。最后將被擦除的區域合并起來作為挖掘出的物體區域。

對抗擦除方法雖然取得了一定的成果,但是網絡過于復雜,參數多、計算量大,對抗互補學習(ACoL)方法[23]雖然借鑒了對抗擦除方法的思想,但是計算復雜度大大減小。該方法可以在弱監督下自動定位語義感興趣的區域,并采用兩個平行的兩分類器,其中一個分類器A用來定位具有判別性區域,而另一個分類器B用來定義A沒有定位出來的感興趣區域,從而形成一種互補。最后,將兩個分類器的結果融合為輸出。訓練圖集表示如公式(11),其中yi是圖像的標簽,N是圖像的數量。

現有的許多語義分割算法只能在特定的場景下使用,泛化能力比較差,無法在相似數據集上取得不錯的性能。為了解決這一問題,遷移學習逐漸被應用到語義分割,如基于深度遷移學習的生成對抗網絡[24],該網絡在淺層和最終輸出層中添加對抗學習,使輸出目標預測個更加接近源預測,然后反向傳遞弱監督語義分割算法,將不同空間的數據映射到某個特征空間。最后利用源域訓練出的分割模型,通過遷移學習在目標域上獲得良好的分割效果。損失函數由三部分組成,分別是Lseg分割損失函數、Ladv對抗損失函數和Lsemi弱監督損失函數,λ1、λ2是最小化多任務損失函數的兩個權重。

3 基于自監督學習的語義分割方法

深度學習被廣泛研究的狀態下,監督學習需要利用大量的標注數據進行訓練,但是標注成本很高而且很難獲得。所以,我們希望用更容易獲得的無標注數據訓練出具有更好泛化能力的模型。為了解決這個問題,自監督學習因為它在表示學習方面的飛速發展,受到很多研究者的關注。深度學習中較早使用自監督學習的是2015年Doersch等人[25]提出的一種基于上下文的自監督學習方法。之后很多研究者都是借鑒這篇文章的思路進行研究的。

為了解決大部分自監督學習算法只針對輸入空間已經部分定義的目標才有比較好的特征表達能力的問題,Deep InfoMax(DIM)模型[26]通過類似對抗自動編碼器的方式,最大化輸入和輸出之間互信息。隨后,在DIM的基礎上提出AMDIM[27]模型了引入multiple views,實現最大化特征之間互信息的自監督學習方法,可以最大化從共享上下文的多個視圖中提取特征質安監的相互信息,從而獲得更好層次的特征信息。其中對DIM的一個改進是利用數據增強的圖片進行特征提取,數據增強預測如公式(12),f1表示最終輸出的一維向量,f7表示輸出的是7×7的特征圖,下標i、j表示在local feature map中某一圖像塊的索引。

最大化任意兩個層的輸出的feature map中,任意兩個位置塊之間的互信息,任意層任意兩塊之間的聯合分布如,等,則數據增強圖像的預測損失函數如公式(13),其中Nm表示m×m層的邊緣分布pA(fm(x2)ij)中一組獨立分負樣本集合。

弱監督語義分割方法很多是基于CAM,但是它存在一定的局限性,語義覆蓋不完整、語義不準確的問題。針對CAM的問題,進行了一系列的改進。為了提高網絡的一致性預測能力,自監督的等變注意機制(SEMA)[28]將自注意機制與等變正則化相結合,并且對CAM進行了改進,引入了像素相關模塊(Pixel Correla?tion Module,PCM),可以為每個像素捕獲上下文外觀信息,利用相似像素的特征來修正像素的預測結果。基于分段的網絡模型和自監督的方法[29]對CAM進行了全面的改進,且以單階段的方式來訓練圖像級標注的語義掩碼。該方法基于CAM和PAC(Pixel-Adaptive Convolutional),包含三個模塊:nGWP(normalized Global Weighted Pooling)、PAMR(Pixel-Adaptive Mask Refine?ment)和Stochastic Gate。其中nGWP是在CAM的基礎上增加了focal mask penalty到class score;PAMR是基于PAC改進的,用于修正網絡預測得到的粗糙mask;Stochastic Gate的作用是將深度特征與淺度特征隨機結合,緩解自監督學習由于過擬合導致更多的錯誤。基于自監督的學習方法,如表3所示。

表3 自監督學習的方法

4 語義分割模型性能對比

圖像語義分割常用的性能評價指標有:像素準確率PA(Pixel Accuracy)、像素準確率平均值MeanPA(Mean Pixel Accuracy)和平均交并比MeanIOU(Mean Intersection Over Union)。其中使用最廣泛的是MeanI?OU如公式(14),因為它簡單而且具有較好的代表性。平均交并比作為圖像語義分割上的常用評價標準如公式,它是預測值和真實值的交集和并集的比,然后取平均值。MeanIOU的值越大,說明分割效果越好。

模型的性能評估要在標準數據集上進行,但是許多方法沒有在標準數據集上進行實驗,而且評價指標也不同,所以為了對提到的語義分割方法進行評估,選擇以數據集PASCAL VOC 2012為標準數據集,MIOU為評價指標進行對比實驗。實驗結果如圖1、圖2所示。

圖1 基于全監督學習的語義分割方法性能對比

圖2 基于弱監督學習和自監督學習的語義分割方法性能對比(%)

從表1中可以看出來,基于數據集PASCAL VOC 2012、DeepLab-v3、DeepLab-v3+、RefineNet和MSPP算法得MIOU均超過了80%,這些方法將多尺度特征進行融合,并且整合上下文信息,對圖像像素進行準確分類,實現圖像語義分割。其中,DeepLab-v3+效果最好,它不僅繼承了DeepLab系列的優點,還引入Encoder-Decoder模型和Xception模塊,獲取更豐富的語義信息的同時還提高了網絡運行速度。

表2 是基于弱監督學習語義分割和自監督學習語義分割方法的性能對比實驗結果。由于全監督學習的語義分割方法需要大量的像素級標注,浪費大量的人力物力,然而弱監督學習和自監督學習很好地解決了標注困難的問題。其中,基于GAN網絡的語義分割方法的MIOU超過70%,語義分割準確率較高,GAN網絡基于博弈思想進行對抗訓練,使網絡的鑒別能力不斷提高。基于自監督的語義分割方法的MIOU超過60%,性能相對較低,雖然表現結果不如有監督學習,但是解決了像素級標注的高成本問題。

表2 弱監督語義分割方法

5 結語

基于深度學習的方法在圖像語義分割應用中取得了不錯的效果,但是仍有很多問題亟待解決。深度學習方法訓練耗時很長,降低了語義分割的實時性;弱監督學習及自監督學習在一定程度上解決了訓練樣本難以獲得的問題,但與監督學習方法相比效果并不理想。基于以上分析,圖像語義分割的今后研究方向:①實時圖像語義分割技術;②弱監督學習或自監督學習語義分割技術。

猜你喜歡
語義監督特征
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 国产杨幂丝袜av在线播放| 手机在线免费毛片| 麻豆国产在线不卡一区二区| 久久精品aⅴ无码中文字幕| 亚洲国产亚综合在线区| 国产视频一区二区在线观看 | 国产幂在线无码精品| 91色在线观看| 国产精品自拍露脸视频| 亚洲精品少妇熟女| 亚洲无码高清视频在线观看| 精品久久久久久久久久久| 夜夜爽免费视频| 国产白浆一区二区三区视频在线| 日韩人妻精品一区| 国产JIZzJIzz视频全部免费| 亚洲欧美另类视频| 在线观看av永久| 一级毛片在线播放| 国产在线欧美| 人人爽人人爽人人片| 一级毛片在线播放免费观看| 亚洲婷婷在线视频| 亚洲欧美不卡中文字幕| 国产成人精品免费视频大全五级 | 91无码视频在线观看| 国国产a国产片免费麻豆| 亚洲国产精品无码久久一线| 亚洲欧洲AV一区二区三区| 91丝袜在线观看| 欧洲亚洲一区| 性欧美在线| 久久人人妻人人爽人人卡片av| 久久精品无码一区二区国产区| 91在线播放国产| 少妇人妻无码首页| 国产剧情一区二区| 亚洲午夜综合网| 国产9191精品免费观看| 亚洲国产成人综合精品2020 | 国产免费羞羞视频| 国产自无码视频在线观看| 国产日韩欧美在线播放| 色欲不卡无码一区二区| 国产精品一区在线麻豆| 91青青草视频在线观看的| 青青青国产视频| 好久久免费视频高清| 国内精品九九久久久精品| 婷婷综合在线观看丁香| 国产特一级毛片| 女人18毛片久久| 国产成人无码AV在线播放动漫| 国产在线97| 亚洲三级a| 亚洲第一成人在线| 伦伦影院精品一区| aaa国产一级毛片| 午夜激情福利视频| 无码专区国产精品第一页| 国产精品美人久久久久久AV| 日韩A∨精品日韩精品无码| 中文字幕不卡免费高清视频| 亚洲第一黄色网址| 中文毛片无遮挡播放免费| 成年看免费观看视频拍拍| 成人午夜视频免费看欧美| 88av在线播放| 大学生久久香蕉国产线观看| 无码免费视频| 国产大片喷水在线在线视频| 久久网欧美| 国产成人综合亚洲欧洲色就色| 中文无码精品A∨在线观看不卡| 91福利免费视频| 日韩av在线直播| 国产自在自线午夜精品视频| 国产精品综合色区在线观看| 日本不卡视频在线| 免费毛片视频| 波多野结衣一区二区三区四区| 亚洲综合婷婷激情|