吳堅
摘要:本文主要介紹圖像處理中的半監督的語義分割的主要算法。包括全卷積網絡,分類激活匹配,多擴張卷積定位,對抗網絡的半監督的語義分割,交叉一致性訓練的半監督的語義分割等算法。這些算法從不同的角度描述半監督語義分割的研究內容。
關鍵詞:語義分割;半監督;損失函數
中圖分類號:TP18 ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)32-0131-03
1 語義分割概述
語義分割是圖像處理研究的一個分支,語義分割的目標主要是給圖像指定語義標簽,例如人,狗,路,鳥,飛機,等等,并且將其按語義標簽進行圖像的劃分。語義分割有著廣泛的應用,如自主驅動和圖像編輯等等。目前語義分割是研究熱點問題,語義分割有很多的研究方法,其中一種研究方法是根據監督類型對語義分割進行分類,如監督的語義分割、半監督的語義分割、弱監督的語義分割以及無監督的語義分割等[1,3,5,6]。本文主要介紹半監督的語義分割。
2 全卷積網絡FCN(Fully Convolutional Networks)
2.1 FCN原理
隨著卷積神經網絡CNN(Convolutional Neural Network)運用,使得語義分割的技術得以極大的發展。在CNN的基礎上Long提出了全卷積網絡(Fully Convolutional Networks,簡稱FCN)。FCN基于CNN的,而且依賴于空間坐標。卷積網絡的每一層數據是三維序列h×w×d,其中h和w是空間的維度,即h是高度,w是寬度。d是特征或色彩通道的維數。在較高層的位置相應于在圖像中被路徑連接的位置,稱作接收域。FCN具有卷積網絡的特征如卷積,池化和激活函數等組成部分,并依賴于相對的空間坐標。假定[xij]是某一個特定的層在位置為[(i,j)]的數據向量,[yij]為下一層的數據輸出向量,該輸出向量由下式計算:,其中k是核的大小,s是步長,[fks]定義為層的類型:如卷積或者池化的矩陣乘積、最大池化的空間最大值、或者激活函數的逐元的非線性的激活函數,以及其他的非線性層的函數。這個函數的形式由復合函數維護,并服從帶有核的大小和步長的傳輸規則:[fks°gk's'=(f°g)k'+(k-1)s',ss']。同時,一個通常的深度網絡計算一個非線性函數,一個網絡帶有唯一的層可以計算一個非線性濾波器,我們稱之為深度濾波器或全卷積網絡FCN[2]。
2.2損失函數
損失函數與優化有關。優化是指改變自變量x以最小化或最大化某個函數的任務。把最小化的函數稱作損失函數。一個實值的損失函數由FCN定義的任務組成。如果損失函數是關于最后一層的空間維數的損失的總和,[l(x;θ)=ijl'(xij;θ)],那么它的梯度是每一個空間組成部分的梯度的總和。這樣,在整個圖像上的隨機梯度下降[l]的計算和在[l']上的隨機梯度下降的計算是相同的,將所有最后一層的接收域用小批量來計算。當這些接收域產生極大的重疊時,前饋計算和反向傳播非常得有效,此時在整個圖像上逐層計算而不是非獨立的逐塊計算[2]。
2.3 FCN的優勢
FCN比起CNN的優勢是可以使輸入為任何的尺寸,并產生相應的空間維數的輸出。全卷積網絡是現代卷積網絡分類的一種特殊而豐富的類的模型。通過它,可以將分類拓展到語義分割,并改善多個解決層組合起來動態的結構。可以簡化并加速學習和推理的過程[2]。
3 分類激活匹配(Class Activation Mapping,簡稱CAM)
3.1 CAM原理
Zhou提出了分類激活匹配CAM。該網絡由大量的卷積層和最終的一個輸出層組成。在卷積特征匹配中使用全局平均池化,并使用全連接層以產生期望的輸出。根據這個簡單的連接結構,識別出圖像的重要的區域,這主要是通過向后投影輸出層的權值到卷積特征匹配,這項技術就是CAM。全局平均池化輸出在最后一個卷積層的每個單元的特征匹空間平均值。這些值帶權重的總和用于生成最后的輸出。類似的,通過計算最后一個卷積層的特征匹配的權值的總和來獲取類的激活匹配[4]。
如果給定一個圖像,如果令[fk(x,y)]表示在空間位置為(x,y)的最后一個卷積層的激活單元。對于單元k,全局平均池化的結果[Fk]定義為[x,yfk(x,y)]。給定一個類c,輸入轉化的softmax函數為[Sc],[Sc=kωckFk]其中[ωck]為單元k的相當于類c的權重。最后計算類c的softmax函數,[Pc]由下式給定:[exp(Sc)cexp(Sc)],通過將[Fk=x,yfk(x,y)]嵌入分類分數[Sc]中 ,得到[Sc=kωckx,yfk(x,y)=x,ykωckf(x,y)],定義[Mc]為類c的激活匹配函數,[Mc(x,y)=kωckfk(x,y)]直接指示了空間位置(x,y)的激活的力度以導出圖像的類c的分類。基于前面的敘述,期望每個單元以某種可視化的方式在它的接收域內被激活。[fk]是這種可視化的方式的存在的匹配。CAM是不同的空間位置的可視化方式所表示的帶權的線性和。對于輸入圖像的尺寸,通過采用簡單的增采樣的分類激活匹配,可以識別出特殊區域的分類最相關區域[4]。
3.2 CAM優勢
Zhou提出的CAM算法是對于CNN使用全局平均池化的技術,它確保了用分類訓練的CNN技術學習并執行相應的對象的定位,而不使用邊界盒子的注記。CAM在任何給定的圖像可視化預測的分類得分,突出顯示被CNN檢測出來的區分于對象的部分。此外,CAM位置技術產生其他的可視化識別任務,例如產生類的局部深度特征,可以有助于通過CNN的其他領域的研究來理解并區分圖像的問題[4]。
4 多擴張卷積定位(Multi-dilated Convolution for Localization,簡稱為MDCL)
4.1 MDCL基本概念
在CAM 的基礎上,Wei[5]提出了多擴張卷積定位MDCL。使用兩類卷積操作。一類是使用標準卷積例如d=1,這種匹配下,可以獲得準確的定位匹配,以這種方式,某些目標對象的區分部分被突出的顯示,圖像相關的區域被忽略。另一類是轉移稀疏的突出的區域的可區別的知識為其他對象區域,改變擴張率以擴大核的接收域。以這種方式,從近鄰的突出顯示的可區別的特征可以被轉換為和對象關聯的區域,而這些區域是原來沒有被找出的。由于大的擴張率會產生不關聯的區域,因此,使用小的擴張率(例如d=3,6,9)。注意到真實的正的關聯對象區域通常被兩個或者多個局部區域匹配,而真實的負的區域在不同的擴張區域產生分支。為了降低錯誤的區域,通過采用由不同的擴張卷積區域生成的定位匹配的平均操作(例如d=3,6,9)。使用[H0]和[Hi](其中[i=1,...nd],[nd]是擴張卷積區塊的數量)表示由標準的和擴張的卷積區域所生成的定位匹配。最終的用來生成對象區域的定位匹配由下式產生:[H=H0+1ndi=1ndHi][5]。
4.2弱監督學習
用[Iω]表示來自弱監督訓練集[Γω],[Mω]是由密集的極限匹配產生的相應的偽分割掩碼。C是背景分類標簽集。目標是訓練一個帶有可學習的參數θ的語義分割模型[f(Iω;θ)](例如全卷積網絡FCN),FCN模型中任何標簽c在任何位置u的條件概率是特殊分類信念匹配[fu,c(Iω;θ)],使用[Mω]表示的在線已預測的分割掩碼[Iω],它與[Mω]它與共同用來優化弱監督的FCN,其損失函數由下式定義[5]:
[minθIω∈ΓωJω(f(Iω;θ))]
其中:
[Jω(f(Iω;θ))=-1c∈CMcωc∈Cu∈Mcωlogfu,c(Iω;θ)-1c∈CMcωc∈Cu∈Mcωlogfu,c(Iω;θ)]
并且|.|像素的個數。
4.3半監督學習
隨著大量的圖像帶有圖像層的注記,本算法關注實現像素層的注記,通過小數量的圖像使圖像分割具有更好的性能,強的和弱的注記圖像可以通過共享參數被組合成學習語義分割網絡,令[Is]表示來源于強監督訓練集[Γs]和[Ms],是被標記的語義分割掩碼。用于優化半監督的FCN,其損失函數定義為[5]。
[minθIω∈ΓωJω(f(Iω;θ))+Is∈ΓsJs(f(Is;θ))]
其中:[Js(f(Iω;θ))=-1c∈CMcsc∈Cu∈Mcslogfu,c(Iω;θ)]
4.4 多擴張卷積優勢
Wei提出了不同擴張率的多卷積區塊的杠桿原理以生成密集度對象定位匹配。這種方法容易實現,并且生成的密集的定位匹配可以用來學習語義分割網絡來實現,并用弱監督或半監督的方式來學習。這是一個僅僅通過分類網絡并以簡單而全新的方式挖掘出了密集度對象區域[5]。
5 對抗學習的半監督語義分割(Adversarial Learning for Semi-Supervised Semantic Segmentation)
5.1 對抗網絡基本思想
Hung提出了一種對抗網絡的半監督的語義分割。模型由兩個模塊組成:分割網絡和鑒別網絡組成。分割網絡用任何的語義分割網絡,假定輸入圖像的維數是H×W×3,語義分割網絡的輸出是具有H×W×C的類的概率匹配,C為語義分類的數量。鑒別網絡是基于FCN的,它把類的匹配作為輸入,或者來源于分割網絡或者基于真實的標簽匹配,或者輸出的空間概率匹配H×W×1,如果像素p來源于真實圖像標簽的樣本,則p=1,如果來源于語義分割網絡那么p=0。典型的生成式對抗網絡(Generative Adversarial Nets 簡稱為GAN)只有固定地輸入圖像,并輸出單一的概率值,將變為全卷積網絡可以輸入任意的尺寸,更重要的是,這個變換是提出的對抗學習策略的基礎[1]。
5.2對抗網絡損失
Hung提出了對抗學習策略。在半監督的訓練過程中使用有標簽的和無標簽圖像。當使用標簽圖像,分割網絡的損失函數同時被真實標簽匹配的標準交叉熵損失[Lce]計算和鑒別網絡的對抗損失[Ladv]計算。該算法只運用標簽數據訓練鑒別網絡。對于沒有標簽的圖像,運用半監督的方法訓練分割網絡,在從分割網絡中獲取無標簽圖像的初始化的分割預測之后,通過鑒別網絡的分割預測計算信度匹配。輪流地處理這種信度匹配作為監督的信號,并使用掩碼交叉熵損失[Lsemi]的自主學習的策略來訓練分割網絡。這種置信匹配指示了預測段區域的質量。損失函數就是最小化的目標函數。通過使用最小化語義網絡的損失函數定義為:[Lseg=Lce+λadvLadv+λsemiLsemi],其中[Lce]定義為空間的多類交叉熵損失,[Ladv]對抗損失,[Lsemi]定義為半監督損失。[λadv,λsemi]定義為是最小化所提出的多任務損失函數的兩個權重。
和已有的實現弱監督的圖像的算法相比可以對無標簽的圖像的杠桿原理以加強語義分割模型,該算法有更有效的性能[1]。
5.3對抗學習的特點
通過訓練鑒別網絡,以增強帶有標簽和沒有標簽的圖像的分割網絡。對于帶標簽的圖像,分割網絡的對抗損失被設計為學習更高的次序結構信息而不需要標注的過程。對于沒有標簽的圖像,鑒別網絡產生置性度圖,用自主示教的方式以精煉分割網絡[1]。
6交叉一致性訓練(Cross-Consistency Training,簡稱為CCT)的半監督語義分割
6.1聚類假設
Ouali根據基于語義分割的聚類算法,提出了交叉一致性訓練的方法。通過測量每個像素和它的局部臨近點來確定局部的變化來估計局部的平滑度。可以通過計算每個空間位置和它的八個臨近點的平均的歐幾里得距離。對于輸入,計算某一塊的平均距離。對于隱藏表示層,計算與輸入尺寸增采樣的特征匹配,然后計算激活的臨近區域的平均距離。對于編碼的輸出,在類的邊界有高的平均距離的地方維護聚類假定[3]。
6.2交叉一致性訓練(CCT)原理
在使用半監督的學習過程中,使用小量的帶有標簽的數據集的訓練的實例,和大量的無標簽的數據集的實例。令[Dl={(xl1,y1),...,(xln,yn)}]表示n個標簽實例,[Du={xu1,...,xum}]表示m個沒有標簽的實例。[xui]表示第i層的沒有標簽的輸入圖像,[xli]表示第i層帶標簽的輸入圖像,[yi]為相應的像素層的標簽。該算法使用的結構是由共享的編碼h和主要的解碼g組成,并組成了語義網絡[f=g°h]。同時引入附加K個的解碼集[gka]。同時,分割網絡f用傳統的監督方式訓練標簽集[Dl],附加的網絡[gka°h]被沒有標簽的數據集[Du]訓練,是通過加強在主要解碼和附加解碼間的一致性預測的。為了從沒有標簽的數據集[Du]中提取出額外的訓練信號,主要依靠在主要的解碼[gm]和附加的解碼[gka]加強一致性檢測,對于一個標簽訓練實例[xli]及其像素標簽[yi],語義網絡f通過基于監督損失的交叉熵(Cross-Entropy)[Ls=1Dlxli,yi∈DlH(yi,fxli)]來訓練。公式中H為交叉熵。對于沒有標簽的實例[xui],一個輸入 的中間表示是計算共享的編碼[zi=h(xui)*],考慮R個隨機擾動函數,用[pr]表示,其中一個擾動函數可以被指定為多個附加解碼。將擾動函數作為附加解碼的一部分,例如[gka]可以看作是[gka°pr]訓練的目標是最小化無監督損失[Lu],它用來衡量主要編碼輸出和附加編碼輸出的差異。[Lu=1Du1Kxui∈Dud(g(zi),gka(zi))],其中[d]表示表示兩個輸出的概率分布的距離測度。選擇均方差函數作為距離的測度[3]。
6.3 損失的計算
綜合損失由下式計算:[Lu=Ls+ωuLu]其中[ωu]是無監督的權重損失函數。Ouali提出的使用交叉一致性訓練是一種簡單,有效而靈活的方法。它也能適應并在其他的視覺任務和學習設置中檢測CCT的有效性[3]。
7 結束語
本文總結了近年來半監督的語義分割的研究方法及這些方法的研究基礎,這些方法從不同角度解決了語義分割中的一些實際問題,使語義分割有了較快和較好的發展。
參考文獻:
[1] Wei-Chih Hung,Yi-Hsuan Tsai,Yan-Ting Tsai,et al. Adversarial Learning for Semi-Supervised Semantic Segmentation.arXiv .preprint arXiv:1802.07934,2018.
[2] Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 7-12,2015,Boston,MA,USA.IEEE,2015:3431-3440.
[3] Ouali Y,Hudelot C,Tami M.Semi-supervised semantic segmentation with cross-consistency training[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:12671-12681.
[4] Zhou B L,Khosla A,Lapedriza A,et al.Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2921-2929.
[5] Wei Y C,Xiao H X,Shi H H,et al.Revisiting dilated convolution:a simple approach for weakly- and semi-supervised semantic segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7268-7277.
[6] Song C F,Huang Y,Ouyang W L,et al.Box-driven class-wise region masking and filling rate guided loss for weakly supervised semantic segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:3131-3140.
【通聯編輯:唐一東】