吳堅
(大理大學數學與計算機學院,云南大理 671000)
語義分割是圖像處理研究的一個分支,語義分割的目標主要是給圖像指定語義標簽,例如人、車、樹、房子、道路等,并且將其按語義標簽進行圖像的劃分。語義分割的重要的方法是使用域適應分割。域適應算法通過源域(即源圖像)和目標域(即目標圖像)的分析實現語義分割。其中的自訓練的域適應算法是一種較為有前景的算法,本文從不同角度介紹了近期的自訓練的域適應語義分割算法[1-5],使讀者對該類算法有一個較好的了解。
如果標簽對于同樣的任務在源域和目標域都是可用的,運行域適應算法是在兩個域(源域和目標域)中執行監督的精調模型。對于語義分割網絡,域適應問題可以用最小化下面的損失函數來制定:
其中,Is表示源域圖像的索引,ys,n是在Is中的對于第n個像素的真實圖像的標簽,w包含網絡的權值。pn(w,Is)是在像素n 上的含有類概率的softmax 的輸出。It表示目標域圖像的索引,yt,n是在It中的對于第n 個像素真實圖像的標簽,pn()w,It是在像素n 上的含有類概率的softmax的輸出[1]。
在無監督域適應的情況下,目標域的真實圖像的標簽是不可用的。可以采用精調分割模型,將目標標簽作為隱藏變量來學習。問題可以描述如下:
Zou[1]首先提出了帶有自步調的自訓練。通過自步調的線路學習,可以從信度預測中生成偽標簽,并更接近于正確的標簽。一旦模型被更新或更好地適應于目標域,以下的策略將檢測剩余的具有較少信度的偽標簽。為了合并學習的路線,考慮使用下面修訂的自訓練公式:
由于域間隙和類分布的差別會導致類之間不同域變換的困難,自訓練模型偏向于對于容易轉的類給予較高的預測信度。模型傾向于最初很好變換的類,而忽視訓練過程中較難轉換的類別。為解決這些問題,Zou[1]提出了類平衡的自訓練結構,在這個結構中類明智的信度層用下式標準化:
其中,kc是一個分離的參數,該參數由類c的偽標簽的比例來確定。
為了優化類平衡的自訓練的流程,和式(3)相同并去除偽標簽的生成,Zou 提出重寫偽標簽優化過程如下:
優化式(5)需要下列的類平衡解決方案:
從式(6)可以看到,偽標簽的生成不再依賴于輸出pn(c|w,It),而關鍵是正交輸出
Zou[2]在類平衡自訓練的語義分割算法的基礎上,提出了置信度正則化的自訓練(Confidence Regularized Self-Training,CRST)。通過平衡置信度正則化,以防止交叉熵過度最小化而導致自訓練的性能下降[2],定義CRST如下:
注意上面的正則化項傾向于選擇具有確定平滑性而不是稀疏的偽標簽。此外,在步驟(2)中CRST標簽正則化和CBST共享同樣的網絡重訓練[2]。
模型正則化有普通的形式RC(w)=p(xt;w)是網絡的softmax 的輸出概率。與CBST 比較,CRST 模型正則化在偽標簽的生成過程中同樣存在困難。但是在網絡重訓練的(2)步驟中使用交叉熵損失正則化,這個正則化項是通過輸出平滑激勵項得到。Zou定義了在步驟(2)的優化問題如下[2]:
Mei[3]首先提出了用于無監督域適應的實例適應自訓練的框架,該框架帶有實例適應選擇器(Instant Adaptive Selector,IAS)和區域指導的正則化。IAS 對于每一個語義分割類選擇一個適合的偽標簽閾值并動態降低“難識別”類的比例,以減輕偽標簽的噪聲。指導區域正則化的設計是用于平滑信度區域的預測并使忽略區域的預測變得更為敏銳。總的目標函數如下:
其中,LCE是目標域的交叉熵損失,是偽標簽集,Ri是可忽略區域的正則化,Rc是置信區域的正則化,λi和λc是正則化權值[3]。
信度區域的KL 散度最小化如下:偽標簽的質量不如真實圖像標簽,意味著偽標簽中有噪聲。Mei[3]提出使用KL 散度以平滑信度區域的預測結果,預測結果不會過度擬合偽標簽。
在域適應語義分割中,目標域的不確定預測對應于較少出現的像素或者小對象的類,需要將其進行再取樣,以降低目標域的不確定性。關鍵思想是將高度不確定類進行定位,計算源域的基于這些類實例樣本概率。在樣本的源域和目標域中通過對抗訓練得到特征的校準。Wang[4]首先提出了不確定意識的偽標簽精練,從以下兩個方面研究了不確定的目標預測,以降低偽標簽的噪聲[4]。
Wang[4]使用熵表示目標域不確定的特征,認為具有低的熵是確定的樣本,而高的熵是不確定的樣本。為了定位不確定感知的類,首先在整個目標域中計算分類層的平均熵。
為了使不確定感知信息將偽標簽分離為正確(正的)和不正確(負的)的分類,使用了具備兩個組成部分以適合正的和負的高斯混合模型。屬于正的分布樣本被選擇為偽標簽,此外考慮到類的不平衡,對于分類層的熵對分布進行擬合。第c類的概率分布由下式獲得:
其中,wneg,μneg,σneg和wpos,wpos,σpos各自表示負的和正的高斯分布的權值、均值和方差。是第c 類的圖像層的熵。為了估計高斯混合模型在式(18)中的參數,使用期望最大化算法以優化分布和權值(wneg,wpos)。一旦分布被估計,正確的偽標簽可以從正的分布中被選擇出來[4]。
Zhang[5]首先提出了基于域適應語義分割的原型偽標簽降噪和目標結構學習[5]。傳統的自訓練技術通過優化帶有偽標簽的分類交叉熵[5]:
Zhang[5]提出了固定偽標簽并且通過類明智的概率漸進地改變權值并相應地更新所學的知識,Zhang首先提出使用帶的權值偽標簽用于自訓練,如下式[5]:
所提出的標簽更新策略需要動態計算原型。對于目標域圖像,原型根據預測的偽標簽初始化,原型η(k)如下:
其中,是指示函數。運用小批量聚類中心的移動平均值來估計原型。在迭代過程中,原型按下式估計:
其中,η′(k)指類k的平均特征,它由來源于動量編碼的當前訓練批次計算,λ是動量系數[5]。
Wang[4]使用對稱交叉熵,以便更好地加強噪聲耐受性以穩定早期的訓練階段。對稱交叉熵如下定義:
其中,α和β是平衡系數[5]。
本文從不同角度介紹了近期發展起來的自訓練域適應算法,這些算法從各個方面分析并研究了自訓練域適應語義分割,有效地解決了域適應算法存在的一些問題,是有前景的語義分割算法。