張 濤, 黃孝慈
(上海工程技術(shù)大學機械與汽車工程學院, 上海 201620)
近年來,基于深度學習的圖像分割方法[1-3]因其具備的精心設(shè)計框架,以及各種細分數(shù)據(jù)集的可用性已取得了很大進展。 其中,來自各種深層網(wǎng)絡(luò)學習到的更好的特征表示對該方法的迅猛發(fā)展發(fā)揮了至關(guān)重要的核心作用。 然而,對于許多現(xiàn)實世界的應用、例如醫(yī)療和制造業(yè),收集和標記數(shù)據(jù)非常耗時,需要用到專業(yè)的注釋員。 這個問題的直觀解決方法是在現(xiàn)有模型的源數(shù)據(jù)集上訓練未標記目標域。 然而,由于源域和目標域中的各種數(shù)據(jù)分布而導致的域轉(zhuǎn)移問題往往會阻礙該解決方法的實現(xiàn)。此外,方法在實現(xiàn)過程中沒有在語言表達的指導下明確定位參考對象,只利用耗時的后處理DCRF 生成最終的細化分割。 對于開放集[4-5]圖像分割任務(wù),現(xiàn)已獲得了廣泛的應用,例如交互式圖像編輯和語言引導的人機交互。 除了傳統(tǒng)的圖像分割,由于圖像和語言之間的語義差異,語言相關(guān)的圖像分割更具挑戰(zhàn)性。 此外,文本表達不僅限于實體(例如,“人”、“馬”),還可能包含描述性詞語,如對象屬性(例如“紅色”、“年輕”)、動作(例如“站立”、“保持”)。
以前的研究主要集中在如何融合圖像特征和語言特征。 一個簡單的解決方案[6]是利用串聯(lián)和卷積的方法融合視覺和語言表達,以產(chǎn)生最終的分割結(jié)果。 但是,由于視覺和文本信息是單獨建模的,這種方法不能有效地建模圖像和語言之間的對齊。 為了進一步模擬多模態(tài)特征之間的上下文,一些先前的方法[7]提出了跨模態(tài)注意,自適應地關(guān)注圖像中的重要區(qū)域和語言表達中的信息關(guān)鍵詞。 最近,Hu等學者[8]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks ,CNNs)和長-短期記憶網(wǎng)絡(luò)(long shortterm memory, LSTM)[9]的視覺和語言特征串聯(lián)來生成分割模板。 為了獲得更精確的結(jié)果,文獻[10]融合了多層次的視覺特征,以細化分割掩模的局部細節(jié)。
綜上所述,盡管這些方法都已獲得了長足的發(fā)展,但網(wǎng)絡(luò)體系結(jié)構(gòu)和實驗實踐卻已逐步變得更加復雜。 這也導致算法的分類與比較顯得更加困難。因此,針對這一現(xiàn)狀,研究中從另一個角度考慮解決這個問題。 這里將圖像分割任務(wù)分解為2 個子序列任務(wù),分別是:詞向量特征提取和精細分割掩模生成。 在本文提出的模型中,主要由以下核心部件組成:
(1)多模態(tài)融合模塊。 視覺特征和語言特征分別由卷積神經(jīng)網(wǎng)絡(luò)(SegNet)和LSTM 網(wǎng)絡(luò)提取,然后融合生成多模態(tài)特征。
(2)定位模塊。 使用基于注意力機制構(gòu)建的transformer 將會自適應地獲取圖像中的重要區(qū)域和語言表達中的信息關(guān)鍵詞之間的相關(guān)性。
(3)Segmentation Mask 模塊。 使用多采樣率和有效卷積特征層,從而在多尺度上捕獲對象和圖像上下文,并將反卷積特征圖的采樣率提高,由此獲得更精確的分割結(jié)果。 最后,使用交叉熵損失函數(shù)訓練網(wǎng)絡(luò)。
給定一個背景詞向量X=[x1,x2,…,xm],其中xi是第i個標記。 首先應用表查找來獲得單詞嵌入,之后將其初始化為一個300 維的通道嵌入向量,每個通道表示一個詞向量的維度,再通過GLOVE進行輸入[11]。 為了模擬相鄰單詞之間的相互依賴關(guān)系,使用標準的LSTM 來處理初始嵌入文本向量:
其中,ht1和ht2分別表示LSTM 向前和向后獲得的文本向量。 全局文本通過所有單詞之間的平均池化獲得,其定義如下:
給定輸入圖像I∈H×W×3,利用視覺主干提取多級視覺特征,即和這里,H是原始圖像的高度,W是原始圖像的寬度,d是特征通道的尺寸。 對于圖像中的每個像素,研究假設(shè)這些像素對應于場景中的靜態(tài)部分,即圖像中的背景變化僅由相機運動引起。 將最終卷積層所獲得的視覺特征通過MLP 反向投影成高維3D 像素點,有利于像素分類并用于后續(xù)的定位環(huán)節(jié)。 3D 像素點投影如圖1 所示。

圖1 3D 像素點投影Fig. 1 3D pixel projection
整體模型架構(gòu)如圖2 所示,本文中模型的輸入由圖像I和背景詞向量X組成。 為了模型的輕量化,解碼器模塊具有相對于編碼器模塊的對稱結(jié)構(gòu),其中輸入和輸出通道的數(shù)量相反。 研究中,使用SegNet 和LSTM 分別提取I和X的特征,隨后送入多模態(tài)融合模塊,融合生成多模態(tài)特征。 其次,使用基于注意力機制構(gòu)建的transformer 將會自適應地獲取圖像中的重要區(qū)域和語言表達中的信息關(guān)鍵詞之間的相關(guān)性。 最后,使用多采樣率和有效卷積特征層,有利于在多尺度上捕獲對象和圖像上下文,并使反卷積特征圖的采樣率得以提升,從而獲得更精確的分割結(jié)果。

圖2 整體模型架構(gòu)Fig. 2 Overall model architecture
由圖2 可知,研究中通過融合Fe1和Ptext獲得多模態(tài)張量,公式如下:
其中,g表示ReLU激活函數(shù);和分別是Fm1和Fe1的特征向量;We1和Wt是將視覺和詞文本表示轉(zhuǎn)換為相同特征維度的2 個轉(zhuǎn)換矩陣。 然后,多模態(tài)張量Fm2和Fm3通過以下方式獲得:
其中,μ∈[2,3],上采樣的步長為2×2。 在下面的過程中,使用Fm3作為輸入來生成分割掩碼。以往的研究通常采用多次注意力機制來獲得分割結(jié)果。 在本文中,先是根據(jù)詞向量進行定位、再做分割,可以取得良好的性能,對此將展開研究論述如下。
在多模態(tài)任務(wù)中,一個主要的挑戰(zhàn)是建立圖像和文本之間的關(guān)系模型。 近年來,注意力機制已成為功能強大的一種優(yōu)秀技術(shù),可以在圖像分割中提取與語言表達相對應的視覺內(nèi)容。 特征Fm3包含豐富的多模態(tài)信息,必須進一步建模以獲得圖像中的相關(guān)區(qū)域。 定位的目的是為了將每個像素與語言表達所涉及的全局分布的視覺區(qū)域關(guān)聯(lián)起來,這些區(qū)域的反應分數(shù)高于不相關(guān)區(qū)域,用于增強全方位推理,同時防止模型過度擬合圖像。 研究中將全局文本Ptext視為編碼器輸出,解碼器遵循變壓器的標準架構(gòu),使用多頭注意力機制將多模態(tài)特征Fm3轉(zhuǎn)換為一個粗略的分段掩碼熱圖Mmask,因此可得:
其中,響應分數(shù)越高的區(qū)域就越有可能對應于語言表達(見圖1)。
解碼器需要一個序列作為輸入,因此可將Fm3的空間維度壓縮為一維,從而生成特征映射。 由于transformer 架構(gòu)是置換不變的,就可使用固定位置編碼對其進行補充,這些編碼被添加到每個注意層的輸入中。
給定由式(8)中生成的視覺對象,Segmentation Mask 模塊的目標是生成最終的精細分割掩模。 研究中,先將原始多模態(tài)特征Fm3和視覺對象Mmask連接起來,并利用分割模塊來細化粗分割結(jié)果:
其公式定義如下:
其中,Segmentation Mask 模塊的主要結(jié)構(gòu)以及分割過程如圖3 所示。 Segmentation Mask 模塊的卷積特征層使用了多采樣率和全局池化的方式,以便于從多尺度上捕獲對象特征和圖像上下文。 請注意,為了獲得更精確的分割結(jié)果,通過反卷積的方式將特征圖的采樣率增加了4 個因子。 這樣,預測的掩碼

圖3 Segmentation Mask 模塊Fig. 3 Segmentation Mask module
在模型訓練期間采用交叉熵損失函數(shù),其定義如下:
其中,ge和pe分別表示下采樣中的地面真相掩碼和預測掩碼Hmask的元素。
在本小節(jié)中,簡要介紹用于驗證本模型的數(shù)據(jù)集,即廣泛使用的Cityscapes 數(shù)據(jù)集[12]。 Cityscapes由5 000 幅真實的城市交通場景圖像組成,分辨率為2 048×1 024,并帶有密集像素注釋。 該數(shù)據(jù)集中2 975個圖像用于培訓,500 個圖像用于驗證,1 525個圖像用于測試。 城市景觀標注了33 個類別,其中19 個用于培訓和評估。 不含地面真相的訓練集用于訓練模型,驗證集用于評估模型。 GTA5[13]是一種合成數(shù)據(jù)集,其圖像從游戲視頻中收集,并通過計算機圖形技術(shù)自動生成相應的語義標簽。 其中,包括由9 633個像素級標簽合成的圖像。 在2 種不同的環(huán)境下評估了本文提出的FuseNet 圖像分割框架,并按照以前的方法[14],將Cityscapes 視為目標域,GTA5 視為源域(GTA5-Cityscapes)。
本文使用Pytork 庫實現(xiàn)了提出的方法,并在NVIDIA 2080TI GPU 上進行了訓練。 所有網(wǎng)絡(luò)都使用了隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器進行訓練。 初始學習速率和動量分別設(shè)置為2.5e-4和0.9,并采用冪為0.9 的多項式衰減策略來調(diào)整學習速率,接下來將最大迭代次數(shù)設(shè)置為150 000次。 輸入圖像的大小調(diào)整為416×416,輸入句子的最大長度設(shè)置為15。 使用1 024 維的LSTM 來提取文本特征。 過濾維度設(shè)置為1 024。該解碼器具有1 層網(wǎng)絡(luò)、4 個頭和1 024 個隱藏單元。 用平均交集(mIoU) 來評估本文提出方法的性能。
首先,在GTA5-Cityscapes 中驗證本文方法的有效性,相應的比較結(jié)果見表1。 表1 中,每類的最佳結(jié)果以粗體突出顯示。 從表1 中可以看出,本文得到的mIoU(52.1%)獲得了最佳值,這大大優(yōu)于其余方法,同時比僅在源數(shù)據(jù)上訓練的模型增加了15.5%,表現(xiàn)出了優(yōu)越性能。 本文提出的方法在建筑物、墻壁、道路等類別上取得了更顯著的改進。 這些物體具有剛體,并且在不同的源域中形狀相似。mIoU的值越高, 也就證明了本文所提出的Segmentation Mask 模塊在學習視覺和語言模態(tài)之間語義對齊方面的有效性更強。 總地來說,本文提出的分割框架優(yōu)于其他大部分模型。

表1 FuseNet 在GTA5-Cityscapes 上與其他先進模型的對比結(jié)果Tab. 1 Comparison results of FuseNet with other advanced models on GTA5-Cityscapes
本文收集含有不同類別的圖像進行運行時間分析,對比結(jié)果如圖4 所示。 每次分析重復400 次,然后取平均值。 研究比較了4 種最先進的方法,包括Source only、CRST、MLSL、UIA 模型。 模型運行時間分析結(jié)果如圖4 所示。 由圖4 可知,Source only 和CRST 的推理時間大致與圖像中的類數(shù)成正比,本文的方法和MLSL 模型的推理時間與圖像中的類數(shù)是不變的,并且本文提出的模型比現(xiàn)有的方法快得多。 值得注意的是,本文的方法沒有使用任何對抗性學習或任何其他復雜的技巧,這可歸因于源域組合訓練可以在一定程度上提高目標域的性能,源域之間的協(xié)作學習比目標域上的協(xié)作學習帶來了更多的改進。

圖4 模型運行時間分析Fig. 4 Analysis of model running time
圖5 顯示了訓練過程中分割精度和損失值的變化。 2 幅圖中的結(jié)果可以反映模型隨著迭代次數(shù)的增加而收斂。 如果損失值在幾個時期后略有增加,則該模型將被視為收斂條件。 在訓練過程中經(jīng)過1 500次迭代后,該框架達到了收斂條件,并在對比實驗中獲得了最佳結(jié)果,這也驗證了表1 的結(jié)論。 在第5 階段,5 種方法(包括FuseNet、MLSL、CRST、UIA 和Source only)的準確度分別為83.3%、78.2%、65.5%、62.9%和61.4%。 經(jīng)過1 500個階段后,本文方法取得了最好的性能并穩(wěn)定增長,其損失值為-4.61,達到了收斂條件。 損失值的變化和最終結(jié)果表明,本方法在收斂速度和準確度上優(yōu)于其他基線方法。

圖5 訓練過程中分割精度和損失值的變化Fig. 5 Change of segmentation accuracy and loss value during training
為了直觀地評估定性結(jié)果,本文提出的基于現(xiàn)有的MLSL 模型,對含有多類別的圖像進行了圖像分割,分割結(jié)果如圖6 所示。 圖6(a)~(c)中,從左至右分別是:Language:馬路,車輛,天空,樹,標志,墻壁;Language:馬路,車輛,行人,樹,柵欄,墻壁;Language:馬路,車輛,樹,天空,墻壁。 所有這些圖像均來自GTA5-Cityscapes。 從這些定性結(jié)果中,可以看到本文的模型根據(jù)輸入語言所指定的類別對各類型圖像都能夠以精確分割,所分割出來的事物類型往往是最貼近真值的。 本文的模型可以利用依賴于語言和transformer 中復雜的特征注意力模型,自適應地提取語言表現(xiàn)中的信息關(guān)鍵詞,與圖片中的重要區(qū)域之間的信息關(guān)聯(lián),從而得到了最匹配的特征分布,加快了推理定位對象的多模態(tài)信息融合過程,再通過更精細化的特征分割模塊,最后使模型達到了更高的準確度和更好的結(jié)構(gòu)化分割輸出。

圖6 GTA5-Cityscapes 上不同數(shù)量的標記目標圖像上的定性結(jié)果Fig. 6 Qualitative results of different number of marker target images on GTA5-Cityscapes
在本文中,提出了一種新穎的用于圖像分割的自適應框架(FuseNet)。 其目的是在輸入圖像中將語言表達的類別對應的圖像進行分割。 在研究工作中,為這項任務(wù)開發(fā)了一種簡單而有效的方法。 將該任務(wù)分解為2 個子序列任務(wù):詞向量特征提取和精細分割掩模生成。 首先將提取到的語言和視覺特征送入多模態(tài)融合模塊,融合生成多模態(tài)特征。 其次,使用基于注意力機制構(gòu)建的transformer 將會自適應地獲取圖像中的重要區(qū)域和語言表達中的信息關(guān)鍵詞之間的相關(guān)性,用于捕獲和傳輸像素級的語義信息。 最后,使用多采樣率和有效卷積特征層,從而在多尺度上捕獲對象和圖像上下文,并將反卷積特征圖的采樣率提高以獲得更精確的分割結(jié)果。 通過對類別先驗的顯式建模,減少冗余類別的重復匹配,研究得到了比之前最好的結(jié)果更高的分割性能。從上述實驗中也證實了本文方法的每個組成部分的有效性。 此外,只使用了簡單的視覺和語言特征提取主干。 更復雜的網(wǎng)絡(luò)結(jié)構(gòu)有可能進一步提高性能,這將在未來的工作中加以解決。