融合強化學習與遷移對抗的服裝標注

2022-09-22 13:36:54何儒漢舒啟杰

軟件導刊 2022年9期

何儒漢，舒啟杰，黃晉

（1.紡織服裝智能化湖北省工程研究中心；2.湖北省服裝信息化工程技術研究中心；3.武漢紡織大學計算機與人工智能學院，湖北武漢 430200）

0 引言

近年來隨著互聯網的迅速發展，電子商務如雨后春筍，蓬勃發展。其中也涉及到大量服裝類圖片，因此如何管理與檢索這些圖片并提高檢索效率，是現階段需要解決的問題。目前的圖像標注分為人工標注和自動標注，人工標注成本較高且速度慢，而且人工標注易疲勞，容易影響標注精度，因此自動圖像標注是現階段亟需突破的方向。

自動圖像標注是圖像檢索（CBIR）［1］中頗具挑戰性的任務，其需要反映語義內容的關鍵詞，縮小底層視覺特征與高層之間的“語義鴻溝”，利用語義分割提升圖像檢索效率及準確性［2］。

目前，在圖像標注領域，圖像標注方法主要分為5 種：基于生成模型的方法（如MF-pLSA［3］）、基于最近鄰模型的方法（如2PKNN［4］）、基于標簽補充模型的方法（如SCMC［5］、DLSR［6］）、基于判別模型的方法（如MLDL［7］）與基于深度學習模型的方法（如CNN-RNN［8］）。其中，生成模型難以優化預測標簽，計算復雜；最近鄰模型對圖像要求很高；標簽補充模型和判別模型容易受到參數變化的影響。因此，本文采用深度學習模型，但一般的CNN 深度學習模型需要大量數據進行訓練，在數據少的情況下容易出現過擬合問題。

為了解決訓練速度慢與數據集缺失的問題，本文采用遷移學習，因為相比其他模型，基于遷移學習的圖像標注方法的訓練速度和準確率都有明顯提升。此外，該方法還被運用于醫學圖像［9］、服裝類圖像［10-11］標注等。

然而，圖像標注在許多領域還存在數據集樣本不足、標簽不均勻等問題，導致訓練出來的模型泛化能力不強。為解決該問題，研究者提出對抗網絡［12］與深度神經網絡相結合的方法，因此本文也嘗試采用遷移學習思想解決數據集樣本不足的問題［13-17］，并改善了模型中的邊緣分布［17-18］、條件分布［19］等問題，從而提升圖像標注的準確率。本文的創新點如下：

（1）對特征提取的模型進行改進，加入強化學習思想，利用強化學習中的TD（時間差分法）算法提取出每張圖片特征與文字最匹配的信息進行處理、編碼，之后對生成器進行剪裁、標準化操作，通過將兩者相結合提升模型精度。

（2）本文采用DeepFashion2 服裝數據集，利用OpenCV將彩色圖片處理成黑白圖片，因此得到DeepFashion2 的兩份數據集（彩色與黑白），目的是驗證本模型的推論：鮮艷顏色圖片的標注效果優于一般顏色的圖片。

1 相關工作

1.1 圖像標注

Vinyal 等［20］最早提出編碼解碼模型，其中編碼部分采用CNN 提取圖像特征，解碼部分采用LSTM 對提取的特征進行解碼并轉換成文字，最終完成標注。

近年來為提升字幕生成質量，許多研究人員提出用期望的方法解碼生成字幕標注TIOW［21］，或對語義進行優化［22］，這些方法都能一定程度上提升字幕生成質量，但其只是在編碼或解碼部分進行了優化。與之不同的是，本文對編碼和解碼部分都進行了改進，同時為進一步提升精度，本文對生成的特征進行了剪裁/標準化處理，隨后進行標注。

1.2 域適應

遷移學習最主要的功能是將源域與目標域的特征拉近，該過程也稱作域適應。科研人員之前大多在域適應方面作改善，包括邊緣分布與條件分布。如圖1 所示的邊緣分布方法，其用數學模型或對抗遷移模型將源域與目標域相近的特征放到一起，而不考慮特征是不是屬于同一個類。如上圖的圓圈、三角形和星星都有相似的特征，因此將其劃分成一類，但此方法準確率不高。如圖2 所示的條件分布方法，其不僅考慮將特征拉近，還要將源域與目標域數據集中的多個類別對齊拉近，可得到比邊緣分布更好的效果。

Fig.1 Edge distribution圖1 邊緣分布

Fig.2 Conditional distribution圖2 條件分布

本文提出的服裝圖像標注模型結合邊緣分布與條件分布兩種方法進行域適應，用動態對抗因子調整兩種域適應方法的比例，從而提升遷移效果。

1.3 注意力機制

注意力模型（AM）是神經網絡中的一個重要概念。注意力機制是按照人觀察事物的特性進行設計的，即在涉及語言或視覺的問題中會選擇某些對決策更有幫助的部分，而忽略掉不相關的信息。本文中有兩部分運用到注意力機制：一個是特征提取環節，另一個是機器翻譯環節。

1.4 強化學習

強化學習很早已被提出，近年來隨著人工智能的迅速發展，強化學習再次得到人們的重視。2018 年，Banino等［23］在Nature 上發表了關于智能主體（Artificial Agent）的論文。之后又有學者發表了將機器翻譯與強化學習相結合的論文［24］。強化學習主要通過智能體、環境、動作、狀態、獎勵5 個狀態之間的相互作用得到當前最優解。本文將強化學習中的TD 算法引入特征提取環節，對圖片中的每個特征進行分類，分類正確則給予獎勵，最終將得到獎勵最多的標簽作為這張圖片的標注。

TD（時間差分法）結合了蒙特卡羅的采樣方法和動態規劃方法的bootstrapping（利用后繼狀態的值函數估計當前值函數），使其可適用于model-free 算法，并且是單步更新，速度更快。TD 算法計算步驟如下：

在算法1 中，使用默認參數θ為貼現因子，θ=1 表示將采樣一次的結果作為下一次的結果，θ=0.1 表示將采樣10次的均值作為下一次的結果。

1.5 遷移對抗網絡

深度遷移網絡模型結構如圖3 所示。源域數據集經過CNN 提取特征，將得到的特征與目標域特征進行對比，并不斷進行微調，讓源域與目標域相似度較高的特征對齊，最終輸出特征。采用深度學習方法要得到較好的分類效果需要大量圖像樣本進行訓練，但大多數領域的專業性標注樣本總體還不夠充足。在服裝分類領域提供的有標簽數據集大多數是單標簽數據，為了讓服裝標注內容更豐富，本文將ImageNet 數據集訓練的resnet50 作為服裝圖像標注的語義擴充。與DAAN 特征提取的方式類似，本文也是將ImageNet 數據集訓練出的resnet50 網絡參數遷移到卷積神經網絡中獲得網絡參數，再將參數加入模型中。

為了提升遷移效果，本文在域適應部分融合了生成對抗模型。對抗網絡生成器的主要作用是生成圖像特征，并將生成的特征與resnet50 遷移特征進行相似度對比，將相似度較高的特征作為圖像的最終標注。此方法來源于DAAN，與此不同的是，本文提出的FLTAN 在DAAN 基礎上加入了TD 算法進行特征提取，并對特征作簡單的裁剪/標準化處理，使得數據更集中，從而進一步加快了梯度下降求解速度，提升了標注精度。

Fig.3 Transfer learning model圖3 深度遷移網絡模型結構

1.6 機器翻譯實現中文標注

考慮到ImageNet 的標簽是英文，為了實現服裝的中文標注，本文設計了一個機器翻譯模型。傳統的機器翻譯用RNN 作為Seq2Seq 模型的編碼器—解碼器，本文引入了AM（注意力機制）模型作為解碼器輸出。本模型根據軟注意力思想，將目標句子生成的每個單詞對應到輸入句子(x1，x2，x3，…，xt)單詞的概率分布，從而得到輸入句子與目標單詞的對齊概率，將相應位置概率值更大的單詞作為最終的輸出。

2 網絡結構

2.1 模型結構

基于強化學習的遷移對抗網絡流程如圖4 所示，其展示了模型大致結構。

FLTAN 模型如圖5 所示，給出了圖像標注的總體框架：隨機初始化一張樣本圖片和起始位置Lx-1，結合注意力機制與RNN 模型，根據現階段位置信息提取的特征得到下一個位置信息的特征ft。ft通過生成器生成特征，對圖像進行剪裁、標準化操作后與目標域特征y一起傳入判別器Gc。判別器通過計算并且反向傳播，經過梯度反轉更新ft。循環執行此過程，直到達到動態平衡，此時形成了具有生成與判別功能的對抗網絡。每個圖像中每個顯著位置的特征ft都會進行標簽預測，最后利用強化學習中的TD 算法給預測的標簽類別賦予相應的權重收益，并將收益最大的類標簽作為圖像最終的標注標簽。圖中，ρ(xt，Lt-1)表示感知器用來提取當前位置圖像的ResNet 特征，進一步歸一化后經過線性回歸得到層次信息。Fx是注意力網絡，用于選定圖像中要遍歷的范圍，最后將提取到的獨立層信息與位置信息相結合，得到最終的特征ft并傳入對抗模型，判斷屬于哪個標簽，若判別錯誤則返回優化。

2.2 強化學習特征提取

本文融合注意力機制、RNN 與強化學習的方式進行特征提取。強化學習特征提取過程如圖6 所示。其中，Linear 表示線性回歸處理后的特征，loc 表示位置信息，Fx 表示提取的特征，TD 表示強化學習的差分算法。根據提取出的特征，用TD 算法獎勵分類正確的位置，循環此過程，直到遍歷整張圖片的所有顯著特征。

Fig.4 Flow of FLTAN圖4 基于強化學習的遷移對抗網絡流程

Fig.5 FLTAN model圖5 FLTAN模型

Fig.6 Feature extraction process of reinforcement learning圖6 強化學習特征提取過程

由于本文是從局部到整體，而注意力機制會一直尋找最優步數和最能判別特征的方向進行，因此本文引入注意力機制。RNN 可進行序列決策，但在action 部分不能求導，因此加入強化學習的期望獎勵機制。相比蒙特卡洛算法，差分算法用時少、收斂速度快，因此本文最終選擇了強化學習中的差分算法。與普通的特征提取不同，該方法對所有特征都進行了分類，并對分類正確的特征進行獎勵，最后計算期望最大的標簽作為這張圖片最終的標簽。普通的特征提取只是提取整體的特征信息，并沒有考慮到每個細節，因此對于圖像特征不明顯的圖片標注效果很差，此方法對該缺點進行了改進。

最終提取的特征包括位置、顏色和層次空間相關信息，將其合并傳入對抗網絡模型進行訓練。融合RNN 與注意力機制是利用人的視覺過程，將注意力集中在視覺空間的某些部分，以便在需要的地方獲取信息，并且隨著時間的推移，大腦將來自不同注視點的信息結合起來，構建場景的內部表征。實驗結果表明，該模型能更準確地辨認出特征屬于哪個標簽。

2.3 對抗攻擊的字幕生成

圖像字幕的生成對抗模型如圖7 所示，其中Is、It 表示數據集源域與目標域的圖片，Ig 表示生成器生成的特征。將提取好的特征傳入生成器，并將生成的特征與源域特征合并后進行剪裁/標準化處理，最后將處理后的特征與目標域特征（有標簽數據特征）一起輸入判別器中進行相似度對比（用sofmax 求出概率值），如果不合標準（小于閾值），則反向傳播到生成器并再次優化特征。

3 損失函數

本模型的3 個損失函數有一定關系，本模型的總體損失函數如下：

Fig.7 Generation adversarial model of image caption圖7 圖像字幕的生成對抗模型

其中，λ是權衡參數。值得注意的是，雖然本模型有兩個參數（λ和α），但是α的值可通過網絡自動進行計算。

α→0 表示預適應（邊緣分布更重要），α→1 意味著源域與目標域的分布不相同，這種情況更像MADA 模型。因為在訓練過程中，條件分布和邊緣分布都不確定，所以通過動態對抗因子α 的學習，本文方法可應用于多種場景。

本文的模型啟發于生成對抗網絡，在標簽預測中，本文使用softmax 作為損失函數，如式（2）所示：

其中，C是數據集中類別的數量，Pxi→c是第i個特征x屬于類別C的概率，Gy是輸出標簽的分類器，Gf是提取的特征，ns是源域中有標簽樣本的數量。該函數旨在對每張圖片中的每個特征作盡可能準確地標注。

在本模型中，遷移學習過程中的邊緣分布方法如式（3）所示，即盡可能讓源域與目標域對齊，表達式類似DANN。

式中，ns與nt分別是源域和目標域標簽的數量，Ld是域分類器損失函數，Gf是全局特征，di代表輸入的xi屬于哪個域的標簽，此公式旨在對特征損失求均值。

接下來是條件分布，對源域和目標域求損失。與域適應相比，條件分布可對齊多個模型結構，以實現更好的域適應。

該式與式（3）類似，但里面的具體到每個類別的損失。

對抗因子是一個很有挑戰性的設計方式，在條件分布與邊緣分布之間對抗，α取值在［0，1］之間，分別取0，0.1…1，求出平均值，具體公式如下：

dA，g(Ds，Dt)是源域與目標域的距離公式，具體如下：

每個類別的距離公式采用交叉熵的計算方法：

式（8）為特征提取公式，與強化學習的策略梯度算法相似。

上式旨在求出一張圖片的更多特征，讓特征更明顯，其運用了循環神經網絡，根據當前情況和狀態依次求出每個特征的最優位置。

該模型與其他模型的方法有很大區別，相比于條件分布與邊緣分布，本模型都表現出明顯優勢，其最大優點是兼具條件分布與邊緣分布的優點。

4 實驗與分析

4.1 實驗環境與實驗設計

本實驗使用深度學習框架Pytorch，GPU 為NVIDIA Quadro K2000，并采用CUDA 以及CDNN 庫進行加速。采用DeepFashion2［25］作為源域的數據集，其中有13 類標簽，本文取其中8種用于測試。

為驗證模型的泛化能力以及模型對圖片的敏感度，將3 種數據集進行對比，分別是ImageCLEF-DA、DeepFashion2 以及經過黑白處理后的DeepFashion2。DeepFashion2黑白數據集是利用Python 環境下的OpenCV 對DeepFashion2 所有圖片進行黑白處理最終生成的圖片集合，所有圖片的位置和命名與源圖片保持一致。

本文采用多標簽標注，利用遷移特征標簽加上本文提供的數據集標簽作為最后的標簽。為方便評估，采用單標簽計算精度，評價標準包括準確率、召回率以及F-scores。

本實驗特征提取階段的相關參數設置如表1 所示，依次為batch_size、patch_size、loc_hidden、glimpse_hidden 及hidden_size。

Table 1 Setting of feauture parameters表1 特征參數設置

4.2 對抗因子α

此模型設計的對抗因子α 可讓條件分布與邊緣分布達到動態平衡，其取值可以是［0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9，1］。其中，DANN（α=0）表示只考慮邊緣分布模型，MADA（α=1）表示只考慮條件分布模型。

FLTAN 模型的對比模型是DAAN 與MEDA，數據集取DeeepFashion2中的vest。在不同α 取值情況下的最終訓練結果如圖8 所示。從實驗結果可以看出，不同α 所對應的結果相同，如在DAAN 與FLTAN 中，當α=0.5 與α=0.8 時模型都能得到最好的結果。

Fig.8 The influence of adversarial factor on accuracy圖8 對抗因子對準確率的影響

4.3 實驗結果

表2 是模型在ImageCLEF-DA 數據集上訓練后的結果。此數據僅作為對比實驗，用于檢驗模型的泛化能力。此數據集在訓練26 個epoch 時會產生最大值，后面會有小幅波動，最終會在32 個epoch 時收斂，平均準確率達到89%，比DAAN 提高了2.2%。

Table 2 Accuracy of the model on ImageCLEF-DA表2 模型在ImageCLEF-DA數據集上的準確率 %

Fig.9 Accuracy rates of various categories in DeepFashion2圖9 DeepFashion2數據集上的準確率對比

Fig.10 Different evaluation criteria for each model圖10 各模型評價標準對比

圖9、圖10 是在DeepFashion2 數據集上訓練后的結果，本文FLTAN 模型的平均準確率為77.3%，相比DAAN提升了3%，其中長褲和短褲數據集的準確率最高，分別可達到92.4%與91.6%，相比黑白DeepFashion2 數據集的平均準確率提高了4.2%，但黑白數據集的F1 值比DAAN 高出1.8%。表3 展示了利用模型FLTAN 進行標注后部分圖像的標注結果。其中，越清晰的圖片標注的文字越多，ImageCLEF-DA 數據集的平均標注單詞數量為6.2，Deep-Fashion2 數據集的平均標注單詞數量為5.9，DeepFashion2黑白數據集的平均標注單詞數量為4.3，由此可推斷出標注效果與圖片清晰度有著強關聯性。

Table 3 Single label and multi label renderings表3 單標簽與多標簽效果

4.4 小結與分析

本實驗模型是由基于對抗網絡的深度遷移學習模型改進而來的，相比于通用類的標注，其在性能上有所提升。根據FLTAN 模型中的黑白圖像數據顯示：普通并不鮮艷的圖片效果明顯沒有顏色鮮艷的圖片好。由于每張圖片的復雜度不同，而此模型針對復雜度高的圖片（彩色圖片）效果更好。由圖9 可以看出，FLTAN 模型在各個類別中相比其他模型都有明顯優勢。雖然圖10 中的數據顯示其召回率欠佳，這是因為模型總體有些復雜導致的，但其最終得到F1綜合指標仍為最優。

5 結語

本文提出了融合強化學習與遷移對抗的圖像標注方法FLTAN，實驗表明此方法能夠從圖片中提取到更多更優的特征，從而提升模型性能。同時也表明優化圖像特征提取、對生成器進行處理可以改善圖像標注精度。本文采用的數據集是DeepFashion2，該數據集目前是最大的服裝類數據集，但相比于ImageNet 仍然較小，因此選用更大的數據集以進一步提升標注準確率將是未來的研究方向。