基于分類差異與信息熵對抗的無監督域適應算法

2021-11-27 00:48:20李慶勇何軍張春曉

智能系統學報 2021年6期

李慶勇，何軍,2，張春曉

（1.南京信息工程大學電子與信息工程學院，江蘇南京 210044;2.南京信息工程大學人工智能學院，江蘇南京 210044）

在大數據時代的背景下，數據呈爆炸式增長，但大部分數據缺失有效的標注信息。由于數據標注任務的成本較高，通過無監督學習的方式進行模型訓練可以大大減少投入的人力、物力和時間成本，所以無監督學習成為機器學習領域一個重要的研究方向[1-2]。其次，傳統機器學習算法中存在用訓練集數據進行訓練得到的模型無法適應現實場景的問題，這是由訓練集數據與實際測試數據的特征分布不同導致的[3]。

針對以上問題，遷移學習(transfer learning，TL)方法被提出[4]，域適應學習(domain adaptation learning，DAL)作為一種同構遷移學習方法[5]，在源域與目標域樣本特征分布不同但相似的前提下，將源域樣本分類模型遷移到目標域，使模型適應目標域數據。無監督域適應模型通過帶標簽源域數據和無標簽目標域數據進行訓練，即使訓練過程中不包含目標域標注信息，也可以在目標域數據中實現很好的識別效果。

Ghifary 等[6]利用傳統DAL 思想，使用自編碼器學習共享編碼以獲得域不變特征，實現在特征向量空間中，不同域樣本特征之間的距離減小的目的，從而使無標簽目標域樣本得到正確分類。Sener 等[7]提出利用聚類和偽標簽的方法來獲取分類特征，從而實現在無標簽目標域上的分類。卷積神經網絡中間特征的分布匹配被認為是實現域適應的有效方法[8]。最大均值差異(maximum mean discrepancy，MMD)[9]使用核函數映射特征來度量兩不同分布之間的距離，通過最小化源域與目標域之間的距離得到域共享特征。Tzeng 等[10]在分類損失的基礎上加了一層適配層，通過在適配層上引入MMD 距離來度量最小化兩個領域的分布差異。Long 等[11-12]在MMD 方法的基礎上改進，采用多層適配和多核MMD 使域差異最小化，實現源域和目標域特征具有相似的特征分布。借鑒生成對抗網絡(generative adversarial network，GAN)[13]獨特的對抗訓練方式，Ganin 等[14]提出包含特征生成器和域分類器結構的模型DANN，利用特征生成器生成欺騙域分類器的特征，從而將源域和目標域數據映射到相似的概率分布上。王格格等[15]通過聯合使用生成對抗網絡和多核最大均值差異度量準則優化域間差異，以學習源域分布和目標域分布之間的共享特征。Sankaranarayanan 等[16]提出了一個能夠直接學習聯合特征空間的對抗圖像生成的無監督域適應方法GTA，利用圖像生成的對抗過程學習一個源域和目標域特征分布最小化的特征空間。但由于上述使用GAN或MMD 的分布對齊方法僅將不同域之間的距離拉近，沒有考慮目標樣本與決策邊界之間的關系，因此無法優化域內類間差異，從而影響域適應分類效果。Saito 等[17]通過訓練兩個分類器以最大化分類差異，但其方法只是減少源域和目標域之間的距離，而未增大目標域不同類之間的距離，這會使目標域樣本靠近決策邊界，使分類不確定性增加。

為此，本文提出一種基于分類差異和信息熵對抗的無監督域適應模型。利用兩個分類器之間的不一致性對齊域間差異，使源域和目標域數據之間的距離最小，同時利用最小化熵的方式降低不確定性，使目標域特征遠離決策邊界，提高了目標域樣本的類間差異。

1 分類差異和信息熵對抗

假設給定帶標簽的源域數據集Ds={Xs,Ys}，源域圖像xs對應標簽為ys，同時給定無標簽目標域數據集Dt={Xt}，目標域圖像為xt。本文模型包括特征生成網絡 G 和分類器網絡 F1、F2，G 網絡接收圖像xs或xt的輸入，經過特征提取輸出特征向量f，分類器 F1和 F2將特征向量分為K類，即輸出K維向量，對向量應用Softmax 函數得到類別概率。本文使用符號p1(y|x)、p2(y|x) 來分別表示由 F1和 F2獲得的輸入圖像x的K維概率輸出。

相比于其他域適應算法，本文算法在最小化域間差異的同時，可以使目標域內不同類別樣本之間的差異最大化。如圖1 所示，對于目標域數據，其他方法因為僅對齊域間差異，縮小源域和目標域數據之間的距離，所以特征生成器會在分類邊界附近生成模糊特征。本文模型方法利用對抗訓練思想，最小化源域與目標域數據之間的距離，同時使目標域不同類別遠離分類邊界，獲得更加具有區分性的特征，從而提高域適應分類的準確率。

圖1 不同方法特征分布對比Fig.1 Comparison of the feature distribution of different methods

1.1 信息熵對抗

分類器的輸出為經過Softmax 函數得到的不同類別概率，根據信息熵的定義，可以得到該分類器結果的信息熵大小，信息熵越大表示不同類別的概率值越接近，表明分類邊界越模糊，反之，信息熵越小，表明分類邊界越清晰。如圖2 所示，借鑒對抗訓練思想、特征生成器最小化信息熵、分類器最大化信息熵，實現使生成的特征向量f遠離分類邊界的目的，其中不同形狀的標志點代表不同類別的樣本。

圖2 信息熵對抗過程Fig.2 Information entropy confrontation process

1.2 算法分析

本文算法的目標是利用特定任務的分類器作為判別器來減小源域和目標域特征的距離，以考慮類邊界和目標樣本之間的關系。為實現這個目標，必須檢測到靠近分類邊界的目標域樣本，本文算法利用了兩種分類器在目標樣本預測上的不一致性。由于源域數據帶標簽，所以分類器可以對源域樣本正確分類，兩分類器 F1和 F2的初始化不同必然使決策邊界不同。如圖3 所示，處于陰影處的目標域樣本會被錯誤分類，如果能夠測量兩個分類器分類結果之間的不一致，并訓練生成器使之最小化，則生成器將避免生成錯誤分類的目標域特征。同時分類器輸出結果p1(y|x) 和p2(y|x) 的信息熵越小，表示預測結果越具有確定性，所以訓練生成器使分類結果信息熵最小化，則特征生成器將生成遠離分類器決策邊界的更加具有區分性的特征。

圖3 本文算法特征分布對齊過程Fig.3 Alignment process of the feature distribution is presented in this paper

使用距離d(p1(y|xt),p2(y|xt))度量分類器 F1和F2之間的差異，其中d表示計算兩概率分布散度的函數。根據Ben-David 等[18]提出的目標域樣本誤差限的計算理論，目標域樣本的誤差限RT(h)與3 個因素有關，包括源域樣本誤差限RS(h)、度量分類器差異的H 距離和常數 λ，其中 H 距離用來度量區分不同域分類器的差異，λ 表示理想假設的共享誤差，通常被認為是一個極小的值。使用H表示分類器假設空間，對于給定的源域S和目標域T，則：

式中：I[a]是一個二值函數，當預測a正確時函數值為1，否則為0。對于dH(S,T)，通過對帶標簽的源域數據的監督學習，可以認為預測函數h和h′可以對源域數據實現很好地分類，所以xE～S I[h(x)≠h′(x)] 部分值極小，因此可以近似認為：

式(4)表示兩個分類器對目標域樣本預測差異的極限值。將h用特征提取器 G的函數G(x)和分類器 F1的函數F1表示，h′用特征提取器 G 的函數G(x)和分類器 F2的函數F2表示，用符號“ ?”表示不同網絡結構之間輸入輸出的連接，則可以得到

引入對抗訓練的方式，實現對特征提取器 G的優化：

本文算法的目標是獲得一個特征生成器，這個特征生成器可以將目標樣本的分類不確定性最小化，并且可以使目標域樣本與源域樣本的距離最小化。

1.3 Softmax 交叉熵損失

本文使用Softmax 交叉熵損失來優化有標注源域數據集上的監督學習分類任務，通過對源域數據的監督學習可以保證特征生成器在先驗特征空間上有合理的構造。Softmax 交叉熵損失定義為

1.4 分類差異損失

將兩個分類器的概率輸出之差的絕對值之和定義為分類距離損失：

式中p1k和p2k分別表示第k類p1和p2的概率輸出。

1.5 信息熵損失

在目標域中，一個理想的特征向量f輸入分類器得到的概率輸出應該集中于某一類上。由于目標域數據沒有標注信息，無法知道樣本的類別，因此本文通過最小化信息熵的方法來促使目標域樣本分類概率集中于某一類上，使得到的分類結果更加具有確定性。定義熵損失如下：

源域由于有標注信息，其樣本的分類概率往往集中在所標注的類別上；而目標域由于存在域間差異，其在分類概率上往往不夠集中。訓練特征提取器最小化信息熵可以在特征向量層減小源域和目標域的域間差異，即使特征提取器具有更強的泛化能力。

1.6 算法流程

Lcl1和Lcl2分別表示分類器 F1和 F2的Softmax交叉熵損失，Lent1和Lent2分別表示分類器 F1和 F2的信息熵損失。輸入源域數據集Ds={Xs,Ys}，目標域數據集Dt={Xt}，批次大小為m，特征提取器訓練次數為n。ACDIE 模型訓練的整體算法流程為：

1)從Ds中采樣m個有標注數據，記為{Xsm,Ysm};從Dt中采樣m個無標注數據，記為 {Xtm}；

2)通過有標注數據進行監督訓練；

3)計算損失函數L1=Lcl1+Lcl2；

4)反向傳播梯度信號，更新 G、F1和 F2中的參數；

5)通過無標注數據進行域適應訓練；

6)計算損失函數L2=Lcl1+Lcl2?Ld(Xtm)?Lent1(Xtm)?Lent2(Xtm) ；

7)計算損失函數L3=Ld(Xtm)+Lent1(Xtm)+Lent2(Xtm)；

8)反向傳播梯度信號，更新 G 中的參數；

9)重復訓練步驟7）～8）n次。

2 訓練步驟

分類器 F1和 F2接收特征生成器 G 生成的特征向量作為輸入，F1和 F2需要最大化分類距離差異d(p1(y|xt),p2(y|xt))和信息熵H(xt)，而特征生成器最小化分類距離和信息熵。由此形成特征生成器G 與分類器 F 的關于分類距離和信息熵的對抗訓練。ACDIE 模型訓練流程如圖4 所示，ACDIE 模型的訓練可以分為以下3 步。

圖4 ACDIE 模型流程Fig.4 ACDIE model flow

1)模型預訓練

為了使特征生成器獲得特定任務的區分特征，首先通過監督學習的方式訓練特征生成器和分類器以正確地對源域樣本進行分類。訓練網絡G、F1和 F2，以最小化Softmax 交叉熵優化目標，如式(10)所示：

2)訓練分類器

固定特征生成器 G 的參數，利用目標域數據訓練分類器 F1和 F2，使分類概率輸出的差異增大，同時最大化分類輸出的信息熵，優化目標，如式(11)所示：

3)訓練特征生成器

固定分類器 F1和 F2的參數，利用目標域數據訓練特征生成器 G，最小化分類差異和分類概率信息熵，使目標域特征靠近相似類別的源域特征，同時遠離決策邊界，使特征更加具有區分性。優化目標如式(12)所示：

在訓練過程中，將不斷重復上述3 個步驟，以實現特征生成器和分類器關于分類距離和信息熵的對抗訓練。

3 實驗設計與結果分析

為了評價ACDIE 算法的性能和效果，本文設計了4 種實驗：數字標識域適應實驗、實物域適應實驗、t-SNE 圖可視化實驗、信息熵損失對比實驗。特征生成器 G 采用包括卷積層、池化層的卷積神經網絡進行特征提取，分類器 F1和 F2采用具有相同網絡結構的全連接神經網絡進行分類。在 G、F1、F2網絡中加入批次歸一化(batch normalization,BN)層來提高網絡的訓練和收斂的速度，防止梯度爆炸和梯度消失的發生，同時通過Dropout 層來防止模型過擬合。本文實驗基于pytorch 深度學習框架，Ubuntu16.04 操作系統，采用E5-2670 處理器，GPU 為GeForce GTX1080Ti，內存32 GB。

3.1 數字標識域適應實驗

3.1.1 數據集

選擇機器學習領域常用數據集進行域適應實驗，包括MNIST[19]、USPS[20]、SVHN[21]、SYN SIG[22]和GTSRB[23]，示例圖片如圖5 所示。SVHN是現實生活中的街道門牌號數字數據集，包含99289張32 像素×32 像素的彩色圖片；MNIST 為手寫數字識別數據集，包含65000 張32 像素×32 像素的灰度圖片；USPS 為美國郵政服務手寫數字識別數據集，包含6562 張28 像素×28 像素的灰度圖像，這些數據集共計10 個類別的圖像；SYN SIG是合成的交通標志數據集；GTSRB 是真實世界的標志數據集，共計43 個類別的圖像。

圖5 數字標識數據集示例Fig.5 Digital ID dataset example

對于這5 個域的數據樣本，設置5 種不同的域適應情況：SVHN→MNIST、SYN SIG→GTSRB、MNIST→USPS、MNIST→USPS?和 USPS→MNIST。在本文實驗中，USPS 表示使用1800 張USPS 數據集樣本，USPS*表示使用全部的USPS 數據集樣本來訓練模型，數據集樣本數量設置與文獻[17]相同。

3.1.2 實驗超參數

使用mini-batch 隨機梯度下降的優化器算法，batch size 設置為128，隨機種子值設置為1，Learning rate 設置為0.0002，通過Adam 優化器實現網絡參數更新，weight decay 設置為0.0005。

3.1.3 對比實驗結果

將本文算法與其他在域適應領域有代表性的方法進行比較，包括MMD[9]、DANN[14]、分離域共享特征和域獨有特征的DSN[24]、基于域鑒別器對抗訓練的ADDA[25]、學習多域聯合分布的CoGAN[26]、利用圖像生成的對抗過程學習源域和目標域特征分布差異最小化的GTA[16]，以及最大化決策分類器差異的MCD[17]。表1 展示了不同方法在5 種實驗設置情況下的域適應準確率，其中：Source Only表示只使用源域數據進行訓練而不進行域適應；分類精度最高的值用粗體表示。根據實驗結果，對于5 種不同的域適應情況，ACDIE 算法的準確率都為最高值。特別是，在MNIST→USPS 的實驗中，ACDIE 模型的域適應分類準確率可以達到97.4%，相較于MCD 的分類準確率提高了3.2%。另外，在其他4 種域適應情況下，相較于其他最好的域適應算法，ACDIE 模型的分類準確率也提高了2.1%～2.6%。對比MNIST→USPS 和MNIST→USPS*的準確率結果，可以發現通過更多的目標域數據可以進一步提高域適應效果。

表1 數字標識數據集域適應準確率對比Table 1 Comparison of the domain adaptation accuracies of digital ID datasets %

3.2 實物域適應實驗

3.2.1 Office-31 數據集

為了測試模型對于實際物體圖片的域適應效果，設計在Ofiice-31 數據集的域適應實驗。Ofiice-31數據集含有31 類不同物品的圖片，共計4652 張，是測試域適應算法的通用數據集。該數據集的圖片分別來自3 種不同的數據域，包括在亞馬遜網站收集的樣本數據Amazon(A)、通過電腦攝像頭拍攝得到的樣本數據Webcam(W)、利用單反相機拍攝得到的樣本數據DSLR(D)。圖6 分別為A、D、W 這3 個不同域的圖片數據。對于這3 個域的數據樣本，設置6 種不同的域適應情況：A→D、A→W、D→A、D→W、W→A、W→D。

圖6 Office-31 數據集示例Fig.6 Office-31 dataset example

3.2.2 實驗超參數

使用mini-batch 隨機梯度下降的優化器算法，batch size 設置為32，隨機種子值設置為2 020。特征提取器 G 采用預訓練的ResNet-50 網絡，使用SGD 優化器進行梯度更新，學習率設置為0.001，權重衰減參數為0.0005。分類器 F 采用兩層全連接的網絡結構，使用SGD 優化器進行梯度更新，學習率設置為0.001，權重衰減參數為0.0005，momentum 值設置為0.9。

3.2.3 對比實驗結果

為了對比實驗的合理性，所有方法在同等條件下進行對比實驗，選取ResNet-50 網絡作為特征提取網絡，對比方法包括DANN[14]、GTA[16]和使用條件對抗域適應的CDAN[27]。表2 展示了不同方法在6 種實驗設置情況下的域適應準確率，其中ResNet-50 表示使用ResNet-50 作為特征提取器對源域數據進行訓練而不進行域適應。

表2 Office-31 數據集域適應準確率對比Table 2 Comparison of the domain adaptation accuracies of Office-31 dataset %

從實驗結果可以看出，相較于現有的算法模型，本文所提出的ACDIE 模型在不同域適應情況下的分類準確率都有不同程度的提高。在D→W和W→D 的情況下的域適應結果分別達到98.6%和100%，因為D 與W 兩個域之間的圖片差異較小，所以可以達到一個很高的分類準確率。在A→D和A→W 的情況下準確率較GTA 算法分別提高了1.5%和3.6%，說明ACDIE模型在兩個域之間的差異較大的情況下仍能達到較好的域適應效果。ACDIE 模型在Office-31 數據集上的平均域適應準確率達到87.6%。

3.3 t-SNE 圖可視化實驗

為了更加直觀地看到經過域適應后特征向量的變化，本文采用t-SNE[28]方法將高維特征向量映射到適合觀察的二維向量，進而實現數據的可視化。

圖7 和圖8 分別是在SVHN→MNIST 和USPS→MNIST 兩種域適應情況下，目標域樣本特征分布的變化情況。每種顏色代表一個類別，左邊為進行域適應前不同類別樣本的可視化，右邊為進行域適應后不同樣本的可視化。通過t-SNE圖發現，在域適應前目標域數據不同類別之間的距離較小，且決策邊界較為模糊。通過ACDIE 模型的域適應后，目標域相同種類的數據更加集中，不同種類的數據之間的距離增大，這使得分類器更加容易實現對目標域數據的分類。

圖7 SVHN→ MNIST 的t-SNE 圖Fig.7 t-SNE diagram of SVHN→ MNIST

圖8 USPS→ MNIST 的t-SNE 圖Fig.8 t-SNE diagram of USPS→ MNIST

3.4 信息熵損失對比實驗

為了驗證將信息熵損失加入對抗訓練的有效性，以基于分類差異的域適應模型為基礎，設置4 組對比實驗：1)不加入信息熵損失；2) 僅在優化F 時加入信息熵損失；3) 僅在優化 G 時加入信息熵損失；4)信息熵損失對抗訓練，即ACDIE 模型。

從表3 的對比實驗結果可以看出，在實驗3 的情況下，通過在優化特征生成器 G 時加入信息熵損失，使信息熵損失減小，可以使生成的特征遠離決策邊界，從而達到更高的域適應準確率，證明引入信息熵損失的有效性。在實驗2 的情況下，通過在優化分類器 F 時加入信息熵損失，使信息熵損失增大，實驗結果與實驗1 大致相同，在MNIST→USPS(p)和USPS→MNIST 下準確率有所下降，因為分類器 F 信息熵增加，決策邊界更加模糊，一部分靠近邊界的樣本數據會被錯誤分類。在實驗4 中，即ACDIE 模型，通過對抗訓練的方式實現特征生成器 G 的信息熵損失最小化，域適應準確率相較于實驗3 進一步提高，證明了將信息熵損失加入對抗訓練的有效性。

表3 信息熵損失對比實驗Table 3 Comparative experiment of information entropy loss %

4 結束語

現有無監督域適應算法僅將不同域之間的距離拉近，沒有考慮目標樣本與決策邊界之間的關系，沒有擴大目標域內不同類別樣本之間的距離。針對上述問題，本文提出利用兩個分類器之間的不一致性對齊域間差異，減小源域和目標域之間的距離，同時通過最小化信息熵來降低分類不確定性的ACDIE 模型。最小化信息熵能使相同類別的數據更加聚集，不同類別數據之間的距離更大，而且可以使目標域樣本與源域樣本在語義空間上分布更加對齊。大量的實驗表明，本文提出的的模型相比于領域內其他模型取得了更優的性能，驗證了所提改進算法的有效性。

盡管ACDIE 模型在多個數據集中都有不錯的表現，但它仍存在一些提升空間。在今后的工作中，將進一步從信息論的角度思考，考慮互信息等因素對模型的影響，以提升模型的準確率和魯棒性。同時將進一步探究不同距離分布度量對域適應結果的影響。