關新宇,孫 涵
(南京航空航天大學 計算機科學與技術學院/人工智能學院,江蘇 南京 211106)
近年來,隨著深度學習的快速發展,計算機視覺領域中的域自適應問題在目標檢測[1]、圖像分類[2]、語義分割[3]等實際應用中取得了巨大成就。域自適應是在有標注的源域數據集的幫助下,將訓練好的模型遷移到新的領域,從而在未標注的目標域上達到不錯的效果。然而,原始數據在很多情況下并不總是可訪問的。一方面,數據往往包含了用戶的個人信息,共享這些數據將危及用戶的個人隱私,特別是在社交媒體和醫學領域。另一方面,共享傳輸源域數據是非常昂貴的,如視頻數據或高分辨率圖像。因此,在不能訪問源域數據的情況下,只利用一個已經訓練好的源模型和沒有標注的目標域數據進行無源域數據的域自適應是非常必要的。
針對無源域數據的域自適應問題,Liang等人[4]提出凍結源分類器,并通過最大化互信息和偽標記來聚類目標特征,以獲得額外的監督。Yang等人[5-6]提出了鄰域聚類,通過挖掘隱藏的鄰居特征等結構信息得到偽標簽,從而加強了局部鄰域之間的預測一致性。但由于源域和目標域之間存在域差距,生成的偽標簽會帶有噪聲,使用這些錯誤的偽標簽進行訓練會導致最終模型分類不正確。為避免這個問題,Li等人[7]提出利用條件對抗生成網絡直接生成帶有目標風格的訓練樣本。CPGA[8]提出在對比學習框架中將樣本與類別原型對齊。它們把源模型作為輔助監督,以此控制生成數據的標簽。但對抗生成網絡的訓練不太穩定,可能會出現模式崩潰的問題,從而導致低質量的圖像或特征,對域自適應產生負面影響。
受文獻[9]啟發,該文從源知識遷移的角度出發,通過量化源知識在不同特征通道的可遷移性的不確定性來充分利用有效的源知識,減少噪聲偽標簽的生成。并同時考慮了目標數據的內在結構信息,通過高斯概率模型對目標數據進行聚類,將源知識和目標數據聯合起來計算偽標簽的置信度,進一步降低噪聲偽標簽的影響。最后對目標樣本進行插值訓練,根據置信度得分對樣本進行加權,提升目標模型的魯棒性。
該文的貢獻如下:
(1)提出了一種基于不確定性指導加權混合訓練的無源域數據的域自適應算法(Uncertainty-guided Weighted Hybrid Traing,UWHT),從可遷移源知識的不確定性和目標數據的內在結構2個方面生成高置信度的偽標簽,并對目標樣本進行加權混合訓練,提高目標模型的泛化能力。
(2)提出在通道級計算目標特征和源模型的不確定性距離,以保留有效的源知識。并在偽標簽生成過程中,聯合考慮源模型和目標數據的內部結構,減少錯誤偽標簽。并對目標樣本進行加權混合訓練,充分挖掘目標知識,提高目標模型的魯棒性。
(3)通過在3個域自適應基準數據集上與其他方法進行對比分析,證明了該方法的有效性。
無源域數據的域自適應方法是指在有標注的源域數據缺失的情況下,僅通過在源域上訓練好的源模型以及未被標注的目標域數據來實現域自適應。源域數據的缺失使得跨域的特征級分布對齊具有挑戰性。近年來,開創性的工作[4,7]發現,訓練有素的源模型為接下來的目標適應階段隱藏了足夠的源知識,通過把這些源知識遷移到目標域上可以達到良好的效果?,F有的無源域數據的域自適應方法大致可分為基于自監督訓練的方法和基于生成的方法。
前者主要是利用目標樣本來改進模型。SHOT[4]提出凍結源分類器,利用自監督偽標記訓練和信息最大化隱式地對齊目標域數據和源域數據。Tang等人[10]提出基于幾何約束的語義一致性最近鄰方法,通過鼓勵局部幾何結構上的最近鄰正確地移動進行聚類,獲得更為精準的偽標簽。Huang等人[11]則提出從整個模型的角度來進行無源域數據的域自適應,設計了一種新穎的歷史對比學習技術,利用歷史源模型來彌補源域數據的缺失為目標數據生成偽標簽。而基于生成的方法則是生成虛擬源域數據以進行知識遷移??紤]到源域中可能會存在類別不平衡或某一類數據不充足時源分類器的泛化能力較低,Xia等人[12]從模型優化的角度探索一種新的目標分類器實現無源域數據的域自適應。這些方法主要針對偽標簽的精確度的提升,而源模型中的知識未被充分挖掘。因此,文中方法從源模型知識的不確定性的角度出發,實現無源域數據的域自適應。
不確定性是衡量一個深度模型是否穩健的一條重要準則[13]。給定一個有標注的樣本(x,y)和一個在域(D)上訓練參數為θ的模型,其不確定性可以分解為:
P(y|x,D)=
(1)
其中,μ=θ(x)為預測的標簽分布,3個概率密度函數分別代表了數據的不確定性、模型的不確定性和分布的不確定性[14-15]。由于數據的自然復雜性,它的不確定性幾乎是不能簡化的。模型的不確定性則是衡量了模型與訓練分布的擬合程度。分布不確定性度量了從模型“不熟悉”的區域采樣的輸入樣例的概率。

在訓練階段,目標模型(ft)同源模型(fs)結構一樣,由特征提取器(gt)和分類器(ht)組成。其中,gt是由gs初始化而來,ht=hs。網絡框架包含3個模塊,分別是:可遷移源知識的不確定性度量模塊(TUM)、模型和目標數據結構置信度聯合模塊(MaD)和權重混合訓練模塊(WHT),具體流程如圖1所示。

圖1 UWHT框架
首先,將目標樣本分別送入到gs和gt中,利用不確定性距離估計每個特征通道的源知識的可遷移性,通過Lkd將可遷移的源知識蒸餾到目標特征提取器中?;诖?可以充分利用有效的源知識,并丟棄無用的源知識。然后,為了同時利用源知識和目標數據的內部結構對目標樣本安排偽標簽,MaD將提取的目標特征分別輸入到源分類器,及利用高斯混合建模目標特征的分布,根據兩者得到的置信度得分對樣本進行加權,為目標樣本分配魯棒的偽標簽,但對于低置信度的目標樣本并未參與訓練。為了充分利用這些目標樣本的特征分布知識,額外進行了權重混合訓練,以此增強訓練的目標模型的有效性和魯棒性。
為了充分利用源模型中的源知識,該文提出通過不確定性在通道級來衡量源知識的可遷移性。
2.3.1 不確定性度量
不確定性度量的是目標樣本(xt)和源域(DS)之間的隱式距離。該距離越小,即xt越接近參數為θS的源域(DS),表明θS對于減少源域和目標域之間的差異是有效的。θS能擬合的區域和源域(DS)訓練分布的重合度即反映了模型的不確定性,而分布的不確定性則是指目標樣本(xt)與θS能擬合的區域的距離。目標樣本(xt)和源域(DS)之間的隱式距離由這兩個不確定性聯合表示。
(2)
其中,第1項是分布不確定性,第2項為模型不確定性。MD(·)代表不確定性度量函數。如蒙特卡羅Dropout[16]、深度集成[17]等。由于源域(DS)可以很好地由θS表示,故可將模型不確定性忽略不計,如圖2所示。

圖2 目標樣本與源域的不確定性度量
則目標樣本與源域之間的不確定性可近似為xt與源參數(θS)的分布不確定性:
UD(xt,θS)=MD(P(θS(xt)|xt,θS))
(3)
2.3.2 通道級可遷移知識的不確定性
因為源域和目標域之間存在域差距,并不是所有的源知識對于目標域都有用。因此,該文提出以細粒度的方式度量源知識的可遷移性,以確定學習到的源參數(θS)中哪部分是可以遷移到目標域的。具體如圖3所示,gs可以提取源域特征,不同特征通道級的可遷移性就代表該通道特征的部分源知識的可遷移性。所有特征通道整合起來組成了源參數(θS)。

圖3 通道級不確定性度量
因此,可以度量源知識的可遷移性為:
(4)

(5)
其中,gs;times表示對特征提取器(gs)進行times次隨機擾動。針對通道級源知識的可遷移性,通過對gs的所有d維特征通道上的UTS(xt,gs)進行積分來計算。
(6)
當UM的值越小,通道源知識的可遷移性就越強,對目標模型也就越有效。然后,目標模型根據所得到的有效可遷移性源知識進行學習,目標函數通過一種可轉移性控制的知識蒸餾損失進行計算。
Lkd=Ext~XT[‖σ(UM(gs))⊙[gs(xt)-
gt(xt)]‖2]
(7)
其中,σ(a)=sigmoid(-a),⊙表示Hadamard積。σ(UM(gs))用于對均方誤差項(‖gs(xt)-gt(xt)‖2)進行加權,以提取gs到gt的可遷移知識,旨在對UM較低的特征分配大的權值,反之分配小的權值。引導目標模型學習更多有效的可遷移源知識。
現有無源域數據的域自適應方法大多是基于偽標簽進行聚類,但有噪聲的偽標簽會使目標模型性能下降。因此,為了保證目標模型的穩健性,應該抑制偽標簽中置信度較低的目標樣本[19]。除此之外,考慮到目標數據的內在結構信息,該文提出將基于模型的置信度得分與基于目標數據內部結構的置信度得分結合起來,以提升偽標簽的置信度,提升目標模型的性能。

(8)
其中,p(0≤p≤1)代表了偽標簽被分類正確的概率。
2.4.1 基于內在結構的置信度得分
從目標數據中獲得的目標特征分布具有目標域的特定知識,因此提出結合目標域的內在結構對目標特征進行聚類,以獲得每個樣本的偽標簽。對于聚類方法的選擇,結合目標數據的內在結構,該文使用高斯混合模型(GMM)對目標特征進行聚類,以提取目標數據結構的知識,且能夠獲得每個樣本的對數似然性和偽標簽。然后度量與目標樣本距離第一近的類和距離第二近的類之間的距離,并將其最小化。
(9)

(10)
其中,i,j∈{1,2,…,nt}。scdis的值越大,即置信度得分越高,說明該目標樣本距離決策邊界越遠。反之,該目標樣本分布在決策邊界附近或邊界線上。
2.4.2 基于模型的置信度得分
上述僅考慮了目標域的知識,但由于其缺失真實標簽,僅通過它訓練目標模型是不夠的。該文進而提出將目標數據通過由源模型初始化的目標模型的概率得分也納入置信度得分當中?;谀P偷闹眯哦鹊梅旨礊槟P皖A測的偽標簽的概率。
(11)
雖然源域和目標域存在一定的域差距,但是兩者之間具有一定的相似性。因此,對于那些域不變特征,scm的值越大,而對于目標域特有特征,scm的值就越小。
2.4.3 聯合置信度得分
將基于目標數據內在結構的置信度得分和基于模型的置信度得分結合起來,就可以得到一個更具有置信度的偽標簽,聯合置信度得分計算為:
(12)
它不僅包含了目標域的結構知識,同時結合了源域中的域不變知識。使用該置信度得分對目標樣本進行加權以訓練目標模型,其損失函數為:
(13)
通過上述2個模塊對目標數據進行訓練,可糾正錯誤的偽標簽,提升分類的精確性。但置信度得分接近于0的目標樣本并沒有參與到訓練過程,這使得它們的特征分布所提供的目標知識沒有得到利用。
針對該問題,該文基于Mixup[21]提出一種權重混合訓練模塊,對于使用低置信度樣本進行混合后的圖像,在訓練時應該具有較低的權重,以保證目標模型的魯棒性。具體來說,將目標樣本和其對應的偽標簽進行混合得到新的混合樣本,同時將其置信度得分也以相同的混合系數進行計算,即為混合樣本對應的置信度。
(14)

(15)
顯然,高置信度的樣本之間混合生成的樣本也具有高置信度,低置信度的樣本之間混合生成的樣本的置信度則較低,其權重也會較小。而一個高置信度樣本和一個低置信度樣本的混合則會生成一個中等置信度的樣本,能幫助目標模型進行有效地訓練,同時目標知識得到充分利用。
綜上所述,文中方法的總損失包括TUM、MaD和WHT。
Ltotal=λLkd+LMaD+LWHT
(16)
其中,λ是控制可遷移性源知識度量的權衡系數。
文中方法分別在3個通用的域自適應基準數據集(Office-31[22]、Office-Home[23]、VisDA-C[24])上進行實驗以驗證其性能,對于Office-31和Office-Home,計算每個適應任務的結果以及在所有任務上分類的平均精確度(Avg.),而對于VisDA-C,則是計算每個類別的分類精確度(Per-class)來評估最終目標模型的性能。
為了與對比方法進行公平比較,文中方法采用的主干網絡架構與對比算法的架構保持一致,即針對Office-31和Office-Home,采用ResNet50作為主干網絡,對于更復雜的VisDA-C,則采用ResNet101作為主干網絡。源模型采用同SHOT一樣的策略進行訓練。在訓練過程中,使用動量為0.9的SGD優化器進行50個階段的迭代訓練。在所有數據集上的批次大小設為32,對于Office-31和Office-Home的學習率置為0.01,對于VisDA-C的學習率設為0.001。可遷移性源知識度量的損失權重λ在初始時設為10,因為剛開始需要遷移的源知識較多,隨著迭代訓練,目標模型漸漸學習足夠多的源知識,因此,在迭代10個階段后,將λ置為0。
表1~表3分別顯示了在Office-31、Office-Home和VisDA-C 3個數據集上的結果。
其中,SF表示無源域數據。且在無源域數據的域自適應方法中,最佳結果以粗體字體顯示,次優結果以下劃線顯示。

表1 與其他對比算法基于ResNet50在Office-31上的結果
在表1中,文中方法在Office-31上獲得了最先進的性能,由SHOT的88.6%提升到了90.5%,且超出了第二佳的3C-GAN性能0.9百分點。這是因為Office-31的域遷移任務較容易,文中方法對源模型中的可轉移性源知識進行了度量,抑制了源特有知識的影響,并將有效的源知識集成到目標模型中,以對目標數據實現更好的適應。同時,使用聯合置信度得分可以綜合考慮源知識和目標知識,為適應性能帶來極大提升。
如表2所示,文中方法在Office-Home上達到了極佳的分類性能,特別是針對兩個困難的域遷移任務(Ar→Cl)和Re→Cl),分別比第二佳的方法高出1.2和2.4百分點。由此可得,對可遷移性源知識的度量發揮了很大的作用。且由于綜合考慮了源知識和目標知識,及對目標數據結構進行挖掘,文中方法取得了非常好的性能,且超過了表中可以接觸源域數據的域自適應方法的性能。
為進一步證明文中方法的有效性,在具有挑戰性的VisDA-C上也進行了評估實驗,對比結果如表3所示。直接使用ResNet101進行無源域數據的域遷移時,平均分類精度僅有48.0%,且在個別類上出現了嚴重的負遷移問題。文中方法明顯改善了嚴重負遷移的問題,且優于SHOT方法3百分點。特別是對于具有挑戰性的sktbrd類和person類,文中方法分別達到了94.7%和86.4%的分類效果,比SHOT高出5.6和6.1百分點。可以發現,它有效地將可以利用的源知識遷移到目標模型中,并抑制了源特有知識的影響。且文中方法綜合考慮了源知識和目標知識,并對高置信度樣本進行加權,整體取得了最佳的性能,證明了文中方法的有效性。

表3 與其他對比算法基于ResNet101在VisDA-C上的結果
3.4.1 不同模塊消融實驗
表4展示了文中方法在Office-Home上不同模塊的消融實驗,驗證各模塊的有效性。

表4 在Office-Home上不同模塊設置的 平均分類精確度(Avg.)
從表中可以看出,僅使用源模型進行域自適應時,平均分類精度僅有59.6%。當增加可遷移源知識的不確定性度量模塊(TUM)后,使得模型分類精度提升到71.9%。新增聯合置信度得分模塊(MaD)將源知識和目標知識聯合起來分配更精確的偽標簽,使得模型的分類精度達到72.5%。最后,為充分利用目標結構信息,額外對目標數據進行權重混合訓練(WHT),使得最后的目標模型分類性能達到最佳為72.8%,證明了每個模塊的有效性。
3.4.2 可視化分析
為更加直觀地展示文中方法在無源域數據的域適應的效果,采用可視化方法(t-SNE)對目標數據在嵌入空間中的特征進行可視化。如圖4所示,展示了在Office-31數據集上A→W的域遷移任務的特征可視化結果,并對Source-only、SHOT和UWHT 3種方法進行了比較。其中,上邊的(a)、(b)和(c)3張圖片按照域整體進行比較,下邊的(d)、(e)和(f)3張圖片則是代表目標域數據在適應前后的類別變化。

圖4 Source-only、SHOT和UWHT的t-SNE可視化特征表示圖
可以看到,域適應之后目標特征呈現出明顯的簇狀,且和同類的源域特征距離較近,實現很好的域對齊。這一結果證明了文中方法針對無源域數據的域自適應問題的有效性和優越性。
該文提出了基于不確定性加權混合訓練的無源域數據的域自適應方法。該方法從源知識利用的角度出發,解決了源知識利用不充分以及訓練過程中偽標簽具有噪聲的問題。同時,所提出的權重混和訓練充分挖掘了目標數據內在結構知識,并對具有高置信度得分和中等置信度得分的混合樣本增加權重,增強了目標模型的有效性和魯棒性。廣泛的實驗證明了文中方法在多個域自適應基準數據集上都取得了很好的性能,一些甚至比起有源域數據的域自適應方法的性能更好,證明了該方法的有效性。