面向開放集圖像分類的模糊域自適應方法

2021-03-11 06:20:52劉曉龍王士同

計算機與生活 2021年3期

劉曉龍，王士同

1.江南大學人工智能與計算機學院，江蘇無錫214122

2.江南大學江蘇省媒體設計與軟件技術重點實驗室，江蘇無錫214122

目前國內外大多數的域自適應的工作都假定目標域樣本必然屬于源域的已知類，兩者有相同的類別空間，樣本特征分布雖然不同但是相似。在實際的開放情況中，這種情況大多是不存在的，測試的目標域中大多還是有不同于源域的獨立類別樣本，把這些獨立類別稱為“未知類”，源域和目標域完全相同的類別，稱為“共享類”。但是如果源域和目標域除了包含共享類別之外還都有完全獨立的未知類別樣本，那么稱作這是一種開放集合領域場景。在此種開放的場景下，源域和目標域的共享已知類樣本特征分布相似，差異較小；但是由于未知類的多樣性，源域和目標域中未知類樣本與共享類樣本之間分布差異或大或小，簡單的線性分類器不能應用到此種開放集的場景下。源域和目標域在開放集場景下不再像在封閉集下那樣受限于共享相同的類別。圖1 展示了開放集和封閉集領域場景：圖（a）中源域和目標域只包含同一組共享類別的圖像；圖（b）中源域和目標域包含未知類別或存在其他領域的類別的樣本，即有共同的已知類別樣本之外，還有完全獨立的未知類別樣本。這種開放集合的領域是基于一種開放設置[1]的概念引申出來的。

Fig.1 Closed set domain and open set domain圖1 封閉集合域與開放集合域

為了解決源域中帶標簽的數據集與目標域中的非標簽數據之間的轉移問題，從標簽豐富的源域中訓練分類器應用到另一個目標域樣本，國內外學者也提出了許多域自適應方法[2-6]。文獻[2]提出的對抗性區分域自適應方法學習一種對抗無監督適應方法的通用框架，使用倒置標簽生成對抗網絡（generative adversarial network，GAN）損失將優化分為兩個獨立的目標，一個用于生成器，一個用于判別器，考慮了獨立的源映射和目標映射（兩個流之間未共享的權重），從而可以學習領域特定的特征提取。文獻[3]提出了一種深度域自適應方法，該方法利用域損失最小化，同時最大化不同域和類的標記樣本之間的距離。文獻[4]利用了將實例分配給部分潛在的領域并通過優化二進制來解決分類情況的思想，將實際的測試數據與已知領域內的帶標記實例相關聯，解決不平衡跨領域問題。文獻[6]基于對抗網絡方法提出了一種全新的度量源域和目標域數據分布差異的方法。通過梯度翻轉層訓練卷積網絡并結合損失將損失最小化用于域自適應分類任務。由于不同領域的樣本有不同的特征，會降低不同領域分類器的性能，因此盡可能地要使源域數據和目標數據之間有相似的分布且存在遷移的情況下訓練判別分類器。這種特殊直推式遷移學習，由于不需要高成本的標簽注釋器就可以進行源域和目標域之間的知識傳遞，可以更好地解決現實問題，因此這種優勢技術受到了更多的關注。文獻[7]提出的遷移成分分析（transfer component analysis，TCA）和文獻[8]提出的轉移均衡的分布式適應（balanced distribution adaptation，BDA）都是基于邊緣分布的自適應方法。文獻[9-10]利用兩個域之間存在某些共享子空間提出了測地線流式核方法（geodesic flow kernel，GFK）。最小化了源域和目標域的二階統計特征的關聯對齊法（correlation alignment，CORAL）[11-12]形式簡單并且高效。這些域自適應算法的測試數據大多都來源于訓練數據。

然而要進行圖像分類和行為識別這種實際應用，現實由于目標域樣本示例沒有給定標簽，因此不能確定所屬類別一定是在源域已知類別范圍之內，例如從共享網站收集的數據集與應用程序需要處理的數據有很大差別。目前大多域自適應算法不能解決源域和目標域樣本類別不匹配的遷移問題。利用源域和目標域的共享子空間和“未知類”有效解決這個問題，并且進一步提出了一種基于開放集圖像分類的模糊域自適應方法。鑒于復雜的目標域樣本的復雜性和不同環境配置獲取的圖像樣本的特征相似性，利用歐式距離很難直接精確地判斷目標域樣本標簽問題，因此引進的是模糊系統中的不確定性模糊隸屬度[13-14]。在分配偽標記過程中，通過模糊聚類算法的思想獲得樣本模糊隸屬度，通過最小化分配的距離來學習從源域到目標域的模糊映射，使兩個域相關聯并且分布在同一個空間中。在下一個迭代中使用轉換后的源域樣本重新模糊分配并更新轉換映射，直到在目標域樣本上，學習的分類器達到最好的分類效果為止。通過是否預先給目標域樣本固定部分標簽，得到了無監督模糊域自適應和半監督模糊域自適應兩種情形。

1 無監督模糊域自適應

對目標域樣本實例進行模糊分配偽標簽，利用源域的已知類別數據對每個目標樣本分配偽標簽。在開放數據集中，定義源域樣本包涵C個類別，包涵C-1 個已知樣本類別和一個額外的未知類別。利用模糊C 均值聚類算法（fuzzy C-means，FCM）的主要思想[13-14]，計算目標域樣本到源域類別中心的距離來得到一個模糊隸屬矩陣來反映樣本點屬于某一類別的隸屬程度，判斷樣本點上屬于某一類。目標域n個樣本，則可以表示為T={t1,t2,…,tn}，定義第k次迭代的源域所有樣本類別的均值為和V(k)由D維的樣本特征表示。表示第k次迭代中樣本tj屬于第i類的隸屬度，表示第k次迭代中樣本tj屬于奇異值的隸屬度。定義第k次迭代中樣本tj到第i個中心點的距離為：

利用拉格朗日乘子法求解式，得到隸屬度公式：

可以得到第k次迭代樣本對源域類別隸屬矩陣和樣本為奇異值的隸屬矩陣。相比直接二分類而言，模糊隸屬度更能符合現實情況和增加容錯率。通過隸屬度目標樣本得到一個帶隸屬度的偽標簽。

2 半監督模糊域自適應

其他條件不變，當給目標樣本注少量標簽時，無監督分配問題變成半監督問題。在這種情況下，增加約束條件使帶注釋的目標樣本不再改變類別標簽。將τ表示樣本的先驗標簽集合，yrj=1 表示樣本tj帶r類標簽。并且是第k次迭代中樣本tj被分配的偽標簽，并且。

式（6）、式（7）利用最小化目標域樣本到源域類別中心的距離，完成對所有目標域樣本實例的標簽的初步分配，每個樣本得到一個偽標簽。

通過計算樣本類別均值，把定義各個類別均值之間的距離作為類別間的距離：第k次迭代源域中兩兩類別之間距離為：

目標域樣本實例tj標簽為i類的代價通過來表示，添加第二項在半監督目標方程中。另外通過K近鄰算法得到tj的所有近鄰Nj，如果目標域中一個樣本實例tj的一個鄰居樣本被分配到tj所屬類別之外的另一個類別，添加源域中類別之間的距離作為額外的代價。定義分配標簽的距離代價目標函數為：

為了方便求解，把第k次迭代中樣本到已知類的距離和額外近鄰距離組合成新的距離損失：

利用拉格朗日乘子法求解式，得到隸屬度公式：

3 學習源域到目標域映射

為將源域和目標域的樣本特征變換到相同的空間，需要學習一個映射函數W(k)∈?D×D來完成這個轉化。在學習這個映射過程中，選取每個樣本在隸屬矩陣U(k)和O(k)最大隸屬度，其設置為0，如果樣本的最大隸屬度出現在O中，那么實驗場景拒絕這個樣本參與學習映射函數W(k)。表示的是第k次迭代中樣本tj為第i類的最大模糊隸屬度。那么表示樣本tj沒有分配第i類別。在無監督和半監督兩種場景下，都是通過最小化損失函數來估計映射W(k)：

表示第k次迭代中第i類樣本均值的轉置，用最小二乘法[15-16]求解這個凸目標函數的最優解W(k)，學習源域到目標域的模糊映射矩陣W(k)之后，將源樣本特征映射到與目標域相同的空間中。每一次迭代會得到新的映射。在轉換后的源域數據上訓練線性SVM分類器[17]，更新分類器，獲得目標域樣本的分類結果。對于半監督設置的數據集合，實驗還將帶注釋的目標樣本添加到訓練集中。

輸出：隸屬度矩陣U(k)、O(k)，模糊映射函數W(k)，分類精度。

步驟1初始化循環次數k=1。

步驟2分無監督、半監督兩種場景：

（1）無監督場景下

根據式（2）得到φ(k)；

根據式（4）、式（5）得到隸屬矩陣U(k)、O(k)。

（2）半監督場景下

根據式（2）得到φ(k)；

根據式（10）～（12）迭代更新得到隸屬矩陣U(k)、O(k)。

步驟3根據式（15）得到映射W(k)。

步驟4W(k)×S(k)：將源域和目標域的樣本特征變換到相同的空間。

步驟5在轉換后的源域上訓練SVM 分類器，用于目標域分類，作為下次循環的源域。

步驟6判斷當前迭代是否是最優精度，若是則返回步驟1，令k=k+1循環繼續；若否，但超過最大迭代次數K，則循環停止，輸出前K次迭代中的最優精度。

4 實驗研究和分析

通過具體的實驗數據集驗證了提出的模糊域自適應方法的性能，在常用的Office數據集[18]上做了圖像的分類實驗。并且根據預先設定好的開放集協議[19]和是否為目標域樣本加標記的設定，實驗分為了無監督下的開放集模糊域自適應和半監督下的開放集模糊域自適應兩大部分內容。相同的實驗參數環境下，在Office 數據集[18]上進行了圖像分類的實驗，并且與經典的域自適應算法進行了對比。

4.1 數據集以及參數設置

在Office 數據集[18]上對本文方法進行了評估和比較。它提供了3 個不同的領域，即Amazon (A)、DSLR(D)和Webcam(W)。Amazon 數據集包含白色背景上的中心對象，其他兩個包含在辦公環境下拍攝的不同質量級別的照片。總共有6個源域-目標域的31個公共類的組合。有6個領域組合轉換（A→D，A→W，D→A，D→W，W→A，W→D）可以進行實驗的驗證，從AlexNet模型的全連通層(fc7)中提取特征向量[20-21]。通過將Caltech 數據集[9]與Office 數據集[18]的10 個相同類別作為共享類，本文為該數據集引入了一個開放集協議[19]。按照字母順序，在源域中使用第11～20個類作為未知樣本類，類21～31作為目標域中的未知樣本類，源和目標域中選擇出來的10 個類作為共享類，其他分配的未知類不被共享。實驗把獨立的未知類作為源域中單獨的一個類別，那么源域中就有共享的10個類別和另加一個未知類。同時設定了源域和目標域兩者僅包含10個共享類的樣本的封閉集合（Close）協議。本文在封閉和開放集合協議[19]上都做了大量實驗工作。

為確保每個域轉化實驗過程中有同樣參數配置環境，這樣訓練出來的分類器才能體現本文的模糊域自適應方法與無任何自適應結果的對比的公平性。選擇最大迭代次數K=10，對于正則參數α的調整，在實驗過程中，在[2-5,25]中以2 為步長尋找最優值，直到達到最優解。根據與文獻[11,16]中相似的分類任務實驗，使用線性核函數訓練SVM分類器，得到了比較好的軟間隔優化，因此基于先前的懲罰因子系數的選擇，在實驗中取[10-5,100]范圍中以10為步長尋取本次實驗最優的懲罰因子，選取多個域轉換的效果最好的系數。為了體現實驗的真實公平性，選取C=0.000 1 為本次所有基線算法和對比算法的懲罰因子系數。如果β設置為無窮大，那么這種情況就不考慮任何奇異值。若設置較低的參數值，那么幾乎拒絕所有已知類的分配標簽，即都分配為奇異值，顯然這樣無法實驗，更不符合邏輯與現實情況。4.2節實驗中分析了β取不同值帶來的實驗性能的影響，由實驗表明β=0.5時多半實驗會有最優效果，因此選取β=0.5作為實驗的默認值。

4.2 無監督模糊域自適應實驗

同時報告了將數據轉換為普通低維子空間的方法結果，這些算法都是在域自適應問題上表現非常顯著的。在Office 數據集[18]上對以下幾個算法進行實驗，包括遷移成分分析法（TCA）[7]，實驗中設定使用線性核函數進行映射，轉化后的維為d=2/D，D為樣本數據維度；構建了一條測地線來使源域靠近目標域的測地線流核（GFK），實驗中利用子空間分歧度量（subspace disagreement measure，SDM）[9]和貪心算法求得這次實驗中的最優子空間維度d*。此外，還有最小化源域和目標域的二階統計特征的CORAL[11]，實驗用k近鄰分類器，設置近鄰k=1；在無監督情況下的實驗，避免兩個域之間適配條件分布和邊緣分布被平衡對待而導致的實際問題中不平衡的問題，同樣也對比了轉移均衡的分布式適應算法（BDA），參考文獻[8]中的設置，實驗使用線性核，平衡因子μ=1，循環次數為10次。為了更好地分析本文方法FDA（fuzzy domain adaptation）算法不同形式的變換形式，FDA 是拒絕所有奇異值的表現，源域中的類別對目標域所有樣本開放，即β=∞；FDAβ表示允許有奇異值的出現，并且在參數β設置方面在實驗部分有精確說明。將單獨用源域數據訓練的SVM 分類器[17]作為比較對象,更好體現模糊域自適應的有效性。在使用開放集設置上[19]，本文的實驗報告如表1 所示，明顯可以看到模糊映射自適應方法的優越性，本文方法FDA 在開放集和封閉集協議設定上都有顯著的分類效果，比其他算法提升幅度更大。對于所有開放集合設定下的精度都小于封閉集合下的精度，但是本文方法在所有方法中仍然是表現最好的。

明顯得到，關于Amazon這種大數據集領域組合的轉換（A-D，A-W，D-A，W-A）改進的幅度更大。Amazon 到Dslr 的開放數據集上提升了8.74 個百分點，封閉數據集上提升了11.46個百分點。Amazon到Webcam數據開放集合和封閉集合上提升了16.31個百分點和11.55個百分點。從小樣本域到大樣本域的適應過程提升幅度也會有很明顯的提升，并且提升幅度很大。Dslr到Amazon的開放集和封閉集上分別提升了6.15 個百分點和11.8 個百分點。而小樣本域（D，W）之間的遷移時提升幅度不是特別顯著，但是也有不錯的效果。本文方法相比較沒有自適應學習的環境，幅度有明顯提升。在Office 數據集[18]上，開放集合協議和封閉集合協議整體平均提升了8.01個百分點和9.08個百分點。相對于實驗的其他域自適應學習算法，提升幅度最顯著。

參數β的影響：目標樣本是否被視為異常值由φ取值確定，φ由樣本到已知類之間的距離和參數β決定。為了分析參數β給實驗帶來的影響，取β=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]共9 個不同的值在轉化域中都做實驗。圖2 顯示了不同的β取值對實驗精度的影響。在Office數據集[18]的6個轉化域中多半在β=0.5 左右取得了最佳結果。當β接近0 時，由于丟棄了太多的樣本，精度大幅下降。因此選取β=0.5 作為所有實驗的默認值。

4.3 半監督模糊域自適應實驗

本文方法也在Office 數據集[18]上的半監督設置中進行了評估。在目標域的已知類別樣本中，對每個已知類隨機抽取3 個樣本固定標簽。其余未標標記。把未進行域自適應時訓練支持向量機（SVM）分類器的準確性作為基線，這些支持向量機僅在帶注釋的目標樣本（a）和源域樣本和帶注釋樣本（a+s）上訓練。半監督設定下的開放集和封閉集下6 個域轉換的實驗結果由表2所示，同時也對比了考慮奇異值和不考慮奇異值的情況，并且做了對比實驗。本文也在有1 個近鄰約束（FDA-N1）和有2 個近鄰約束（FDA-N2）兩個不同條件下進行了實驗對比，并且分別考慮了有無奇異值約束的兩種情況，實驗結果表明，差距不是很大。但是與預期一樣，在半監督場景下，模糊域自適應效果比其余的都要好。

在半監督場景下，每一個已知類隨機選取了3個樣本加固定標簽作為帶有先驗信息的樣本，這樣的樣本有普遍性，近鄰距離影響可能較小或者沒有，在目標函數中不具有能決定分配偽標簽的效果。具有特殊先驗信息的半監督設定下6 個域轉化實驗精度的均值和方差如表3 所示。導致運行本次半監督實驗結果的魯棒性很強。考慮現實情況，如果在特殊人為的先驗條件下，憑經驗能確定部分具有代表性的和容易判斷錯誤的樣本標簽，那么這類樣本對整個分類判別分析的影響會很大，并且在選取少量固定標簽樣本情況下變化幅度也會很大，通過實驗來驗證本文的猜想。在這樣的假設條件下，優先選擇具有代表性的或者容易分配為錯誤標簽的樣本，一個特殊的半監督場景：在第一次通過目標域樣本到已知類中心的距離判斷偽標簽的時候，選擇出那些判斷錯誤的樣本，作為半監督場景下加注釋的部分。在優先選擇這些強注釋樣本條件下，同樣每個類別隨機抽取3個樣本加標簽注釋，形成特殊的半監督環境。實驗驗證了本文的猜想，并且與先前驗證實驗效果一致。

Table 1 Accuracy comparison of 6 domain transformation experiments under unsupervised settings表1 無監督設定下6個域轉化實驗的精度對比 %

Fig.2 Influence of different parameter β on accuracy of 6 domain transformation experiments圖2 不同的參數β 對6個域轉化實驗精度的影響

Table 2 Accuracy comparison of 6 domain transformation experiments under semi-supervised settings表2 半監督設定下6個域轉化實驗的精度對比 %

Table 3 Mean and variance of 6 domain transformation experiments accuracy under semi-supervised settings with special prior information表3 具有特殊先驗信息的半監督設定下6個域轉化實驗精度的均值和方差 %

為了保證實驗結果真實準確，對每個域轉化下的數據集都進行了3次實驗，然后取平均值作為最終結果并且用標準差來評估預測的離散程度。

5 結束語

現實場景更具有開放性，目標域與源域有完全獨立的類別樣本。鑒于獨立類別樣本的復雜性和重復性，本文提出的面向開放集合的模糊域自適應的方法基于源域和目標域的共享子空間對齊，通過計算目標樣本模糊隸屬度的方法得到帶有模糊隸屬度的偽標簽，迭代更新源域到目標域的模糊映射函數，將源域和目標域的樣本特征變換到相同的空間。實驗結果證明，本文算法有效解決了傳統域自適應算法解決不了的開放性問題，并且在無監督和半監督場景下都能獲得比較顯著的結果。模糊域自適應的方法也可以應用于圖像分類的行為動作識別和視角檢測上等更廣泛的開放場景。