孫 俏, 凌衛新
(華南理工大學數學學院,廣州 510640)
遷移學習打破了傳統機器學習中訓練數據和測試數據服從獨立同分布的這一基本假設,允許訓練數據和測試數據不同分布。同時,遷移學習可以解決傳統機器學習中因數據缺乏標注帶來的模型泛化能力不強的問題,它的引入使得機器學習算法具有更強的應用價值。遷移學習的核心問題是如何確定源領域和目標領域的相關性,以及如何把有用的知識從源領域遷移到目標領域中去。源領域和目標領域之間的相關性越高,數據分布差異程度越小,源領域中有用的遷移知識就越多,對目標領域學習任務的幫助也就越大。如果源領域和目標領域相關性很低卻仍舊強制遷移,那么,遷移后訓練得到的學習器表現性能可能比未遷移的還要差,這種情況稱作“負遷移(negative transfer)”。故而,研究如何合理地度量源領域和目標領域之間的相似度,依據相似度的大小選擇適合的源領域進行知識遷移,對遷移學習的有效性是十分重要的。
自遷移學習的初步概念于1995年被提出[1]以來,遷移學習已經有了20多年的發展歷史。目前對遷移學習的研究可以歸納為基于遷移知識如何進行遷移[2-9]、如何避免負遷移[10-12]以及遷移學習的應用[13-14]3個方面。
根據遷移方法的不同,可以將遷移學習分為實例遷移[1-4]、特征遷移[1, 5-7]和參數遷移[8-9]。實例遷移主要通過重采樣或者重賦權的方法提取源領域中對目標領域學習任務有用的知識。經典的實例遷移方法包括TrAdaBoost算法[2]、TrResampling算法[3]和核均值匹配方法[4]等。特征遷移企圖尋找源領域和目標領域的共享特征表示,以減小源領域和目標領域的分布差異,使用具有共享特征的源領域數據輔助目標領域的模型訓練。文獻[5]提出一種通過降維進行遷移學習的MMDE算法,Pan等[6]提出TCA算法,將原始特征映射到RKHS空間學習遷移知識。參數遷移把已有的模型參數遷移到目標任務的模型訓練中,認為相關領域模型的參數相近。TL-SVM算法[8]把源領域SVM分類器參數值以正則項的形式增加到目標領域SVM目標函數中,以實現知識遷移。Chen等[9]提出一種基于投影模型的極限學習機參數遷移。
為了避免負遷移,Yao等[10]提出一種多源實例遷移算法MultiTrAdaBoost,卞則康等[11]提出一種基于相似度學習的多源參數遷移算法SL-MSTL,周國華等[12]對文獻[8]中的TL-SVM算法進行改進,提出SATL-SVM算法,通過增加約束,理論上可以避免TL-SVM算法可能出現的負遷移問題。
目前的遷移學習研究基本建立在源領域和目標領域的相似度較高的全局約束下,對如何選擇合適的源領域缺乏研究。針對這一問題,研究在進行遷移學習之前,如何選擇合適的源領域用于目標領域的學習,以避免為獲得最大性能提升需要多次遷移學習嘗試,提升遷移學習效率,減小“負遷移”現象發生的概率。

研究在進行遷移學習時,如何自適應地從候選源領域集合DS中選擇合適源領域,以避免不太理想的源領域,從而避免“負遷移”現象,提升遷移效率。











式(4)中:n=min(NT,NS(k))。距離方差越大,分布差異越大。


定義2[等級排序函數Rank(a,A)]:已知集合A,元素a∈A,函數Rank(a,A)將集合A中元素的值進行升序(或降序)排序,并輸出排序后的集合中元素a所對應的位置序數,則稱Rank(a,A)為等級排序函數,其中,進行升序排序的稱為等級升序函數,進行降序的稱為等級降序函數。


式(6)中:Rank(·,·)為等級降序函數。域間相似度序數MMD_SR的取值范圍為[1,M],且為整數。當MMD_SR取最小值1時,表示其所對應的候選源領域與目標領域間的相似度最小,MMD_SR取最大值M時,所對應的候選源領域與目標領域間的相似度最大。可以得知,MMD方差距離越小,域間相似度序數越大,表明域間相似度越大,即領域間分布差異越小。
基于域間相似度序數MMD-SR,提出一種遷移學習源域自適應選擇策略(MMD-SR_SDSS方法),策略的主要思想為:確定源領域數目p(p≤M)后,計算目標領域與候選源領域集合之間的相似度序數,由于相似度序數越大,分布差異越小,所以選取前p大相似度序數所對應的候選源領域作為用于遷移學習的源領域。MMD-SR_SDSS方法原理結構框圖如圖1所示。算法具體步驟如下:

圖1 MMD-SR_SDSS算法流程框圖Fig.1 MMD-SR_SDSS algorithm flow chart
1972年,中國派代表團出席了聯合國第一次人類環境會議。1973年,中國首次召開了全國環境保護會議,通過了“全面規劃、合理布局、綜合利用、化害為利、依靠群眾、大家動手、保護環境、造福人民”的環境保護方針(即32字方針),會后迅即成立了國務院環境保護領導小組并設辦公室,敦促各地成立相應的環保機構,開啟了以污染防治為主要目標的當代中國環保事業的歷史進程。


步驟3根據式(6)計算域間相似度序數MMD_SR(DT,DS(k))。

為了驗證本文所提方法的有效性和可行性,使用人工數據集、圖像數據集Caltech-Office和文本數據集20NewsGroups進行實證分析。為了使數據集適用于本文設定的遷移學習場景,如特征空間相同、類別空間一致,對以上3種數據集進行了以下處理。
3.1.1 人工數據集
人工生成一個包含250個實例的二維雙月形數據集作為目標領域數據集,其中正、負實例各一半。在目標領域數據的基礎上,分別運用旋轉和平移兩種方法構造具有不同分布差異的候選源領域數據集:①將目標領域數據順時針旋轉不同的度數并加上高斯噪聲構成不同的候選源領域數據集;②將目標領域數據平移不同的坐標單位并加上高斯噪聲構成不同的候選源領域數據集。使用方法①得到的原始數據散點圖如圖2所示,圖2中圖例標注為1代表正類,0代表負類。圖2(a)為目標領域數據集,圖2(b)為順時針旋轉45°并伴有高斯噪聲的候選源領域數據集。人工數據集實驗的詳細構造參數如表1所示,其中實驗組M2中的參數值(a,b)中的a和b分別表示目標領域數據向X軸正方向和Y軸正方向平移的單位坐標量。

圖2 雙月形人工數據集Fig.2 Double moon shaped toy dataset

表1 雙月形人工數據集實驗設置Table 1 Experimental setup of double moon shaped toy dataset
3.1.2 圖像數據集
數據集Caltech-Office由數據集Caltech-256和Office-31中的10個公共類別標簽的數據構成,包含4個不同的領域:Caltech(C)、Amazon(A)、DSLR(D)和Webcam(W)。不同領域中的圖像在被拍攝過程中由于分辨率、光線、位置和背景等的不同導致分布差異。對圖像抽取SURF特征,并向量化為800維的直方圖特征。表2給出了該圖像數據集的描述。分別以C、A、D、W為目標領域,其余3個領域為候選源領域,設置4組實驗,實驗組分別記為C1、C2、C3和C4。

表2 Caltech-Office數據集說明Table 2 Description of Caltech-Office dataset
3.1.3 文本數據集
20NewsGroups數據集由約2 000個新聞文檔組成,選取該數據集中的兩個父類:comp和rec進行實驗,每個父類下有4個子類,其中每個子類約有1 000個實例,對文本數據進行特征提取得到23 453維的TF-IDF特征。將comp記為正類,rec記為負類,構造成二分類問題,分別以子類comp.sys.mac.hardware (Ch)和rec.autos (Ra)作為目標領域(記為Ch_Ra)的正類和負類,Cx_Rb、Cg_Rh、Cm_Rm作為候選源領域。實驗組記為N1,數據集的具體構造參數如表3所示。

表3 20NewsGroups數據集實驗設置Table 3 Experimental setup of 20NewsGroups dataset
進行如下實證分析實驗:①利用實驗組M1和M2驗證MMD方差距離在度量領域間分布差異的有效性;②域間相似度序數MMD_SR與遷移算法準確率之間的相關性驗證;③MMD-SR_SDSS方法在各經典遷移學習算法(TrAdaBoost[2]、TCA[6]、BDA[7]、MultiTraAdaBoost[10]、SL-MSTL[11])源領域選擇上的有效性驗證實驗。遷移算法的基學習器均為1近鄰算法(記為1-NN)。
為了對算法的性能作出評估,以域間相似度序數和遷移算法分類準確率等級之間的斯皮爾曼相關系數作為評價指標,斯皮爾曼等級相關系數用于估計兩個變量之間的相關性,其取值范圍為[-1,1],其值越大,說明變量間的相關性越高。目標領域測試集的分類準確率記為Acc,其表達式為
m=1,2,…,|Dt| (7)
式(7)中:Dt表示目標領域測試集;f(·)表示分類預測函數;ym表示x′m的真實標注。
對遷移學習準確率Acc使用定義2中的等級升序函數Rank(·,·)進行分級,得到的分類準確率等級記為R_acc,域間相似度序數和遷移算法分類準確率等級之間的斯皮爾曼相關系數記為ρ,其計算方法為

式(8)中:vi為成對變量MMD_SR和R_acc的等級差數;M為候選源領域的數目。
所有實驗均通過網格搜索方式確定最優參數,采用五折交叉驗證,取運行10次的實驗結果均值作為分類準確率。
實驗環境:Inter Core i5-8250U 1.80 GHz CPU,8.0GB RAM,Windows10 64位操作系統,Python3.6等。


表4 實驗組M1下域間的MMD距離距離方差MMD方差距離及遷移準確率AccTable 4 The value of MMD distance distance accuracy Acc under experimental group M1

表5 實驗組M2下域間的MMD距離距離方差MMD方差距離及遷移準確率AccTable 5 The value of MMD distance distance accuracy Acc under experimental group M2


表6 MMD_SR與遷移算法分類準確率之間的相關性 Table 6 Correlation between MMD_SR and classification accuracy of transfer learning algorithm

圖3 MMD距離方差距離和域間相似度序數MMD_SR隨雙月形數據集分布差異的變化趨勢Fig.3 The trend of MMD distance MMD variance distance and domain similarity rank MMD_SR with different distribution in double moon shaped toy dataset
次實驗遷移算法最高準確率所對應的候選源領域都是域間相似度序數最大的候選源領域。這也驗證了當ρ=1,即單源遷移時,MMD-SR_SDSS方法的可行性。
在實驗組N1的基礎上,對候選源領域進行組合,使用多源遷移算法MultiTrAdaBoost和SL-MSTL進行遷移,實驗結果如表7所示。當p=2時,按照MMD-SR_SDSS方法,結合表6中實驗組N1的MMD_SR排序結果,應該優先選擇Cx_Rb, Cm_Rm作為源領域,即實驗組N2中的遷移組合。觀察表7可知,MultiTrAdaBoost在N2遷移準確率最高,SL-MSTL 算法在實驗組N2的遷移準確率排第2,但是遷移效果十分接近最高準確率。當p=3時,p=M,選擇全部候選源領域作為源領域。綜上可知,MMD-SR_SDSS方法在遷移學習過程中確定源領域是具有有效性的。

表7 p源遷移下不同源領域組合下的遷移準確率Table 7 Accuracy of p-source transfer learning under different source domain combinations
遷移學習能有效解決目標領域數據缺乏標注的問題,極具應用價值。在進行遷移學習前,選擇合適的源領域用于目標領域的學習,能避免為獲得最大性能提升需要多次遷移學習嘗試,提升遷移學習效率,減小“負遷移”現象發生的概率。為此,定義了一種衡量各候選源領域和目標領域相似度的度量方法:域間相似度序數MMD-SR。基于MMD-SR提出一種在候選源領域集合中自適應選擇源域的策略MMD-SR_SDSS,對于p源遷移,該策略選取前p大的MMD_SR所對應的候選源領域作為源領域。通過3.3節中在人工數據集和真實數據集上的實驗結果可以看出,隨著分布差異的增加,遷移準確率呈下降趨勢。域間相似度序數MMD_SR與遷移算法準確率之間成正相關關系。MMD-SR_SDSS方法在遷移學習過程中確定源領域是具有可行性的。
本文的不足在于:度量候選源領域與目標領域的相似度時,使用領域中的全部數據,而未對干擾信息進行篩除。因此,如何對候選源領域中的干擾信息進行篩除將是未來研究的重點之一。