遷移學習研究和算法綜述

2018-10-19 07:41:02劉鑫鵬欒悉道謝毓湘黃明哲

長沙大學學報 2018年5期

關鍵詞：分類

劉鑫鵬，欒悉道，*，謝毓湘，黃明哲

(1.長沙學院計算機工程與應用數學學院，湖南長沙 410022；2．國防科學技術大學系統工程學院，湖南長沙410073)

我們已經進入大數據時代，各行業對數據檢索和分析能力的要求越來越高.遷移學習是機器學習中最前沿的研究領域[1]；通俗來講,就是運用已學習到的知識來學習新知識.斯坦福大學教授Andrew Ng認為：遷移學習將成為繼監督學習之后機器學習在商業領域成功應用的下一個推動力.遷移學習在目標領域標注數據較少時可以從相關領域尋找已標注數據進行訓練，其主要目標就是將已經學會的知識很快地遷移到一個新的領域中[2].相比傳統的機器學習，它的優勢在于允許源域和目標域的樣本、任務或者分布可以有較大的差異，能夠節省人工標注樣本的時間.

本文第一部分對遷移學習進行了分類，第二部分總結了遷移學習的研究目標與應用領域，第三部分介紹了遷移學習經典算法，最后是遷移學習的研究總結與展望.

1 遷移學習的分類

通常將已經學習過的領域叫做“源域”，用DS來表示；把需要應用的新的領域叫做“目標域”[3,4]用DT來表示.TS表示源任務，TT表示目標任務.

Pan和Yang[5]據源領域和目標領域的相似度，將遷移學習做如下分類：

在歸納式遷移學習中，若DS包含有大量標簽數據，這時歸納式遷移學習就相當于多任務學習.多任務學習是指知識在不同任務之間的傳遞，就是將源任務中學習到的知識遷移到目標任務中去.若DS沒有可用的標簽數據，這時歸納式遷移學習就相當于自我學習.比如區分汽車和自行車的圖像，未標注數據完全來自于一個和已標注數據不同的分布，這種情形被稱為自我學習.

表1 遷移學習的分類

2 遷移學習的研究目標與應用領域

2.1 研究目標

遷移學習主要解決的是以下兩個問題：

(1)解決小數據問題.傳統機器學習存在一個嚴重弊端：假設訓練數據與測試數據服從相同的數據分布(但許多情況并不滿足這種假設，通常需要眾包來重新標注大量數據以滿足訓練要求，有時還會造成數據的浪費).當訓練數據過少時，經典監督學習會出現嚴重過擬合問題，而遷移學習可從源域的小數據中抽取并遷移知識，用來完成新的學習任務.

(2)解決個性化問題.當需要專注于某個目標領域時，源領域范圍太廣卻不夠具體.例如專注于農作物識別時，源領域ImageNet太廣而不適用，利用遷移學習可以將ImageNet上的預訓練模型特征遷移到目標域，實現個性化.

2.2 應用領域

(1)自然語言處理：遷移學習應用于自然語言處理的原因是自然語言領域標注和內容數據稀缺.可以利用源域(例如英語)中標注的樣本集來對目標域(例如法語)中的樣本進行處理.遷移學習能夠從長文本中遷移標注和內容知識，幫助處理短文本語言的分析與處理.

(2)計算機視覺：由于圖像中可能存在可變的光照、朝向等條件，導致標注數據與未標注數據具有不同的數據屬性和統計分布，用傳統機器學習顯然無法滿足要求.遷移學習算法能夠將領域適配，進而達到訓練效果，提升準確率.

(3)醫療健康和生物信息學[10]：在醫學影像分析領域，醫學圖像訓練數據的標注需要先驗的醫學知識，適合標注此類數據的人群稀少，從而導致訓練數據嚴重稀缺，深度學習將不再適用.可以將遷移學習應用到醫學圖像的語義映射中，利用圖像識別的結果幫助醫生對患者進行診斷，從而減輕醫生的工作負擔，促進醫療實現轉型.例如：胸部X光片的圖像通常有助于檢測結核、肺炎、心臟衰竭、肺癌和結節病等.

(4)從模擬中學習：從模擬中學習是一個風險較小的方式，目前被用來實現很多機器學習系統.源數據域和目標域的特征空間是一樣的，但是模擬和現實世界的邊緣概率分布是不一樣的，即模擬和目標域中的物體看上去是不同的.模擬環境和現實世界的條件概率分布可能是不一樣的，不會完全模仿現實世界中的物體交互.Udacity已經開源了它用來無人駕駛汽車工程教學的模擬器[11].OpenAI的Universe平臺將可能允許用其他視頻游戲來訓練無人駕駛汽車.另一個必須從模擬中學習的領域是機器人，在實際的機器人上訓練模型是非常緩慢和昂貴的，訓練機械臂就是一個典型案例.從模擬中學習并且將知識遷移到現實世界的方式能緩解這個問題.

(5)用戶評價：例如在評價用于對某服裝品牌的情感分類任務中，我們無法收集到非常全面的用戶評價的數據.因此當我們直接通過之前訓練好的模型進行情感識別時，效果必然會受到影響.遷移學習可以將少量與測試數據相似的數據作為訓練集進行訓練，能達到較好的分類效果，并且節省大量的時間和精力.

(6)推薦系統[12]：在源領域訓練好一個推薦系統，然后應用在稀疏的、新的目標領域.比如已經成熟完善的電影推薦系統就可以應用在書籍推薦系統中.

(7)個性化對話[12]：訓練一個通用型的對話系統，該系統可能是閑聊型，也可能是任務型的.我們可以利用遷移學習訓練特定領域的小數據集，使這個對話系統適應不同任務.

3 遷移學習算法

3.1 歸納式遷移學習

Dai等人[13]基于Boosting，提出了基于實例的TrAdaBoost遷移學習算法.當目標域中的樣本被錯誤地分類之后，可以認為這個樣本是很難分類的，因此增大這個樣本的權重，在下一次的訓練中這個樣本所占的比重變大.如果源域中的一個樣本被錯誤地分類了，可以認為這個樣本對于目標數據是不同的，因此降低這個樣本的權重，降低這個樣本在分類器中所占的比重.李小璇[14]基于TrAdaBoost整合兩個分類器SVM和NB提出TrSN算法.在20個news group數據集上的分類精度平均達到0.94.

圖1 深度適配網絡(DAN)結構圖

為了解決遷移學習中的領域適配問題，Long Mingsheng基于DDC(Deep Domain Confusion，深度領域適配)提出深度適配網絡DAN(Deep Adaptation Network)[15].DDC是在預訓練的AlexNet網絡的第7層加入了MMD[16]距離來減小DS和DT之間的差異.DAN是深度遷移學習方法，它適配高層網絡DDC，并加入了多核的MMD(MK-MMD).MMD是把源域和目標域用一個相同的映射，映射到一個再生核希爾伯特空間(RKHS)中，然后求映射后兩部分數據的均值差異，就當作是兩部分數據的差異.在MMD中核是固定的，可以選擇是高斯核或者線性核.MK-MMD提出用多個核去構造這個總的核，這樣效果比一個核更好.它很好地解決了DDC的兩個問題：一是DDC只適配了一層網絡，而DAN適配最后三層(6～8層)如圖1，網絡的遷移能力在最后三層開始就會變得專化(specific)，所以要重點適配這三層.二是DDC是用了單一核的MMD，單一固定的核可能不是最優的核.DAN用了多核的MMD(MK-MMD)，效果比DDC更好.

Cao等人提出了一種更一般的遷移學習“部分遷移學習”(Partial Transfer Learning)[17]，就是只遷移源域中和目標域相關的那部分樣本.通過SAN來處理部分遷移問題.對抗網絡可以很好地學習領域不變特征[18]，從而在遷移學習中能發揮很大作用.

3.2 無監督遷移學習

Pan等人[19]提出了遷移成分分析TCA.TCA通過降維來減少數據維度，首先輸入兩個特征矩陣，計算L和H矩陣，然后選擇常用的核函數進行映射(比如線性核、高斯核)計算K，接著求KHK的前m個特征值.然后得到源域和目標域的降維后的數據，最后就可以使用傳統機器學習方法.TCA實現簡單，沒有太多的限制.但是盡管它繞開了半定規劃問題的求解，卻需要花費很多計算時間在大矩陣偽逆的求解以及特征值分解.

Gong等人在2012年基于SGF(Sample Geodesic Flow，采樣測地線流方法)提出了GFK[20,21].SGF把源域和目標域分別看成高維空間中的兩個點，在這兩個點的測地線上取n個中間點，依次連接起來.然后由源域和目標域就構成了一條測地線的路徑.找到每一步的變換，就能從源域變換到目標域.GFK是子空間變換方面最為經典的遷移學習方法，是為了解決遷移學習中的無監督領域適配問題.它通過一個特征映射，把源域和目標域變換到一個距離最小(相似度最高)的公共空間上.GFK方法的實施步驟為：選擇最優的子空間維度進行變換，構建測地線，計算測地線流式核，構建分類器.

Tahmoresnezhad等人[22]在2017年提出視覺領域自適應(Visual Domain Adaptation，VDA).VDA利用聯合轉移學習和領域適應來處理分布差異較大的轉換問題，特別是視覺數據集，以無監督的方式在測試集中沒有可用標簽的情況下減少跨域的聯合邊際和條件分布.此外，VDA構造了嵌入表示中的凝聚域不變集群，以將各個域與類轉移分開，使用細化的偽目標標簽來迭代收斂至最終解決方案.采用迭代過程以及新穎的優化問題為跨領域的適應創建一個穩健而有效的表示.

3.3 直推式遷移學習

聯合分布適配方法(Joint Distribution Adaptation，JDA)[23]是為了解決遷移學習中的領域適配問題，是用源數據域來標定目標數據域.JDA假設DS和DT邊緣分布不同，DS和DT條件分布不同，適配聯合概率恰好能解決這個問題.具體步驟是：首先用TCA來適配邊緣分布，用MMD適配DS和DT的條件概率分布.然后通過弱分類器迭代，將上一輪得到的標簽作偽標簽，迭代多次以達到更高的精度.JDA與TCA的區別有兩點：TCA是無監督的，即邊緣分布適配不需要標簽，JDA需要源域有標簽；TCA不需要迭代，JDA需要迭代.

Busto和Gall[24]提出了開放集遷移學習(Open Set Domain Adaptation).他們利用源域和目標域的關系，給目標域的樣本打上標簽，并將源域轉換到和目標域同一個空間中，讓學習標簽和學習映射進行交替，直到收斂或者目標值小于某一值即可.

3.4 其他算法

現有的域適配方法主要針對向量，這種表示所帶來的問題是，當把這些數據應用于高維度表示(如卷積)時，數據首先要經過向量化.此時，無法精準完備地保留一些統計屬性或者重要結構.Lu等人[25]基于張量的Tucker分解，提出了一個稱為Naive Tensor Subspace Learning的遷移學習算法.這個算法的出發點，是假設源域和目標域共享了一部分子空間，而這只在它們差異非常小時才有效.在更一般的條件下，這種共享變量要通過一個線性變換來實現.Fernando等人提出了一個加強版的算法─Tensor-Aligned Invariant Subspace Learning (TAISL)，這個算法是對ICCV-13的那個子空間校準的擴展版[26].

Feuz和Cook等人[27]提出了新穎的異構傳輸學習技術，特征空間重映射(FSR)，它在具有不同特征空間的域之間傳輸知識，構建元特征來將不同特征空間中的特征相關聯.這些技術利用多個源數據集來構建進一步提高性能的集成學習器，FSR應用于活動識別問題和文檔分類問題.集合技術能夠勝過所有其他基線，甚至比在目標域中使用大量標記數據進行訓練的分類器執行得更好.

4 總結與展望

本文對遷移學習算法以及研究進展狀況進行了綜述.遷移學習適合處理解決小數據和個性化問題，在計算機視覺、自然語言處理、醫療健康、模擬學習、用戶評論、推薦系統和個性化對話等領域展現出其通用性.遷移學習有許多經典算法，這些算法一步步將機器學習和遷移學習的問題優化，從降維到域適配，從完全遷移到部分遷移，從向量遷移學習到張量遷移學習，無不展現著遷移學習研究得到充分發展.然而，遷移學習還有許多具有挑戰性問題有待進一步研究，具體可概括為這幾個方面：(1)負遷移表示不僅沒有提升模型能力，反而降低了識別率.(2)在非簡單分類或者回歸的問題上，如何更好地優化遷移算法.(3)跨領域遷移學習.(4)偏數據的處理，面臨的問題是數據收集的時候和下一個分布是不一樣的，難點在于如何利用遷移學習將偏差處理好.(5)遷移學習與多種深度學習方法相結合的圖像描述方法.