999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)分布自適應(yīng)的遷移學(xué)習(xí)算法比較研究

2020-09-02 06:31:23和澤郭輝
軟件導(dǎo)刊 2020年8期

和澤 郭輝

摘 要:機(jī)器學(xué)習(xí)通常要求訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來源于同一特征空間并服從相同的分布,如果條件不滿足,則需就要重新收集訓(xùn)練數(shù)據(jù)并重新訓(xùn)練模型。遷移學(xué)習(xí)作為解決這一問題的有效方法,其中基于數(shù)據(jù)分布的自適應(yīng)遷移學(xué)習(xí)已成為該領(lǐng)域主要的研究方向之一。為比較已有數(shù)據(jù)分布自適應(yīng)遷移學(xué)習(xí)算法性能,在3種公開數(shù)據(jù)集Image-CLEF、Amazon Review、Office-Caltech上通過TCA、JDA、CORAL、GFK、BDA、EasyTL算法驗(yàn)證6種算法的有效性,并分析比較它們之間的性能差異。結(jié)果表明,6種遷移學(xué)習(xí)算法在Image-CLEF、Amazon Review、Office-Caltech數(shù)據(jù)集上遷移效果依次降低, EasyTL算法在3種數(shù)據(jù)集上表現(xiàn)良好。

關(guān)鍵詞:遷移學(xué)習(xí);數(shù)據(jù)分布自適應(yīng);算法比較;數(shù)據(jù)集

DOI:10. 11907/rjdk. 192292 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)008-0080-04

Abstract: In machine learning, training data and testing data are usually required to come from the space with same characteristics and follow the same distribution. If the conditions are not met, then the training data need to be re-collected and the model should also be retrained. However, transfer learning is an effective solution to this problem. For example, transfer learning which is based on data distribution adaptation has become one of the main research directions in this field. In order to compare the performance of transfer learning which is based on the existing data distribution adaptation , this paper verifies the effectiveness of six algorithms, including TCA, JDA, CORAL, GFK, BDA and EasyTL, which are applied to three public datasets. These three public datasets are Image-CLEF, Amazon Review and Office-Caltech. After that, the performance differences among them are analyzed and compared to draw conclusions that the migration effects of the six migration learning algorithms on the three public datasets are reduced in turn. But the EasyTL algorithm performs well on all three datasets.

Key Words: transfer learning; data distribution adaptation; algorithm comparison; data sets

0 引言

機(jī)器學(xué)習(xí)方法要求訓(xùn)練和測(cè)試樣本服從同一分布,如果分布不同或者訓(xùn)練樣本數(shù)量不足都會(huì)難以獲得可靠的分類模型,這在很大程度上限制了機(jī)器學(xué)習(xí)的發(fā)展。遷移學(xué)習(xí)(Transfer Learning)可以很好地解決這一問題,作為機(jī)器學(xué)習(xí)方法的一個(gè)重要分支,遷移學(xué)習(xí)將一個(gè)領(lǐng)域(源領(lǐng)域)的知識(shí)遷移到另一個(gè)相關(guān)領(lǐng)域(目標(biāo)領(lǐng)域),使得目標(biāo)領(lǐng)域能夠取得更好的學(xué)習(xí)效果[1]。

基于遷移內(nèi)容不同,可將遷移學(xué)習(xí)分為基于實(shí)例的遷移學(xué)習(xí)、基于特征的遷移學(xué)習(xí)、基于關(guān)系的遷移學(xué)習(xí)和基于模型的遷移學(xué)習(xí)4種類型[2]。圖1給出了遷移學(xué)習(xí)的研究領(lǐng)域與常用分類總結(jié)。

基于實(shí)例的遷移學(xué)習(xí)方法根據(jù)一定的權(quán)重生成規(guī)則,直接找出與目標(biāo)域數(shù)據(jù)相似度高的數(shù)據(jù),然后進(jìn)行訓(xùn)練學(xué)習(xí)。基于關(guān)系的遷移學(xué)習(xí)方法利用兩個(gè)域之間存在的某種相似關(guān)系,通過源域?qū)W習(xí)邏輯關(guān)系網(wǎng)絡(luò)并運(yùn)用到目標(biāo)域數(shù)據(jù)上。基于模型的遷移學(xué)習(xí)假設(shè)源域和目標(biāo)域共享一些模型參數(shù),據(jù)此從源域和目標(biāo)域中找到它們之間共享的參數(shù)信息,進(jìn)而實(shí)現(xiàn)遷移學(xué)習(xí)。基于特征的遷移學(xué)習(xí)方法根據(jù)源域和目標(biāo)域存在的交叉特征,通過特征變換將兩個(gè)域的數(shù)據(jù)變換到同一特征空間,然后進(jìn)行傳統(tǒng)的機(jī)器學(xué)習(xí),通常特征維度較低、適用面廣,且穩(wěn)定可靠,因此基于特征的遷移學(xué)習(xí)方法得到深入研究和廣泛應(yīng)用。

數(shù)據(jù)分布自適應(yīng)遷移學(xué)習(xí)是基于特征遷移學(xué)習(xí)的常見方法之一。當(dāng)源域和目標(biāo)域的數(shù)據(jù)概率分布不同時(shí),該方法通過某種變換將分布不同的源域和目標(biāo)域映射到同一個(gè)特征空間中,并使兩者在該空間的分布盡可能相似。此時(shí),在特征空間中對(duì)源域訓(xùn)練的目標(biāo)函數(shù)就可直接遷移到目標(biāo)域上,從而提高目標(biāo)域分類準(zhǔn)確率與可靠性。基于數(shù)據(jù)分布自適應(yīng)的遷移學(xué)習(xí)算法主要有如下幾種:遷移成分分析方法(TCA)、聯(lián)合分布適配方法(JDA)、平衡分配適配方法(BDA)、相關(guān)對(duì)齊方法(CORAL)、測(cè)地線流式核方法(GFK)以及簡(jiǎn)單遷移學(xué)習(xí)方法(EasyTL)。

遷移成分分析方法(Transfer Component Analysis,TCA)由Pan等[3]于2011年提出。它基于邊緣分布自適應(yīng),采用最大均值差異(Maximum Mean Discrepancy, MMD)[4]作為距離,將不同數(shù)據(jù)領(lǐng)域的分布差異最小化。然而,由于引入了最大均值差異MMD概念,TCA方法在進(jìn)行大矩陣偽逆和特征值計(jì)算時(shí)會(huì)耗費(fèi)大量資源。與此同時(shí),TCA僅考慮了邊緣分布適配但忽略了數(shù)據(jù)的條件分布。

TCA作為一種經(jīng)典遷移學(xué)習(xí)方法,許多學(xué)者對(duì)其進(jìn)行了多方面改進(jìn)。2012年Duan[5]在TCA中引入多核最大均值誤差(Multi Kernel-Maximum Mean Discrepancies,MK- MMD),用多核的思想對(duì)TCA進(jìn)行優(yōu)化;2014年,Tzeng[6]提出了DDC方法(Deep Domain Confusion)將MMD度量加入深度學(xué)習(xí)特征層的loss項(xiàng),用來減少源域和目標(biāo)域之間的差異;2015年龍明盛[7]擴(kuò)展了DDC方法,將 MMD換成 MK-MMD,并且進(jìn)行了多層 loss 計(jì)算。

基于數(shù)據(jù)集中固有低維結(jié)構(gòu)特點(diǎn),2012年Gong[8]提出測(cè)地線流式核方法(Geodesic Flow Kernel)。該方法將源域和目標(biāo)域映射到低維流型中,沿著該子空間流型找到一條路徑,將源域和目標(biāo)域連接起來。這樣就可以實(shí)現(xiàn)從源域到目標(biāo)域的變換。但是,GFK在高維空間中只對(duì)齊了子空間的基底,而沒有對(duì)齊投影點(diǎn)分布,同時(shí)在子空間投影和參數(shù)選擇中需要昂貴的資源。

2013年龍明盛[9]提出了聯(lián)合分布適配方法(Joint Distribution Adaptation)。該方法在邊緣條件分布中采用TCA方法,加入了條件分布概率計(jì)算,距離度量上仍采用MMD,應(yīng)用核方法可減少計(jì)算資源。JDA使用偽標(biāo)簽,為了提高其精度,應(yīng)用迭代方法將上一輪得到的標(biāo)簽當(dāng)作偽標(biāo)簽,逐步得到越來越好的偽標(biāo)簽,但這樣會(huì)導(dǎo)致運(yùn)行效率過低。 JDA只是簡(jiǎn)單地使用了邊緣分布和條件分布,并沒有考慮兩種分布在數(shù)據(jù)集上是否同等重要。

龍明盛[10]將 JDA 嵌入一個(gè)結(jié)構(gòu)風(fēng)險(xiǎn)最小化框架中,采用表示定理直接學(xué)習(xí)分類器;2015年Hou[11]在JDA的基礎(chǔ)上改進(jìn)目標(biāo)域的優(yōu)化選擇;2017年Tahmoresnezhad[12]在JDA的優(yōu)化目標(biāo)中加入類內(nèi)距和類間距計(jì)算,提高了準(zhǔn)確度;同年,龍明盛[13]提出了聯(lián)合分布度量 JMMD(Joint Maximum Mean Discrepancy),將聯(lián)合分布加入到深度學(xué)習(xí)的優(yōu)化中。

針對(duì)目標(biāo)域無標(biāo)簽情況,2016年Sun[14]提出了一種無監(jiān)督自適應(yīng)的相關(guān)對(duì)齊方法(CORrelation ALignment)。CORAL方法通過對(duì)源域和目標(biāo)域進(jìn)行二階特征對(duì)齊,并在兩個(gè)領(lǐng)域的協(xié)方差矩陣上學(xué)習(xí)一個(gè)二階特征變換,使得源域和目標(biāo)域的特征距離最小。

同年,Sun[15]擴(kuò)展了CORAL,以學(xué)習(xí)一種非線性變換,該變換將對(duì)齊深度神經(jīng)網(wǎng)絡(luò)(Deep CORAL)中的激活層相關(guān)性。最終將該方法用在DNN上,并在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上展現(xiàn)了更好的性能。

2017年Wang[16]等發(fā)現(xiàn),邊緣分布自適應(yīng)和條件分布自適應(yīng)并不是同等重要,于是在JDA基礎(chǔ)上,提出了平衡分配適配方法(Balanced Distribution Adaptation)。該方法可以自適應(yīng)地利用邊緣分布和條件分布差異的重要性。在BDA的基礎(chǔ)上,Wang也提出了一種新的加權(quán)平衡分布適配方法(W-BDA),以解決遷移學(xué)習(xí)中的類不平衡問題。W-BDA不僅考慮了域之間的分布自適應(yīng),而且自適應(yīng)地改變了每個(gè)類的權(quán)重。但是,W-BDA算法由于對(duì)邊緣分布和條件分布加權(quán),導(dǎo)致算法運(yùn)行效率很低。

為解決密集的模型選擇和超參數(shù)調(diào)優(yōu)問題,Wang[17]在2018年提出了簡(jiǎn)單遷移學(xué)習(xí)方法(Easy Transfer Learning)。該方法在域內(nèi)編程中引入概率標(biāo)注矩陣,簡(jiǎn)化和加快了超參數(shù)調(diào)優(yōu)過程,同時(shí)在域間對(duì)齊上采用簡(jiǎn)單高效的CORAL算法,提升了計(jì)算效率。EasyTL在性能和準(zhǔn)確度上明顯高于其它算法,但是EasyTL只是一個(gè)單標(biāo)簽的遷移學(xué)習(xí)算法,不適合多標(biāo)簽的遷移學(xué)習(xí)任務(wù)。

目前,遷移學(xué)習(xí)已經(jīng)廣泛應(yīng)用于自然語言處理、文本分類以及視覺圖像處理等多個(gè)領(lǐng)域。潘常瑋[18]針對(duì)自然語言處理中目標(biāo)任務(wù)領(lǐng)域語料規(guī)模非常有限的問題,將傳統(tǒng)大規(guī)模詞料預(yù)訓(xùn)練的詞向量特征和遷移學(xué)習(xí)相結(jié)合,采用詞向量遷移學(xué)習(xí),解決了數(shù)據(jù)量不足的問題;孟佳娜[19]提出了基于圖的遷移學(xué)習(xí)方法,將源域和目標(biāo)域構(gòu)建一個(gè)圖模型,用在未標(biāo)注樣本或只有少量標(biāo)注樣本的文本分類上;蘇婷婷[20]將深度遷移學(xué)習(xí)用在花生葉部病害圖像上,將茶葉葉部病害數(shù)據(jù)遷移到花生葉部病害識(shí)別上,識(shí)別率有了明顯提高。

本文基于上述算法在多個(gè)不同數(shù)據(jù)集上的應(yīng)用表現(xiàn),系統(tǒng)分析、比較它們各自的性能特點(diǎn)。

1 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)將主要的遷移學(xué)習(xí)算法TCA、JDA、CORAL、GFK、BDA、EasyTL分別應(yīng)用在3種公開的遷移學(xué)習(xí)數(shù)據(jù)集上,對(duì)比分析其遷移效果。這3種公開遷移數(shù)據(jù)集分別為:①Amazon Review數(shù)據(jù)集,是一個(gè)情感分類數(shù)據(jù)集,包含K(Kitchen)、D(DVDs)、E(Electronics)、B(Books)四個(gè)領(lǐng)域的正面和負(fù)面評(píng)價(jià)數(shù)據(jù);②Office-Caltech數(shù)據(jù)集,包括A(Amazon)、D(DSLR)、W(Webcam)、C(Caltech)四個(gè)領(lǐng)域,每個(gè)領(lǐng)域都有10個(gè)類;③Image-CLEF數(shù)據(jù)集,這是來自ImageCLEF 2014挑戰(zhàn)賽的數(shù)據(jù)集,包括12類圖像,屬于3個(gè)領(lǐng)域:C(Caltech)、I(ImageNet)、P(Pascal) 。

實(shí)驗(yàn)建立在MATLAB和Python編程基礎(chǔ)上,針對(duì)6種算法、3個(gè)數(shù)據(jù)集進(jìn)行應(yīng)用設(shè)計(jì)開發(fā)。數(shù)據(jù)集的每個(gè)領(lǐng)域都可互相遷移,以Amazon Review為例,K-D代表Kitchen作為源域數(shù)據(jù)、DVDs作為目標(biāo)數(shù)據(jù)進(jìn)行遷移。該數(shù)據(jù)存在4個(gè)領(lǐng)域,可產(chǎn)生12個(gè)遷移結(jié)果,下面對(duì)其進(jìn)行分析。

2 結(jié)果分析

本研究將TCA、JDA、CORAL、GFK、BDA、EasyTL算法分別在Amazon Review、Office-Caltech、Image-CLEF這3個(gè)數(shù)據(jù)集上遷移,并比較其準(zhǔn)確度。

在3種公開數(shù)據(jù)集上的遷移結(jié)果如表1、表2、表3所示。從整體來看,上述6種遷移學(xué)習(xí)算法在數(shù)據(jù)分布相對(duì)平衡的Image-CLEF數(shù)據(jù)集上遷移效果最好,Amazon Review數(shù)據(jù)集次之,在數(shù)據(jù)分布不平衡的Office-Caltech數(shù)據(jù)集上表現(xiàn)最差。分析發(fā)現(xiàn),導(dǎo)致Office-Caltech效果不佳的原因主要為數(shù)據(jù)集中的源域包含較多不相關(guān)的樣本。

在遷移學(xué)習(xí)算法TCA的基礎(chǔ)上,JDA方法加入了邊緣分布和條件分布。因此其在3種數(shù)據(jù)集上的遷移效果都優(yōu)于TCA。

在遷移學(xué)習(xí)算法JDA基礎(chǔ)上,BDA方法加入了條件分布和邊緣分布的權(quán)重調(diào)節(jié)。將該算法應(yīng)用于Amazon Review數(shù)據(jù)集時(shí),相對(duì)于TCA、JDA算法,其遷移效果有明顯提高,但是在其它兩個(gè)數(shù)據(jù)集上并沒有取得理想的結(jié)果。

遷移學(xué)習(xí)算法EasyTL在3個(gè)數(shù)據(jù)集上的應(yīng)用效果最好,該算法包括域內(nèi)編程和域間對(duì)齊兩個(gè)步驟。域內(nèi)編程直接學(xué)習(xí)遷移學(xué)習(xí)問題的遷移分類器,為域內(nèi)對(duì)齊提供可靠的似然信息并引入概率標(biāo)注矩陣,域內(nèi)對(duì)齊加入非參數(shù)特征學(xué)習(xí)方法CORAL,這兩個(gè)措施切實(shí)提高了遷移準(zhǔn)確度。

3 結(jié)語

本文通過基于數(shù)據(jù)分布自適應(yīng)遷移學(xué)習(xí)算法TCA、JDA、CORAL、GFK、BDA、EasyTL分別在Image-CLEF、Amazon Review和Office-Caltech三種公開數(shù)據(jù)集上的實(shí)驗(yàn),分析、驗(yàn)證并比較了6種主要遷移學(xué)習(xí)算法的性能特點(diǎn)與適用場(chǎng)景。后續(xù)將進(jìn)一步探究遷移學(xué)習(xí)算法應(yīng)用的準(zhǔn)確度與數(shù)據(jù)相似度之間可能存在的內(nèi)在關(guān)系。

參考文獻(xiàn):

[1] 胡凱,嚴(yán)昊,夏旻,等. 基于遷移學(xué)習(xí)的衛(wèi)星云圖云分類[J]. 大氣科學(xué)學(xué)報(bào),2017,40(6):856-863.

[2] PAN S J, YANG Q. A survey on transfer learning[J]. ?IEEE Transactions on knowledge and data engineering,2009,22(10): 1345-1359.

[3] PAN S J, TSANG I W, KWOK J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2010, 22(2): 199-210.

[4] BORGWARDT K M, GRETTON A, RASCH M J, et al. Integrating structured biological data by kernel maximum mean discrepancy[J]. ?Bioinformatics, 2006, 22(14): e49-e57.

[5] DUAN L, TSANG I W, XU D. Domain transfer multiple kernel learning [J]. ?IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 465-479.

[6] TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: maximizing for domain invariance[J]. ?arXiv preprint arXiv,2014(9):1412-3474.

[7] LONG M, CAO Y, WANG J, et al. Learning transferable features with deep adaptation networks[J]. ?arXiv preprint arXiv,2015(6):1502-2791,.

[8] GONG B, SHI Y, SHA F, et al. Geodesic flow kernel for unsupervised domain adaptation[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2066-2073.

[9] LONG M, WANG J, DING G, et al. Transfer feature learning with joint distribution adaptation[C]. Proceedings of the IEEE international conference on computer vision. 2013: 2200-2207.

[10] LONG M, WANG J, DING G, et al. Adaptation regularization: a general framework for transfer learning[J]. ?IEEE Transactions on Knowledge and Data Engineering, 2013, 26(5): 1076-1089.

[11] HOU C A, YEH Y R, WANG Y C F. An unsupervised domain adaptation approach for cross-domain visual classification[C]. 2015 12th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). ?IEEE, 2015: 1-6.

[12] TAHMORESNEZHAD J, HASHEMI S. Visual domain adaptation via transfer feature learning[J]. ?Knowledge and Information Systems, 2017, 50(2): 585-605.

[13] LONG M, ZHU H, WANG J, et al. Deep transfer learning with joint adaptation networks[C]. Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 2208-2217.

[14] SUN B, FENG J, SAENKO K. Return of frustratingly easy domain adaptation[C]. Thirtieth AAAI Conference on Artificial Intelligence,2016.

[15] SUN B, SAENKO K. Deep coral: correlation alignment for deep domain adaptation[C]. European Conference on Computer Vision. Springer, Cham, 2016: 443-450.

[16] WANG J, CHEN Y, HAO S, et al. Balanced distribution adaptation for transfer learning[C]. 2017 IEEE International Conference on Data Mining (ICDM). ?IEEE, 2017: 1129-1134.

[17] WANG J, CHEN Y, YU H, et al. Easy transfer learning by exploiting intra-domain structures[J]. ?arXiv preprint arXiv: 2019(8): 1376-1904.

[18] 潘常瑋. ?遷移學(xué)習(xí)中預(yù)訓(xùn)練中文詞向量?jī)?yōu)化方法研究[D]. 北京:北京交通大學(xué),2018.

[19] 孟佳娜. 遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D]. 大連:大連理工大學(xué),2011.

[20] 蘇婷婷,牟少敏,董萌萍,等. 深度遷移學(xué)習(xí)在花生葉部病害圖像識(shí)別中的應(yīng)用[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(5):1-6.

(責(zé)任編輯:杜能鋼)

主站蜘蛛池模板: 中文字幕在线永久在线视频2020| 亚洲人成色在线观看| 精品1区2区3区| 日本欧美精品| 99re在线视频观看| 日韩欧美中文在线| 在线免费观看AV| 国产精品无码制服丝袜| 中文纯内无码H| 奇米影视狠狠精品7777| 亚洲欧美成aⅴ人在线观看| 免费女人18毛片a级毛片视频| 成人一级免费视频| 超清无码熟妇人妻AV在线绿巨人| 国产精品不卡永久免费| 中文无码毛片又爽又刺激| 高清免费毛片| 欧美性精品| 亚洲三级a| 国产欧美一区二区三区视频在线观看| 日韩视频精品在线| 精品一区二区三区无码视频无码| 亚洲人成网7777777国产| 成人免费午夜视频| 亚洲欧美精品日韩欧美| 亚洲全网成人资源在线观看| 亚洲国产综合自在线另类| 中文字幕精品一区二区三区视频| 色综合天天操| 无码网站免费观看| 99久久亚洲综合精品TS| 久久久久久高潮白浆| 欧美午夜理伦三级在线观看| 在线色国产| 亚洲 欧美 日韩综合一区| 日韩免费成人| 天天干天天色综合网| 成人中文字幕在线| 天天色天天操综合网| 国产在线自在拍91精品黑人| 国产乱人激情H在线观看| 91麻豆精品国产91久久久久| 亚洲成人黄色网址| 欧美一级专区免费大片| 日韩av无码精品专区| 亚洲a级毛片| 国产一级精品毛片基地| 久久成人免费| 综合久久五月天| 日本欧美中文字幕精品亚洲| 亚洲人成网18禁| 国产精品漂亮美女在线观看| 国产午夜福利片在线观看| 国产精品丝袜在线| 亚洲一区二区三区在线视频| 国产高清无码麻豆精品| 婷婷丁香在线观看| 天天做天天爱天天爽综合区| 成人亚洲视频| 久无码久无码av无码| 五月婷婷导航| 污网站免费在线观看| 日韩A∨精品日韩精品无码| www.youjizz.com久久| 手机精品视频在线观看免费| 国产香蕉国产精品偷在线观看| 成人午夜视频免费看欧美| 亚洲精品第一页不卡| 中文字幕在线欧美| 久精品色妇丰满人妻| 日本伊人色综合网| 伊人久久久久久久久久| 青青久视频| 青青草原国产免费av观看| 91福利国产成人精品导航| 久久国产精品嫖妓| 亚洲三级色| 国产麻豆永久视频| 免费毛片视频| 欧美不卡视频一区发布| 色综合天天综合| 奇米精品一区二区三区在线观看|