王莉莉 馮其帥 陳德運(yùn) 楊海陸



摘 要:針對大多數(shù)基于實(shí)例的遷移學(xué)習(xí)方法容易產(chǎn)生分布參數(shù)估計困難和泛化效果差的問題,提出一種正則化判別遷移學(xué)習(xí)算法。依據(jù)判別分析和半監(jiān)督學(xué)習(xí)理論,采用核方法和正則化方法,研究了基于正則化的高斯核半監(jiān)督判別分析方法,以構(gòu)造修正嵌入空間的方式進(jìn)行樣本遷移。一方面,在映射空間中篩選樣本可克服估計分布參數(shù)的困難;另一方面,引入偽標(biāo)記數(shù)據(jù)和定義距離函數(shù)可避免過擬合問題。文本和非文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法能夠有效提高遷移的正確率及學(xué)習(xí)模型的泛化能力。
關(guān)鍵詞:遷移學(xué)習(xí);判別分析;正則化;半監(jiān)督學(xué)習(xí)
DOI:10.15938/j.jhust.2019.02.013
中圖分類號: TP181
文獻(xiàn)標(biāo)志碼: A
文章編號: 1007-2683(2019)02-0089-07
Abstract:Aiming at the problem that most instancebased transfer learning methods are difficult to estimate the distribution parameters and having poor generalization ability, a regularized discriminant transfer learning algorithm is proposed. Based on the discriminant analysis and semisupervised learning theory, the semisupervised Gauss kernel discriminant analysis method is studied by kernel method and regularization method, and the reusable samples are transferred by constructing the revised embedding space. On the one hand, screening samples in the mapping space can solve the difficulty of estimating the parameters of domain distribution; on the other hand, introducing pseudolabeled data and defining the distance function can avoid overfitting problems. The experimental results on text and nontext datasets validate that the proposed algorithm can effectively improve the accuracy and generalization ability of transferring.
Keywords:transfer learning; discriminant analysis; regularization; semisupervised learning
收稿日期: 2017-03-30
基金項(xiàng)目: 黑龍江省自然科學(xué)基金(F2016024).
作者簡介:
馮其帥(1991—),男,碩士研究生;
陳德運(yùn)(1962—),男,博士,教授,博士研究生導(dǎo)師.
通信作者:
王莉莉(1980—),女,博士,副教授,碩士研究生導(dǎo)師,Email :wanglili@hrbust.edu.cn.
0 引 言
近年來,受到人類學(xué)習(xí)過程的啟發(fā),“遷移”的概念被引入到機(jī)器學(xué)習(xí)當(dāng)中[1]。遷移學(xué)習(xí)是一種適用于數(shù)據(jù)具有不同分布的新機(jī)器學(xué)習(xí)方法,放寬了傳統(tǒng)機(jī)器學(xué)習(xí)過程中對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)作同分布假設(shè)的要求,其思想是把已學(xué)習(xí)到的知識應(yīng)用到相關(guān)領(lǐng)域來幫助目標(biāo)任務(wù)的完成。
在基于實(shí)例的遷移學(xué)習(xí)方法中,盡管源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)分布不同,但是源領(lǐng)域中仍會存在一部分?jǐn)?shù)據(jù)可以和目標(biāo)領(lǐng)域數(shù)據(jù)一起使用來訓(xùn)練學(xué)習(xí)模型。大多數(shù)實(shí)例遷移的方法是對數(shù)據(jù)間的樣本選擇偏差和協(xié)方差偏差進(jìn)行修正,使得源領(lǐng)域中的部分?jǐn)?shù)據(jù)可用。文[2-3]等對源領(lǐng)域和目標(biāo)領(lǐng)域中數(shù)據(jù)的分布進(jìn)行估計,以修正源領(lǐng)域相對于目標(biāo)領(lǐng)域的樣本選擇偏差。文[4]等通過分布參數(shù)的學(xué)習(xí),對源領(lǐng)域中的數(shù)據(jù)進(jìn)行評估加權(quán),找出與目標(biāo)領(lǐng)域中的數(shù)據(jù)分布最相近或?qū)δ繕?biāo)任務(wù)最有幫助的樣本。然而,這些方法都需要對分布參數(shù)進(jìn)行估算。在數(shù)據(jù)量較少的情況下,參數(shù)估計往往會出現(xiàn)偏差。
針對上述實(shí)例遷移的不足,本文提出一種正則化判別遷移學(xué)習(xí)算法。首先,在線性判別分析的基礎(chǔ)上引入高斯核,使其適用于現(xiàn)實(shí)非線性問題,并通過正則化的方式得到一種半監(jiān)督的高斯核判別分析方法。其次,基于該正則化判別分析并通過定義距離度量來構(gòu)造修正嵌入空間,在不直接估算分布參數(shù)的情況下對源領(lǐng)域中的可重用數(shù)據(jù)進(jìn)行遷移。在遷移時通過添加偽標(biāo)記的方式引入目標(biāo)領(lǐng)域中的未標(biāo)記數(shù)據(jù),進(jìn)一步提高遷移學(xué)習(xí)下分類器的分類精度和泛化能力。
1 正則化的半監(jiān)督判別分析
1.1 判別分析理論
判別分析[5]的目的是學(xué)習(xí)一個從原始特征空間到新特征空間的映射,該映射可以是線性的,也可以是非線性的。線性判別分析的基本思想是不考慮類條件概率密度的分布,其原理是使用投影矩陣將原始數(shù)據(jù)投影到維度更低的空間中,使得投影后的數(shù)據(jù)會按類別區(qū)分,具有相同類別的數(shù)據(jù)在投影后的空間中更緊密而不同類別的則盡量分開[6]。通常定義一個判據(jù)來度量不同子空間中保留的判別信息,通過求得該判據(jù)的最優(yōu)目標(biāo)函數(shù)從而得到最優(yōu)的子空間。該過程可以形式化為:
其中,判據(jù)J(W)是關(guān)于投影矩陣W的函數(shù),該函數(shù)通常用映射空間中的類間與類內(nèi)的距離之比來表示,使得在投影空間中同類樣本分布密集而不同類樣本相隔較遠(yuǎn)。通常使用歐式距離來計算類間距離和類內(nèi)距離,類間距離即每一類的中心到所有樣本中心的距離,類內(nèi)距離即每一類的樣本到該類樣本中心的距離。從而,判據(jù)J(W)可以表示為
1.2 高斯核判別分析
1.3 基于高斯核的正則化判別分析
為了利用現(xiàn)實(shí)中越來越多的無標(biāo)記數(shù)據(jù),判別分析方法也借鑒半監(jiān)督學(xué)習(xí)的思想,形成了半監(jiān)督判別分析方法[9]。半監(jiān)督判別分析方法將傳統(tǒng)的判別分析技術(shù)應(yīng)用在半監(jiān)督環(huán)境下,同時利用有標(biāo)記的數(shù)據(jù)和無標(biāo)記的數(shù)據(jù)進(jìn)行學(xué)習(xí),目的是找到一種對分類最有效的投影空間,即嵌入空間。根據(jù)利用無標(biāo)記數(shù)據(jù)學(xué)習(xí)方法的不同,半監(jiān)督判別分析方法大致可歸納為兩類。第一類是基于正則化的方法,同時利用無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)來保持樣本的局部或全局幾何結(jié)構(gòu)分布,使得投影變換方向保持了樣本的流形分布。第二類是有標(biāo)記數(shù)據(jù)樣本擴(kuò)充的方法,根據(jù)無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)樣本的分布特性,將監(jiān)督信號從有標(biāo)記的數(shù)據(jù)傳遞到無標(biāo)記的數(shù)據(jù)上。
半監(jiān)督學(xué)習(xí)常用的假設(shè)是“流形假設(shè)”[10],即假設(shè)數(shù)據(jù)分布在一個流形結(jié)構(gòu)上,鄰近的樣本擁有相似的輸出值。而圖正則化[11]的一般假設(shè)為:若數(shù)據(jù)點(diǎn)在原空間是鄰近點(diǎn),則對應(yīng)到新的空間中也是鄰近點(diǎn),圖正則化能夠很好地保持?jǐn)?shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)。
正則化可理解為一種“罰函數(shù)法”,即對不希望得到的結(jié)果施以懲罰,從而使得優(yōu)化過程趨向于希望目標(biāo)。正則項(xiàng)用于保持參數(shù)值較小,有助于削減假設(shè)空間,從而能夠降低最小化訓(xùn)練誤差的過擬合風(fēng)險。本文采用正則化思想,在投影后的空間中保持樣本的流形結(jié)構(gòu)。在高斯核判別分析的基礎(chǔ)上引入樣本數(shù)據(jù)局部與非局部散度之差作為正則項(xiàng),得到一種新的基于正則化的半監(jiān)督判別分析方法。該方法能夠使數(shù)據(jù)在投影后的空間中具有最大的類間距離和非局部散度,以及最小的類內(nèi)距離和局部散度,得到更佳的分類效果。該基于正則化的半監(jiān)督判別分析方法的目標(biāo)函數(shù)可表示為
2 正則化判別遷移學(xué)習(xí)算法
2.1 算法思想
首先,選取一個分類算法分別在源領(lǐng)域數(shù)據(jù)集上、目標(biāo)領(lǐng)域的有標(biāo)記數(shù)據(jù)集上和由這兩個數(shù)據(jù)集組成的新數(shù)據(jù)集上訓(xùn)練分類器。用這3個分類器分別標(biāo)注目標(biāo)領(lǐng)域中的未標(biāo)記數(shù)據(jù),并對標(biāo)注結(jié)果進(jìn)行不加權(quán)投票,使用偽標(biāo)記數(shù)據(jù)輔助遷移。
其次,使用上節(jié)提出的基于正則化的高斯核半監(jiān)督判別分析方法得到投影矩陣W*,并用其將源領(lǐng)域數(shù)據(jù)、目標(biāo)領(lǐng)域的有標(biāo)記數(shù)據(jù)和目標(biāo)領(lǐng)域的偽標(biāo)記數(shù)據(jù)投射到嵌入空間τ1中,對源領(lǐng)域數(shù)據(jù)進(jìn)行篩選。
。
2.2 算法描述
3.選
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
為了評估本文算法性能,在文本數(shù)據(jù)集20Newsgroups和Reuters-21758,以及非文本UCI數(shù)據(jù)集mushroom上進(jìn)行實(shí)驗(yàn)驗(yàn)證。
20Newsgroups是一個包含近20000個新聞組的文檔集,包含了7個大類,大類包含20個子類。Reuters-21758是一個包含近21000個英文文檔的文檔集,它包含5個大類,在這些類別中,orgs、people和places是3個最大的類別。為了使這兩個文本數(shù)據(jù)集適用于遷移學(xué)習(xí),需要在預(yù)處理之后對它們進(jìn)行重構(gòu),使源領(lǐng)域與目標(biāo)領(lǐng)域內(nèi)的數(shù)據(jù)分布符合不同分布但同時又具有一定相似性。文[13]詳細(xì)介紹了文本數(shù)據(jù)的預(yù)處理過程。將頂層類標(biāo)作為分類標(biāo)號,將頂層類別下的不同子類別數(shù)據(jù)進(jìn)行重新組合。以20Newsgroups數(shù)據(jù)集中的rec vs talk為例,可以將rec.autos,rec.motorcycles,talk.politics.gun,talk.politics.misc作為源領(lǐng)域中的樣本,將rec.sport.baseball,rec.sport.hockey,talk.politics.mideast,talk.religion.mise作為目標(biāo)領(lǐng)域中的樣本。Reuters-21758數(shù)據(jù)集用相似方法進(jìn)行重構(gòu)。本文選用20Newsgroups數(shù)據(jù)集中的comp、sci、talk、rec四大類以及Reuters-21758中的orgs、people、places 3個大類進(jìn)行實(shí)驗(yàn)。
UCI數(shù)據(jù)集mushroom包含對8124個蘑菇的特征描述,其中每個樣本被標(biāo)記為有毒的或者是可食用的。按文[14]對mushroom數(shù)據(jù)集進(jìn)行如下處理:基于stalkshape屬性將數(shù)據(jù)集分為兩部分,源領(lǐng)域包含所有該屬性值為enlarging的樣本,目標(biāo)領(lǐng)域包含所有該屬性值為tapering的樣本,使兩域分布不同。
3.2 結(jié)果與分析
本文以目標(biāo)領(lǐng)域數(shù)據(jù)分類的精度為評價算法分類效果的基準(zhǔn),采用余弦距離來衡量文檔間的相似度。精度計算公式和余弦距離計算公式分別為
。
表2 各方法實(shí)驗(yàn)結(jié)果比較(%)
觀察表2可知,在各個數(shù)據(jù)集上的分類精度通常是最低的。表明了當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)分布不一致時,在非遷移學(xué)習(xí)的環(huán)境下直接訓(xùn)練得到的分類器,其分類效果往往是很差的。
比較表2的最后兩列可以看出,本文算法在這8個數(shù)據(jù)集上的分類精度相較于都有提升。表明了遷移時引入偽標(biāo)記數(shù)據(jù)可以進(jìn)一步提高遷移效果和泛化能力。這是因?yàn)閭螛?biāo)記數(shù)據(jù)不僅包含標(biāo)記數(shù)據(jù)的類別信息,還具有未標(biāo)記數(shù)據(jù)的分布信息。
圖1依次標(biāo)出了ACTL、TrAdBoost以及本文算法在各個實(shí)驗(yàn)數(shù)據(jù)集上的分類精度。可以看出在大部分情況下,本文算法都取得了較好的分類正確率,比TrAdaBoost和ACTL這兩個遷移算法的分類精度還高。
本文算法使用基于正則化的高斯核半監(jiān)督判別分析方法,并定義距離度量和指示矩陣來構(gòu)建修正嵌入空間,從中選出可重用的源領(lǐng)域數(shù)據(jù)樣本,這樣就避免了估計分布參數(shù)而造成的偏差。又因本文算法在遷移的過程中通過偽標(biāo)記方式引入了目標(biāo)領(lǐng)域中的無標(biāo)記數(shù)據(jù),提高了遷移正確率及泛化性能,所以從圖1可觀察出,在rec vs talk、comp vs sci、comp vs talk、sci vs talk、orgs vs places、orgs vs people這6個數(shù)據(jù)集上,本文算法的分類精度較其他兩個算法有明顯的提升。此外,文[21]已經(jīng)驗(yàn)證了TrAdaBoost遷移學(xué)習(xí)算法比半監(jiān)督算法分類精度更高,因此本文算法也優(yōu)于半監(jiān)督算法。
圖2依次標(biāo)出了SVMτT、ACTL和SVMτST在各個實(shí)驗(yàn)數(shù)據(jù)集上的分類精度。這3個算法雖都處在遷移環(huán)境下,但是SVMτT沒有進(jìn)行樣本選擇,ACTL是結(jié)合主動學(xué)習(xí)進(jìn)行的樣本選擇,而SVMτST是在沒有引入偽標(biāo)記數(shù)據(jù)時在嵌入修正空間中進(jìn)行樣本選擇。
觀察可知,即使在遷移環(huán)境下,如果不進(jìn)行樣本選擇,仍然會導(dǎo)致判別結(jié)果產(chǎn)生較大偏差;而使用本文算法所提出的構(gòu)建嵌入空間循環(huán)輔助選擇樣本,大多數(shù)情況下比ACTL的結(jié)合主動學(xué)習(xí)進(jìn)行樣本選擇的遷移效果更好。
考慮到循環(huán)次數(shù)的選取可能會對算法的性能產(chǎn)生影響,從文本數(shù)據(jù)集和非文本數(shù)據(jù)集中各選取一組數(shù)據(jù)集,設(shè)置循環(huán)次數(shù)j從1開始取值。將本文算法對應(yīng)不同的循環(huán)次數(shù)各進(jìn)行5次重復(fù)實(shí)驗(yàn),并取其平均值作為參考。實(shí)驗(yàn)結(jié)果如圖3所示。
觀察可知,循環(huán)次數(shù)j對本文算法的分類精度有一定程度的影響:整體上,隨著循環(huán)次數(shù)的增加,算法的分類精度增高;當(dāng)循環(huán)次數(shù)增加到8次以后,算法的分類精度保持在較高水準(zhǔn)并穩(wěn)定下來。
最后,實(shí)驗(yàn)比較了隨著目標(biāo)領(lǐng)域中有標(biāo)記數(shù)據(jù)的增加,本文算法和傳統(tǒng)SVM算法在comp vs sci和people vs places這兩個數(shù)據(jù)集上的分類效果。將其中的標(biāo)記數(shù)據(jù)比例范圍設(shè)定為0.01至0.1,實(shí)驗(yàn)結(jié)果圖4所示。
觀察圖4可知,隨著目標(biāo)領(lǐng)域標(biāo)記樣本數(shù)量的增加,本文算法和傳統(tǒng)SVM算法在數(shù)據(jù)集上的分類效果都會提升。SVM算法提升幅度很大,這說明很大程度上,制約有監(jiān)督分類算法性能的就是有標(biāo)記數(shù)據(jù)的不足;本文算法提升幅度不大,說明本文算法通過添加偽標(biāo)記數(shù)據(jù)輔助遷移學(xué)習(xí),在一定程度上解決了目標(biāo)數(shù)據(jù)不足對算法性能的影響。此外可觀察到,當(dāng)有標(biāo)記數(shù)據(jù)不足時,本文算法優(yōu)于SVM很多,這說明在有標(biāo)記訓(xùn)練樣本不足時,能夠通過遷移學(xué)習(xí)來提高訓(xùn)練效果。
4 結(jié) 論
針對實(shí)例遷移學(xué)習(xí)方法估計分布參數(shù)困難和泛化效果差的問題,本文提出了一種正則化判別遷移學(xué)習(xí)算法。在對數(shù)據(jù)內(nèi)在結(jié)構(gòu)的認(rèn)識基礎(chǔ)上,通過構(gòu)造修正嵌入空間對源領(lǐng)域數(shù)據(jù)進(jìn)行篩選和再利用,并使用不加權(quán)投票的方式引入偽標(biāo)記數(shù)據(jù)進(jìn)行輔助遷移。不僅避免了直接對領(lǐng)域分布參數(shù)進(jìn)行估計,還解決了目標(biāo)數(shù)據(jù)不足可能造成過擬合和泛化效果差的問題,進(jìn)一步提高了遷移的正確率。通過對不同的數(shù)據(jù)集進(jìn)行遷移分類,驗(yàn)證了該算法具有更好的分類效果和泛化性能。下一步將研究該算法在大數(shù)據(jù)環(huán)境下的有效性。
參 考 文 獻(xiàn):
[1] PAN S J, YANG Q. A Survey on Transfer Learning[J].IEEE Transaction on Knowledge and Data Engineering,2010,22(10):1345.
[2] BHATT H, SINGH R, VATSA M, et al. Improving Crossresolution Face Matching Using Ensemble Based CoTransfer Learning[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(12):5654.
[3] MCGAUGHEY G, WALTERS W P, GOLDMAN B. Understanding Covariate Shift in Model Performance[J].F1000 Research,2016,11(5):597.
[4] SUGIYAMA M, NAKAJIMA S, KASHIMA H. Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation[J].Advances in Neural Information Processing Systems,2007,13(6):1433.
[5] TIAN Y, QI Z, JU X, et al. Nonparallel Support Vector Machines for Pattern Classification[J].IEEE Transactions on Cybernetics,2014,44(7):1067.
[6] SIDDIQI M H, ALI R, IDRIS M, et al. Human Facial Expression Recognition Using Curvelet Feature Extraction and Normalized Mutual Information Feature Selection[J]. Multimedia Tools and Applications,2016,75(2):935.
[7] 王萬良, 邱紅, 黃瓊芳, 等. 核判別隨機(jī)近鄰嵌入分析方法[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2014,25(4):623.
[8] 汪廷華, 陳峻婷. 核函數(shù)的選擇研究綜述[J].計算機(jī)工程與設(shè)計,2012,33(3):1181.
[9] 姜偉, 李健芳, 楊炳儒. 黎曼流形框架上半監(jiān)督判別分析[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2014,26(7):1099.
[10]周志華. 半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法[M].北京,清華大學(xué)出版社,2007:259.
[11]YANG Y, HUANG Z. Local Image Tagging via Graph Regularized Joint Group Sparsity[J]. Pattern Recognition,2013,46(5):1358.
[12]張戰(zhàn)成, 王士同, 鄧趙紅. 支持向量機(jī)的一種快速分類算法[J].電子與信息學(xué)報,2011,33(9):2181.
[13]王駿, 王士同, 王曉明. 基于特征加權(quán)距離的雙指數(shù)模糊子空間聚類算法[J].控制與決策,2010,25(8):1207.
[14]許敏, 王士同, 顧鑫. TLSVM:一種遷移學(xué)習(xí)算法[J].控制與決策,2014,29(1):141.
[15]張變蘭, 路永鋼, 張海濤. 基于KL散度和近鄰點(diǎn)間距離的球面嵌入算法[J].計算機(jī)應(yīng)用,2017,37(3):680.
[16]MEHTA A K, BHATTACHARYA K, RAY D. Application of Support Vector Network for Power System Static Security Evaluation[J].International Journal of Energy Optimization & Engineering,2015,4(1):55.
[17]TAN Q, DENG H, YANG P. Knowledge Transfer Across Different Domain Data with Multiple Views[J].Neural Computing and Applications,2014,25(1):15.
[18]DAI W Y, YANG Q, XUE G, et al. Boosting for Transfer Learning[C]//Proceedings of the 24th International Conference on Machine Learning.New York:Academic Press,2007:193.
[19]WU J, HAO Y. Linear Regressionbased Efficient SVM Learning for Largescale Classification[J]. IEEE Transactions on Neural Networks & Learning Systems,2015,26(10):2357.
[20]JIANG L, WANG D, CAI Z, et al. Survey of Improving Naive Bayes for Classification[J]. Lecture Notes in Computer Science,2007,46(32):134.
[21]洪佳明, 陳炳超, 印鑒. 一種結(jié)合半監(jiān)督Boosting方法的遷移學(xué)習(xí)算法[J].小型微型計算機(jī)系統(tǒng),2011,32(11):2169.
(編輯:溫澤宇)