999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多步橋接精化遷移學習*

2011-01-24 06:20:50覃姜維鄭啟倫馬千里韋佳林古立
關鍵詞:模型研究

覃姜維 鄭啟倫 馬千里 韋佳 林古立

(華南理工大學計算機科學與工程學院,廣東廣州510006)

傳統機器學習方法基于假設訓練數據和測試數據分布一致的前提,這大大限制了其應用范圍[1].當假設條件不滿足的時候,傳統分類器的性能可能出現下降.最常見的情況是對一個新領域數據進行分類時,由于幾乎沒有標記數據,傳統機器學習方法無法訓練出可靠的分類器.比如說,大量研究發掘的生物信息數據和快速增長的網絡信息數據都包含著豐富的待挖掘信息,但是由于這些數據缺乏標記,而人工進行標記也費時費力,要分析這些數據隱含的信息就變得非常困難.此外,在相關領域存在大量的標記數據卻無法直接使用[1].因此,有必要探尋相關領域數據與目標領域數據的聯系,并利用相關領域中的監督信息來指導目標領域中的任務學習.

近來,受到人類認知學習過程中遷移學習的啟發[2],相關學者提出了機器學習中的遷移學習方法[3-5],目的是解決跨領域、跨任務的學習問題.早期關于遷移學習的工作有 learning to learning[3]、lifelong learning[4]、learning one more thing 和多任務學習[5-6].其中和遷移學習最為相似的是多任務學習,但多任務學習研究的是若干個任務共同學習的情況,并沒有考慮對與源數據分布不一致的目標數據的學習.一般來說,遷移學習方法可以分為實例遷移、特征遷移、參數遷移和關聯知識遷移[7].在這幾類遷移方法中,實例遷移和特征遷移被廣泛地進行研究.其中,實例遷移強調對樣本層面的信息進行重用,而特征遷移著重研究特征層面上的聯系.

研究者們從不同的角度來研究遷移機制的實現.由于數據散布在不同的領域,遷移的前提是找尋可供遷移的共同映射,并建立這個映射的橋梁.Mahmud[8]定義了一種任務相似度的衡量機制,并以此為基礎來定量地決定任務間遷移的信息量.Ruckert等[9]提出了一種基于核方法的遷移算法,即先在源數據上學習一系列泛化性能良好的核函數,然后以最小化準則將其結合起來用于預測目標數據的標簽.Dai等[10]定義出源數據和目標數據的共同特征,并以此為橋梁執行協同聚類算法,使源數據的標簽結構影響目標數據的標簽結構.Dai等[11]還將該算法擴展到源領域數據標簽缺失的情況,提出了一種無監督遷移學習方法.Ling等[12]提出一種基于譜分類的遷移框架,目標是在源數據的監督信息和目標領域的自有結構當中找到一個平衡.文獻[13]提出的方法也是基于譜分析的方法,歸納了幾種遷移學習的情形,得出了一種遷移框架.這些方法以找尋源和目標領域的共同表示為目標,但忽略了目標領域數據的自身特性.Daume等[14]假設源和目標領域包含相同和不同的組成成分,提出利用混合模型來進行學習.他們將兩個來自不同領域的數據看成是3個不同分布數據的混合結果,并共享一個相同的分布數據.Storkey等[15]考慮了一種更為普遍的情況,認為源領域和目標領域共享多個混合成分,從而更為細致地考慮了混合模型的組成.這兩種方法在求解一個公共模型的基礎上再使用期望最大化(EM)算法來對目標領域的模型進行修正.

大部分研究通過參數化的估計方法來學習模型,當數據量小的時候,存在參數估計困難的問題.為避免對分布參數進行估計,本研究提出了一種非參數化的遷移學習算法——多步橋接精化(Multi-Step Bridged Refinement,簡稱MSBR)來解決訓練數據和測試數據分布不一致的分類問題.首先通過構造一系列中間模型來建立源領域和目標領域之間的連接,進而進行標簽傳播,最終完成從源領域到目標領域的判別信息的遷移.由于構造的中間模型兩兩間的數據分布相似,原來被認為較難的遷移過程被分解成為一系列相對容易解決的子遷移.

1 多步橋接精化遷移

1.1 問題定義

1.2 交互精化

本研究借助標簽傳播的原理來求目標領域數據的標簽[16].標簽傳播受到 PageRank 算法的啟發[17].PageRank算法通過網頁間的鏈接關系來對網頁的重要性進行評分,一個網頁的權值受到鏈接到該網頁的頁面的影響.假設u為一個網頁,其權值評估公式為

式中:R表示頁面的權值;E表示網頁的初始權值;Bu為指向u的頁面集合;Nu為集合u指向的網頁集合的數量;η為平衡因子.公式(1)利用頁面間相互連接的關系來表明指向一個頁面的鄰居頁面的權值越高,其頁面權值也就越大.公式(1)包含了交互精化的思想,頁面的權值被其鄰居頁面的權值精化,同時又對其鄰居頁面的權值進行精化.更進一步,可以認為相似的網頁間具有相互鏈接的關系.本研究以此為基礎得到一個基于交互精化的標簽傳播模型.在圖1中,假設有標記數據 x1、x2、x3屬于類別a,標記數據 x4、x5、x6屬于類別 b.其中,x1、x3、x5是u1的鄰居,而x2、x4、x6是 u2的鄰居.如果每個鄰居對未標記數據的標簽貢獻程度一致,那么可以認為u1屬于a的概率大于屬于b的概率,而u2屬于b的概率大于屬于a的概率.

圖1 標簽傳播Fig.1 Label propagation

因此,一個樣本的鄰居所屬類別的情況反映出該樣本所屬類別的情形.也就是說,當一個樣本的鄰居屬于某個類別的概率越大,則這個樣本屬于該類別的概率也就越大.然而,該模型的討論是在數據分布一致的前提下進行的,在本研究的問題中,源數據和目標數據的分布并不相同,為此,本研究將模型應用到遷移問題的場景中.

1.3 多步橋接精化

為了讓目標數據獲得源數據的標簽信息,本研究借助中間模型在兩個領域數據間執行交互精化算法來進行標簽傳播.一般來說,很難直接在不同分布的數據間執行交互精化算法,但是當分布非常相似的時候,可以認為標簽傳播條件近似成立,從而達到標簽結構遷移的目的.通過引進一個中間模型M,將整個遷移過程分成兩步,首先是從源數據到中間模型的遷移,其次是從中間模型到目標數據的遷移.由于中間模型M由源數據和目標數據構成,其分布DM與DS和DT的距離相對接近,因而在DS和DM或者在DM和DT之間進行遷移相對于在DS和DT之間遷移要容易.雖然源數據和目標數據來源于不同分布的領域,但由于領域間相關,它們存在一定的聯系.假設P(c|d)表示數據的所屬類別的條件概率,給定樣本d,有

這是由源數據和目標數據共享相同的標簽空間決定的.因此能夠在M中利用這個關系讓源數據對目標數據的標簽進行精化.借助中間模型,能夠在遷移的過程中分步實施交互精化算法,從而達到標簽傳播的目的.

通過引入中間模型M,使得在不同領域間的數據間的標簽傳播成為可能.但是,當數據分布具有顯著差異的時候,僅僅依靠單個中間模型是不夠的.為此,需要提供更為可靠的遷移環境.對中間模型進行變換,構造一系列的橋接模型,這些模型中兩兩的分布更為接近.由于相似的數據分布讓遷移成為可能,那么本研究中構造的近似分布中間模型可以使得遷移更加平滑和可靠.具體來說,本研究是在構造的中間模型中兩兩相互執行交互精化算法,進而實現從源數據到目標數據的標簽傳播.

圖2 多步橋接精化模型Fig.2 Multi-step bridged refinement model

具體的中間模型的構造過程見圖2,中間模型都由標記數據和未標記數據構成,他們的比例由λ進行控制.定義模型中的數據組成為

近鄰的模型在分布上相似,可以執行交互精化來進行標簽傳播,其過程如下.令 f為精化結果,f0是初始值,fi,j為樣本 di屬于類別 j的概率,O(i)為di的鄰居集合,K為鄰居個數,則模型間執行交互精化的過程為

在交互精化的過程中,fi作為下一步精化過程的初始輸入f0.在完成n次精化過程后,根據對樣本的標簽進行賦值.

MSBR算法偽碼描述如下:

1.4 算法的收斂性

根據文獻[14],式(4)可以重寫為式(6)或(7),其中L是根據樣本鄰居構造的鄰接矩陣.

每步精化過程的結果都會收斂到一個穩定值f*.在多步精化的過程中,可以將全部的精化過程定義為:

式中:Fi表示第i次精化的結果.將式(8)-(10)的左右相乘,得到式(11),算法最終收斂于Fn.

2 實驗

2.1 數據集

本研究采用兩個標準文本數據20Newsgroup(http:∥people.csail.mit.edu/jrennie/20Newsgroups)和 SRAA(http:∥www.cs.umass.edu/~ mccallum/code-data.html)作為實驗數據集.為了使數據集滿足遷移場景,本研究對數據集進行了重構.由于以上選擇的數據集都包含分屬不同頂層類別的子主題,可以將相同頂層類別的子主題劃分出來與不同頂層類別的子主題構成不同的領域數據.基于這種重構,本研究認為由于源領域數據和目標領域數據來源于不同的子主題,所以存在差異,但因為其中的子主題共享頂層主題,因此兩個領域數據間又存在聯系.本研究分別對20Newsgroup和SRAA做如下重構:

(1)20Newsgroup是一個包含近20000個新聞組的文檔集,大約分成20類,包含6個頂層類別.將其中的空白類別刪除掉,利用剩余的數據生成數據集(見表1).

表1 基于20Newsgroup構建的數據集Table 1 Data sets constructed from 20Newsgroup

(2)SRAA是一個包含73218篇文檔的文本數據集,可以分成 simuauto、simuavation、realauto和realavation 4個類別.根據文檔內容的描述,本研究選擇任意的兩個主題作為源領域數據而剩余的主題作為目標領域數據,生成的數據集見表2.

表2 基于SRAA構建的數據集Table 2 Data sets constructed from SRAA

本研究利用向量空間模型(VSM)對文本數據進行處理[18].整個過程包括大小寫轉換、提取詞干、去除停用詞、特征選擇和計算 TF/IDf值[19].此外,將詞頻設為5.

2.2 實驗方法

本研究利用傳統分類器求得目標數據的初始標簽,然后利用文中提出的算法對目標數據的初始標簽進行精化.本研究選擇了3種經典的監督分類器和半監督分類器,即支持向量機(SVM)[20],樸素貝葉斯(NB)和轉導式支持向量機(TSVM)[21-22].為了知道遷移是否起作用,本研究同時也將文中提出的算法的結果與傳統分類器做對比.

實驗策略為:

(1)在源數據上利用傳統分類器訓練分類模型,并將其直接用于目標數據的分類;

(2)在傳統分類器對目標數據的分類結果上,利用BRTL對傳統分類器的結果進行精化[23];

(3)在傳統分類器對目標數據的分類結果上,利用文中提出的算法對傳統分類器的結果進行精化,為了與BRTL做對比,本研究將參數α設置為0.7;

(4)直接利用BRTL和文中提出的MSBR對目標數據進行精化.

2.3 實驗結果和討論

表3-5給出了4種不同策略上的計算結果,從表中可以看到,傳統分類器在跨領域的數據分類中性能較差,而兩種遷移學習方法在學習精度上要優于傳統分類器.對比傳統分類器(SVM、NB、TSVM)和遷移分類器(BRTL、MSBR)在所有問題上的平均分類精度,BRTL相對傳統分類器提高了22%,而文中提出的MSBR相對傳統分類器提高了48%.可以看到遷移算法對跨領域環境下的數據分類精度與傳統分數器相比有很明顯的提升.

表3 傳統分類器SVM、NB、TSVM在數據集上的分類精度Table 3 Classification accuracy of the traditional classifiers SVM,NB,TSVM on the data sets %

表4 BRTL在數據集上的分類精度Table 4 Classification accuracy of BRTL on the data sets %

表5 MSBR在數據集上的分類精度Table 5 Classification accuracy of MSBR on the data sets %

從表4可以看出,BRTL敏感于初始分類器的選擇,因此對同樣的數據集在不同的初始條件下得到的結果是不一樣的.比如說,TSVM在ng1上的結果要優于SVM和NB,因此BRTL在基于TSVM初始結果上的精化結果要優于基于SVM和NB的精化結果.由于對初始分類器的選擇較敏感,使得BRTL的結果變得不可靠.而表5中,MSBR對于每個問題的最終精化結果是一致的.

圖3 精化步數對結果的影響Fig.3 Effect of different refinement steps on the results

為了探討中間模型的變化對目標數據分類精度的影響,本研究分別繪出多步情況下MSBR算法在各數據集上的精度變化曲線,如圖3所示.由圖3可見,對于每個問題來說,MSBR算法最后得到的精度一致.換句話說,初始分類器的選擇沒有影響MSBR算法的最后結果.這有別于文獻[21]認為遷移效果受限于初始分類器的選擇的結論.本研究認為在精化步數足夠的條件下,算法在每個問題上的結果應該是一致的,這是由于從源數據遷移到目標數據的監督信息是一定的.然而兩步精化不足以優化目標數據的標簽結構,在多個中間模型的橋接下,源數據的標簽信息才能完全地被用來影響目標領域的標簽結構.

由圖3還可知,借助相關領域數據的監督信息可以改善目標領域在沒有標記數據情況下的分類精度,但是并不是在所有情況下都是如此.如圖3(b)所示,隨著精化步數n的增大,精度略微出現了下降.本研究認為這是由于ng2中的源數據和目標數據分布非常相似,因此傳統的分類器表現出較好的性能,而利用MSBR算法在橋接精化的過程中出現了標簽信息的損失,從而造成精度下降.

由圖3還可知,當n大于15時,算法精度趨于穩定,而后n的繼續增大并不能改變算法的效果.由此可見,15步精化對MSBR來說已經足夠.

由圖4可見,對于MSBR來說,當α的取值范圍在0.6到0.8之間時,算法精度J有較好的效果,本研究的實驗中將α設置為0.7.

圖4 α對MSBR結果的影響Fig.4 Effect of α on the results of MSBR

4 結語

本研究探討了跨領域數據分類的問題,以橋接精化為基礎,提出了一種遷移環境下的學習算法MSBR.即通過構造一系列中間模型建立起源數據與目標數據之間的連接,在此基礎上對鄰近的模型間執行交互精化,最終實現從源數據到目標數據的標簽傳播.該算法的優點是能夠充分利用源數據的標簽信息來影響目標數據的標簽結構,并且不敏感于初始分類器的選擇.實驗表明,該算法在效果上優于對比的幾個傳統分類器和BRTL,是有效可行的.

進一步研究將探討任務間的相似度如何影響遷移效果,同時也會考慮將MSBR應用到如從文本到圖片或者視頻的跨媒體場景中.

[1] Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years[J].Machine Learning,2008,73(1):3-23.

[2] Brown A L,Kane M J.Preschool children can learn to transfer:learning to learn and learning from example[J].Cognitive Psychology,1998,20(4):493-523.

[3] Thrun S,Pratt L Y.Learning to learn[M].Boston:Kluwer Academic Publishers,1998:1-13.

[4] Thrun S.Is learning the n-th thing any easier than learning the first?[C]∥Proceedings of the 12th Neural Information Processing Systems.Cambridge:MIT Press,1995:640-646.

[5] Thrun S,Mitchell T M.Learning one more thing[C]∥Proceedings of the 14th International Joint Conference on Artificial Intelligence.Quebec:IJCAI,1995:1217-1225.

[6] Caruana R.Multitask learning [J].Machine Learning,1997,28(1):41-75.

[7] Pan S,Yang Q.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2009,22(10):1345-1359.

[8] Mahmud M M H.On universal transfer learning[J].Theoretical Computer Science,2009,410(19):1826-1846.

[9] Ruckert U,Kramer S.Kernel-based inductive transfer[C]∥Machine Learning and Knowledge Discovery in Databases.Belgium:Springer,2008:220-233.

[10] Dai W,Xue G R,Yang Q,et al.Co-clustering based classification for out-of-domain documents[C]∥Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2007:210-219.

[11] Dai W,Yang Q,Xue G R,et al.Self-taught clustering[C]∥Proceedings of the Twenty-Fifth International Conference of Machine Learning.Helsinki:ACM,2008:200-207.

[12] Ling X,Dai W,Xue G R,et al.Spectral domain transfer learning[C]∥Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Nevada:ACM,2008:488-496.

[13] Dai W,Jin O,Xue G R,et al.EigenTransfer:a unified framework for transfer learning[C]∥Proceedings of the 26th International Conference on Machine Learning.Montreal:ACM,2009:193-200.

[14] Daume III H,Marcu D.Domain adaptation for statistical classiers[J].Journal of Artificial Intelligence Research,2006,26(1):101-126.

[15] Storkey A J,Sugiyama M.Mixture regression for covariate shift[C]∥Proceedings of the 21st Neural Information Processing Systems.Cambridge:MIT Press,2007:1337-1344.

[16] Wang F,Zhang C S.Label propagation through linear neighborhoods[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(1):55-67.

[17] Page L,Brin S,Motwani R,et al.The PageRank citation ranking:bringing order to the web[R].Stanford:Stanford Digital Library,1998.

[18] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

[19] Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Survey,2002,34(1):1-47.

[20] Joachims T.Making large-scale SVM learning practical[C]∥Advances in Kernel Methods:Support Vector Learning.Cambridge:MIT Press,1999:169-184.

[21] Rish I.An empirical study of the Naive Bayes classifier[C]∥Proceedings of IJCAI-01 Workshop on Empirical Methods in Artificial Intelligence.Washington:IJCAI,2001:41-46.

[22] Joachims T.Transductive inference for text classification using support vector machines[C]∥Proceedings of the 16th International Conference on Machine Learning.Slovenia:ACM,1999:200-209.

[23] Xing D,Dai W,Xue G R,et al.Bridged refinement for transfer learning[C]∥Proceedings of 11th European Conference on Practice of Knowledge Discovery in Databases.Warsaw:Springer,2007:324-335.

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产福利影院在线观看| 麻豆精品久久久久久久99蜜桃| 青青草一区二区免费精品| 中文字幕久久波多野结衣| 亚洲精品第一在线观看视频| 操操操综合网| 亚洲精品中文字幕午夜| 99性视频| 国产精品久久久久久久久| www.国产福利| 亚洲成人精品久久| 亚洲AV无码乱码在线观看代蜜桃| 毛片一级在线| 欧美精品亚洲精品日韩专区| 依依成人精品无v国产| 亚洲色偷偷偷鲁综合| 国产成人精品一区二区三区| 久久一日本道色综合久久| 少妇精品在线| 成人亚洲天堂| 国产永久免费视频m3u8| 狼友视频一区二区三区| 久久久久国产精品嫩草影院| 在线观看国产精美视频| 麻豆a级片| 日本道中文字幕久久一区| 无遮挡国产高潮视频免费观看| 日韩经典精品无码一区二区| 午夜啪啪福利| 久久人搡人人玩人妻精品| 中文字幕丝袜一区二区| yjizz视频最新网站在线| 日本手机在线视频| 在线99视频| 欧美啪啪一区| 亚洲成a人在线播放www| 亚洲高清无码久久久| 成色7777精品在线| 国产精品女人呻吟在线观看| 欧美成人区| 亚洲精品国产精品乱码不卞 | 亚洲男人天堂2020| 免费人成网站在线观看欧美| 欧美国产日韩在线观看| 在线色国产| 日韩美毛片| 久久天天躁狠狠躁夜夜2020一| 2018日日摸夜夜添狠狠躁| 激情综合激情| 久久精品人人做人人爽电影蜜月 | 国产99精品视频| 国产精品永久久久久| 在线免费观看a视频| 久久亚洲国产一区二区| 免费黄色国产视频| 精品国产电影久久九九| 日本三区视频| 高清色本在线www| 中美日韩在线网免费毛片视频| 亚洲中文字幕av无码区| 亚洲天堂网2014| 四虎永久在线视频| 亚洲欧美日韩久久精品| 日韩精品成人网页视频在线| 在线观看国产黄色| 五月天综合婷婷| 亚洲一区二区无码视频| 播五月综合| 精品亚洲麻豆1区2区3区| 性色一区| 国产91麻豆免费观看| 亚洲欧美另类日本| 国产成人精品日本亚洲77美色| 国产极品粉嫩小泬免费看| 欧美全免费aaaaaa特黄在线| 国产成人永久免费视频| 啪啪永久免费av| 91精品国产丝袜| 久草性视频| 亚洲熟妇AV日韩熟妇在线| 国产成在线观看免费视频| 无码专区第一页|