999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)分類(lèi)的領(lǐng)域自適應(yīng)新算法*

2014-09-14 01:33:58王士同
關(guān)鍵詞:分類(lèi)實(shí)驗(yàn)

顧 鑫,王士同

(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇 無(wú)錫214122;2.江蘇北方湖光光電有限責(zé)任公司,江蘇 無(wú)錫 214035)

基于數(shù)據(jù)分類(lèi)的領(lǐng)域自適應(yīng)新算法*

顧 鑫1,2,王士同1

(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇 無(wú)錫214122;2.江蘇北方湖光光電有限責(zé)任公司,江蘇 無(wú)錫 214035)

一般的機(jī)器學(xué)習(xí)都假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)分布相同,而領(lǐng)域自適應(yīng)算法則是在不同數(shù)據(jù)分布條件下進(jìn)行知識(shí)傳遞和學(xué)習(xí),在數(shù)據(jù)挖掘、數(shù)據(jù)校正、數(shù)據(jù)預(yù)測(cè)等領(lǐng)域有著廣泛的應(yīng)用。支持向量機(jī)SVM的主要思想是針對(duì)二分類(lèi)問(wèn)題,在高維空間尋找一個(gè)最優(yōu)分類(lèi)超平面,以保證最小的分類(lèi)錯(cuò)誤率。CCMEB理論由Tsang I提出的,是一種改進(jìn)了核向量機(jī)CVM的最小包含球算法,在大樣本數(shù)據(jù)集處理上有著較快的速度。而CCMEB理論同樣適用于二分類(lèi)的SVM數(shù)據(jù)集。將SVM理論、CCMEB理論與概率分布理論相結(jié)合,提出了一種全新的基于數(shù)據(jù)分類(lèi)的領(lǐng)域自適應(yīng)算法CCMEB-SVMDA,該算法通過(guò)計(jì)算各自分類(lèi)數(shù)據(jù)組的包含球球心,能夠有效地對(duì)不同領(lǐng)域數(shù)據(jù)進(jìn)行整體校正和相似度識(shí)別,具有較好的便捷性和自適應(yīng)性。在UCI數(shù)據(jù)、文本分類(lèi)等數(shù)據(jù)上對(duì)該算法進(jìn)行了驗(yàn)證,取得了較好的效果。

支持向量機(jī);領(lǐng)域自適應(yīng);最小包含球;中心約束型最小包含球

1 引言

傳統(tǒng)的知識(shí)學(xué)習(xí)一般假定訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自同樣的數(shù)據(jù)分布。但是,在實(shí)際情況下由于多種原因這種假設(shè)并不成立,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)往往有不同的分布,當(dāng)分布發(fā)生變化時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)方法必須從頭開(kāi)始,需要用戶重新收集大量的訓(xùn)練數(shù)據(jù)。重新收集訓(xùn)練數(shù)據(jù)和再次訓(xùn)練模型的代價(jià)是昂貴的,因此希望能夠運(yùn)用先前任務(wù)中所學(xué)到的知識(shí)來(lái)幫助學(xué)習(xí)新的任務(wù),減少對(duì)新的訓(xùn)練數(shù)據(jù)的需求。而領(lǐng)域自適應(yīng)[1,2]可以看做是一種特殊的遷移學(xué)習(xí),其任務(wù)是傳遞和共享不同任務(wù)和域之間的知識(shí)。領(lǐng)域適應(yīng)性的研究主要體現(xiàn)在兩個(gè)方面:一是特征表示,二是概率分布。特征表示重點(diǎn)研究如何對(duì)于目標(biāo)領(lǐng)域進(jìn)行特征選取[3~6]。概率分布則是通過(guò)計(jì)算不同領(lǐng)域之間的概率分布差異度來(lái)進(jìn)行領(lǐng)域自適應(yīng)的。文獻(xiàn)[1,7]從概率分布角度出發(fā)研究了領(lǐng)域適應(yīng)性方法。傳統(tǒng)的領(lǐng)域自適應(yīng)算法大都利用少量的目標(biāo)領(lǐng)域數(shù)據(jù)來(lái)判斷相關(guān)性,容易出現(xiàn)過(guò)度擬合,使泛化誤差較大、抗干擾性弱且不適用于大樣本運(yùn)算。

本文從大樣本、抗干擾出發(fā)提出了新的算法,其核心思想是首先將分類(lèi)數(shù)據(jù)(SVM數(shù)據(jù))(Support Vector Machines)進(jìn)行最小包含球化,然后分別計(jì)算出源始領(lǐng)域、目標(biāo)領(lǐng)域相對(duì)于最小包含球球心的概率估計(jì)值,通過(guò)概率估計(jì)值之間的積分差判斷出源始領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)分布的差異度。為了在不同領(lǐng)域之間完成大樣本學(xué)習(xí),參考中心約束型最小包含球CCMEB(Center Constrained Minimum Enclosing Ball)理論[8~11]提出了CCMEB-SVMDA (CCMEB ON Support Vector Machines Domain Adaptation)算法,該算法有如下特點(diǎn):(1)能將不同域或近似域進(jìn)行整體比較,判斷它們的相似度,從而快速判斷其數(shù)據(jù)分類(lèi)屬性。(2)有較強(qiáng)的抗擾動(dòng)性,通過(guò)提高源始領(lǐng)域與目標(biāo)領(lǐng)域的相似度,消除有害樣本對(duì)分類(lèi)器的誤導(dǎo),提高分類(lèi)精度。(3)只需獲取部分目標(biāo)域數(shù)據(jù)就能完成領(lǐng)域自適應(yīng)學(xué)習(xí),而該特性對(duì)隱私保護(hù)、海量數(shù)據(jù)處理和局部數(shù)據(jù)分類(lèi)等都有著較好的應(yīng)用,能在不重新搜集數(shù)據(jù)或者搜集少量數(shù)據(jù)的情況下,有效地提高分類(lèi)效果。該算法對(duì)不同類(lèi)型的領(lǐng)域數(shù)據(jù)有著較好的泛化能力,實(shí)驗(yàn)結(jié)果表明該算法具有較高的效率和準(zhǔn)確性。

本文在以下三個(gè)方面做出了貢獻(xiàn):

(1)將概率密度差理論與最小包含球理論相結(jié)合,提出了一種新的領(lǐng)域自適應(yīng)算法MEB-SVMDA,該算法可演化為面向大樣本的快速算法。

(2)提出了面向大樣本的快速算法CCMEB-SVMDA,該算法既適用于大樣本數(shù)據(jù),也適用于小樣本數(shù)據(jù)。

(3) CCMEB-SVMDA從抗擾動(dòng)性角度展示了較強(qiáng)的領(lǐng)域自適應(yīng)性。

2 最小包含球理論

2.1 傳統(tǒng)最小包含球MEB

MEB的主要思想是找到包含一類(lèi)數(shù)據(jù)的超球,并且使球的半徑盡量小。其QP化、核化后的對(duì)偶問(wèn)題為:

(1)

其中,ai為L(zhǎng)agrange乘子的子項(xiàng),N為樣本數(shù)量,k(xi,xj)為核函數(shù),diag(k(xi,xj))為提取矩陣k(xi,xj)主對(duì)角線元素,C′為懲罰系數(shù)。

通過(guò)公式(1)可求出半徑和球心:

(2)

(3)

該算法可等價(jià)為:

(4)

2.2SVM的最小包含球化[12,13](MEB-SVM)

支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展出的一種性能優(yōu)良的學(xué)習(xí)機(jī)器。TsangI在文獻(xiàn)[8]中指出,SVM算法可以歸結(jié)為MEB問(wèn)題求解,為后續(xù)的快速求解提供條件。其QP化、核化后的對(duì)偶問(wèn)題為:

(5)

其中,N為樣本數(shù)量,xi為樣本數(shù)據(jù),yi為樣本標(biāo)簽,δij為附加的參數(shù)量。

當(dāng)i=j時(shí),δij=1,其他情況下δij=0,將公式(5)簡(jiǎn)化后為:

(6)

(7)

公式(7)中當(dāng)所采用的核函數(shù)滿足公式(3)時(shí)則:

(8)

(9)

其中,ei為一調(diào)節(jié)量,詳見(jiàn)文獻(xiàn)[1]。

2.3CCMEB理論

(10)

由公式(10)的最優(yōu)解可得該最小包含球的中心點(diǎn)c和半徑r:

(11)

由于αT1=1,故在公式(10)的目標(biāo)函數(shù)中增加一項(xiàng)-ηαT1(η∈R)將不會(huì)影響最優(yōu)解的值,于是得到下式:

(12)

(13)

通過(guò)不斷選擇樣本點(diǎn),迭代比較公式(11)與公式(13)的值,我們先求出樣本空間的核心點(diǎn)(Core-set),繼而可求出最小包含球球心c,具體過(guò)程見(jiàn)參考文獻(xiàn)[6]。

3 基于SVM的領(lǐng)域自適應(yīng)算法CCMEB-SVMDA

3.1MEB-SVMDA算法

(14)

證明

(15)

其中,Rd為d維實(shí)數(shù)集。

(2)等價(jià)MEB:

不失一般性,本文選高斯函數(shù)為核函數(shù),即Kh(x,xi)=Gh(x,xi),則:

(16)

(17)

得:

(18)

證畢。

我們需要判斷的是兩個(gè)樣本域之間是否相似或存在某種關(guān)聯(lián)性。根據(jù)ParzenWindows理論可知,利用有限的采樣樣本可以計(jì)算出對(duì)應(yīng)點(diǎn)的概率估計(jì)。這里設(shè)Zi相對(duì)于D1樣本空間概率估計(jì)為PD1(Zi),設(shè)Zi相對(duì)于D2樣本空間概率估計(jì)為PD2(Zi)。使用最小累積平方誤差,使PD2(Zi)最優(yōu)逼近源域概率密度PD1(Zi),即如下表示:

(19)

根據(jù)ParzenWindows概率公式:

(20)

將公式(20)代入到公式(19)中,展開(kāi)如下:

(21)

則密度差估計(jì)公式可簡(jiǎn)化為:

(22)

所以得出結(jié)論,兩樣本是否相似與各自球的半徑無(wú)關(guān)而與球心相關(guān)。根據(jù)定理1可知公式(19)等價(jià)于最小包含球問(wèn)題。總結(jié)后的公式為:

(23)

在得出公式(23)后,為了方便求解將此公式化解為一QP問(wèn)題求解,化解后的公式如下:

(24)

因?yàn)閏為原樣本空間的最小包含球的球心,其公式為:

(25)

將公式(25)代入公式(24)得到求解公式如下:

(26)

將公式(7)~公式(9)代入公式(26),通過(guò)計(jì)算可得新的最小包含球映射在二維空間的球心公式:

(27)

3.2 CCMEB-SVMDA算法

在小樣本條件下MEB-SVMDA有著較好的運(yùn)算速度,但對(duì)大樣本數(shù)據(jù)的處理就顯得力不從心。在MEB-SVMDA的基礎(chǔ)上提出了CCMEB-SVMDA算法,實(shí)驗(yàn)發(fā)現(xiàn)其有著較好的運(yùn)行效率。算法表述如下:將公式(26)參考2.3節(jié)的CCMEB算法取:

(28)

此時(shí)只要選擇足夠大的η,使Δ≥0,此時(shí)公式(29)即是一個(gè)標(biāo)準(zhǔn)的CCMEB問(wèn)題,于是結(jié)合Core-set技術(shù)就可得到本文的CCMEB-DA算法。其QP公式如下:

(29)

(30)

將公式(7)~公式(9)代入公式(30),計(jì)算可得球半徑和球心,分別為:

(31)

(32)

3.3 領(lǐng)域依賴系數(shù)參數(shù)選擇

公式(14)中定義了領(lǐng)域依賴系數(shù)μ,該系數(shù)越大,源始領(lǐng)域球心與目標(biāo)領(lǐng)域球心越接近,則領(lǐng)域校正能力越強(qiáng),但求得的目標(biāo)領(lǐng)域最小包含球識(shí)別精度就越低(球外點(diǎn)越多)。為了能盡可能多地將測(cè)試點(diǎn)用最小包含球包圍,同時(shí)又要盡可能靠近源始領(lǐng)域的球心,所以需要對(duì)μ進(jìn)行選擇。首先定義兩個(gè)概念:

(1)最小包含球識(shí)別精度RA(Recognition accuracy)定義如下:

RA=(SPI/TSP)*100%

其中,SPI(Sample Points Inside)表示最小包含球內(nèi)部樣本點(diǎn)個(gè)數(shù),TSP(Total Sample Points)表示總樣本點(diǎn)個(gè)數(shù)。

RA的值越大,則表明算法識(shí)別率越高。

(2)領(lǐng)域漂移度DDV(Domain Drift Volume)定義如下:

DDV= (Distance/R)*100%

其中,R為源始領(lǐng)域的最小包含球半徑,Distance為源始領(lǐng)域與目標(biāo)領(lǐng)域球心之間的距離。

DDV的值越小,則說(shuō)明領(lǐng)域相似度越高,通常我們將設(shè)定一閾值來(lái)判別領(lǐng)域相似性。如DDV≤ 50%,兩個(gè)領(lǐng)域相似;DDV>50%,兩個(gè)領(lǐng)域無(wú)關(guān)。

在對(duì)μ進(jìn)行取值時(shí)要盡可能地提高“最小包含球識(shí)別精度RA”,同時(shí)也要盡量減小“領(lǐng)域漂移度DDV”。只有這樣才能實(shí)現(xiàn)最大限度地利用已有數(shù)據(jù)學(xué)習(xí)的同時(shí)不丟失現(xiàn)有數(shù)據(jù),從而達(dá)到領(lǐng)域自適應(yīng)性。

3.4 CCMEB-SVMDA求解過(guò)程

CCMEB-SVMDA解題步驟如下。

輸入:D1、D2,其中D1為原樣本空間,含有N個(gè)樣本點(diǎn)Zj,D2為目標(biāo)樣本空間,含有N個(gè)樣本點(diǎn)Zi;

步驟1利用CCMEB算法求出D1空間核心集的CORE-SET-1,并求出最小包含球的球心c和半徑R。

步驟2利用核心集CORE-SET-1求出公式(10)對(duì)應(yīng)D1空間的拉格朗日系數(shù)αj,最小包含球的球心c和半徑R:

步驟3利用CCMEB-SVMDA算法求出D2空間核心集的CORE-SET-2。

步驟5(測(cè)試):計(jì)算出不同領(lǐng)域之間的漂移度DDV,判斷領(lǐng)域的相似性。

3.5 CCMEB-SVMDA算法復(fù)雜度分析

標(biāo)準(zhǔn)最小包含球算法的時(shí)間復(fù)雜度為O(m2),空間復(fù)雜度為O(m2),其中m為樣本的規(guī)模。CCMEB利用基于MEB的核心集快速求解,時(shí)間復(fù)雜度和樣本規(guī)模m呈線性關(guān)系,空間復(fù)雜度不依賴于樣本規(guī)模,大大提高了運(yùn)算速度。3.4節(jié)步驟3在迭代求解核心集Qt(其中t表示核心點(diǎn)數(shù)目)時(shí),每作一次迭代運(yùn)算的時(shí)間復(fù)雜度為O(|Qt|2+|D2|· |Qt|),當(dāng)樣本D2規(guī)模較大時(shí)非常耗時(shí)。本文參考文獻(xiàn)[14]提出的加速方法,在樣本D2中隨機(jī)抽取一子集D21作為替代,尋找距離中心最遠(yuǎn)的點(diǎn)。文獻(xiàn)[15]證明了當(dāng)子集大小為59時(shí),最遠(yuǎn)點(diǎn)在D21中的概率為95%。時(shí)間復(fù)雜度則下降為O(|Qt|2+|D21|·|Qt|),其中|D21|為59。這時(shí)數(shù)據(jù)求解規(guī)模遠(yuǎn)遠(yuǎn)小于樣本總體規(guī)模,其時(shí)間復(fù)雜度也遠(yuǎn)遠(yuǎn)小于求解所有樣本的時(shí)間復(fù)雜度。CCMEB-SVMDA算法將CCMEB理論作用于大數(shù)據(jù)集快速運(yùn)算,因此算法復(fù)雜度可參考CVM[3,10],其時(shí)間復(fù)雜度上界為O(m/ε2+1/ε4),與樣本規(guī)模m呈線性關(guān)系,其空間復(fù)雜度上界為O(1/ε2),可使用存儲(chǔ)核心集代替所有樣本而不依賴于樣本規(guī)模(ε為Core-set逼近精度)。

4 實(shí)驗(yàn)結(jié)果及其分析

本節(jié)實(shí)驗(yàn)分為三部分。第一部分為人工數(shù)據(jù),主要從抗擾動(dòng)、隱私保護(hù)和數(shù)據(jù)缺失兩方面驗(yàn)證算法的合理性和自適應(yīng)性。第二部分為UCI真實(shí)數(shù)據(jù)集,主要驗(yàn)證算法針對(duì)小樣本真實(shí)數(shù)據(jù)的領(lǐng)域自適應(yīng)性。第三部分為DatabaseonManhattantraffic數(shù)據(jù)集,用來(lái)進(jìn)行大樣本真實(shí)數(shù)據(jù)的算法驗(yàn)證。需要注意的是,本文研究方向?yàn)榭珙I(lǐng)域?qū)W習(xí),其源始域與目標(biāo)域數(shù)據(jù)分布不同但近似,源域與目標(biāo)域的分布差異可參考文獻(xiàn)[16,17]進(jìn)行量化。

4.1 人工生成數(shù)據(jù)

(1)數(shù)據(jù)生成與參數(shù)選擇。

人工數(shù)據(jù)實(shí)驗(yàn)主要驗(yàn)證算法原理的合理性。在自生成數(shù)據(jù)實(shí)驗(yàn)中,本文采用f(x)=ax2+bx+c作為二維數(shù)據(jù)的分割線來(lái)構(gòu)造SVM數(shù)據(jù)集。固定參數(shù)b,c的取值,通過(guò)改變參數(shù)a的值形成不同的二分類(lèi)數(shù)據(jù)集合,然后選擇11組二維向量數(shù)據(jù),每一組數(shù)據(jù)均含60 000個(gè)隨機(jī)樣本點(diǎn),11組數(shù)據(jù)均為指定條件下的隨機(jī)分布。其中,Train數(shù)據(jù)集設(shè)定為源始領(lǐng)域,其余數(shù)據(jù)集為目標(biāo)領(lǐng)域,其分布情況如表1所示。

表1中的Train、Test1和Test2的數(shù)據(jù)分布相同,其余則不同。為了滿足算法抗干擾性測(cè)試,人為地對(duì)Test1、Test2加以擾動(dòng),加入了不超過(guò)10%的錯(cuò)誤分類(lèi)樣本點(diǎn),錯(cuò)誤樣本點(diǎn)為T(mén)est3~Test10中的隨機(jī)抽取點(diǎn)。算法首先需要確定μ的取值,選擇相似的領(lǐng)域數(shù)據(jù)集(Train,Test1),通過(guò)反復(fù)實(shí)驗(yàn)比較得到圖1所示結(jié)果。

Table1 Artificially generated data set表1 人工生成數(shù)據(jù)分布設(shè)定

Figure 1 μ selection experiment(Artificial data)圖1 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(人工數(shù)據(jù))

通過(guò)觀察圖1可以發(fā)現(xiàn),當(dāng)μ取值大于10時(shí),識(shí)別精度RA顯著下降,而當(dāng)μ小于10時(shí),漂移度DDV明顯增強(qiáng),算法的校正功能下降。可知理想的情況應(yīng)該是最小包含球識(shí)別精度RA大于90%,領(lǐng)域漂移度DDV小于50%。基于這種標(biāo)準(zhǔn)我們將參數(shù)μ設(shè)定為10。

(2)數(shù)據(jù)擾動(dòng)下的自適應(yīng)測(cè)試。

CCMEB算法只能求出各自領(lǐng)域數(shù)據(jù)集的球心而不具備抗擾動(dòng)性,在數(shù)據(jù)受到擾動(dòng)的情況下,我們通過(guò)CCMEB算法與CCMEB-SVMDA算法的比較測(cè)試本文算法的領(lǐng)域自適應(yīng)性。具體作法如下:首先通過(guò)CCMEB算法求出源始領(lǐng)域的球心坐標(biāo)、目標(biāo)領(lǐng)域的最小包含球球心坐標(biāo),以及各目標(biāo)領(lǐng)域與源始領(lǐng)域的球心間距離;然后通過(guò)CCMEB-SVMDA算法計(jì)算出目標(biāo)領(lǐng)域相對(duì)于源始領(lǐng)域的球心坐標(biāo)和目標(biāo)領(lǐng)域相對(duì)于源始領(lǐng)域的球心間距離。數(shù)據(jù)結(jié)果見(jiàn)表2。

Table 2 Artificial data’s distance表2 人工數(shù)據(jù)集的Distance統(tǒng)計(jì)

本文3.3節(jié)曾定義過(guò)領(lǐng)域漂移度DDV,本實(shí)驗(yàn)將在表2的基礎(chǔ)上分別計(jì)算出純粹采用CCMEB算法的DDV值與采用CCMEB-SVMDA算法的DDV值,計(jì)算結(jié)果如表3所示。

Table 3 DDV of two algorithms(Artificial data)表3 不同算法DDV對(duì)比(人工數(shù)據(jù)) %

對(duì)比觀察表3可以發(fā)現(xiàn),CCMEB-SVMDA算法的領(lǐng)域漂移度更小,目標(biāo)領(lǐng)域球心更加靠近源始領(lǐng)域,算法能夠較好地克服因擾動(dòng)數(shù)據(jù)帶來(lái)的領(lǐng)域漂移,從而完成數(shù)據(jù)校正功能。當(dāng)DDV閾值設(shè)為50%時(shí),CCMEB-SVMDA算法相對(duì)于CCMEB算法有著較好的領(lǐng)域自適應(yīng)性,能夠校正Test1與Test2中的擾動(dòng),判斷出Train、Test1和Test2之間的相似性。而對(duì)于數(shù)據(jù)分布明顯不同的數(shù)據(jù),如Test3~Test10也能夠通過(guò)球心之間的距離反映出不同領(lǐng)域之間的差異大小。

(3)隱私保護(hù)與數(shù)據(jù)缺失測(cè)試。

為了測(cè)試CCMEB-SVMDA算法是否具有隱私保護(hù)功能,我們按不同百分比抽取目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行測(cè)試,判斷該算法的領(lǐng)域漂移度DDV,實(shí)驗(yàn)結(jié)果如圖2所示。

Figure 2 DDV vs sampling percentage(Artificial Data)圖2 局部數(shù)據(jù)的領(lǐng)域漂移度分析(人工數(shù)據(jù))

通過(guò)圖2可以發(fā)現(xiàn),雖然當(dāng)取樣百分比變化時(shí)領(lǐng)域漂移度也有所波動(dòng),但總體來(lái)說(shuō)波動(dòng)范圍不大,且領(lǐng)域?qū)傩耘袛喾指蠲黠@,說(shuō)明CCMEB-SVMDA算法對(duì)目標(biāo)源數(shù)據(jù)完整性的依賴度不大,而該特性可應(yīng)用在“數(shù)據(jù)的隱私保護(hù)”、“海量數(shù)據(jù)處理”、“數(shù)據(jù)丟失、缺失處理”等領(lǐng)域。在此需要說(shuō)明該特性不適用于小樣本數(shù)據(jù)。

4.2 UCI數(shù)據(jù)

(1)數(shù)據(jù)生成與參數(shù)選擇。

本文選用UCI數(shù)據(jù)庫(kù)的Car、Abalon 兩個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)樣本。具體數(shù)據(jù)如表4所示。

Table 4 Data characteristics description(UCI)表4 數(shù)據(jù)集數(shù)據(jù)特征(UCI)

在做Car數(shù)據(jù)庫(kù)實(shí)驗(yàn)時(shí),我們將四類(lèi)樣本數(shù)據(jù)(unacc, acc, good,vgood) 兩兩配對(duì),組合成二分類(lèi)的SVM數(shù)據(jù)集,并分別對(duì)應(yīng)CCMEB-SVMDA算法的源始領(lǐng)域與目標(biāo)領(lǐng)域。同理,選擇Abalon數(shù)據(jù)庫(kù)中的Abalon8~Abalon11四類(lèi)數(shù)據(jù),將其兩兩配對(duì)形成CCMEB-SVMDA算法的源始領(lǐng)域與目標(biāo)領(lǐng)域,如表5所示。

Table 5 UCI data packet set表5 UCI數(shù)據(jù)分組設(shè)定

數(shù)據(jù)集生成后需確定μ的取值,選擇相似的領(lǐng)域數(shù)據(jù)集通過(guò)反復(fù)實(shí)驗(yàn)比較的結(jié)果如圖3和圖4所示。

Figure 3 μ selection experiment(Car data)圖3 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(Car數(shù)據(jù))

Figure 4 μ selection experiment(Abalon data)圖4 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(Abalon數(shù)據(jù))

參照4.1節(jié)方法,Car數(shù)據(jù)集的μ選擇為12,Abalon數(shù)據(jù)集的μ選擇為15。

(2)數(shù)據(jù)擾動(dòng)下的自適應(yīng)測(cè)試。

表6、表7中的第一、二組為同樣屬性的分類(lèi)數(shù)據(jù),其余則不同。為了滿足算法抗干擾性測(cè)試,人為地對(duì)第一、二組數(shù)據(jù)加以擾動(dòng),加入了不超過(guò)10%的錯(cuò)誤分類(lèi)樣本點(diǎn),錯(cuò)誤樣本點(diǎn)為其他分類(lèi)數(shù)據(jù)的隨機(jī)抽取點(diǎn)。測(cè)試方法與4.1節(jié)相同。

Table 6 DDV of two algorithms(Car data)表6 不同算法DDV對(duì)比(Car數(shù)據(jù)) %

Table 7 DDV of two algorithms(Abalon data)表7 不同算法DDV對(duì)比(Abalon數(shù)據(jù)) %

對(duì)比表6和表7可以發(fā)現(xiàn),CCMEB-SVMDA算法的領(lǐng)域漂移度更小,更加靠近源始領(lǐng)域,相同分類(lèi)問(wèn)題的領(lǐng)域偏移度較小。該實(shí)驗(yàn)設(shè)定DDV閾值為50%,當(dāng)Distance較小時(shí),可以判別源始領(lǐng)域與目標(biāo)領(lǐng)域?yàn)橥籗VM二分類(lèi)問(wèn)題;當(dāng)Distance較大時(shí)源始領(lǐng)域與目標(biāo)領(lǐng)域?yàn)椴煌琒VM二分類(lèi)問(wèn)題,說(shuō)明CCMEB-SVMDA算法通過(guò)遷移學(xué)習(xí)較好地克服了因擾動(dòng)數(shù)據(jù)帶來(lái)的領(lǐng)域漂移,盡量多地利用源有信息實(shí)現(xiàn)了領(lǐng)域自適應(yīng)。

4.3 Database on Manhattan traffic(曼哈頓交通數(shù)據(jù)集)

(1)數(shù)據(jù)生成與參數(shù)選擇。

曼哈頓交通數(shù)據(jù)集(下載自http://www.datatang.com/)為文本數(shù)據(jù),該數(shù)據(jù)的特征如表8所示。

Table 8 Data characteristics description (Manhattan)表8 數(shù)據(jù)集數(shù)據(jù)特征

本文從數(shù)據(jù)集中選擇四類(lèi)數(shù)據(jù)(MT1~MT4)并隨機(jī)各抽取30 000個(gè)樣本點(diǎn),然后將四類(lèi)數(shù)據(jù)兩兩配對(duì)分成源始領(lǐng)域數(shù)據(jù)集與目標(biāo)領(lǐng)域數(shù)據(jù)集。領(lǐng)域依賴系數(shù)選擇方法參照4.1節(jié),具體結(jié)果如圖5所示。

Figure 5 μ selection experiment(Manhattan data)圖5 領(lǐng)域依賴系數(shù)選擇實(shí)驗(yàn)(曼哈頓交通數(shù)據(jù))

觀察圖5可以發(fā)現(xiàn),當(dāng)μ取值大于9時(shí),識(shí)別精度RA顯著下降,而當(dāng)μ小于9時(shí),漂移度DDV明顯增強(qiáng),算法的校正功能下降。可知理想的情況應(yīng)該是最小包含球識(shí)別精度RA大于90%,領(lǐng)域漂移度DDV小于50%。基于這種標(biāo)準(zhǔn),我們將參數(shù)μ設(shè)定為10。

(2)數(shù)據(jù)集的領(lǐng)域自適應(yīng)測(cè)試。

在同一數(shù)據(jù)集的情況下,源始領(lǐng)域與目標(biāo)領(lǐng)域球心越接近,則領(lǐng)域分類(lèi)屬性越相似,反之則為不同分類(lèi)問(wèn)題。在此設(shè)定Distance為源始領(lǐng)域與目標(biāo)領(lǐng)域球心之間距離,通過(guò)CCMEB-SVMDA算法計(jì)算出Distance數(shù)據(jù)結(jié)果,如表9所示。

觀察表9可以發(fā)現(xiàn),相同分類(lèi)屬性的球間距明顯小于不同類(lèi)子集之間的球心間距。結(jié)果顯示算法能較好地體現(xiàn)不同領(lǐng)域之間的相關(guān)性,具有較好的領(lǐng)域自適應(yīng)性。

(3)領(lǐng)域自適應(yīng)與數(shù)據(jù)缺失測(cè)試。

與上節(jié)相同,我們按不同百分比抽取目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行測(cè)試,判斷該算法的領(lǐng)域漂移度DDV,實(shí)驗(yàn)結(jié)果如圖6所示。

Figure 6 DDV vs sampling percentage(Manhattan data)圖6 局部數(shù)據(jù)的領(lǐng)域漂移度分析(曼哈頓交通數(shù)據(jù))

目標(biāo)領(lǐng)域源始領(lǐng)域MT1AMT2AMT1AMT3AMT1AMT4AMT2AMT3AMT2AMT4AMT3AMT4AMT4AMT4AMT1BMT2B0.36324.43934.93364.90355.99945.19025.0303MT1BMT3B5.24450.32114.67275.26255.03324.66494.6959MT1BMT4B4.93024.54080.48525.20355.35874.85674.3694MT2BMT3B4.91375.46895.20450.22335.21285.35825.7321MT2BMT4B4.56035.22335.34685.21570.37215.12425.4568MT3BMT4B5.13624.71254.49985.74325.68984.68294.6150MT4BMT4B5.72354.21384.26895.23895.76914.61110.3212

通過(guò)圖6依然可以發(fā)現(xiàn),在大樣本真實(shí)數(shù)據(jù)集情況下,CCMEB-SVMDA算法的領(lǐng)域漂移度對(duì)目標(biāo)源數(shù)據(jù)完整性的依賴度不大,且領(lǐng)域相關(guān)性分割清晰,該特性可應(yīng)用于數(shù)據(jù)的隱私保護(hù)和數(shù)據(jù)缺失處理。

5 結(jié)束語(yǔ)

本文將SVM、MEB、CCMEB理論應(yīng)用在領(lǐng)域自適應(yīng)研究上,提出了MEB-SVMDA、CCMEB-SVMDA算法。在求解目標(biāo)域球心位置時(shí)盡可能多地利用到源域數(shù)據(jù)完成知識(shí)傳遞,并發(fā)現(xiàn)不同域之間的內(nèi)部聯(lián)系。最后通過(guò)比較不同域球心位置實(shí)現(xiàn)數(shù)據(jù)的修正和校正。為了滿足大樣本數(shù)據(jù)集運(yùn)算要求,引入了CVM、CCMEB理論,大量的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性和快速性。

[1] Daumé III H, Marcu D. Domain adaptation for statistical classifiers[J ].Journal of Artificial Intelligence Research,2006, 26(1):101-126.

[2] Blitzer J, McDonald R, Percira F. Domain adaptation with structural correspondence learning[C]∥Proc of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006:120-128.

[3] Daumé III H. Frustratingly easy domain adaptation[C]∥Proc of the 45th Annual Meetingassociation of Computational Linguistics, 2007:1.

[4] Jiang Jin, Zhai Cheng-xiang. A two-stage approach to domain adaptation for statistical classifiers[C]∥Proc of CIKM’07, 2007:401-410.

[5] Blitzer J, Dredze M, Pereira F, et al. Biographies, bollywood, boom-boxes and blenders:Domain adaptation for sentiment classification[C]∥Proc of ACL’07, 2007:440-447.

[6] Satpal S, Sarawagi S. Domain adaptation of conditional probability models via feature subsetting[C]∥Proc of PKDD’07,2007:224-235.

[7] Jiang Jin, Zhai Cheng-xiang. Instance weighting for domain adaptation in NLP[C]∥Proc of ACL’07, 2007:264-271.

[8] Tsang I W, Kwok J T, Cheung P, et al. Core vector machines:Fast SVM training on very large data sets[J]. Journal of Machine Learning Research, 2005, 6(4):363-392.

[9] Qian Peng-jiang,Wang Shi-tong,Deng Zhao-hong.Fast mean shift spectral clustering on large data sets[J]. Control and Decision, 2010, 25(9):1307-1312.(in Chinese)

[10] Tsang I,Kwork J,Zurada J.Generlized core vector machines[J]. IEEE Transactions on Neural Networks,2006,17(5):1126-1139.

[11] Hu Wen-jun, Wang Shi-tong, Deng Zhao-hong. Maximum vector angular margin core vector machine suitable for fast training for large datasets[J]. Acta Electronica Sinica, 2011,39(5):1178-1184.(in Chinese)

[12] Guo Rui-hua, Cheng Guo-jiang. Pattern classification and experiment testing based on core vector machine[J]. Microelectronics & Computer, 2010,27(9):190-192.(in Chinese)

[13] Fan Long-feng.A boosting feature selection method for core vector machine[J]. Electronic Technology, 2010,37(10):17-21.(in Chinese)

[14] Smola A J, Scholkopf B. Sparse greedy matrix approximation for machine learning[C]∥Proc of the 17th International Conference on Machine Learning, 2000:911-918.

[15] Pan S J, Kwok J T, Yang Q. Transfer learning via dimensionality reduction[C]∥Proc of the 23rd Associate for the Advancement of Artificial Intelligence, 2008:677-682.

[16] Suzuki T. Mutual information approximation via maximum likelihood estimation of density ratio [C]∥Proc of IEEE International Symposium on Information Theory, 2009:463-467.

[17] Suzuki T, Sugiyama M,Kanamori T. Mutual information approximation via maximum likelihood density ratio estimation[C]∥Proc of IEEE International Symposium on Information Theory, 2009:5-20.

附中文參考文獻(xiàn):

[9] 錢(qián)鵬江,王士同,鄧趙紅. 大數(shù)據(jù)集快速均值漂移譜聚類(lèi)算法[J].控制與決策, 2010, 25(9):1307-1312.

[11] 胡文軍,王士同,鄧趙紅. 適合大樣本快速訓(xùn)練的最大夾角間隔核心集向量機(jī)[J]. 電子學(xué)報(bào),2011,39(5):1178-1184.

[12] 郭瑞華,程國(guó)建. 基于核向量機(jī)的模式分類(lèi)及其實(shí)驗(yàn)測(cè)試[J].微電子學(xué)與計(jì)算機(jī),2010,27(9):190-192.

[13] 樊龍夫.一種面向核支持向量機(jī)的boosting特征選擇方法[J]. 電子技術(shù), 2010,37(10):17-21.

GUXin,born in 1979,PhD candidate,engineer,his research interests include artifical intelligence, pattern recognition,and image processing.

王士同(1964-),男,江蘇揚(yáng)州人,教授,博士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄堋⒛J阶R(shí)別、數(shù)據(jù)挖掘、神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、醫(yī)學(xué)圖像處理和生物信息學(xué)。E-mail:wxwangst@yahoo.com.cn

WANGShi-tong,born in 1964,professor,PhD supervisor,his research interests include artifical intelligence, pattern recognition, data mining, neural networks, fuzzy system, medical image processing, and bioinformation.

Anoveldomainadaptationapproachbasedondataclassification

GU Xin1,2,WANG Shi-tong1

(1.School of Digital Media,Jiangnan University,Wuxi 214122;2.Jangsu North Huguang Opto-Electronics Co.Ltd., Wuxi 214035,China)

General machine learning assumes that the distribution of training data and test data are same, but the domain adaptation algorithms aims at handling different but similar distributions among training sets, which have a wide range of applications such as transfer learning, data mining, data correction, data projections. Support vector machine (SVM) attempts to find an optimal separating hyperplane for binary-classification problems in high-dimensional space, in order to ensure the minimum classification error rate. CCMEB proposed by I Tsang, as an improvement of the CVM, is particularly suitable for training on large datasets. In this article SVM and CCMEB are combined with probability distribution theory to formulate a novel domain adaptation approach (CCMEB-SVMDA). By calculating the center of each dataset, we can correct the dataset or identify the similarity of data between different domains.This fast algorithm has a good adaptability. As a validation we test it on the fields of “UCI data” and “text classification data” and the obtained experimental results indicate the effectiveness of the proposed algorithm.

SVM;domain adaptation;minimum enclosing ball;CCMEB

2012-09-20;

:2012-11-30

國(guó)家自然科學(xué)基金資助項(xiàng)目(61170122,60975027);江蘇省研究生創(chuàng)新工程項(xiàng)目(CXZZ11-0483)

1007-130X(2014)02-0275-11

TP391.4

:A

10.3969/j.issn.1007-130X.2014.02.015

顧鑫(1979-),男,江蘇張家港人,博士生,工程師,研究方向?yàn)槿斯ぶ悄堋⒛J阶R(shí)別和圖像處理。E-mail:guxinbest@sina.com

通信地址:214000 江蘇省無(wú)錫市鳳賓家園92號(hào)401室Address:Room 401,92 Fengbin Jiayuan,Wuxi 214000,Jiangsu,P.R.China

猜你喜歡
分類(lèi)實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 91精品国产一区| 国产精品一线天| 免费视频在线2021入口| 日韩无码精品人妻| 九九香蕉视频| 在线欧美日韩国产| 成人毛片免费在线观看| 亚洲国模精品一区| 亚洲男人天堂网址| 波多野结衣视频一区二区 | 成人免费一级片| 国产伦精品一区二区三区视频优播| 妇女自拍偷自拍亚洲精品| 97国产成人无码精品久久久| 91在线国内在线播放老师| 91欧美在线| 东京热一区二区三区无码视频| 粗大猛烈进出高潮视频无码| 久无码久无码av无码| 日韩AV无码免费一二三区| 91人人妻人人做人人爽男同 | 色丁丁毛片在线观看| 久久久久人妻一区精品色奶水| 亚洲一级色| 成人中文字幕在线| 久久国产拍爱| 亚洲中文精品人人永久免费| 成人综合久久综合| h网址在线观看| 欧洲亚洲欧美国产日本高清| 亚洲精品福利视频| 高清亚洲欧美在线看| 91久久国产成人免费观看| 日本三级精品| www亚洲精品| 欧美一区精品| 狠狠综合久久久久综| av在线人妻熟妇| 国产浮力第一页永久地址| 在线看国产精品| 91精选国产大片| 为你提供最新久久精品久久综合| 亚洲成人动漫在线观看 | 99视频在线看| 韩国v欧美v亚洲v日本v| а∨天堂一区中文字幕| 永久免费精品视频| 色偷偷一区二区三区| 思思99思思久久最新精品| av色爱 天堂网| 欧美黑人欧美精品刺激| 亚洲天堂自拍| 东京热一区二区三区无码视频| 少妇露出福利视频| 九九九精品成人免费视频7| 亚洲国产亚洲综合在线尤物| 丁香五月激情图片| 91无码国产视频| 国产成人久久777777| 99热这里只有精品在线观看| 999国产精品永久免费视频精品久久| 无码高潮喷水在线观看| 日韩在线中文| 国产91特黄特色A级毛片| 欧美一级高清片欧美国产欧美| 久久成人国产精品免费软件| 夜夜拍夜夜爽| 国产精品30p| 福利视频一区| 成人综合网址| 国产清纯在线一区二区WWW| 亚洲欧美精品一中文字幕| 欧美午夜网| 久久精品国产免费观看频道| 久久人人97超碰人人澡爱香蕉| av午夜福利一片免费看| 激情亚洲天堂| 中国国产A一级毛片| 国产欧美日韩资源在线观看| 国产毛片久久国产| 99热这里只有免费国产精品| 国产一区二区三区免费观看|