999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

域間F-范數(shù)正則化遷移譜聚類方法*

2018-03-12 08:39:23魏彩娜錢鵬江
計(jì)算機(jī)與生活 2018年3期
關(guān)鍵詞:特征

魏彩娜,錢鵬江,奚 臣

江南大學(xué) 數(shù)字媒體技術(shù)學(xué)院,江蘇 無錫 214122

1 引言

聚類分析是機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域的主要課題之一,致力于將一組未標(biāo)記的數(shù)據(jù)樣本按照它們內(nèi)在本質(zhì)上的親疏程度劃分到多個(gè)組(group)中,且同一組內(nèi)樣本間的相似程度應(yīng)足夠大,不同組間的相似程度應(yīng)足夠小[1-3]。然而現(xiàn)實(shí)中往往遇到由于信號(hào)干擾或環(huán)境噪聲等因素的影響,使得采集的數(shù)據(jù)樣本受到很大程度污染,不能理想反映數(shù)據(jù)內(nèi)在的分布特征的情況,此時(shí),傳統(tǒng)聚類分析算法的聚類性能常常面臨很大挑戰(zhàn)。

針對(duì)上述挑戰(zhàn),近年來機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)了遷移學(xué)習(xí)研究熱潮[4-7]。遷移學(xué)習(xí)可以很好地解決數(shù)據(jù)受干擾或噪聲影響時(shí)聚類效果差的問題,當(dāng)前在聚類、分類問題中引入遷移學(xué)習(xí)機(jī)制已引起了學(xué)者們的廣泛研究。Zhao等人將遷移學(xué)習(xí)運(yùn)用到在線任務(wù)上[4];Yang等人提出應(yīng)用于圖像聚類的異構(gòu)遷移學(xué)習(xí)方法[5];Dai等人提出自學(xué)習(xí)無監(jiān)督遷移聚類算法(selftaught clustering,STC),在大量的輔助未標(biāo)記數(shù)據(jù)的幫助下對(duì)目標(biāo)未標(biāo)注數(shù)據(jù)進(jìn)行聚類[6];Jiang等人提出遷移譜聚類算法(transfer spectral clustering,TSC),主要利用協(xié)同聚類來實(shí)現(xiàn)和控制任務(wù)之間的知識(shí)轉(zhuǎn)移[7];Qian等人提出的兩種基于多樣性測(cè)量和知識(shí)遷移的跨域軟分區(qū)聚類算法TI-KT-CM(type-I knowledgetransfer-oriented C-means)和TII-KT-CM(type-II knowledge-transfer-oriented C-means),主要解決數(shù)據(jù)不充分或由于大量的噪音干擾帶來異常值的問題[8]。

譜聚類方法作為聚類方法的一個(gè)研究分支,以圖論為理論基礎(chǔ),利用數(shù)據(jù)樣本間的相似度矩陣構(gòu)建(廣義)特征系統(tǒng),再基于此特征系統(tǒng)的特征矩陣進(jìn)行K-means或譜擾動(dòng)聚類[9]。其本質(zhì)是將聚類問題轉(zhuǎn)化為圖論中的無向加權(quán)圖的最優(yōu)分割問題。與現(xiàn)有的其他典型的聚類分析方法(如K-means[10]和模糊C均值[11])相比,譜聚類具有(近似)全局最優(yōu)解,且同時(shí)適用于凸形和非凸形數(shù)據(jù)集[9]。

本文以譜聚類為基礎(chǔ),利用遷移學(xué)習(xí)機(jī)制,提出域間F-范數(shù)正則化遷移譜聚類算法(transfer spectral clustering based on inter-domain F-norm regularization,TSC-IDFR)。TSC-IDFR的主旨是利用源域的歷史譜聚類知識(shí),即部分歷史特征向量來輔助目標(biāo)域的譜聚類過程。為此本文基于K近鄰(Knearest neighbor)策略[12]為目標(biāo)域每一數(shù)據(jù)樣本從源域挑選一可用來遷移歷史聚類知識(shí)的歷史樣本,利用這些歷史數(shù)據(jù)樣本的歷史特征向量組成歷史特征矩陣,結(jié)合F-范數(shù)正則化機(jī)制[13]構(gòu)造目標(biāo)域最優(yōu)譜聚類目標(biāo)函數(shù)完成聚類。本文算法具有三大特點(diǎn):

(1)通過遷移歷史特征矩陣,TSC-IDFR實(shí)現(xiàn)了對(duì)歷史知識(shí)的有效學(xué)習(xí)和利用,很大程度上提高了目標(biāo)算法在受干擾或噪聲影響的目標(biāo)數(shù)據(jù)集上的聚類效果。

(2)TSC-IDFR從源域遷移的是歷史特征矩陣這一高級(jí)歷史知識(shí),而非原始數(shù)據(jù)樣本,這在一定程度上可以滿足源域隱私保護(hù)的要求。

(3)通過第K近鄰點(diǎn)策略和為F-范數(shù)正則化項(xiàng)引入正則化系數(shù)λ(λ≥0),結(jié)合有效的聚類有效性驗(yàn)證指標(biāo),TSC-IDFR可以較靈活地決定關(guān)于源域歷史知識(shí)的借鑒程度,最終服務(wù)于目標(biāo)域的譜聚類過程。

2 相關(guān)工作

2.1 譜聚類算法

譜聚類是模式識(shí)別中聚類學(xué)習(xí)的重要技術(shù)之一[14-17],是一種基于圖論的聚類算法,它可以聚類并收斂于任意形狀樣本空間的全局最優(yōu)解,且能夠同時(shí)適用于凸形和非凸形的數(shù)據(jù)集。

給定樣本空間X={xi|xi∈Rd,i=1,2,…,N},d表示數(shù)據(jù)集的維度,N表示數(shù)據(jù)集樣本容量。G=(V,E,W)表示無向加權(quán)圖,其中數(shù)據(jù)集X中的每個(gè)數(shù)據(jù)對(duì)應(yīng)于圖G中的一個(gè)頂點(diǎn)V,每?jī)蓚€(gè)頂點(diǎn)vi、vj的連線構(gòu)成邊集合E,每條邊上的兩個(gè)頂點(diǎn)相似度wij作為邊的權(quán)重,所有邊的權(quán)重構(gòu)成了相似度矩陣W。兩個(gè)頂點(diǎn)間的相似度wij由采用的親和度函數(shù)計(jì)算而得,如高斯徑向基函數(shù):

L=稱為拉普拉斯矩陣(Laplacian matrix),其中D稱為度矩陣(degree matrix)且有D=diag(d11,

譜聚類的最優(yōu)化模型可以表示為:

其中,tr()表示矩陣的跡;U是由拉普拉斯矩陣L特征分解后的前k個(gè)特征向量歸一化以后組成的特征矩陣;k對(duì)應(yīng)聚類的類別數(shù)。

歸一化譜聚類算法(normalized spectral clustering)的具體執(zhí)行步驟如下:

步驟1根據(jù)式(1)計(jì)算相似度矩陣W,進(jìn)而計(jì)算度矩陣D和拉普拉斯矩陣L;

步驟2通過對(duì)L的特征分解得到前k個(gè)特征向量,對(duì)每一行進(jìn)行歸一化操作得到特征矩陣U;

步驟3通過k-means聚類或譜擾動(dòng)[9]算法對(duì)特征矩陣U的每一行進(jìn)行聚類。

2.2 遷移學(xué)習(xí)

遷移學(xué)習(xí)引起了廣泛的關(guān)注和研究,它是運(yùn)用已有的知識(shí)對(duì)不同但相關(guān)的領(lǐng)域問題進(jìn)行求解的一種機(jī)器學(xué)習(xí)方法的統(tǒng)稱。遷移學(xué)習(xí)也稱知識(shí)遷移,是從歷史場(chǎng)景(稱作源域)獲取有益信息(數(shù)據(jù)或知識(shí)),用于指導(dǎo)現(xiàn)有場(chǎng)景(稱作目標(biāo)域)的數(shù)據(jù)分析過程。遷移學(xué)習(xí)的目標(biāo)是將從一個(gè)環(huán)境中學(xué)到的知識(shí)用來幫助新環(huán)境中的學(xué)習(xí)任務(wù),即目標(biāo)域上的新的學(xué)習(xí)處理過程。關(guān)于遷移學(xué)習(xí)的整體介紹可參見文獻(xiàn)[18-23]。

遷移學(xué)習(xí)場(chǎng)景中,源域和目標(biāo)域的數(shù)據(jù)分布規(guī)律通常表象不同但內(nèi)在存在一定聯(lián)系。鑒于此特點(diǎn),目標(biāo)域如何有效地從源域發(fā)現(xiàn)有用的可借鑒知識(shí),并如何適度地借鑒學(xué)習(xí)此知識(shí)是知識(shí)遷移的關(guān)鍵問題之一。

3 基于域間F-范數(shù)正則化遷移的譜聚類算法

為了解決受噪聲或干擾信息影響的目標(biāo)域數(shù)據(jù)集的有效聚類問題,本文引入遷移學(xué)習(xí)機(jī)制,在F-范數(shù)正則化的基礎(chǔ)上構(gòu)建了遷移譜聚類算法TSC-IDFR。

介紹TSC-IDFR算法之前,首先介紹譜聚類方法中什么知識(shí)可以用來進(jìn)行源域到目標(biāo)域的知識(shí)遷移。如第2.1節(jié)所介紹,譜聚類最終將進(jìn)行基于拉普拉斯矩陣L的特征分解操作,得到由前k個(gè)特征向量(對(duì)應(yīng)于前k個(gè)最小的特征值)構(gòu)成的特征矩陣。也就是說譜聚類可以理解為將數(shù)據(jù)信息從原數(shù)據(jù)集X(N×d)變換成特征矩陣U(N×k),如圖1所示。

Fig.1 Transformation from data setXto eigenvector matrixUin spectral clustering圖1 譜聚類中原數(shù)據(jù)集X與特征矩陣U的轉(zhuǎn)換

譜聚類中這種從原數(shù)據(jù)集X到特征矩陣U的轉(zhuǎn)換過程給了人們很大的啟示。認(rèn)為U可被視作一種源域中的高級(jí)知識(shí),是對(duì)源域數(shù)據(jù)分布規(guī)律的一種高級(jí)知識(shí)表示形式,且這種知識(shí)表示可被目標(biāo)域的聚類過程借鑒學(xué)習(xí)。這正是本文最大的研究創(chuàng)新。如此,可以從兩方面受益:

(1)從源域獲得一種可用于目標(biāo)域知識(shí)借鑒的高級(jí)知識(shí)表示機(jī)制;

(2)基于特征矩陣進(jìn)行知識(shí)遷移而非源域數(shù)據(jù)樣本本身,這可滿足數(shù)據(jù)隱私保護(hù)環(huán)境下的遷移學(xué)習(xí)過程。

接著分析如何從源域獲取適用的特征矩陣用于目標(biāo)域的知識(shí)借鑒學(xué)習(xí)。這里需要強(qiáng)調(diào)一點(diǎn):本文重點(diǎn)關(guān)注一個(gè)經(jīng)典的遷移學(xué)習(xí)場(chǎng)景,即目標(biāo)域數(shù)據(jù)樣本由于受到一定程度的環(huán)境噪聲或干擾信息的影響,以至于數(shù)據(jù)樣本本身并不能準(zhǔn)確反映潛在的數(shù)據(jù)分布真相的場(chǎng)景。在此場(chǎng)景下,為目標(biāo)域的任意數(shù)據(jù)樣本從源域找到適宜的可從其借鑒知識(shí)的參照樣本是本文需要首先解決的問題(假設(shè)源域的數(shù)據(jù)量遠(yuǎn)大于目標(biāo)域的數(shù)據(jù)量)。為此,本文提出第K近鄰機(jī)制:對(duì)于目標(biāo)域中的任意樣本,從源域找距離它第K個(gè)最近的樣本作為它的可參照樣本(注意,這里不是選前K個(gè)最近的樣本,而是僅第K個(gè)最近樣本,即前面K-1個(gè)最近樣本都不被采用)。通過這種機(jī)制,本文旨在提出一種源域與目標(biāo)域之間的較具有靈活性的知識(shí)借鑒機(jī)制(本文K的最佳取值將通過網(wǎng)格尋優(yōu)策略決定)。這樣,基于目標(biāo)域的N個(gè)數(shù)據(jù)樣本可從源域找出由相應(yīng)N個(gè)樣本構(gòu)成的歷史被參照樣本子集,這些歷史被參照樣本在源域特征矩陣中的相應(yīng)行就構(gòu)成了最終用以目標(biāo)域知識(shí)借鑒的特征子矩陣(記作U(O))。

基于上述思想,在經(jīng)典譜聚類的最優(yōu)化架構(gòu)上融入對(duì)源域知識(shí)的借鑒學(xué)習(xí)項(xiàng),參考文獻(xiàn)[24-28]本文提出TSC-IDFR的最優(yōu)化目標(biāo)表達(dá)式。

根據(jù)遷移學(xué)習(xí)理論,源域數(shù)據(jù)(歷史被參照數(shù)據(jù))與目標(biāo)域數(shù)據(jù)(當(dāng)前待處理數(shù)據(jù))應(yīng)具有一定程度的相似性。本文用D(U(C),U(O))來度量目標(biāo)域數(shù)據(jù)上的譜聚類知識(shí)和源域數(shù)據(jù)上的譜聚類知識(shí)之間的不相似程度,其中U(C)和U(O)分別表示目標(biāo)域數(shù)據(jù)和源域數(shù)據(jù)的特征矩陣。為定義D(U(C),U(O)),本文引入線性核函數(shù)和F-范數(shù)的相關(guān)知識(shí)。用符號(hào)KU(C)和分別表示目標(biāo)域特征矩陣U(C)和源域特征矩陣U(O)對(duì)應(yīng)的相似度矩陣(由線性核函數(shù)計(jì)算而得),||*||F表示相似度矩陣的F范數(shù)。這樣本文D(U(C),U(O))可以定義為:

由于采用線性核函數(shù),將得到兩個(gè)性質(zhì):

式(4)等號(hào)右邊的式子等于F范數(shù)的平方,對(duì)于n×m矩陣A,其F范數(shù)為:

設(shè)B、C均為n矩陣,矩陣的跡具有以下性質(zhì):

為了找到目標(biāo)域數(shù)據(jù)上的譜聚類知識(shí)和源域數(shù)據(jù)上的譜聚類知識(shí)之間的不相似程度,按照F范數(shù)和矩陣跡的性質(zhì)和公式,式(4)改變?yōu)椋?/p>

經(jīng)過以上公式最終得到:

本文希望最小化不相似度D(U(C),U(O)),即最大化tr(U(C)U(C)TU(O)U(O)T)。這樣省略常數(shù)項(xiàng)因子,基于譜聚類目標(biāo)函數(shù),可以提出TSC-IDFR的最優(yōu)化目標(biāo)函數(shù):

其中,tr(U(C)TL(C)U(C))是原譜聚類最優(yōu)化項(xiàng);U(O)U(O)T)是基于F-范數(shù)的知識(shí)遷移正則化項(xiàng);λ(λ≥0)是遷移正則化項(xiàng)的系數(shù)。

適當(dāng)合并處理后式(9)可寫成:目標(biāo)表達(dá)式中的L(C)+λU(O)U(O)T等同于經(jīng)典譜聚類里面的拉普拉斯矩陣L,區(qū)別在于前者加入了供目標(biāo)域知識(shí)借鑒的特征子矩陣的相關(guān)信息。這里將歷史信息以特征矩陣的形式給出,通過調(diào)整正則化系數(shù)λ的值來調(diào)整目標(biāo)域關(guān)于源域知識(shí)的遷移學(xué)習(xí)程度,成功地將歷史相關(guān)知識(shí)融入到目標(biāo)函數(shù)中實(shí)現(xiàn)了遷移譜聚類的思想。

TSC-IDFR算法的整體設(shè)計(jì)思想如圖2所示。

Fig.2 Design idea of TSC-IDFR圖2 TSC-IDFR算法設(shè)計(jì)架構(gòu)

TSC-IDFR算法的具體執(zhí)行步驟為:

階段1數(shù)據(jù)處理階段

步驟1輸入目標(biāo)域數(shù)據(jù)集和源域數(shù)據(jù)集,根據(jù)第K最近鄰策略為目標(biāo)域任一樣本從源域數(shù)據(jù)集挑選出一可參照數(shù)據(jù)樣本,如此獲得目標(biāo)域在源域的可參照數(shù)據(jù)子集。

階段2遷移譜聚類算法階段

步驟2輸入相似度參數(shù)σ,經(jīng)由式(1)分別計(jì)算出目標(biāo)域數(shù)據(jù)和源域的可參照數(shù)據(jù)子集上的拉普拉斯矩陣L(C)和L(O)L(O);

步驟3對(duì)L(O)進(jìn)行特征分解,取前k個(gè)最小特征值對(duì)應(yīng)的特征向量,并對(duì)每一行進(jìn)行歸一化操作得到特征矩陣U(O);

步驟4根據(jù)式(10),輸入正則化系數(shù)λ,新的譜聚類的拉普拉斯矩陣等于L(C)+λU(O)U(O)T;

步驟5對(duì)步驟4得到的新拉普拉斯矩陣做特征分解,最后通過k-means聚類算法或譜擾動(dòng)方法對(duì)特征矩陣的每一行進(jìn)行聚類;

步驟6輸出聚類實(shí)驗(yàn)結(jié)果。

4 實(shí)驗(yàn)研究

為驗(yàn)證本文提出的TSC-IDFR算法的聚類有效性,以下將基于一組模擬數(shù)據(jù)集和5個(gè)真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。本文除了與經(jīng)典譜聚類算法(spectral clustering,SC)對(duì)比,還將在對(duì)比實(shí)驗(yàn)中加入現(xiàn)有的幾種典型的相關(guān)算法進(jìn)行比較評(píng)價(jià),包括共享學(xué)習(xí)子空間的多任務(wù)聚類算法(learning the shared subspace for multi-task clustering,LSSMTC)[29]、自學(xué)習(xí)聚類算法(STC)[6]、遷移譜聚類算法(TSC)[7]和兩種基于分歧度度量知識(shí)遷移的跨域軟劃分聚類算法(TI-KT-CM/TII-KT-CM)[8]。需要說明的是,TSC算法要求數(shù)據(jù)維度大于聚類的類目數(shù),因此對(duì)于不滿足該條件的數(shù)據(jù)集,以“—”表示無法獲得其上的聚類結(jié)果。本實(shí)驗(yàn)采用歸一化互信息(normalized mutual information,NMI[30])和芮氏指標(biāo)(rand index,RI[31])兩種外部評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。兩種評(píng)價(jià)指標(biāo)的取值范圍均為[0,1],值越大表明算法的聚類性能越好。

本文算法涉及對(duì)徑向基參數(shù)σ、正則化系數(shù)λ和第K近鄰機(jī)制中的參數(shù)K的取值問題,為此本文采用了廣為熟知的網(wǎng)格搜索法來進(jìn)行參數(shù)遍歷尋優(yōu)。表1給出了本文TSC-IDFR算法關(guān)于徑向基參數(shù)σ和正則化系數(shù)λ在各個(gè)數(shù)據(jù)集上的推薦尋優(yōu)區(qū)間;第K近鄰參數(shù)K的值則從1到7在各個(gè)數(shù)據(jù)集上遍歷獲得。其他幾種被比較算法均采用原文獻(xiàn)推薦的參數(shù)區(qū)間設(shè)置。實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)中NMI-meanNMI-std(RI-meanRI-std)分別表示在最優(yōu)參數(shù)下運(yùn)行10次后NMI的均值與方差(RI的均值與方差)。

Table 1 Recommended parameter settings to TSC-IDFR表1 TSC-IDFR算法推薦參數(shù)尋優(yōu)區(qū)間

實(shí)驗(yàn)環(huán)境:i3 3.7 GHz CPU,12 GB RAM(根據(jù)自己電腦實(shí)際修改),Matlab R2014a等。

4.1 模擬數(shù)據(jù)集實(shí)驗(yàn)與結(jié)果分析

鑒于遷移學(xué)習(xí)的場(chǎng)景是源域和目標(biāo)域數(shù)據(jù)分布通常表象不同但存在內(nèi)在關(guān)聯(lián)性,為此本文特設(shè)計(jì)滿足此特點(diǎn)的兩種模擬遷移數(shù)據(jù)場(chǎng)景如下。

(1)月牙型遷移數(shù)據(jù)場(chǎng)景L1-M1。構(gòu)造如圖3(a)、(b)所示的二維月牙型數(shù)據(jù)集L1和M1。其中L1不含噪聲,2類分布清晰共含1 210個(gè)數(shù)據(jù)點(diǎn);M1則較明顯不同于L1的數(shù)據(jù)分布,即所含2類形狀與L1明顯不同且類間部分重疊相交(模擬受噪聲干擾場(chǎng)景),且共有460個(gè)數(shù)據(jù)點(diǎn)。

(2)簇狀遷移數(shù)據(jù)場(chǎng)景L2-M2。構(gòu)造如圖3(c)、(d)所示的二維人造簇狀數(shù)據(jù)集。首先采用高斯概率分布函數(shù)生成4類共1 200個(gè)數(shù)據(jù)點(diǎn)的源域數(shù)據(jù)集L2(每類300個(gè)點(diǎn)),其中4類滿足如下分布規(guī)律:第一類均值m=[10 8],方差s=[8 0;0 8];第二類均值m=[25 10],方差s=[14 0;0 16];第三類均值m=[40 18],方差s=[20 0;0 20];第四類均值m=[-1 8],方差s=[12 0;0 12]。類似地采用高斯概率分布函數(shù)生成目標(biāo)域數(shù)據(jù)集M2,它包含3類共600個(gè)數(shù)據(jù)點(diǎn)(每類200個(gè)點(diǎn))。這3類滿足如下分布:第一類均值m=[10 20],方差s=[10 0;0 10];第二類均值m=[15 10],方差s=[12 0;0 14];第 3 類均值m=[20 25],方差s=[15 0;0 15]。這三類彼此部分重疊,用于模擬受噪聲干擾目標(biāo)域類簇較難區(qū)分的場(chǎng)景。

本實(shí)驗(yàn)的目的是檢驗(yàn)遷移聚類算法是否能通過來自源域的知識(shí)借鑒以有效提升其在目標(biāo)域數(shù)據(jù)集(受到較大程度噪聲影響)上的聚類有效性。這里L(fēng)1-M1場(chǎng)景屬于遷移學(xué)習(xí)中任務(wù)相同(都要求劃分出2類)但數(shù)據(jù)域不同(源域和目標(biāo)域數(shù)據(jù)分布明顯不同)的情形;L2-M2場(chǎng)景則屬于任務(wù)和數(shù)據(jù)域均不相同的遷移學(xué)習(xí)場(chǎng)景,因?yàn)樵从蚝湍繕?biāo)域不僅數(shù)據(jù)分布不同,所含類簇?cái)?shù)也不同。

Fig.3 Artificial transfer data scenarios圖3 人造遷移數(shù)據(jù)場(chǎng)景

注意:TSC算法要求數(shù)據(jù)維度大于聚類的類目數(shù),這里的模擬數(shù)據(jù)集顯然不滿足該條件,因此本文模擬數(shù)據(jù)集上的實(shí)驗(yàn)未使用TSC算法。

表2給出了各算法在L1-M1和L2-M2遷移數(shù)據(jù)場(chǎng)景下的最終聚類性能情況。基于表2可以給出如下實(shí)驗(yàn)結(jié)果分析。

(1)從源域是L1目標(biāo)域是M1組成的遷移場(chǎng)景L1-M1可以看出,在如圖3(b)所示的非凸形目標(biāo)數(shù)據(jù)集上,基于譜聚類的TSC-IDFR、SC和STC算法的性能明顯優(yōu)于LSSMTC、TI-KT-CM和TII-KT-CM算法。這是因?yàn)樽V聚類可以適應(yīng)任意形狀(凸形或非凸形)數(shù)據(jù)集且擁有全局(近似)最優(yōu)解。TI-KT-CM和TII-KT-CM雖然也屬于時(shí)興知識(shí)遷移聚類算法,但對(duì)于非凸形數(shù)據(jù)集聚類效果不佳。就TSC-IDFR、SC和STC三者而言,基于歷史譜聚類知識(shí)遷移的TSC-IFR算法明顯優(yōu)于SC和STC算法。原因有二:一方面是TSC-IDFR學(xué)習(xí)的是歷史特征矩陣這一高級(jí)歷史譜聚類知識(shí),而非來自源域的原始數(shù)據(jù)樣本,這使其具備了避免由于參照數(shù)據(jù)選擇不當(dāng)而造成負(fù)遷移的能力,從而實(shí)現(xiàn)在目標(biāo)數(shù)據(jù)集上的相對(duì)有效聚類;另一方面通過靈活調(diào)整正則化系數(shù)λ的值,在源域與目標(biāo)域數(shù)據(jù)分布區(qū)別明顯的情況下,TSC-IDFR仍然實(shí)現(xiàn)了對(duì)源域歷史譜聚類知識(shí)的較合理利用,從而在目標(biāo)域聚類中獲益。

(2)從源域是L2目標(biāo)域是M2組成的遷移場(chǎng)景L2-M2可以看出,TSC-IDFR、STC、TI-KT-CM和TIIKT-CM算法的聚類性能都優(yōu)于LSSMTC算法。這是因?yàn)長(zhǎng)SSMTC算法是一種多任務(wù)聚類算法。其目的是同時(shí)完成多個(gè)聚類任務(wù)且任務(wù)之間會(huì)有一些交互信息。由于源域與目標(biāo)域間數(shù)據(jù)分布的差異,導(dǎo)致源域聚類任務(wù)和目標(biāo)域聚類任務(wù)之間的交互有效性降低,從而得不到理想的雙贏結(jié)果。遷移聚類算法TSC-IDFR、STC、TI-KT-CM和TII-KT-CM在此遷移場(chǎng)景中均可獲得來自源域的有用信息來提高其在目標(biāo)域中的聚類有效性。

(3)較之經(jīng)典譜聚類SC算法,TSC-IDFR的實(shí)際性能提升取決于其從源域獲取的知識(shí)對(duì)其在目標(biāo)域上聚類的實(shí)際指導(dǎo)價(jià)值。總體而言,目標(biāo)域與源域相似度越大,從源域獲取的知識(shí)對(duì)目標(biāo)域的指導(dǎo)價(jià)值就越大。比如L1-M1場(chǎng)景較之L2-M2場(chǎng)景源域跟目標(biāo)域更相似,因此較之SC,TSC-IDFR算法在M1數(shù)據(jù)集上獲得了約11%的聚類性能提升,而在M2上僅4%左右。

4.2 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)及結(jié)果分析

為了進(jìn)一步驗(yàn)證本文算法的有效性,選擇了5個(gè)真實(shí)數(shù)據(jù)源用于構(gòu)造遷移學(xué)習(xí)場(chǎng)景。

(1)來自新聞文本數(shù)據(jù)庫(kù)20NG(http://www.cs.nyu.edu/?roweis/data.html)的rec VS talk數(shù)據(jù)集。本文從原數(shù)據(jù)庫(kù)選擇其中rec和talk兩個(gè)大類涉及的相關(guān)子類的數(shù)據(jù)記錄構(gòu)成該遷移學(xué)習(xí)數(shù)據(jù)集,其中源域數(shù)據(jù)由rec.autos和talk.politics.guns的1 500條數(shù)據(jù)組成,目標(biāo)域由rec.sports.baseball和talk.politics.mideast的500條記錄構(gòu)成。

(2)來自電子郵件垃圾郵件過濾資源庫(kù)的ESF數(shù)據(jù)庫(kù)(http://www.ecmlpkdd2006.org/challenge.html)。其中源域數(shù)據(jù)來自公共可用消息資源的4 000條記錄,目標(biāo)域則來自用戶1的私人消息資源共2 500條記錄。

Table 2 Clustering results of each algorithm in simulated data sets表2 模擬數(shù)據(jù)集的各算法聚類結(jié)果

(3)來自UCI的人類活動(dòng)時(shí)間序列(human motion time series,HMTS)數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets/)。該數(shù)據(jù)集的原始數(shù)據(jù)由每個(gè)志愿者進(jìn)行各類日常活動(dòng)時(shí),包括爬樓梯、坐下、走路等,其佩戴在手腕的3個(gè)傳感器記錄的3條時(shí)間序列組成。本文首先經(jīng)3到6層的Haar離散小波變換處理將每一原始時(shí)間序列統(tǒng)一降維到17維,接著把每個(gè)志愿者的3條17維的新序列拼接為統(tǒng)一的51維特征向量[8]。本文將女性志愿者的共494條記錄用作源域,男性志愿者的共312條記錄構(gòu)成目標(biāo)域數(shù)據(jù)。

(4)來自人臉數(shù)據(jù)庫(kù)的ORL數(shù)據(jù)集(http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html)。本文選擇其中8個(gè)不同人的各10幅人臉圖像用以構(gòu)成實(shí)驗(yàn)圖像。把每人的任意8幅圖像放入源域,剩余的2幅圖像放入目標(biāo)域。為了使源域與目標(biāo)域數(shù)據(jù)差異盡可能大,對(duì)源域每幅人臉分別按10°和20°進(jìn)行正時(shí)針繞轉(zhuǎn),對(duì)目標(biāo)域圖像則按10°和20°進(jìn)行反時(shí)針繞轉(zhuǎn),由此形成實(shí)驗(yàn)用的所有人臉圖像。對(duì)每一圖像的像素灰度特征用PCA方法降維后獲得最終239維的ORL數(shù)據(jù)集。

(5)來自Brodatz紋理數(shù)據(jù)庫(kù)(http://www.ee.oulu.fi/research/imag/texture/image_data/Brodatz32.html)的TIS數(shù)據(jù)集。本文從中選擇了3種不同紋理用以分別構(gòu)造源域和目標(biāo)域紋理圖像。如圖4(a)為源域紋理圖像(無噪聲),圖4(b)為目標(biāo)域圖像(與源域分布不同且受到一定程度的噪聲干擾)。通過Gabor濾波方法提取紋理特征構(gòu)成了最終數(shù)據(jù)集TIS。

Fig.4 Texture images of TIS data sets圖4 TIS數(shù)據(jù)集涉及的紋理圖像

上述5個(gè)真實(shí)遷移數(shù)據(jù)場(chǎng)景的源域和目標(biāo)域數(shù)據(jù)記錄數(shù)、數(shù)據(jù)維度及所含類別數(shù)情況詳見表3。表4給出了各算法在這些數(shù)據(jù)集上的聚類結(jié)果。此外,為了驗(yàn)證本文TSC-IDFR算法關(guān)于參數(shù)的魯棒性,也評(píng)估了TSC-IDFR算法中的3個(gè)參數(shù),第K近鄰機(jī)制參數(shù)K、正則化系數(shù)λ和徑向基函數(shù)參數(shù)σ,對(duì)其實(shí)際性能的具體影響情況。如圖5~圖7所示,以其中4個(gè)數(shù)據(jù)集為例示意了TSC-IDFR關(guān)于核心算法參數(shù)的性能變化情景。

Table 3 Characteristics of real-world transfer data sets表3 真實(shí)遷移數(shù)據(jù)集數(shù)據(jù)特征

通過觀察表4及圖5~圖7,可以得到如下結(jié)論:

(1)無論是高維數(shù)據(jù)(如ORL和rec VS talk)還是較低維情景(如TIS),TSC-IDFR算法的聚類性能都優(yōu)于其他算法。這是因?yàn)門SC-IDFR算法通過第K近鄰點(diǎn)策略為目標(biāo)數(shù)據(jù)集找到適宜的可從其借鑒知識(shí)的參照樣本,通過遷移歷史特征矩陣,實(shí)現(xiàn)了對(duì)歷史知識(shí)的有效學(xué)習(xí)和利用。具體說就是通過第K近鄰點(diǎn)策略和F-范數(shù)正則化系數(shù)λ的調(diào)節(jié),TSC-IDFR算法可以較靈活地決定關(guān)于源域歷史知識(shí)的借鑒程度,最終服務(wù)于目標(biāo)域的譜聚類過程。此外,TSCIDFR遷移的是歷史特征矩陣,這還可以滿足源域隱私保護(hù)的特定需求。這些結(jié)論與在人造數(shù)據(jù)場(chǎng)景中所得結(jié)論是一致的。

(2)TII-KT-CM算法的實(shí)際性能始終優(yōu)于TI-KTCM算法,這是因?yàn)門I-KT-CM僅依賴于源域歷史類中心這一高級(jí)知識(shí),而TII-KT-CM同時(shí)借鑒了源域歷史類中心和關(guān)于歷史類中心的模糊隸屬度知識(shí),即TII-KT-CM具有更強(qiáng)的歷史知識(shí)借鑒學(xué)習(xí)能力,因此總體上比TI-KT-CM更有效。而在這些數(shù)據(jù)集上本文TSC-IDFR算法更優(yōu)于TII-KT-CM算法,這進(jìn)一步佐證了本文同時(shí)結(jié)合遷移學(xué)習(xí)、譜聚類和F范數(shù)正則化等機(jī)制提出的遷移譜聚類方法的有效性。

Table 4 Clustering results of all algorithms on real-world data sets表4 真實(shí)數(shù)據(jù)集的各算法聚類結(jié)果

Fig.5 Relationships between parameterKand clustering performance in TSC-IDFR圖5 TSC-IDFR算法性能與參數(shù)K關(guān)系曲線

Fig.6 Relationships between parameterλand clustering performance in TSC-IDFR圖6 TSC-IDFR算法性能與參數(shù)λ關(guān)系曲線

Fig.7 Relationships between parameterσand clustering performance in TSC-IDFR圖7 TSC-IDFR算法性能與參數(shù)σ關(guān)系曲線

(3)圖5示意了參數(shù)K對(duì)TSC-IDFR算法的性能影響情況。結(jié)合給定的聚類有效性指標(biāo),可以為每個(gè)數(shù)據(jù)集找到一個(gè)最優(yōu)K值。圖6、圖7示意了參數(shù)λ和σ對(duì)TSC-IDFR算法的聚類性能影響情況,總體上看,取最佳參數(shù)設(shè)置時(shí),TSC-IDFR算法對(duì)正則化參數(shù)λ相對(duì)穩(wěn)定,對(duì)高斯徑向基窗寬參數(shù)σ相對(duì)敏感,但在合適區(qū)間范圍內(nèi),其聚類性能總體上波動(dòng)不大。

5 結(jié)束語

為了解決受噪聲或干擾信息影響的目標(biāo)域數(shù)據(jù)集的有效聚類問題,本文引入遷移學(xué)習(xí)機(jī)制,在F-范數(shù)正則化的基礎(chǔ)上構(gòu)建了遷移譜聚類算法TSC-IDFR。通過遷移歷史特征矩陣,TSC-IDFR實(shí)現(xiàn)了對(duì)歷史知識(shí)的有效學(xué)習(xí)和利用,很大程度上提高了目標(biāo)算法在受干擾或噪聲影響的目標(biāo)數(shù)據(jù)集上的聚類效果。本文在人造數(shù)據(jù)集和真實(shí)數(shù)據(jù)集聚類中較充分地驗(yàn)證了TSC-IDFR算法的有效性。關(guān)于該研究的進(jìn)一步工作:一是將此算法進(jìn)一步應(yīng)用到某些領(lǐng)域,如面向大尺度醫(yī)學(xué)圖像的有效分割問題。二是在此算法基礎(chǔ)上加入半監(jiān)督知識(shí),如加入成對(duì)約束信息等,以更好地解決數(shù)據(jù)缺失等問題。

[1]Tzortzis G,Likas A,Tzortzis G.The MinMaxk-means clustering algorithm[J].Pattern Recognition,2014,47(7):2505-2516.

[2]Deng Zhaohong,Zhang Jiangbin,Jiang Yizhang,et al.Fuzzy subspace clustering based zero-order L2-norm TSK fuzzy system[J].Journal of Electronics&Information Technology,2015,37(9):2082-2088.

[3]Jiang Yizhang,Deng Zhaohong,Wang Jun,et al.Transfer generalized fuzzy C-means clustering algorithm with improved fuzzy partitions by leveraging knowledge[J].Pattern Recognition andArtificial Intelligence,2013,26(10):975-984.

[4]Zhao Peilin,Hoi S C H,Wang Jialei,et al.Online transfer learning[J].Artificial Intelligence,2014,216:76-102.

[5]Yang Qiang,Chen Yuqiang,Xue Guirong,et al.Heterogeneous transfer learning for image clustering via the socialweb[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,Aug 2-7,2009.Stroudsburg:ACL,2009:1-9.

[6]Dai Wenyuan,Yang Qiang,Xue Guirong,et al.Self-taught clustering[C]//Proceedings of the 25th International Conference on Machine Learning,Helsinki,Jun 5-9,2008.New York:ACM,2008:200-207.

[7]Jiang Wenhao,Chung F L.Transfer spectral clustering[C]//LNCS 7524:Proceedings of the 2012 European Conference on Machine Learning and Knowledge Discovery in Databases,Bristol,Sep 24-28,2012.Berlin,Heidelberg:Springer,2012:789-803.

[8]Qian Pengjiang,Sun Shouwei,Jiang Yizhang,et al.Crossdomain,soft-partition clustering with diversity measure and knowledge reference[J].Pattern Recognition,2016,50:155-177.

[9]Qian Pengjiang,Jiang Yizhang,Wang Shitong,et al.Affinity and penalty jointly constrained spectral clustering with allcompatibility,flexibility,and robustness[J].IEEE Transactions on Neural Networks and Learning Systems,2016,28(5):1123-1138.

[10]Kanungo T,Mount D M,Netanyahu N S,et al.An efficientk-means clustering algorithm:analysis and implementation[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2002,24(7):881-892.

[11]Zhu Lin,Chung F L,Wang Shitong.Generalized fuzzy C-means clustering algorithm with improved fuzzy partitions[J].IEEE Transactions on Systems,Man and Cybernetics:Part B Cybernetics,2009,39(3):578-591.

[12]Samadpour M M,Parvin H,Rad F.Diminishing prototype size fork-nearest neighbors classification[C]//Proceedings of the 14th Mexican International Conference on Artificial Intelligence,Cuernavaca,Oct 25-31,2015.Washington:IEEE Computer Society,2015:139-144.

[13]Fang Jianbin,Chen Zhengxu.An approximation method of positive semi-definite matrix based on weighted F-norm[J].Statistics&Information Forum,2007,22(2):44-48.

[14]Kamvar S D,Klein D,Manning C D.Spectral learning[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence,Acapulco,Aug 9-15,2003.San Francisco:Morgan Kaufmann Publishers Inc,2003:561-566.

[15]Fan R K C.Spectral graph theory[M]//Conference Board of the Mathematical Sciences Regional Conference Series in Mathematics.Providence:American Mathematical Society,1997:149-180.

[16]Zhou Dengyong,Burges C J C.Spectral clustering and transductive learning with multiple views[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,Jun 20-24,2007.New York:ACM,2007:1159-1166.

[17]Luxburg U V.A tutorial on spectral clustering[J].Statistics and Computing,2007,17(4):395-416.

[18]Ling Xiao,Dai Wenyuan,Xue Guirong,et al.Spectral domaintransfer learning[C]//Proceedings of the 14th International Conference on Knowledge Discovery and Data Mining,Las Vegas,Aug 24-27,2008.New York:ACM,2008:488-496.

[19]Weiss K,Khoshgoftaar T M,Wang Dingding.A survey of transfer learning[J].Journal of Big Data,2016,3(1):9.

[20]Pan S J,Yang Qiang.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[21]Saha B,Gupta S K,Phung D Q,et al.Multiple task transfer learning with small sample sizes[J].Knowledge and Information Systems,2016,46(2):315-342.

[22]Liu Zhen,Yang Junan,Liu Hui,et al.Transfer learning by fuzzy neighborhood density-based clustering and re-sampling[C]//Proceedings of the 2015 International Conference on Computer Science and Applications,Wuhan,Nov 20-22,2015.Washington:IEEE Computer Society,2015:232-236.

[23]Zhuang Fuzhen,Luo Ping,He Qing,et al.Survey on transfer learning research[J].Journal of Software,2015,26(1):26-39.

[24]Kumar A,Rai P,Daumé H.Co-regularized multi-view spectral clustering[C]//Proceedings of the 2011 International Conference on Neural Information Processing Systems,Granada,Dec 12-14,2011:1413-1421.

[25]Huang Likun,Lu Jiwen,Tan Y P.Co-learned multi-view spectral clustering for face recognition based on image sets[J].IEEE Signal Processing Letters,2014,21(7):875-879.

[26]Sun Shouwei,Qian Pengjiang,Chen Aiguo,et al.Clustercenter-distance maximization clustering with knowledge transfer[J].Computer Engineering and Applications,2016,52(16):149-155.

[27]Chen Aiguo,Wang Shitong.Knowledge transfer clustering algorithm with privacy protection[J].Journal of Electronics&Information Technology,2016,38(3):523-531.

[28]Qian Pengjiang,Sun Shouwei,Jiang Yizhang,et al.Knowledge transfer based maximum entropy clustering[J].Control and Decision,2015,30(6):1000-1006.

[29]Gu Quanquan,Zhou Jie.Learning the shared subspace for multi-task clustering and transductive transfer classification[C]//Proceedings of the 9th IEEE International Conference on Data Mining,Miami,Dec 6-9,2009.Washington:IEEE Computer Society,2009:159-168.

[30]Jing Liping,Ng M K,Huang J Z.An entropy weightingkmeans algorithm for subspace clustering of high-dimensional sparse data[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(8):1026-1041.

[31]Liu Jun,Mohammed J,Carter J,et al.Distance-based clustering of CGH data[J].Bioinformatics,2006,22(16):1971-1978.

附中文參考文獻(xiàn):

[2]鄧趙紅,張江濱,蔣亦樟,等.基于模糊子空間聚類的〇階L2型TSK模糊系統(tǒng)[J].電子與信息學(xué)報(bào),2015,37(9):2082-2088.

[3]蔣亦樟,鄧趙紅,王駿,等.基于知識(shí)利用的遷移學(xué)習(xí)一般化增強(qiáng)模糊劃分聚類算法[J].模式識(shí)別與人工智能,2013,26(10):975-984.

[13]方建斌,陳正旭.一種基于加權(quán)F-范數(shù)的半正定矩陣的逼近方法[J].統(tǒng)計(jì)與信息論壇,2007,22(2):44-48.

[23]莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1):26-39.

[26]孫壽偉,錢鵬江,陳愛國(guó),等.具備遷移能力的類中心距離極大化聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(16):149-155.

[27]陳愛國(guó),王士同.具有隱私保護(hù)功能的知識(shí)遷移聚類算法[J].電子與信息學(xué)報(bào),2016,38(3):523-531.

[28]錢鵬江,孫壽偉,蔣亦樟,等.知識(shí)遷移極大熵聚類算法[J].控制與決策,2015,30(6):1000-1006.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 国产av一码二码三码无码| 国产精品密蕾丝视频| 永久在线精品免费视频观看| 久久婷婷色综合老司机| 欧美一区精品| 亚洲欧美人成人让影院| 五月婷婷精品| 国产精品成人久久| 国产导航在线| 欧洲一区二区三区无码| 色色中文字幕| 国产又大又粗又猛又爽的视频| 2020极品精品国产| 2020久久国产综合精品swag| 日韩毛片免费观看| 日韩欧美中文| 久久免费精品琪琪| 国产成人亚洲日韩欧美电影| 免费久久一级欧美特大黄| 久久无码av三级| 欧美国产日韩在线| 日本欧美精品| 无码高清专区| 欧美日本在线观看| 欧美国产日韩在线播放| 亚洲美女高潮久久久久久久| 国产精品成人第一区| 中文字幕无码av专区久久 | 国产丝袜丝视频在线观看| 91青草视频| 国产精品成人一区二区不卡 | 在线看片免费人成视久网下载| 欧美www在线观看| 亚洲AV无码久久精品色欲 | 亚洲精品手机在线| 国产一区二区精品福利| 999精品色在线观看| 国产一区在线视频观看| 精品国产一区二区三区在线观看 | 日韩av手机在线| 欧美日韩精品一区二区在线线 | 天天操天天噜| 999在线免费视频| 福利片91| 午夜精品区| 欧美在线国产| 久久99国产乱子伦精品免| 国产成年女人特黄特色大片免费| 国产va在线观看| 国产精品自拍合集| 国产永久在线视频| 国产精品大尺度尺度视频| 久久www视频| 综合色区亚洲熟妇在线| 色婷婷国产精品视频| 亚洲无线一二三四区男男| 综合色88| 精品人妻无码区在线视频| 国内嫩模私拍精品视频| 亚洲成人黄色网址| 四虎综合网| 五月婷婷伊人网| 亚洲 成人国产| 国产成+人+综合+亚洲欧美| 女人天堂av免费| 亚洲一区二区三区中文字幕5566| 在线看AV天堂| 亚洲另类色| 日韩在线视频网| 午夜啪啪网| 欧美不卡视频一区发布| 国产成人91精品| 亚洲人成影院午夜网站| 久久国产精品国产自线拍| 亚洲乱码在线视频| 欧美日韩精品综合在线一区| 国产呦精品一区二区三区下载 | 亚洲色图欧美一区| 国产人成午夜免费看| 国产午夜人做人免费视频| 黄网站欧美内射| 欧美视频在线播放观看免费福利资源|