999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法*

2021-09-22 13:27:26程玉勝曹天成王一賓鄭偉杰
關(guān)鍵詞:分類

程玉勝,曹天成,王一賓,鄭偉杰

(1.安徽省高校智能感知與計(jì)算重點(diǎn)實(shí)驗(yàn)室(安慶師范大學(xué)),安徽 安慶 246133; 2.計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室(安徽大學(xué)),安徽 合肥 230061)

1 引言

多標(biāo)簽學(xué)習(xí)[1]作為機(jī)器學(xué)習(xí)研究的熱點(diǎn),吸引了大量研究者的關(guān)注,并在自動(dòng)標(biāo)注、信息檢索、個(gè)性化推薦等領(lǐng)域得到了廣泛應(yīng)用[2 - 5]。但是,由于標(biāo)記空間的維數(shù)過大,造成了多標(biāo)簽數(shù)據(jù)的不平衡問題更加突出,嚴(yán)重影響了分類器的性能。也正是由于標(biāo)簽的不平衡性造成了不同標(biāo)簽對(duì)樣本實(shí)例的描述程度存在一定的差異性,有些標(biāo)簽出現(xiàn)的頻率較大,能描述大部分的樣本;而有些標(biāo)簽僅僅存在于少量樣本中,但往往這一小部分的標(biāo)簽卻包含了很多的信息。

與平衡數(shù)據(jù)相比,大多數(shù)算法在處理不平衡數(shù)據(jù)時(shí)表現(xiàn)不佳,分類器偏向多數(shù)標(biāo)簽,從而在少數(shù)標(biāo)簽的判別上會(huì)出現(xiàn)更高的錯(cuò)誤率,近年來越來越多針對(duì)多標(biāo)簽不平衡問題的方法被提出。如,Liu等[6]利用實(shí)例的局部標(biāo)簽分布,對(duì)數(shù)據(jù)進(jìn)行合成過采樣,在兼具全局與局部不平衡的同時(shí),提高了分類器的分類精度;Tsai等[7]在處理臨床記錄文本時(shí),將類別標(biāo)簽進(jìn)行分層,再加入卷積模型中,不僅提高了識(shí)別性能,同時(shí)還解決了類別不平衡問題;Lo等[8]利用代價(jià)敏感學(xué)習(xí)方法,為每種標(biāo)簽計(jì)算一個(gè)錯(cuò)分代價(jià),通過代價(jià)值的不同來減少少數(shù)標(biāo)簽錯(cuò)分類情況。可見,解決標(biāo)簽不平衡問題是提高多標(biāo)簽分類精度的有效手段。

然而,真實(shí)世界中標(biāo)簽和標(biāo)簽之間并非相互獨(dú)立,往往存在一定的關(guān)聯(lián)性。在沒有足夠多的訓(xùn)練集時(shí),充分利用標(biāo)簽間相關(guān)性來豐富訓(xùn)練集的標(biāo)簽集是必要的。目前,有許多學(xué)者利用標(biāo)簽之間的相關(guān)性來提高多標(biāo)簽學(xué)習(xí)算法的性能。鏈?zhǔn)椒诸怌C(Classifier Chains)[9]將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為基于BR(Binary Relevance)的分類器鏈,但是鏈?zhǔn)请S機(jī)排列的,對(duì)標(biāo)簽間相關(guān)性的考慮也是隨機(jī)的。校準(zhǔn)標(biāo)簽排序CLR(Calibrated Label Ranking)算法[10]利用人工校準(zhǔn)標(biāo)簽進(jìn)行排序,但是遇到數(shù)據(jù)集較大、類別標(biāo)簽較多的問題時(shí),不僅耗時(shí)耗力,而且得到的子分類器過多,增加了算法復(fù)雜度。隨機(jī)k標(biāo)簽集RAkEL(RAndom k-LabELsets)算法[11]是基于LP(Label Powerest)分類器的集成算法,在保留LP優(yōu)點(diǎn)的同時(shí)還考慮了標(biāo)簽之間的相關(guān)性,但會(huì)導(dǎo)致算法更復(fù)雜。多標(biāo)簽分類的核方法RankSVM(kernel method for multi-labelled classification)[12]利用最大間隔準(zhǔn)則策略適應(yīng)多標(biāo)簽學(xué)習(xí),在建模過程中對(duì)樣本對(duì)應(yīng)的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽間的排序損失構(gòu)建SVM分類器,但這需要計(jì)算大量的變量,所以耗時(shí)較大。

上述方法都是通過計(jì)算標(biāo)簽間“距離”來衡量相關(guān)性,越接近的2個(gè)標(biāo)簽,相關(guān)性越大,這就默認(rèn)了以正相關(guān)為主來考慮標(biāo)簽間的相關(guān)性。可是在實(shí)際問題中,還存在某種程度上的負(fù)相關(guān)。例如,在自然場(chǎng)景中,標(biāo)簽“山”和“樹”存在某種程度上的正相關(guān),而標(biāo)簽“沙漠”和“海洋”往往相互排斥,一般不會(huì)同時(shí)出現(xiàn)在一個(gè)樣本上,它們之間以負(fù)相關(guān)進(jìn)行制約。例如,圖1a是分類器識(shí)別為“海洋”標(biāo)簽的圖像,而圖1b中由于顏色、紋理等特征與圖1a極為相似,“天空”標(biāo)簽被錯(cuò)分為“海洋”標(biāo)簽,使得圖1b最終分類到“海洋”“沙漠”標(biāo)簽中。但是,“海洋”與“沙漠”2個(gè)標(biāo)簽一般存在著負(fù)相關(guān)性,極大可能不會(huì)同時(shí)用于描述同一實(shí)例,那么,如果讓分類器學(xué)習(xí)了這組負(fù)相關(guān),就可以避免這種情況的發(fā)生。

現(xiàn)有方法更多地側(cè)重于標(biāo)簽正相關(guān)性來提高學(xué)習(xí)性能,而對(duì)標(biāo)簽負(fù)相關(guān)性的明確探索卻很少。一些算法利用標(biāo)簽空間流形假設(shè)下的拉普拉斯矩陣正則化來探索標(biāo)簽間的兩兩相關(guān)關(guān)系,但他們主要關(guān)注的還是標(biāo)簽正相關(guān)性,而不能很好地利用標(biāo)簽負(fù)相關(guān)性。雖然,Huang等[13]明確探討了標(biāo)簽正相關(guān)和負(fù)相關(guān)這2種相關(guān)關(guān)系,但未考慮利用這2種關(guān)系相互促進(jìn)進(jìn)行分類。Zhang等[14]利用標(biāo)簽之間的協(xié)方差矩陣將標(biāo)簽兩兩組合成標(biāo)簽對(duì),并探討每個(gè)標(biāo)簽對(duì)中的相關(guān)性(包括正相關(guān)、不相關(guān)和負(fù)相關(guān)),但是也只能求出成對(duì)標(biāo)簽之間的相關(guān)性,全局相關(guān)性的信息并不完善。Wu等[15]在分類算法中加入了負(fù)相關(guān)性正則,并用核映射加以求解,但也忽略了標(biāo)簽不平衡所帶來的影響。

Figure 1 Natural scene images with multi labels 圖1 多標(biāo)簽自然場(chǎng)景圖像

可見,探索標(biāo)簽的負(fù)相關(guān)性,改善分類器性能很有必要。基于此,本文提出了一種基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE(imbalanced Multi-label Learning algorithm based on Negative Correlation Enhancement)。該算法利用密度標(biāo)簽空間取代傳統(tǒng)標(biāo)簽空間,有效解決了多標(biāo)簽不平衡問題,并且在信息更加完善的密度標(biāo)簽空間中挖掘了標(biāo)簽間的正負(fù)2種相關(guān)性信息,從而提高分類精度。首先,本文算法利用訓(xùn)練集標(biāo)簽密度與代價(jià)因子構(gòu)建新的密度標(biāo)簽矩陣,使新的標(biāo)簽空間包含更多密度信息,從而解決多標(biāo)簽不平衡的問題;然后,使用密度標(biāo)簽矩陣取代原有標(biāo)簽矩陣,分別計(jì)算對(duì)應(yīng)于標(biāo)簽正相關(guān)性和負(fù)相關(guān)性的2個(gè)稀疏對(duì)稱相似性矩陣;最后,構(gòu)建線性分類模型,并在線性分類模型中加入2個(gè)標(biāo)簽流形正則項(xiàng)來完善相關(guān)性的信息。本文在11個(gè)數(shù)據(jù)集上對(duì)6種多標(biāo)簽學(xué)習(xí)算法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文算法的可行性、有效性和穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明:該算法在絕大多數(shù)情況下可以取得更好的預(yù)測(cè)精度且穩(wěn)定性更高。

2 密度標(biāo)簽空間

2.1 多標(biāo)簽學(xué)習(xí)

2.2 密度標(biāo)簽矩陣的構(gòu)建

(1)

(2)

其中,P+(j)是第j個(gè)標(biāo)簽的正類密度,P-(j)是第j個(gè)標(biāo)簽的負(fù)類密度,理論上P+(j)與P-(j)的和為1。本文將標(biāo)簽密度和條件熵[16]相結(jié)合計(jì)算代價(jià)因子,各標(biāo)簽代價(jià)因子就是分類正確或是錯(cuò)誤帶來的信息量大小。在傳統(tǒng)的代價(jià)敏感學(xué)習(xí)方法中,代價(jià)的大小都是由研究者主觀給出的,而在本文中是通過計(jì)算得出的,不同的數(shù)據(jù)集會(huì)得到不同的代價(jià)。設(shè)代價(jià)因子共分為4種:已知標(biāo)簽為正類時(shí),通過分類器計(jì)算得到標(biāo)簽預(yù)測(cè)為正類或負(fù)類的代價(jià)因子;已知標(biāo)簽為負(fù)類時(shí),通過分類器計(jì)算得到標(biāo)簽預(yù)測(cè)為正類或負(fù)類的代價(jià)因子。4種錯(cuò)分代價(jià)因子的計(jì)算如式(3)~式(6)所示:

θTP=-p((P++s),(P++s))

lbp((P++s)|(P++s))

(3)

θFP=-p((P++s),(P-+s))

lbp((P-+s)|(P++s))

(4)

θFN=-p((P-+s),(P++s))

lbp((P++s)|(P-+s))

(5)

θTN=-p((P-+s),(P-+s))

lbp((P-+s)|(P-+s))

(6)

實(shí)驗(yàn)數(shù)據(jù)集中會(huì)出現(xiàn)某類標(biāo)簽密度為零的情況,這種情況會(huì)導(dǎo)致條件熵值無法計(jì)算,所以本文在計(jì)算代價(jià)時(shí)引入了一個(gè)數(shù)值極小的平滑參數(shù)s,目的是在盡可能不改變結(jié)果大小的情況下,消除標(biāo)簽密度為零而帶來的無法計(jì)算情況,一般情況s∈[1×10-5,1×10-3]。代價(jià)因子具體如表1所示。

Table 1 Four kinds of cost factor表1 4種代價(jià)因子

這4種代價(jià)因子的含義可以理解為:現(xiàn)已知某樣本的第j個(gè)標(biāo)簽為+1時(shí),通過分類器預(yù)測(cè)出標(biāo)簽為+1的代價(jià)為θTP(j),通過分類器預(yù)測(cè)出標(biāo)簽為-1的代價(jià)為θFP(j)。算法正確預(yù)測(cè)后,若樣本的第j個(gè)標(biāo)簽為正類則θTP(j)為0,若樣本的第j個(gè)標(biāo)簽為負(fù)類則θTN(j)為0。計(jì)算出的代價(jià)因子越大,說明預(yù)測(cè)的標(biāo)簽置信度越小,錯(cuò)誤分類的代價(jià)就應(yīng)該越大。這些錯(cuò)誤是由每個(gè)標(biāo)簽的標(biāo)簽密度帶來的,若密度趨向于平衡,代價(jià)因子就會(huì)小,相應(yīng)所求得的標(biāo)簽置信度也大,利用這4種代價(jià)因子計(jì)算標(biāo)簽密度代價(jià)矩陣Ldcf如式(7)所示:

(7)

其中,i∈{1,2,3,…,N}為樣本編號(hào);j∈{1,2,3,…,m}為標(biāo)簽編號(hào);α為平衡化參數(shù),用于調(diào)整標(biāo)簽密度代價(jià)的敏感程度,取值在[1,10],本文所有實(shí)驗(yàn)中α取值為2。標(biāo)簽密度代價(jià)矩陣Ldcf包含樣本標(biāo)簽的密度信息,將其融入標(biāo)簽空間后,可以使原標(biāo)簽空間含有標(biāo)簽密度信息,增大了少數(shù)標(biāo)簽的錯(cuò)分類代價(jià),從而大幅降低分類時(shí)數(shù)據(jù)不平衡而帶來的錯(cuò)分類現(xiàn)象。新的密度標(biāo)簽矩陣Y*由式(8)構(gòu)建:

Y*=Y×Ldcf

(8)

標(biāo)簽改造的過程是要在盡可能不改變?cè)紭?biāo)簽語義信息的情況下,加上改變不平衡的約束,所以,平衡化參數(shù)α的取值也不宜太過敏感,要使得改造后標(biāo)簽值盡可能地逼近+1或-1。

3 基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法

3.1 基本多標(biāo)簽學(xué)習(xí)模型

(9)

其中,W=[W1,W2,W3,…,Wd]T∈Rd*m為模型的回歸權(quán)重,為了提高模型的穩(wěn)定性和泛化性能,本文使用L1正則(Lasso正則)項(xiàng)[17]來產(chǎn)生稀疏的權(quán)值矩陣,并且還起到了特征選擇的作用,λ1≥0是平衡參數(shù)。設(shè)測(cè)試集預(yù)測(cè)矩陣F=X*W,則多標(biāo)簽分類函數(shù)H=sgn(F)。這里的sgn(x)為符號(hào)函數(shù),當(dāng)x>0時(shí),輸出為1;反之則輸出-1。

為了解決標(biāo)簽密度不平衡的問題,本文用密度標(biāo)簽矩陣代替標(biāo)簽矩陣,模型更新如式(10)所示:

(10)

3.2 標(biāo)簽正相關(guān)正則項(xiàng)

利用標(biāo)簽相關(guān)性對(duì)多標(biāo)簽學(xué)習(xí)至關(guān)重要,本文使用標(biāo)簽的正負(fù)相關(guān)性來規(guī)范模型。如果2個(gè)標(biāo)簽yi和yj呈正相關(guān)關(guān)系,它們的標(biāo)簽值應(yīng)該更可能是相近的(都接近1或-1),在預(yù)測(cè)時(shí),這2個(gè)標(biāo)簽的預(yù)測(cè)值fi和fj應(yīng)當(dāng)更加相似,根據(jù)這一點(diǎn),本文采用標(biāo)簽流形正則項(xiàng)來約束模型。類似于實(shí)例級(jí)流形正則化項(xiàng)[18],標(biāo)簽正相關(guān)性的流形正則項(xiàng)被定義如式(11)所示:

(11)

其中,S∈Rm*m是用余弦相似度[19]計(jì)算出的基礎(chǔ)標(biāo)簽相似度矩陣,該矩陣是基于密度標(biāo)簽矩陣Y*計(jì)算得到的,由于標(biāo)簽空間的不平衡情況得到了解決,所以相對(duì)于利用原有不平衡標(biāo)簽空間計(jì)算出的相似度矩陣,該矩陣的置信度更高,可以提升分類效果。對(duì)正則項(xiàng)進(jìn)行推算:

這里,Dp∈Rm*m是對(duì)角線上值為1的對(duì)角矩陣,拉普拉斯矩陣Lp=Dp-S是S的標(biāo)簽正相關(guān)性對(duì)角矩陣。這時(shí),結(jié)合了標(biāo)簽正相關(guān)性的分類模型如式(12)所示:

λ2Tr(XWLp(XW)T)

(12)

其中,λ2為標(biāo)簽流形正則項(xiàng)的正則參數(shù)。

此時(shí),分類模型已經(jīng)規(guī)范了標(biāo)簽正相關(guān)性。

3.3 標(biāo)簽負(fù)相關(guān)正則項(xiàng)

式(12)對(duì)模型加上了正相關(guān)性約束,但是只考慮正相關(guān)性的分類模型不夠全面完善,在模型中加入標(biāo)簽負(fù)相關(guān)性約束是必要的。如果2個(gè)標(biāo)簽yi和yj呈負(fù)相關(guān)關(guān)系,它們的標(biāo)簽值應(yīng)該更可能是相反的,若一個(gè)標(biāo)簽值接近1,則另一個(gè)接近-1,反之亦然。而在預(yù)測(cè)時(shí),這2個(gè)標(biāo)簽的預(yù)測(cè)值fi和fj應(yīng)當(dāng)相差巨大,而fi與fj的相反數(shù)-fj應(yīng)極為相似,因此,標(biāo)簽負(fù)相關(guān)性的流形正則項(xiàng)被定義如式(13)所示:

(13)

同樣地,S∈Rm*m是基于密度標(biāo)簽矩陣Y*計(jì)算得到的基礎(chǔ)標(biāo)簽相似度矩陣。對(duì)正則項(xiàng)進(jìn)行進(jìn)一步推算:

其中,拉普拉斯矩陣Ln=Dn+S是S的標(biāo)簽負(fù)相關(guān)性對(duì)角矩陣。將正則項(xiàng)加入模型得式(14):

λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)

(14)

Figure 2 Diagram of model operation圖2 模型工作圖解

其中,λ2和λ3是2個(gè)標(biāo)簽流形正則項(xiàng)的正則參數(shù)。

圖2描述了分類模型的主要工作流程,密度標(biāo)簽矩陣作為目標(biāo)函數(shù)的輸入,正負(fù)相關(guān)性信息作為約束條件,將直接作用于目標(biāo)函數(shù)的訓(xùn)練過程。而選用的2個(gè)標(biāo)簽流形正則化項(xiàng)之所以能夠兼顧正負(fù)2種相關(guān)性并起到促進(jìn)作用,是因?yàn)?個(gè)拉普拉斯矩陣Lp和Ln的編碼方式都是基于相似度矩陣S的線性變化。而且對(duì)于分類模型來說,在標(biāo)簽空間分別考慮正負(fù)相關(guān)性,這2個(gè)性質(zhì)不會(huì)相互抵消,反而會(huì)相互促進(jìn)。

4 算法優(yōu)化

本文算法的目標(biāo)是通過迭代求解出最優(yōu)權(quán)重矩陣W,目標(biāo)函數(shù)如式(15)所示:

λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)

(15)

將式(15)進(jìn)行分解得式(16):

W=argminWF(W)=f(W)+g(W)

(16)

其中,

λ3Tr(XWLn(XW)T)

(17)

g(W)=λ1‖W‖1

(18)

首先,對(duì)式(17)進(jìn)行線性處理,從而計(jì)算目標(biāo)梯度:

2λ2XTXWLp2λ3XTXWLn

(19)

然后,利用式(19)來計(jì)算利普希茨常數(shù),部分推導(dǎo)過程為:

所以,得到本文模型的利普希茨常數(shù)為:

(20)

同時(shí),在加速梯度下降法中,主要的迭代公式如式(21)~式(23)所示:

(21)

(22)

(23)

利用加速梯度下降法計(jì)算輸出權(quán)重的算法過程如算法1所示。

算法1利用加速梯度下降法計(jì)算輸出權(quán)重的算法

輸入:X∈RN*d,Y*∈RN*m,模型參數(shù)λ1,λ2,λ3。

輸出:權(quán)值W*∈Rd*m。

1 初始化t=1,b1=1;

2 初始化零矩陣Gt=W0∈Rd*m;

3 計(jì)算矩陣Lp和Ln;

4 利用式(22)計(jì)算利普西茨常數(shù)Lf;

5 根據(jù)式(16)進(jìn)入循環(huán):

10t=t+1;

11 迭代次數(shù)t達(dá)到最大值時(shí)結(jié)束循環(huán);

12W*=Wt-1。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)代碼均在Matlab 2016a 中運(yùn)行,硬件環(huán)境為Intel? Core(TM)i5-2525M 2.50 GHz CPU,8 GB內(nèi)存;操作系統(tǒng)為Windows 10。選用5個(gè)常用的多標(biāo)簽學(xué)習(xí)評(píng)價(jià)指標(biāo)來綜合評(píng)價(jià)算法性能,分別是平均精度AP(Average Precision)、覆蓋率CV(CoVerage)、漢明損失HL(Hamming Loss)、1-錯(cuò)誤率OE(One-Error)和排序損失RL(Ranking Loss)[21]。為方便簡(jiǎn)寫為AP↑、CV↓、HL↓、OE↓和RL↓,其中↑表示數(shù)值越高越好,↓表示數(shù)值越低越好。

5.2 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)使用的11個(gè)多標(biāo)簽標(biāo)準(zhǔn)化數(shù)據(jù)集選自木蘭網(wǎng)與雅虎網(wǎng)頁,其中涵蓋了文本、音樂和圖像等多個(gè)領(lǐng)域,詳細(xì)信息如表2所示。所選數(shù)據(jù)集都是常用的多標(biāo)簽數(shù)據(jù)集,同時(shí)計(jì)算了數(shù)據(jù)集的平均正負(fù)類密度,以佐證多標(biāo)簽數(shù)據(jù)集中普遍存在標(biāo)簽不平衡情況。由表2可以看出,選用的所有數(shù)據(jù)集都存在不同程度的不平衡情況,其中,F(xiàn)lags數(shù)據(jù)集最為平衡,正負(fù)類數(shù)量接近相同,但在Birds等5個(gè)數(shù)據(jù)集上,正負(fù)類數(shù)量基本呈1∶9,正類數(shù)量遠(yuǎn)少于負(fù)類數(shù)量,其他數(shù)據(jù)集也表現(xiàn)出不同程度的不平衡情況,且都是負(fù)類數(shù)量高于正類數(shù)量。

5.3 對(duì)比算法

本文選擇了6個(gè)多標(biāo)簽學(xué)習(xí)算法作為對(duì)比算法,分別為基于K近鄰思想的多標(biāo)簽ML-KNN(K-Nearest Neighbor for Multi-label Learning)算法、基于極限學(xué)習(xí)機(jī)ELM (Extreme Learning Machine)的多標(biāo)簽學(xué)習(xí)ML RKELM(Multi-label Regression Kernel Extreme Learning Machine)算法[22]、基于類屬屬性思想的多標(biāo)簽學(xué)習(xí)LIFT(Multi-label Learning with Label-specific FeaTures)算法[23]、LLSF-DL(Learning Label-Specific Features and class-Dependent Labels)算法[24]、基于標(biāo)簽稀疏重構(gòu)學(xué)習(xí)的多標(biāo)簽學(xué)習(xí)MLFE(Multi-label Learning with Feature-induced labeling infor-mation Enrichment)算法[25]和反向傳播多標(biāo)簽學(xué)習(xí)BP-MLL(BackPropagation for Multi- Label Learning)算法[4]。

其中,ML RKELM算法的正則化系數(shù)?=1,核函數(shù)選用RBF核,核參數(shù)ρ∈[1,100]。LIFT算法的平滑參數(shù)λ=0.1。ML-KNN算法的近鄰個(gè)數(shù)k=15,平滑參數(shù)s=1。LLSF-DL算法的平滑參數(shù)α,β,γ∈[4-5,45],ρ∈{0.1,1,10}。MLFE算法的參數(shù)β1∈{1,2,…,10},β2∈{1,10,15},β3∈{1,10}。BP-MLL算法的核函數(shù)選用RBF核,核參數(shù)ρ=1。本文MLNCE算法的平衡化參數(shù)α=2,平滑參數(shù)s=0.001,參數(shù)λ1∈{2-10,2-1,21,210},λ2,λ3∈[2-10,2]。

Table 2 Detailed description of multi-label datasets表2 多標(biāo)簽數(shù)據(jù)集的詳細(xì)描述

5.4 實(shí)驗(yàn)結(jié)果與分析

限于篇幅,僅列出AP評(píng)價(jià)指標(biāo)結(jié)果,如表3所示,其中,數(shù)字下標(biāo)表示算法排位信息,最優(yōu)結(jié)果以黑體表示,并且將每種算法在所有數(shù)據(jù)集上的平均排位列在最后一行,排位越小算法性能越優(yōu)。最后一列中,URL 1:Yahoo Web Pages(http://www.kecl.ntt.co.jp/as/members/ueda/yahoo.tar),URL 2:Mulan(http://mulan.sourceforge.net/datasets-mlc.html)。可見,在AP指標(biāo)上,MLNCE算法在7個(gè)數(shù)據(jù)集上性能最優(yōu),在其他4個(gè)數(shù)據(jù)集上均排第2,平均排位為1.36。由于各數(shù)據(jù)集的不平衡程度不同,本文算法在各數(shù)據(jù)集上的效果也不相同,同樣地,各數(shù)據(jù)集中標(biāo)簽的相關(guān)關(guān)系也不同,這些因素會(huì)影響到本文算法的實(shí)驗(yàn)結(jié)果,使得本文算法并不能在全部指標(biāo)上全面地優(yōu)于其他對(duì)比算法,但數(shù)據(jù)集的這些性質(zhì)并不是實(shí)驗(yàn)結(jié)果的決定性因素,結(jié)果也表明了本文算法在大部分的情況下都要優(yōu)于其他對(duì)比算法。為了更直觀地體現(xiàn)本文算法的優(yōu)越性,圖3比較了所有算法在5個(gè)指標(biāo)上的平均排位,圖3柱狀圖中柱體越低代表排序越好。結(jié)果表明,在5個(gè)評(píng)價(jià)指標(biāo)上,MLNCE算法的結(jié)果都在不同程度上優(yōu)于其他對(duì)比算法,總體平均排序也是最優(yōu)的,充分說明了該算法的優(yōu)越性。

5.5 模型結(jié)構(gòu)分析

本文算法的核心點(diǎn)就是密度標(biāo)簽矩陣的使用以及兼顧標(biāo)簽正負(fù)相關(guān)性,本節(jié)就這2點(diǎn)內(nèi)容進(jìn)行2組對(duì)比實(shí)驗(yàn)。

Table 3 AP↑ value of each algorithm on 11 datasets表3 各算法在11個(gè)數(shù)據(jù)集上的AP↑值

Figure 3 Overall average ranks of the comparing algorithms in terms of all the metrics圖3 算法在所有指標(biāo)上的總體平均排位

首先,為了驗(yàn)證使用密度標(biāo)簽矩陣的可行性和有效性,添加對(duì)比實(shí)驗(yàn)以說明。在實(shí)驗(yàn)數(shù)據(jù)集不變,模型參數(shù)不變,求解方法不變的情況下,將目標(biāo)函數(shù)式(16)中的密度標(biāo)簽矩陣Y*替換為原始的標(biāo)簽矩陣Y,求得預(yù)測(cè)結(jié)果計(jì)算5種評(píng)價(jià)指標(biāo),并與使用密度標(biāo)簽矩陣Y*的本文算法實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,具體對(duì)比結(jié)果如表4所示,黑色加粗代表占優(yōu)。

由表4可以直觀地看出,使用密度標(biāo)簽矩陣計(jì)算得到的實(shí)驗(yàn)結(jié)果在大部分情況下是占優(yōu)的,只有在極少部分情況下使用原始標(biāo)簽得到的結(jié)果要更好,反映了密度標(biāo)簽矩陣對(duì)分類效果有改善作用,表明本文算法可以有效改善因標(biāo)簽不平衡帶來的錯(cuò)分類現(xiàn)象,說明密度標(biāo)簽矩陣是可行有效的。

然后,為了分析模型中正負(fù)相關(guān)性正則項(xiàng)的可行性和有效性,本文進(jìn)行了如下的對(duì)比實(shí)驗(yàn)。將目標(biāo)函數(shù)式(16)中的λ3取值為0,其它因素不變,構(gòu)成只考慮標(biāo)簽正相關(guān)性的改進(jìn)算法MLPC;同樣>地,將目標(biāo)函數(shù)式(16)中的λ2取值為0,構(gòu)成只考慮標(biāo)簽負(fù)相關(guān)性的改進(jìn)算法MLNC。將這2個(gè)改進(jìn)算法在同樣的11個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),并與本文算法MLNCE進(jìn)行AP、CV2個(gè)指標(biāo)的對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示,黑色加粗代表占優(yōu)。

由表5可以看出,由于本文MLNCE算法兼顧了正反相關(guān)性信息,分類性能有所提高。實(shí)驗(yàn)結(jié)果表明,本文MLNCE算法大體上占優(yōu),表明正負(fù)相關(guān)性正則化項(xiàng)是可行的,且有益于分類效果的提高。

5.6 參數(shù)敏感性分析

根據(jù)本文算法思想,模型參數(shù)λ1,λ2,λ3都不是唯一值,其中參數(shù)λ2,λ3的取值在[2-10,2]。由于參數(shù)的取值對(duì)本文算法有一定的影響,所以,本文選取Natural_scene數(shù)據(jù)集進(jìn)行不同參數(shù)取值的對(duì)比實(shí)驗(yàn)。圖4給出了不同參數(shù)λ2,λ3在Natural_scene數(shù)據(jù)集上AP和OE指標(biāo)的對(duì)比結(jié)果。

從圖4可以看出,在Natural_scene數(shù)據(jù)集上,當(dāng)浮動(dòng)參數(shù)λ2,λ3時(shí),2個(gè)評(píng)價(jià)指標(biāo)的變動(dòng)趨勢(shì)大致相同。當(dāng)λ2,λ3取值小于2-4時(shí),各指標(biāo)得到最優(yōu)值,并且隨著取值越來越小,趨于穩(wěn)定。

5.7 統(tǒng)計(jì)假設(shè)檢驗(yàn)分析

為了評(píng)價(jià)MLNCE算法在各數(shù)據(jù)集上的綜合性能,本文選用統(tǒng)計(jì)假設(shè)檢驗(yàn)的方式評(píng)估該算法與其他對(duì)比算法在11個(gè)數(shù)據(jù)集上的結(jié)果是否真實(shí)有效。首先使用非參數(shù)化的弗里德曼檢驗(yàn)[26]進(jìn)行評(píng)估,再采用顯著性水平下的Nemenyi檢驗(yàn)[27]。若2個(gè)對(duì)比算法在所有數(shù)據(jù)集上的平均排序的差值大于臨界差值CD(Critical Difference),則認(rèn)為這2個(gè)算法存在顯著性差異,否則無顯著性差異。

Table 4 Experimental results before and after label space transformation表4 標(biāo)簽空間改造前后的實(shí)驗(yàn)結(jié)果

Table 5 Results of correlation comparison experiment表5 相關(guān)性對(duì)比實(shí)驗(yàn)的結(jié)果

Figure 4 Parameter sensitivity analysis圖4 參數(shù)敏感性分析圖

圖5給出了在AP和OE2個(gè)評(píng)價(jià)指標(biāo)下每個(gè)算法之間的對(duì)比,其他指標(biāo)略。對(duì)于沒有顯著性差異的算法用實(shí)線相連,各評(píng)價(jià)指標(biāo)從左至右,算法性能依次降低。

對(duì)于每個(gè)算法,都有30種實(shí)驗(yàn)對(duì)比結(jié)果(6個(gè)對(duì)比算法,5個(gè)評(píng)價(jià)指標(biāo)),結(jié)合圖5得到結(jié)論:在54%的情況下,MLNCE算法與其他算法有顯著性差異,并且性能在100%的情況下占優(yōu)。在AP指標(biāo)上,MLNCE算法與MLFE、MLRKELM算法沒有顯著性差異;在OE指標(biāo)上,MLNCE算法與BP-MLL算法、ML-KNN算法具有顯著性差異;在RL指標(biāo)上,MLNCE算法與MLFE等3個(gè)算法沒有顯著性差異;在CV指標(biāo)上,MLNCE算法與MLFE算法、LIFT算法和MLRKELM算法沒有顯著性差異;在HL指標(biāo)上,MLNCE算法與LLSF-DL算法、LIFT算法沒有顯著性差異。在5個(gè)評(píng)價(jià)指標(biāo)的性能對(duì)比上,MLNCE算法在所有指標(biāo)上均為最優(yōu)。從上述2次統(tǒng)計(jì)假設(shè)檢驗(yàn)分析可知,MLNCE算法性能最優(yōu),與其他對(duì)比算法顯著性差異明顯,進(jìn)一步說明了MLNCE算法的有效性和合理性。

Figure 5 Performance comparison of each algorithm圖5 各算法性能對(duì)比

6 結(jié)束語

在多標(biāo)簽分類學(xué)習(xí)中,有必要研究標(biāo)簽間相關(guān)關(guān)系,而在解決不平衡問題的同時(shí),結(jié)合相關(guān)性的研究則可以提升分類性能,利用這一關(guān)系,本文引入了密度標(biāo)簽空間這一概念,并且提出了基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE,該算法有效地提升了標(biāo)簽空間質(zhì)量,改善了標(biāo)簽不平衡情況,并且深入探究了標(biāo)簽正負(fù)相關(guān)性對(duì)分類精度的影響。實(shí)驗(yàn)結(jié)果表明,MLNCE算法的分類精度優(yōu)于對(duì)比算法。

本文算法設(shè)計(jì)過程中,利用平衡后的密度標(biāo)簽空間來研究標(biāo)簽間的正負(fù)相關(guān)性,做到了相互結(jié)合,但是并沒有嘗試?yán)孟嚓P(guān)性信息來解決標(biāo)簽不平衡問題,這將是下一步研究的重點(diǎn)。另外,在真實(shí)世界的多標(biāo)簽數(shù)據(jù)集中,很多樣本數(shù)據(jù)是缺損的[28],本文的研究都是在完備數(shù)據(jù)集上進(jìn)行的,如何進(jìn)一步提升在不完備數(shù)據(jù)集上的分類性能,也是后續(xù)的重點(diǎn)研究方向。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準(zhǔn)備好了嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
按需分類
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲欧美日韩成人在线| 亚洲浓毛av| 欧美性久久久久| 91久久夜色精品国产网站| 1024你懂的国产精品| 色婷婷色丁香| 亚洲综合中文字幕国产精品欧美| 日本久久网站| 精品视频免费在线| 久久婷婷六月| 91九色视频网| 四虎免费视频网站| 国产精欧美一区二区三区| 国产欧美视频一区二区三区| www亚洲精品| 国产成人a毛片在线| 国产精品熟女亚洲AV麻豆| 狠狠色丁香婷婷| 欧美日韩在线成人| 精品国产成人a在线观看| 久青草免费在线视频| 精品三级网站| 日韩欧美国产综合| 成年女人a毛片免费视频| 青青草综合网| 呦系列视频一区二区三区| 激情五月婷婷综合网| 国产成人三级| 亚洲人成亚洲精品| 伊人久久福利中文字幕| 国产乱人伦AV在线A| 天天躁狠狠躁| 女人18毛片一级毛片在线| 亚洲精品日产精品乱码不卡| 亚洲自偷自拍另类小说| 亚洲精品国产自在现线最新| 99精品视频播放| 3D动漫精品啪啪一区二区下载| 国产主播一区二区三区| 在线国产毛片手机小视频| av大片在线无码免费| 国产亚洲精品精品精品| 国产欧美日韩另类| 亚洲资源站av无码网址| 亚洲欧美在线综合一区二区三区| 高清不卡毛片| 欧美啪啪一区| 热这里只有精品国产热门精品| 久久久久久久97| 成人在线亚洲| 亚洲欧美极品| 国产高潮视频在线观看| 114级毛片免费观看| 怡春院欧美一区二区三区免费| 午夜在线不卡| 亚洲天堂久久新| 国产一区二区三区在线观看视频| 最新亚洲av女人的天堂| 69国产精品视频免费| 99视频在线免费观看| 2022国产无码在线| 91精品人妻一区二区| 亚洲成人高清无码| 国产精品v欧美| 亚洲av色吊丝无码| 又污又黄又无遮挡网站| 国产一级小视频| 毛片网站在线看| 色吊丝av中文字幕| 欧美天天干| 无码人妻免费| 国产精品一区在线观看你懂的| 毛片久久久| 免费无码又爽又刺激高| 欧美在线导航| 无码一区中文字幕| 国产又黄又硬又粗| 无码'专区第一页| 国产福利在线免费| 中文字幕2区| 日韩欧美国产成人| 国产福利一区在线|