基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法*

2021-09-22 13:27:26程玉勝曹天成王一賓鄭偉杰

計(jì)算機(jī)工程與科學(xué) 2021年9期

關(guān)鍵詞：分類

程玉勝，曹天成，王一賓，鄭偉杰

(1.安徽省高校智能感知與計(jì)算重點(diǎn)實(shí)驗(yàn)室(安慶師范大學(xué))，安徽安慶 246133； 2.計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室(安徽大學(xué))，安徽合肥 230061)

1 引言

多標(biāo)簽學(xué)習(xí)[1]作為機(jī)器學(xué)習(xí)研究的熱點(diǎn)，吸引了大量研究者的關(guān)注，并在自動(dòng)標(biāo)注、信息檢索、個(gè)性化推薦等領(lǐng)域得到了廣泛應(yīng)用[2 - 5]。但是，由于標(biāo)記空間的維數(shù)過大，造成了多標(biāo)簽數(shù)據(jù)的不平衡問題更加突出，嚴(yán)重影響了分類器的性能。也正是由于標(biāo)簽的不平衡性造成了不同標(biāo)簽對(duì)樣本實(shí)例的描述程度存在一定的差異性，有些標(biāo)簽出現(xiàn)的頻率較大，能描述大部分的樣本；而有些標(biāo)簽僅僅存在于少量樣本中，但往往這一小部分的標(biāo)簽卻包含了很多的信息。

與平衡數(shù)據(jù)相比，大多數(shù)算法在處理不平衡數(shù)據(jù)時(shí)表現(xiàn)不佳，分類器偏向多數(shù)標(biāo)簽，從而在少數(shù)標(biāo)簽的判別上會(huì)出現(xiàn)更高的錯(cuò)誤率，近年來越來越多針對(duì)多標(biāo)簽不平衡問題的方法被提出。如，Liu等[6]利用實(shí)例的局部標(biāo)簽分布，對(duì)數(shù)據(jù)進(jìn)行合成過采樣，在兼具全局與局部不平衡的同時(shí)，提高了分類器的分類精度；Tsai等[7]在處理臨床記錄文本時(shí)，將類別標(biāo)簽進(jìn)行分層，再加入卷積模型中，不僅提高了識(shí)別性能，同時(shí)還解決了類別不平衡問題；Lo等[8]利用代價(jià)敏感學(xué)習(xí)方法，為每種標(biāo)簽計(jì)算一個(gè)錯(cuò)分代價(jià)，通過代價(jià)值的不同來減少少數(shù)標(biāo)簽錯(cuò)分類情況。可見，解決標(biāo)簽不平衡問題是提高多標(biāo)簽分類精度的有效手段。

然而，真實(shí)世界中標(biāo)簽和標(biāo)簽之間并非相互獨(dú)立，往往存在一定的關(guān)聯(lián)性。在沒有足夠多的訓(xùn)練集時(shí)，充分利用標(biāo)簽間相關(guān)性來豐富訓(xùn)練集的標(biāo)簽集是必要的。目前，有許多學(xué)者利用標(biāo)簽之間的相關(guān)性來提高多標(biāo)簽學(xué)習(xí)算法的性能。鏈?zhǔn)椒诸怌C(Classifier Chains)[9]將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為基于BR(Binary Relevance)的分類器鏈，但是鏈?zhǔn)请S機(jī)排列的，對(duì)標(biāo)簽間相關(guān)性的考慮也是隨機(jī)的。校準(zhǔn)標(biāo)簽排序CLR(Calibrated Label Ranking)算法[10]利用人工校準(zhǔn)標(biāo)簽進(jìn)行排序，但是遇到數(shù)據(jù)集較大、類別標(biāo)簽較多的問題時(shí)，不僅耗時(shí)耗力，而且得到的子分類器過多，增加了算法復(fù)雜度。隨機(jī)k標(biāo)簽集RAkEL(RAndom k-LabELsets)算法[11]是基于LP(Label Powerest)分類器的集成算法，在保留LP優(yōu)點(diǎn)的同時(shí)還考慮了標(biāo)簽之間的相關(guān)性，但會(huì)導(dǎo)致算法更復(fù)雜。多標(biāo)簽分類的核方法RankSVM(kernel method for multi-labelled classification)[12]利用最大間隔準(zhǔn)則策略適應(yīng)多標(biāo)簽學(xué)習(xí)，在建模過程中對(duì)樣本對(duì)應(yīng)的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽間的排序損失構(gòu)建SVM分類器，但這需要計(jì)算大量的變量，所以耗時(shí)較大。

上述方法都是通過計(jì)算標(biāo)簽間“距離”來衡量相關(guān)性，越接近的2個(gè)標(biāo)簽，相關(guān)性越大，這就默認(rèn)了以正相關(guān)為主來考慮標(biāo)簽間的相關(guān)性。可是在實(shí)際問題中，還存在某種程度上的負(fù)相關(guān)。例如，在自然場(chǎng)景中，標(biāo)簽“山”和“樹”存在某種程度上的正相關(guān)，而標(biāo)簽“沙漠”和“海洋”往往相互排斥，一般不會(huì)同時(shí)出現(xiàn)在一個(gè)樣本上，它們之間以負(fù)相關(guān)進(jìn)行制約。例如，圖1a是分類器識(shí)別為“海洋”標(biāo)簽的圖像，而圖1b中由于顏色、紋理等特征與圖1a極為相似，“天空”標(biāo)簽被錯(cuò)分為“海洋”標(biāo)簽，使得圖1b最終分類到“海洋”“沙漠”標(biāo)簽中。但是，“海洋”與“沙漠”2個(gè)標(biāo)簽一般存在著負(fù)相關(guān)性，極大可能不會(huì)同時(shí)用于描述同一實(shí)例，那么，如果讓分類器學(xué)習(xí)了這組負(fù)相關(guān)，就可以避免這種情況的發(fā)生。

現(xiàn)有方法更多地側(cè)重于標(biāo)簽正相關(guān)性來提高學(xué)習(xí)性能，而對(duì)標(biāo)簽負(fù)相關(guān)性的明確探索卻很少。一些算法利用標(biāo)簽空間流形假設(shè)下的拉普拉斯矩陣正則化來探索標(biāo)簽間的兩兩相關(guān)關(guān)系，但他們主要關(guān)注的還是標(biāo)簽正相關(guān)性，而不能很好地利用標(biāo)簽負(fù)相關(guān)性。雖然，Huang等[13]明確探討了標(biāo)簽正相關(guān)和負(fù)相關(guān)這2種相關(guān)關(guān)系，但未考慮利用這2種關(guān)系相互促進(jìn)進(jìn)行分類。Zhang等[14]利用標(biāo)簽之間的協(xié)方差矩陣將標(biāo)簽兩兩組合成標(biāo)簽對(duì)，并探討每個(gè)標(biāo)簽對(duì)中的相關(guān)性(包括正相關(guān)、不相關(guān)和負(fù)相關(guān))，但是也只能求出成對(duì)標(biāo)簽之間的相關(guān)性，全局相關(guān)性的信息并不完善。Wu等[15]在分類算法中加入了負(fù)相關(guān)性正則，并用核映射加以求解，但也忽略了標(biāo)簽不平衡所帶來的影響。

Figure 1 Natural scene images with multi labels 圖1 多標(biāo)簽自然場(chǎng)景圖像

可見，探索標(biāo)簽的負(fù)相關(guān)性，改善分類器性能很有必要。基于此，本文提出了一種基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE(imbalanced Multi-label Learning algorithm based on Negative Correlation Enhancement)。該算法利用密度標(biāo)簽空間取代傳統(tǒng)標(biāo)簽空間，有效解決了多標(biāo)簽不平衡問題，并且在信息更加完善的密度標(biāo)簽空間中挖掘了標(biāo)簽間的正負(fù)2種相關(guān)性信息，從而提高分類精度。首先，本文算法利用訓(xùn)練集標(biāo)簽密度與代價(jià)因子構(gòu)建新的密度標(biāo)簽矩陣，使新的標(biāo)簽空間包含更多密度信息，從而解決多標(biāo)簽不平衡的問題；然后，使用密度標(biāo)簽矩陣取代原有標(biāo)簽矩陣，分別計(jì)算對(duì)應(yīng)于標(biāo)簽正相關(guān)性和負(fù)相關(guān)性的2個(gè)稀疏對(duì)稱相似性矩陣；最后，構(gòu)建線性分類模型，并在線性分類模型中加入2個(gè)標(biāo)簽流形正則項(xiàng)來完善相關(guān)性的信息。本文在11個(gè)數(shù)據(jù)集上對(duì)6種多標(biāo)簽學(xué)習(xí)算法進(jìn)行了對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明了本文算法的可行性、有效性和穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明：該算法在絕大多數(shù)情況下可以取得更好的預(yù)測(cè)精度且穩(wěn)定性更高。

2 密度標(biāo)簽空間

2.1 多標(biāo)簽學(xué)習(xí)

2.2 密度標(biāo)簽矩陣的構(gòu)建

(1)

(2)

其中，P+(j)是第j個(gè)標(biāo)簽的正類密度，P-(j)是第j個(gè)標(biāo)簽的負(fù)類密度，理論上P+(j)與P-(j)的和為1。本文將標(biāo)簽密度和條件熵[16]相結(jié)合計(jì)算代價(jià)因子，各標(biāo)簽代價(jià)因子就是分類正確或是錯(cuò)誤帶來的信息量大小。在傳統(tǒng)的代價(jià)敏感學(xué)習(xí)方法中，代價(jià)的大小都是由研究者主觀給出的，而在本文中是通過計(jì)算得出的，不同的數(shù)據(jù)集會(huì)得到不同的代價(jià)。設(shè)代價(jià)因子共分為4種：已知標(biāo)簽為正類時(shí)，通過分類器計(jì)算得到標(biāo)簽預(yù)測(cè)為正類或負(fù)類的代價(jià)因子；已知標(biāo)簽為負(fù)類時(shí)，通過分類器計(jì)算得到標(biāo)簽預(yù)測(cè)為正類或負(fù)類的代價(jià)因子。4種錯(cuò)分代價(jià)因子的計(jì)算如式(3)～式(6)所示：

θTP=-p((P++s),(P++s))

lbp((P++s)|(P++s))

(3)

θFP=-p((P++s),(P-+s))

lbp((P-+s)|(P++s))

(4)

θFN=-p((P-+s),(P++s))

lbp((P++s)|(P-+s))

(5)

θTN=-p((P-+s),(P-+s))

lbp((P-+s)|(P-+s))

(6)

實(shí)驗(yàn)數(shù)據(jù)集中會(huì)出現(xiàn)某類標(biāo)簽密度為零的情況，這種情況會(huì)導(dǎo)致條件熵值無法計(jì)算，所以本文在計(jì)算代價(jià)時(shí)引入了一個(gè)數(shù)值極小的平滑參數(shù)s，目的是在盡可能不改變結(jié)果大小的情況下，消除標(biāo)簽密度為零而帶來的無法計(jì)算情況，一般情況s∈[1×10-5,1×10-3]。代價(jià)因子具體如表1所示。

Table 1 Four kinds of cost factor表1 4種代價(jià)因子

這4種代價(jià)因子的含義可以理解為：現(xiàn)已知某樣本的第j個(gè)標(biāo)簽為+1時(shí)，通過分類器預(yù)測(cè)出標(biāo)簽為+1的代價(jià)為θTP(j)，通過分類器預(yù)測(cè)出標(biāo)簽為-1的代價(jià)為θFP(j)。算法正確預(yù)測(cè)后，若樣本的第j個(gè)標(biāo)簽為正類則θTP(j)為0，若樣本的第j個(gè)標(biāo)簽為負(fù)類則θTN(j)為0。計(jì)算出的代價(jià)因子越大，說明預(yù)測(cè)的標(biāo)簽置信度越小，錯(cuò)誤分類的代價(jià)就應(yīng)該越大。這些錯(cuò)誤是由每個(gè)標(biāo)簽的標(biāo)簽密度帶來的，若密度趨向于平衡，代價(jià)因子就會(huì)小，相應(yīng)所求得的標(biāo)簽置信度也大，利用這4種代價(jià)因子計(jì)算標(biāo)簽密度代價(jià)矩陣Ldcf如式(7)所示：

(7)

其中，i∈{1,2,3,…,N}為樣本編號(hào);j∈{1,2,3,…,m}為標(biāo)簽編號(hào);α為平衡化參數(shù)，用于調(diào)整標(biāo)簽密度代價(jià)的敏感程度，取值在[1,10]，本文所有實(shí)驗(yàn)中α取值為2。標(biāo)簽密度代價(jià)矩陣Ldcf包含樣本標(biāo)簽的密度信息，將其融入標(biāo)簽空間后，可以使原標(biāo)簽空間含有標(biāo)簽密度信息，增大了少數(shù)標(biāo)簽的錯(cuò)分類代價(jià)，從而大幅降低分類時(shí)數(shù)據(jù)不平衡而帶來的錯(cuò)分類現(xiàn)象。新的密度標(biāo)簽矩陣Y*由式(8)構(gòu)建：

Y*=Y×Ldcf

(8)

標(biāo)簽改造的過程是要在盡可能不改變?cè)紭?biāo)簽語義信息的情況下，加上改變不平衡的約束，所以，平衡化參數(shù)α的取值也不宜太過敏感，要使得改造后標(biāo)簽值盡可能地逼近+1或-1。

3 基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法

3.1 基本多標(biāo)簽學(xué)習(xí)模型

(9)

其中，W=[W1,W2,W3,…,Wd]T∈Rd*m為模型的回歸權(quán)重，為了提高模型的穩(wěn)定性和泛化性能，本文使用L1正則(Lasso正則)項(xiàng)[17]來產(chǎn)生稀疏的權(quán)值矩陣，并且還起到了特征選擇的作用，λ1≥0是平衡參數(shù)。設(shè)測(cè)試集預(yù)測(cè)矩陣F=X*W，則多標(biāo)簽分類函數(shù)H=sgn(F)。這里的sgn(x)為符號(hào)函數(shù)，當(dāng)x>0時(shí)，輸出為1；反之則輸出-1。

為了解決標(biāo)簽密度不平衡的問題，本文用密度標(biāo)簽矩陣代替標(biāo)簽矩陣，模型更新如式(10)所示：

(10)

3.2 標(biāo)簽正相關(guān)正則項(xiàng)

利用標(biāo)簽相關(guān)性對(duì)多標(biāo)簽學(xué)習(xí)至關(guān)重要，本文使用標(biāo)簽的正負(fù)相關(guān)性來規(guī)范模型。如果2個(gè)標(biāo)簽yi和yj呈正相關(guān)關(guān)系，它們的標(biāo)簽值應(yīng)該更可能是相近的(都接近1或-1)，在預(yù)測(cè)時(shí)，這2個(gè)標(biāo)簽的預(yù)測(cè)值fi和fj應(yīng)當(dāng)更加相似，根據(jù)這一點(diǎn)，本文采用標(biāo)簽流形正則項(xiàng)來約束模型。類似于實(shí)例級(jí)流形正則化項(xiàng)[18]，標(biāo)簽正相關(guān)性的流形正則項(xiàng)被定義如式(11)所示：

(11)

其中，S∈Rm*m是用余弦相似度[19]計(jì)算出的基礎(chǔ)標(biāo)簽相似度矩陣，該矩陣是基于密度標(biāo)簽矩陣Y*計(jì)算得到的，由于標(biāo)簽空間的不平衡情況得到了解決，所以相對(duì)于利用原有不平衡標(biāo)簽空間計(jì)算出的相似度矩陣，該矩陣的置信度更高，可以提升分類效果。對(duì)正則項(xiàng)進(jìn)行推算：

這里，Dp∈Rm*m是對(duì)角線上值為1的對(duì)角矩陣，拉普拉斯矩陣Lp=Dp-S是S的標(biāo)簽正相關(guān)性對(duì)角矩陣。這時(shí)，結(jié)合了標(biāo)簽正相關(guān)性的分類模型如式(12)所示：

λ2Tr(XWLp(XW)T)

(12)

其中，λ2為標(biāo)簽流形正則項(xiàng)的正則參數(shù)。

此時(shí)，分類模型已經(jīng)規(guī)范了標(biāo)簽正相關(guān)性。

3.3 標(biāo)簽負(fù)相關(guān)正則項(xiàng)

式(12)對(duì)模型加上了正相關(guān)性約束，但是只考慮正相關(guān)性的分類模型不夠全面完善，在模型中加入標(biāo)簽負(fù)相關(guān)性約束是必要的。如果2個(gè)標(biāo)簽yi和yj呈負(fù)相關(guān)關(guān)系，它們的標(biāo)簽值應(yīng)該更可能是相反的，若一個(gè)標(biāo)簽值接近1，則另一個(gè)接近-1，反之亦然。而在預(yù)測(cè)時(shí)，這2個(gè)標(biāo)簽的預(yù)測(cè)值fi和fj應(yīng)當(dāng)相差巨大，而fi與fj的相反數(shù)-fj應(yīng)極為相似，因此，標(biāo)簽負(fù)相關(guān)性的流形正則項(xiàng)被定義如式(13)所示：

(13)

同樣地，S∈Rm*m是基于密度標(biāo)簽矩陣Y*計(jì)算得到的基礎(chǔ)標(biāo)簽相似度矩陣。對(duì)正則項(xiàng)進(jìn)行進(jìn)一步推算：

其中,拉普拉斯矩陣Ln=Dn+S是S的標(biāo)簽負(fù)相關(guān)性對(duì)角矩陣。將正則項(xiàng)加入模型得式(14)：

λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)

(14)

Figure 2 Diagram of model operation圖2 模型工作圖解

其中，λ2和λ3是2個(gè)標(biāo)簽流形正則項(xiàng)的正則參數(shù)。

圖2描述了分類模型的主要工作流程，密度標(biāo)簽矩陣作為目標(biāo)函數(shù)的輸入，正負(fù)相關(guān)性信息作為約束條件，將直接作用于目標(biāo)函數(shù)的訓(xùn)練過程。而選用的2個(gè)標(biāo)簽流形正則化項(xiàng)之所以能夠兼顧正負(fù)2種相關(guān)性并起到促進(jìn)作用，是因?yàn)?個(gè)拉普拉斯矩陣Lp和Ln的編碼方式都是基于相似度矩陣S的線性變化。而且對(duì)于分類模型來說，在標(biāo)簽空間分別考慮正負(fù)相關(guān)性，這2個(gè)性質(zhì)不會(huì)相互抵消,反而會(huì)相互促進(jìn)。

4 算法優(yōu)化

本文算法的目標(biāo)是通過迭代求解出最優(yōu)權(quán)重矩陣W，目標(biāo)函數(shù)如式(15)所示：

λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)

(15)

將式(15)進(jìn)行分解得式(16)：

W=argminWF(W)=f(W)+g(W)

(16)

其中，

λ3Tr(XWLn(XW)T)

(17)

g(W)=λ1‖W‖1

(18)

首先，對(duì)式(17)進(jìn)行線性處理，從而計(jì)算目標(biāo)梯度：

2λ2XTXWLp2λ3XTXWLn

(19)

然后，利用式(19)來計(jì)算利普希茨常數(shù)，部分推導(dǎo)過程為：

所以，得到本文模型的利普希茨常數(shù)為：

(20)

同時(shí)，在加速梯度下降法中，主要的迭代公式如式(21)～式(23)所示：

(21)

(22)

(23)

利用加速梯度下降法計(jì)算輸出權(quán)重的算法過程如算法1所示。

算法1利用加速梯度下降法計(jì)算輸出權(quán)重的算法

輸入：X∈RN*d,Y*∈RN*m,模型參數(shù)λ1,λ2,λ3。

輸出：權(quán)值W*∈Rd*m。

1 初始化t=1，b1=1；

2 初始化零矩陣Gt=W0∈Rd*m；

3 計(jì)算矩陣Lp和Ln;

4 利用式(22)計(jì)算利普西茨常數(shù)Lf；

5 根據(jù)式(16)進(jìn)入循環(huán)：

10t=t+1;

11 迭代次數(shù)t達(dá)到最大值時(shí)結(jié)束循環(huán)；

12W*=Wt-1。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)代碼均在Matlab 2016a 中運(yùn)行，硬件環(huán)境為Intel? Core(TM)i5-2525M 2.50 GHz CPU，8 GB內(nèi)存；操作系統(tǒng)為Windows 10。選用5個(gè)常用的多標(biāo)簽學(xué)習(xí)評(píng)價(jià)指標(biāo)來綜合評(píng)價(jià)算法性能，分別是平均精度AP(Average Precision)、覆蓋率CV(CoVerage)、漢明損失HL(Hamming Loss)、1-錯(cuò)誤率OE(One-Error)和排序損失RL(Ranking Loss)[21]。為方便簡(jiǎn)寫為AP↑、CV↓、HL↓、OE↓和RL↓，其中↑表示數(shù)值越高越好，↓表示數(shù)值越低越好。

5.2 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)使用的11個(gè)多標(biāo)簽標(biāo)準(zhǔn)化數(shù)據(jù)集選自木蘭網(wǎng)與雅虎網(wǎng)頁，其中涵蓋了文本、音樂和圖像等多個(gè)領(lǐng)域，詳細(xì)信息如表2所示。所選數(shù)據(jù)集都是常用的多標(biāo)簽數(shù)據(jù)集，同時(shí)計(jì)算了數(shù)據(jù)集的平均正負(fù)類密度，以佐證多標(biāo)簽數(shù)據(jù)集中普遍存在標(biāo)簽不平衡情況。由表2可以看出，選用的所有數(shù)據(jù)集都存在不同程度的不平衡情況，其中，F(xiàn)lags數(shù)據(jù)集最為平衡，正負(fù)類數(shù)量接近相同，但在Birds等5個(gè)數(shù)據(jù)集上，正負(fù)類數(shù)量基本呈1∶9，正類數(shù)量遠(yuǎn)少于負(fù)類數(shù)量，其他數(shù)據(jù)集也表現(xiàn)出不同程度的不平衡情況，且都是負(fù)類數(shù)量高于正類數(shù)量。

5.3 對(duì)比算法

本文選擇了6個(gè)多標(biāo)簽學(xué)習(xí)算法作為對(duì)比算法，分別為基于K近鄰思想的多標(biāo)簽ML-KNN(K-Nearest Neighbor for Multi-label Learning)算法、基于極限學(xué)習(xí)機(jī)ELM (Extreme Learning Machine)的多標(biāo)簽學(xué)習(xí)ML RKELM(Multi-label Regression Kernel Extreme Learning Machine)算法[22]、基于類屬屬性思想的多標(biāo)簽學(xué)習(xí)LIFT(Multi-label Learning with Label-specific FeaTures)算法[23]、LLSF-DL(Learning Label-Specific Features and class-Dependent Labels)算法[24]、基于標(biāo)簽稀疏重構(gòu)學(xué)習(xí)的多標(biāo)簽學(xué)習(xí)MLFE(Multi-label Learning with Feature-induced labeling infor-mation Enrichment)算法[25]和反向傳播多標(biāo)簽學(xué)習(xí)BP-MLL(BackPropagation for Multi- Label Learning)算法[4]。

其中，ML RKELM算法的正則化系數(shù)?=1，核函數(shù)選用RBF核，核參數(shù)ρ∈[1,100]。LIFT算法的平滑參數(shù)λ=0.1。ML-KNN算法的近鄰個(gè)數(shù)k=15，平滑參數(shù)s=1。LLSF-DL算法的平滑參數(shù)α，β,γ∈[4-5,45],ρ∈{0.1,1,10}。MLFE算法的參數(shù)β1∈{1,2,…,10},β2∈{1,10,15}，β3∈{1,10}。BP-MLL算法的核函數(shù)選用RBF核，核參數(shù)ρ=1。本文MLNCE算法的平衡化參數(shù)α=2，平滑參數(shù)s=0.001，參數(shù)λ1∈{2-10,2-1,21,210}，λ2,λ3∈[2-10,2]。

Table 2 Detailed description of multi-label datasets表2 多標(biāo)簽數(shù)據(jù)集的詳細(xì)描述

5.4 實(shí)驗(yàn)結(jié)果與分析

限于篇幅，僅列出AP評(píng)價(jià)指標(biāo)結(jié)果，如表3所示，其中，數(shù)字下標(biāo)表示算法排位信息，最優(yōu)結(jié)果以黑體表示，并且將每種算法在所有數(shù)據(jù)集上的平均排位列在最后一行，排位越小算法性能越優(yōu)。最后一列中，URL 1:Yahoo Web Pages(http://www.kecl.ntt.co.jp/as/members/ueda/yahoo.tar)，URL 2:Mulan(http://mulan.sourceforge.net/datasets-mlc.html)。可見，在AP指標(biāo)上，MLNCE算法在7個(gè)數(shù)據(jù)集上性能最優(yōu)，在其他4個(gè)數(shù)據(jù)集上均排第2，平均排位為1.36。由于各數(shù)據(jù)集的不平衡程度不同，本文算法在各數(shù)據(jù)集上的效果也不相同，同樣地，各數(shù)據(jù)集中標(biāo)簽的相關(guān)關(guān)系也不同，這些因素會(huì)影響到本文算法的實(shí)驗(yàn)結(jié)果，使得本文算法并不能在全部指標(biāo)上全面地優(yōu)于其他對(duì)比算法，但數(shù)據(jù)集的這些性質(zhì)并不是實(shí)驗(yàn)結(jié)果的決定性因素，結(jié)果也表明了本文算法在大部分的情況下都要優(yōu)于其他對(duì)比算法。為了更直觀地體現(xiàn)本文算法的優(yōu)越性，圖3比較了所有算法在5個(gè)指標(biāo)上的平均排位，圖3柱狀圖中柱體越低代表排序越好。結(jié)果表明，在5個(gè)評(píng)價(jià)指標(biāo)上，MLNCE算法的結(jié)果都在不同程度上優(yōu)于其他對(duì)比算法，總體平均排序也是最優(yōu)的，充分說明了該算法的優(yōu)越性。

5.5 模型結(jié)構(gòu)分析

本文算法的核心點(diǎn)就是密度標(biāo)簽矩陣的使用以及兼顧標(biāo)簽正負(fù)相關(guān)性，本節(jié)就這2點(diǎn)內(nèi)容進(jìn)行2組對(duì)比實(shí)驗(yàn)。

Table 3 AP↑ value of each algorithm on 11 datasets表3 各算法在11個(gè)數(shù)據(jù)集上的AP↑值

Figure 3 Overall average ranks of the comparing algorithms in terms of all the metrics圖3 算法在所有指標(biāo)上的總體平均排位

首先，為了驗(yàn)證使用密度標(biāo)簽矩陣的可行性和有效性，添加對(duì)比實(shí)驗(yàn)以說明。在實(shí)驗(yàn)數(shù)據(jù)集不變，模型參數(shù)不變，求解方法不變的情況下，將目標(biāo)函數(shù)式(16)中的密度標(biāo)簽矩陣Y*替換為原始的標(biāo)簽矩陣Y，求得預(yù)測(cè)結(jié)果計(jì)算5種評(píng)價(jià)指標(biāo)，并與使用密度標(biāo)簽矩陣Y*的本文算法實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比，具體對(duì)比結(jié)果如表4所示，黑色加粗代表占優(yōu)。

由表4可以直觀地看出，使用密度標(biāo)簽矩陣計(jì)算得到的實(shí)驗(yàn)結(jié)果在大部分情況下是占優(yōu)的，只有在極少部分情況下使用原始標(biāo)簽得到的結(jié)果要更好，反映了密度標(biāo)簽矩陣對(duì)分類效果有改善作用，表明本文算法可以有效改善因標(biāo)簽不平衡帶來的錯(cuò)分類現(xiàn)象，說明密度標(biāo)簽矩陣是可行有效的。

然后，為了分析模型中正負(fù)相關(guān)性正則項(xiàng)的可行性和有效性，本文進(jìn)行了如下的對(duì)比實(shí)驗(yàn)。將目標(biāo)函數(shù)式(16)中的λ3取值為0，其它因素不變，構(gòu)成只考慮標(biāo)簽正相關(guān)性的改進(jìn)算法MLPC；同樣>地，將目標(biāo)函數(shù)式(16)中的λ2取值為0，構(gòu)成只考慮標(biāo)簽負(fù)相關(guān)性的改進(jìn)算法MLNC。將這2個(gè)改進(jìn)算法在同樣的11個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)，并與本文算法MLNCE進(jìn)行AP、CV2個(gè)指標(biāo)的對(duì)比，實(shí)驗(yàn)結(jié)果如表5所示，黑色加粗代表占優(yōu)。

由表5可以看出，由于本文MLNCE算法兼顧了正反相關(guān)性信息，分類性能有所提高。實(shí)驗(yàn)結(jié)果表明，本文MLNCE算法大體上占優(yōu)，表明正負(fù)相關(guān)性正則化項(xiàng)是可行的，且有益于分類效果的提高。

5.6 參數(shù)敏感性分析

根據(jù)本文算法思想，模型參數(shù)λ1,λ2,λ3都不是唯一值，其中參數(shù)λ2,λ3的取值在[2-10,2]。由于參數(shù)的取值對(duì)本文算法有一定的影響，所以，本文選取Natural_scene數(shù)據(jù)集進(jìn)行不同參數(shù)取值的對(duì)比實(shí)驗(yàn)。圖4給出了不同參數(shù)λ2,λ3在Natural_scene數(shù)據(jù)集上AP和OE指標(biāo)的對(duì)比結(jié)果。

從圖4可以看出，在Natural_scene數(shù)據(jù)集上，當(dāng)浮動(dòng)參數(shù)λ2,λ3時(shí)，2個(gè)評(píng)價(jià)指標(biāo)的變動(dòng)趨勢(shì)大致相同。當(dāng)λ2,λ3取值小于2-4時(shí)，各指標(biāo)得到最優(yōu)值，并且隨著取值越來越小，趨于穩(wěn)定。

5.7 統(tǒng)計(jì)假設(shè)檢驗(yàn)分析

為了評(píng)價(jià)MLNCE算法在各數(shù)據(jù)集上的綜合性能，本文選用統(tǒng)計(jì)假設(shè)檢驗(yàn)的方式評(píng)估該算法與其他對(duì)比算法在11個(gè)數(shù)據(jù)集上的結(jié)果是否真實(shí)有效。首先使用非參數(shù)化的弗里德曼檢驗(yàn)[26]進(jìn)行評(píng)估，再采用顯著性水平下的Nemenyi檢驗(yàn)[27]。若2個(gè)對(duì)比算法在所有數(shù)據(jù)集上的平均排序的差值大于臨界差值CD(Critical Difference)，則認(rèn)為這2個(gè)算法存在顯著性差異，否則無顯著性差異。

Table 4 Experimental results before and after label space transformation表4 標(biāo)簽空間改造前后的實(shí)驗(yàn)結(jié)果

Table 5 Results of correlation comparison experiment表5 相關(guān)性對(duì)比實(shí)驗(yàn)的結(jié)果

Figure 4 Parameter sensitivity analysis圖4 參數(shù)敏感性分析圖

圖5給出了在AP和OE2個(gè)評(píng)價(jià)指標(biāo)下每個(gè)算法之間的對(duì)比，其他指標(biāo)略。對(duì)于沒有顯著性差異的算法用實(shí)線相連，各評(píng)價(jià)指標(biāo)從左至右，算法性能依次降低。

對(duì)于每個(gè)算法，都有30種實(shí)驗(yàn)對(duì)比結(jié)果(6個(gè)對(duì)比算法，5個(gè)評(píng)價(jià)指標(biāo))，結(jié)合圖5得到結(jié)論：在54%的情況下，MLNCE算法與其他算法有顯著性差異，并且性能在100%的情況下占優(yōu)。在AP指標(biāo)上，MLNCE算法與MLFE、MLRKELM算法沒有顯著性差異；在OE指標(biāo)上，MLNCE算法與BP-MLL算法、ML-KNN算法具有顯著性差異；在RL指標(biāo)上，MLNCE算法與MLFE等3個(gè)算法沒有顯著性差異；在CV指標(biāo)上，MLNCE算法與MLFE算法、LIFT算法和MLRKELM算法沒有顯著性差異；在HL指標(biāo)上，MLNCE算法與LLSF-DL算法、LIFT算法沒有顯著性差異。在5個(gè)評(píng)價(jià)指標(biāo)的性能對(duì)比上，MLNCE算法在所有指標(biāo)上均為最優(yōu)。從上述2次統(tǒng)計(jì)假設(shè)檢驗(yàn)分析可知，MLNCE算法性能最優(yōu)，與其他對(duì)比算法顯著性差異明顯，進(jìn)一步說明了MLNCE算法的有效性和合理性。

Figure 5 Performance comparison of each algorithm圖5 各算法性能對(duì)比

6 結(jié)束語

在多標(biāo)簽分類學(xué)習(xí)中，有必要研究標(biāo)簽間相關(guān)關(guān)系，而在解決不平衡問題的同時(shí)，結(jié)合相關(guān)性的研究則可以提升分類性能，利用這一關(guān)系，本文引入了密度標(biāo)簽空間這一概念，并且提出了基于負(fù)相關(guān)性增強(qiáng)的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE，該算法有效地提升了標(biāo)簽空間質(zhì)量，改善了標(biāo)簽不平衡情況，并且深入探究了標(biāo)簽正負(fù)相關(guān)性對(duì)分類精度的影響。實(shí)驗(yàn)結(jié)果表明，MLNCE算法的分類精度優(yōu)于對(duì)比算法。

本文算法設(shè)計(jì)過程中，利用平衡后的密度標(biāo)簽空間來研究標(biāo)簽間的正負(fù)相關(guān)性，做到了相互結(jié)合，但是并沒有嘗試?yán)孟嚓P(guān)性信息來解決標(biāo)簽不平衡問題，這將是下一步研究的重點(diǎn)。另外，在真實(shí)世界的多標(biāo)簽數(shù)據(jù)集中，很多樣本數(shù)據(jù)是缺損的[28]，本文的研究都是在完備數(shù)據(jù)集上進(jìn)行的，如何進(jìn)一步提升在不完備數(shù)據(jù)集上的分類性能，也是后續(xù)的重點(diǎn)研究方向。