劉慧婷 冷新楊 王利利 趙鵬
單個對象含有多個標簽注釋的學習與挖掘是眾多領域中經常遇到和研究的問題[1?7].例如:在文本分類中,每個文檔可能會被賦予幾個預先定義的主題;在生物學領域中,每個基因可能會同時含有幾種不同的功能片段、如新陳代謝功能、轉錄功能和蛋白質合成功能等;在場景圖片分類中,每張場景圖片從不同的角度分析會有不同含義,如人物、沙灘和天空等.這些問題都有一個共同特點,即單個實例同時含有多個標簽,或被同時分為多個類別,被稱為多標簽問題.
近年來,多標簽學習問題被眾多學者關注與研究,提出了一系列的多標簽學習算法.例如,基于二元相關(Binary relevance,BR)的方法[5]將多標簽學習問題分割成多個獨立的二元分類問題,即為每一個標簽訓練一個分類器;基于標簽排序的方法[8?9]將標簽成對比較進行排序,把多標簽學習轉化為標簽排序問題:基于算法改編的方法[10?13]將單標簽學習的算法進行改進使之適用于多標簽學習.隨著深度學習技術[14]的發展,文本表示能力的進一步提高,基于表示學習的多標簽算法[15]被提出;此外,基于樹的方法[16?17]和基于嵌入的方法[18?28]被提出用于提高多標簽分類性能和減少面對高維數據時產生的昂貴的時間開銷.
現存的多標簽分類算法可分為兩大類:問題轉化法(Problem transformation methods,PTM)和算法改編法(Algorithm adaption methods,AAM).PTM 在解決多標簽分類問題時,算法具有簡單,易于理解與實現等優點.但PTM 缺點也比較明顯,如基于二元相關的方法忽略了標簽間關系:考慮到標簽間的高階相關性的標簽冪集法(Label powerset)[29]因含有指數級的標簽空間,不僅會導致訓練時間復雜度過高,而且還可能存在標簽類別的不平衡性等問題;基于鏈式標簽法的算法[9,30],性能完全依賴于鏈式標簽排序,但最優排序未知.AAM 通過改進已有的機器學習算法來解決多標簽學習問題,如基于SVM 改進的RankSVM 算法[10?11]、基于kNN 改進的IMLLA 算法[12]及基于樸素貝葉斯改進的NBML 算法[13];這些改進型的算法避免了為每個標簽單獨學習而忽略了標簽間的關系,當遇到具有高維特性的多標簽數據時,不僅需要較大的時間消耗,性能還會有所損失.
主成分分析算法(Principal component analysis,PCA)[31]、線性判別分析(Linear discriminant analysis,LDA)[32]及局部線性嵌入(Locally linear embedding,LLE)[33]等各種嵌入技術常被用于多標簽分類任務.矩陣分解技術在低維嵌入過程中可同時得到低維嵌入表示C及解碼矩陣D,相比于使用PCA 及LDA 需要兩個獨立步驟(編碼與解碼),降低了誤差.
為了解決PTM 與AAM 面臨的問題,考慮到矩陣分解技術的優勢,本文提出基于去噪自編碼器(Stack denoising autoencoder,SDAE)和矩陣分解的聯合嵌入學習算法Deep AE-MF,該算法不但能夠得到一個具有深層語義的文本表示,還能在降低時間復雜度的同時探索標簽間的關系.它能夠將SDAE 對特征學習到的深層語義低維表示和矩陣分解得到的標簽低維表示聯合在一起共同學習,得到一個高效的多標簽分類模型.與BR 型算法對比,Deep AE-MF 在學習時能夠利用矩陣分解技術對標簽間的關系進行間接探索;與AAM 型算法相比較,Deep AE-MF 使用SDAE 技術對特征進行了非線性學習,得到了深層語義的文本表示;與特征/標簽嵌入類算法相比,Deep AE-MF 整合了SDAE 和矩陣分解兩種技術對特征與標簽同時進行聯合嵌入學習,使得模型的預測與嵌入兩個學習階段同時進行.
在Deep AE-MF 算法中,特征部分的學習利用SDAE 能夠對淺層特征挖掘出深層語義的特性得到一個深層語義的低維表示;標簽部分的學習則使用矩陣分解技術得到低維嵌入表示C及解碼矩陣D,避免了采用不合適的編碼函數的風險同時,解決了編碼與解碼需要單獨學習的代價;最后將特征與標簽部分學習得到的低維表示聯系在一起,使得特征嵌入和標簽嵌入能夠共同學習并得到一個共享潛在子空間用于模型的學習和預測階段.本文主要貢獻點如下:
1)Deep AE-MF 方法緊密耦合了SDAE 和矩陣分解,是一種新的基于深度學習和矩陣分解聯合學習的多標簽分類算法.
2)特征嵌入過程使用SDAE 能夠有效地學習到數據淺層特征對應的深層語義表示.
3)Deep AE-MF 方法將特征嵌入和標簽嵌入進行聯合學習,能夠為特征與標簽空間找到一個有效的潛在共享子空間,提高多標簽分類算法的泛化性能.
4)實驗部分通過在6 個常用的數據集上對比10 種多標簽分類算法,證明了提出的Deep AE-MF方法的有效性.
隨著互聯網技術的普及,信息呈現指數式的爆炸增長,使得數據信息具有高維、無序及冗余等特點.例如,在一個網絡社區中對某張圖片進行標記注解時,其標記可能需要從百萬候選標記中選擇.這些高維數據的出現,使現有的基于PTM 和AAM 的多標簽分類方法變的不可行[18],因為這些方法面對高維數據問題時,所需要的時間代價是不可負擔的.
為了解決上述問題,文獻[34]提出利用標簽之間存在的依賴關系對標簽構造一棵樹結構用于多標簽分類;文獻[35]采用部分標簽代替全體標簽的方法.這些方法只是在一定程度上緩解了高維多標簽學習存在的時間花銷過高的問題.

圖1 基于嵌入方法的兩種模型圖Fig.1 Illustration of models based on embedding method
為了更加有效地緩解高維數據帶來的時間花費過大而影響算法性能的問題,維度約減/嵌入技術被用于多標簽學習.維度約減/嵌入的方法大致可分為兩類:基于特征的維度約減(Feature space dimension reduction,FSDR)[19?23]和基于標簽的維度約減(Label space dimension reduction,LSDR)[24?28].如圖1(a)所示,FSDR 首先將高維的特征空間X轉化至低維潛在空間C,接著在C與Y之間學習到一個映射h(C);對未知標簽實例進行預測時,先將其對應的高維特征轉化為低維表示,再利用映射h(C)得到最終的預測.文獻[19]在BR算法框架上對每個獨立的二元分類問題學習時,使用無監督線性方式將原始特征空間轉化為低維潛在空間,有效地減少了時間開銷.文獻[20]指出在BR框架下,每個學習問題的輸入都是相同的,可通過維度約減學習得到一個共享的子空間,不僅可以減少時間開銷,還解決了當標簽高維時參數過多的問題.文獻[19?20]均是采用線性方式對高維特征進行低維嵌入學習,但是在現實世界中,數據的高維表示與低維表示之間的關系,大都是非線性的.文獻[21]則是利用非線性的核函數對原始特征進行非線性轉化,文獻[22?23]利用深度學習能夠挖掘提取特征之間深層關系的特性,進一步對非線性關系探索,但由于只考慮到特征信息限制了模型的性能.LSDR 型嵌入學習則是針對高維的標簽向量而提出的一種嵌入技術,如圖1(b)所示,該方法先對高維的標簽空間Y進行編碼至低維潛在空間C,接著再進行學習由X與C之間的映射h(X);當對未知標簽實例進行預測時,首先由映射h(X)得到低維標簽表示的預測結果,然后再使用Q(解碼)得到最終的預測結果.文獻[24]首次采用基于標簽嵌入的方法進行多標簽分類,它通過對稀疏的原始標簽進行探索,提出使用線性技術CS(Compress senseing)將原始標簽空間轉化為低維標簽空間C,再利用CoSaMP 重構方法將C解碼為原始標簽空間表示.作為對文獻[24]的進一步研究,文獻[18]將標簽重構過程和分類模型預測過程進行聯合優化,提出基于貝葉斯框架的BLM-CS 方法用于進行多標簽分類.雖然文獻[18,24]能夠有效地減少面對高維數據時的多標簽學習的時間開銷,但是在對低維標簽空間C轉化時未考慮標簽之間存在的關系,限制了其模型的性能.于是文獻[25]提出PLST 方法在原始標簽空間與低維標簽空間重構解碼過程中使用PCA 降維技術,在對高維標簽向量進行約減的同時探索到標簽間的關系.文獻[26]指出PLST 方法在進行維度約減時只是單純地考慮標簽信息卻沒有使用相關的特征信息,因此在PLST 方法基礎上提出CPLST 方法,在原始標簽空間重構的過程中引入相關的特征信息,進一步提高模型對未標記數據預測的準確率.文獻[27]提出FaIE 方法,在對原始標簽矩陣空間Y轉化時使用矩陣分解技術得到低維空間表示C和解碼過程Q;與PLST 和CPLST 方法使用的顯式編碼相比,減少不恰當使用編碼函數的風險.文獻[28]也是基于標簽嵌入型的方法.LSDR 與FSDR 均是以找到一個合適且有效的低維表示空間為目標,因此又可統一被稱為基于嵌入的方法.
由上述介紹可知,現有基于嵌入的方法中,少數工作利用核函數(如:多項式核、高斯核等)進行非線性方式轉化;更少有工作在轉化時同時利用特征與標簽信息.因此,本文提出Deep AE-MF 方法,將模型的預測與學習過程緊密耦合共同優化學習,在聯合嵌入學習過程中,不僅能夠將特征的非線性表示用于標簽嵌入學習過程中,還能對標簽間的關系進行探索并加以利用,從而得到一個高效的多標簽分類模型.
給定一個含有N個樣本的數據集其中X=[x1,x2,···,xN]T∈RN×d,Y∈RN×K,X指數據集的特征空間,Y指數據集的標簽空間,N是數據集中樣本的個數,d是特征向量的維度,K是標簽向量的維度.對于實例對(xi,yi),xi是數據集中第i個實例對應的特征向量,yi則是數據集中第i個實例對應的標簽向量,當其含有第j個標簽時有yij=1;否則,有yij=?1.在模型訓練學習輸入時統一用(xtr,ytr)表示訓練實例對,測試輸入時統一用(xtest,ytest)表示測試實例對,xtr和ytr分別指訓練與測試時使用的實例對應的特征向量,xtest和ytest分別指訓練與測試時使用的實例對應的標簽向量.
定義1.多標簽分類是指利用給定數據集學習到一個映射F:X →Y,當給定一個測試實例(xtest,ytest),輸入xtest由映射F可正確地預測出ytest.
定義2.在多標簽分類學習中,若在標簽i出現的實例中,總是有標簽j出現或標簽j幾乎都不出現,這種標簽之間的共現或非共現現象被認為標簽間具有相關性;前者被稱作標簽間正相關性,后者則是標簽間負相關性.二者形式化定義分別如下:

式(1)統計的是任意兩個不同的標簽在數據集中的共現次數,次數越大則認為二者具有更強的正相關性(即二者具有更強的“正向依賴”關系);式(2)統計的是任意兩個不同的標簽在數據集中的非共現次數,次數越大則認為二者具有更強的負相關性(即二者具有更強的“負向依賴”關系).

圖2 Deep AE-MF 算法模型圖Fig.2 The model of algorithm deep AE-MF
在標簽嵌入方法的思想上結合深度學習,提出一種多標簽分類方法Deep AE-MF.如圖2 所示,Deep AE-MF 是基于SDAE 和矩陣分解的聯合嵌入學習模型.由文獻[36]可知使用SDAE 對原始特征矩陣X探索與學習,可得到一個具有深層語義的低維表示L(即Fe(X));矩陣分解則是對標簽矩陣Y直接分解學習得到Y在低維空間的潛在表示C及其解碼矩陣D(即Y=CDT).在訓練過程中,將訓練實例對(xtr,ytr)輸入到Deep AE-MF 模型中,由SDAE 和矩陣分解分別得到對應的特征與標簽低維空間表示,再利用CCA (Canonical correlation analysis)技術將兩者對應的低維空間表示耦合在一起,使二者對應的低維潛在表示具有最大相關性,即更小的差異性,以此為模型學習到合適的潛在低維空間C.于是,Deep AE-MF 方法的目標函數如下所示:

其中,Φ1為特征嵌入學習損失,Φ2是標簽嵌入學習損失,Φ3是指X與Y聯合嵌入學習共同子空間損失,Φ4則是模型中參數Θ 的正則化,α、β、λ、γ則是用于平衡各種損失的超參數.
當Deep AE-MF 模型學習完成后,能夠對任意輸入預測其對應的標簽.即在Deep AE-MF 模型中輸入測試實例xtest后,首先xtest通過SDAE 中Fe編碼轉化為低維空間表示,接著再利用矩陣D進行解碼得到最終預測結果ytest(即ytest=DFe(xtest)).下面將按照特征嵌入、標簽嵌入及聯合嵌入三部分詳細介紹Deep AE-MF 模型.
2.2.1 特征低維嵌入學習
為了能夠將高維特征空間X有效地轉化至低維嵌入空間L,且更好地探索二者間的非線性關系,使用SDAE 對特征進行低維嵌入學習.SDAE 是一種以自身輸入作為輸出的前饋神經網絡.如圖2 上部分所示,SDAE 結構由5 層網絡構成,以中間層為界,左邊幾層稱之為編碼層Fe,右邊幾層稱之為解碼層Fd,本文取SDAE 的中間層即Fe(X)作為X對應的低維潛在空間L的表示.為了避免過擬合,保證找到有效潛在空間L,在對SDAE 輸入時加入高斯噪聲ε,式(3)中Φ1即為對特征低維嵌入學習時SDAE 產生的損失,其詳細形式如下所示:

其中,X ∈RN×d是對應的未加入噪聲的真實輸入特征向量,ε ∈RN×d是指通過高斯分布產生的噪聲矩陣,矩陣內的元素值均在0 與1 之間,X+ε ∈RN×d指加入高斯噪聲后的輸入,Fd(Fe(X+ε))是SDAE 的預測輸出,是指傅里葉標準化(即矩陣F-范數).為了簡便,除非特別說明,在下面的論述中(X+ε)均用X代替.
2.2.2 標簽低維嵌入學習
如圖1(b)所示,現有的大多數的標簽嵌入學習包括編碼P與解碼Q兩個獨立部分,通常對于編碼部分是基于某種假設得到編碼函數P.但基于某種假設構造的顯式編碼函數可能會得到一個不恰當、不準確的低維嵌入轉化,弱化了模型的性能.為了避免這種風險,本文對標簽空間Y進行無假設嵌入學習—使用矩陣分解技術直接得到Y的低維嵌入表示C和對應的解碼矩陣D,同時隱式地對標簽之間的關系進行探索.為了提高對Y重構的能力,Y與C、D之間的差異被期望最小化,式(3)中的Φ2(Y,C,D)是對Y與C、D之間差異的描述,具體形式如下表示:

Y指標簽空間,yij是指Y中第i行第j列的元素值,C=[c1,c2,···,cN]T∈RN×s是對標簽嵌入學習時利用矩陣分解得到的Y對應的潛在空間表示,ci是指潛在空間表示C的第i列,D=[d1,d2,···,dK]T∈RK×s則是矩陣分解得到對C的解碼矩陣,dj是指潛在空間表示D的第j列,Pos(xi)是指xi含有的標簽集合.為了簡便,除非特別說明,在接下來的論述中的形式均為C=[c1,c2,···,cN]T∈RN×s和D=[d1,d2,···,dK]T∈RK×s.
2.2.3 特征與標簽聯合嵌入學習
為了提高對低維嵌入C的可預測性,C的學習過程中應與實例的特征有著更強的相關性[37].本文使用CCA 技術將X與Y緊密耦合在一起,并使二者在低維空間具有最大相關性,以此得到一個共享潛在子空間C提高模型的性能.作為相關跨域數據(例如,輸入特征數據X及其標簽數據Y)的標準統計技術方法,CCA 在最大化兩個域的投影空間的相關性時找到對應的投影W1及W2,即最大化corr(WT1,WT2).當使用DNN (Deep neural network)取代CCA 中對應的兩個線性投影函數時,就得到了DCCA 方法.該方法能夠以梯度下降法學習和更新與DNN 模型中具有類似目標函數的參數.
在本文中,Φ3(Fe,C)用于衡量特征和標簽在低維潛在表示中的差異性,是標簽與特征之間聯系的紐帶,對Φ3(Fe,C)使用CCA 技術并加入恒等約束[37],Φ3(Fe,C)有著如下的形式:

Fe指SDAE 中的編碼層,Fe(X)∈RN×s是指X經過Fe得到潛在空間表示,Is ∈Rs×s是一個單位矩陣,s則是潛在空間的維度大小,C ∈RN×s是指對標簽嵌入時得到的潛在空間表示.由文獻[38]可知,式(6)不僅具有的功能等同于標準CCA 方法的最大化相關性功能,而且能夠使用梯度下降方法有效地對參數更新.
多標簽數據集中有相當一部分比例的樣本含有的標簽數量少于2,因此,在對Deep AE-MF 模型進行訓練學習時,由于缺少豐富的標簽共現信息(即標簽間的正相關信息)不能對標簽間的正相關信息進行有效探索與利用,限制了模型的性能;然而,這些所含標簽數量少于2 的樣本,卻擁有著豐富非共現信息(即標簽間的負相關信息).為了能夠有效地利用標簽間的這種負相關信息,本文在Deep AEMF 模型中引入標簽負采樣策略,為每個實例采樣其對應的負相關標簽并用于模型訓練學習;關于采樣的具體方案見算法1.結合式(3)~式(6)Deep AE-MF+neg 的目標函數可表示為:

Fe和Fd分別指SDAE 中的編碼層和解碼層,Fe(X)∈RN×s指X經過Fe得到的低維表示,C ∈RN×s、D ∈RK×s分別指對標簽嵌入時學習到的潛在空間表示與解碼矩陣,矩陣是由算法1 生成.若第i個實例含有標簽j或通過采樣到標簽j,則Mneg[i,j]=1;否則,Mneg[i,j]=0,Is ∈Rs×s是一個單位矩陣,s則是低維空間的維度大小,Φ4(Θ)表示對參數的正則化,其詳細描述見式(8).

這里的Wl和bl分別指SDAE 中每層的權值矩陣和偏置,1≤l ≤5,dj為D中的第j列.同理,Deep AE-MF 的目標函數可表示成如下形式:

這里的M與式(7)中Mneg有所不同,Deep AEMF 算法在學習時未進行負采樣,矩陣M中元素只與數據集的訓練實例含有的標簽有關,即當第i個實例含有標簽j時,有M[i,j]=1;否則,M[i,j]=0.
為了能夠得到Deep AE-MF 和Deep AEMF+neg 模型,需要對式(9)與式(7)進行優化學習.由式(3)可知模型訓練時的總損失表示中,Φ1(X)、Φ2(Y,C,D)、Φ3(Fe,C)、Φ4(Θ)分別是指特征低維嵌入損失,標簽低維嵌入損失,子空間的學習損失,參數的正則化項.
以Deep AE-MF 為例進行優化,Deep AE-MF模型包括SDAE 和矩陣分解兩個部分,對于SDAE部分的參數優化,與現有的DNN 模型優化方法一致使用梯度下降法;而對于矩陣分解部分的參數優化則采用坐標上升法.從圖2 和式(9)可以看出,Φ1(X)和Φ3(Fe,C)的梯度用于SDAE 部分參數優化,Φ2(Y,C,D)和Φ3(Fe,C)的梯度則是用于矩陣分解部分的優化,Φ4(Θ)對應的是正則化項,在兩部分參數更新時會有選擇的使用到其對應的梯度.
對于矩陣分解部分的參數ci和dj進行優化,首先要給定SDAE 中的參數值,然后根據式(9)分別計算出參數ci和dj的梯度值,ci和dj的更新如下所示:

其中,Mi=diag{mi1,mi2,···,miK} ∈RK×K與Mj=diag{m1j,m2j,···,mNj} ∈RN×N分別是由矩陣M中的第i行、第j列生成的對角矩陣,矩陣M=[m1,m2,···,mN]T∈RN×K,C=[c1,c2,···,cN]T∈RN×s,D=[d1,d2,···,dK]T∈RK×s,Yi=(Yi1,Yi2,···,YiK)T∈RK×1是由標簽矩陣Y的第i行組成.
關于SDAE 中參數Wl和bl更新,首先固定C和D的當前值,接著使用反向傳播學習算法對SDAE 中的每層參數進行更新,每層參數更新如下所示:

其中,Fe是指SDAE 中的編碼層,Fd則是指SDAE的解碼層,η是參數更新時的學習速率.
利用上述的方式對相應的參數進行更新優化,可以學習到Deep AE-MF 模型,對于Deep AEMF+neg 進行優化學習時,只需將式(10)與(11)中對應的Mi和Mj替換為Mnegi和Mnegj即可.Deep AE-MF+neg 的學習過程偽代碼見算法1 與算法2.算法1 描述的是對標簽進行負采樣生成采樣矩陣的具體過程,它利用由式(2)得到的負相關性矩陣Neg對實例含有的標簽采樣對應負標簽,采樣個數隨機生成.算法2 描述的是Deep AE-MF+neg的學習過程,它的輸入是特征空間X與標簽空間Y及相關的超參數值.首先,在訓練之前初始化模型所需的權值矩陣(步驟1);接著,由算法1 生成標簽采樣矩陣Mneg(步驟2);然后,由輸入參數與前兩步的生成結果組成所需目標函數(即式(7)),并按照式(10)~式(13)對目標函數式(7)中的參數進行迭代更新,直至目標函數值不再變化或變化小于一定閾值(收斂)或達到最大迭代次數(步驟3).當模型學習完成后,對于任意一個的測試實例xtest,可由ytest=DFe(xtest)的方式得到對應標簽預測值.
算法1.標簽的負采樣過程
輸入.標簽矩陣Y,標簽數量K,樣本實例數量N.
輸出.標簽負相關性矩陣Mneg.
步驟1.由式(2)和Y計算得到矩陣Neg ∈RK×K.
步驟2.初始化一個零矩陣Mneg∈RN×K.
步驟3.利用Y與Neg進行采樣,得到Mneg

算法2.Deep AE-MF+neg 學習過程
輸入.特征矩陣X,標簽矩陣Y,超參數λ、α、β、γ及潛在空間大小s.
輸出.Fe,Fd,D.
步驟1.隨機初始化Fe,Fd,C,D,高斯分布產生一個噪聲矩陣ε.
步驟2.由算法1 得到矩陣Mneg.
步驟3.重復步驟3 直至目標函數收斂(即函數值不再變化或變化小于一定的閾值)或達到最大迭代次數.
步驟3.1.按照式(7)計算出總損失,


步驟3.2.按照式(10)與式(11)更新矩陣分解中的參數C與D

步驟3.3.按照式(12)與式(13)更新Fe,Fd

為了驗證本文提出的Deep AE-MF 和Deep AE-MF+neg 方法的性能,選取了6 個多標簽數據集進行實驗測試,分別為enron、ohsumed1http://meka.sourceforge.net/、movieLens2https://grouplens.org/datasets/movielens/、Delicious、EURLex-4K3http://manikvarma.org/downloads/XC/XMLRepository.html和TJ4http://tjzhifei.github.io/resource.html,其中前5 個是英文類型的多標簽數據集,最后一個則是中文類型數據集.由于enron、ohsumed、movieLens和TJ 這4 個數據集是原始字符數據,為了能夠用于實驗,需要進一步對這些數據進行處理,對于英文類型的數據集進行處理時,刪除數據集中的停用詞、詞頻出現少于20 詞的單詞及一些非字符符號等,每個實例的特征向量表示在這里使用8 000 維的詞袋進行表示;而對于中文數據集的處理,步驟與處理英文大體相同,但由于中文字詞之間不像英文有空格作為分割,在預處理之前,我們首先要進行分詞,分詞采用通用的中文分詞工具ANSJ5https://github.com/NLPchina/ansjseg.數據集更詳細的描述見表1 和表2,由于EURLex-4K 和Delicious 數據集是非原始字符數據,故在表2 中無須再介紹兩者的有關字符信息.


表1 多標簽數據集相關統計Table 1 Multi-label datasets and associate statistics
多標記學習框架中,每個實例可能同時擁有多個類別標簽,因此,與單標簽學習系統相比,多標簽學習系統的評價準則相對會更加復雜些.到目前為止,已有多種評價準則被提出并廣泛地用于評價多標簽學習系統的性能.現選取以下5 種評價準則,即hamming loss[39]、基于標簽的Macro-F1-label(或稱Macro-F1)與Micro-F1-label(或稱MicroF1)[40]、基于樣本實例的F1 值[41]及Precision at top K (P@K)[42],用于評價多標簽學習系統的性能.在這5 個評價準則中,后4 個的值越大表示模型的性能越好,最優結果值均為1;而第1 個則是值越小表示模型的性能越好,最優結果值為0.
為了驗證本文提出的方法Deep AE-MF與Deep AE-MF+neg 的有效性,將Deep AEMF 和Deep AE-MF+neg 算法與10 個多標簽學習算法,即BR[5]、LS-ML[20]、CCA-SVM[20]、CCAridge[20]、PLST[25]、CPLST[26]、FaIE[27]、LEML[28]、PD-sparse[43]、和 ML-CSSP[44]進行實驗比較.對比算法可分為三類:BR 代表的是經典的問題轉化算法;LS-ML、CCA-SVM、CCA-ridge代表的是基于特征嵌入/約減(FSDR)型的算法:MLCSSP、PLST、CPLST、FaIE、LEML、PDsparse 則是基于標簽嵌入/約減(LSDR)型的算法,其中LEML、PD-sparse 主要是針對極限多標簽分類的算法.對比算法代碼全部都是基于MatLab 實現的,其中BR 算法選擇SVM 作為其基分類器.對LS-ML、CCA-SVM 和CCA-ridge 三個方法的參數設置均按照文獻[27]最好的結果設置.對于MLCSSP、PLST、CPLST、FaIE、LEML、PDsparse 算法,超參數按照對應文獻中的默認值進行設置.對于本文提出的Deep AE-MF 方法,SDAE 使用5 層的網絡結構,其中學習率選取大小范圍是{0.0001,0.001,0.01,0.1},對于平衡損失的超參數λ、α、β及γ設置范圍則均為{0.001,0.01,0.05,0.1,0.5,1,5,10,50,100,500,1 000},潛在空間維度大小選取范圍則是{0.1K,0.2K,···,K},K表示對應數據集具有的標簽個數.實驗結果表明:當設置損失平衡超參數λ=100,β=1,α=50,γ=0.1,s=0.6K,學習率η=0.001 時,Deep AE-MF 方法具有較好的穩定的性能.為了能夠充分利用標簽間的關系,Deep AE-MF+neg 模型考慮了標簽間的負相關性(非共現)信息,實驗結果顯示利用加入的標簽間的負相關性(非共現)信息能夠提升模型性能.
將Deep AE-MF 和Deep AE-MF+neg 與其他10 種常見的多標簽算法:BR、CCA-SVM、CCAridge、LS-ML、PLST、CPLST、MLCSSP、FaIE、LEML 和PD-sparse 進行實驗比較.根據5 種評價方式,表3~表7 分別列出了本文提出的方法與其他10 種對比算法在表1 中數據集上的詳細的實驗結果,且對最好的結果進行加粗表示(‘–’ 表示缺少實驗結果數據).
表3 顯示算法Deep AE-MF 和Deep AEMF+neg 在6 個數據集中均有4 個數據集相比于對比算法有著更小的hamming loss 值,即有著最好的性能,而且在這4 個數據集中有3 個相對于次優結果的算法分別有著3%~10% 左右的性能提高.但二者在ohsumed 和Delicious 上排在了較差的位置,與最優結果相比有1.5% 左右的差距,從表1 的分析可以看出,ohsumed 數據集標簽的平均密度相比于其他數據集過小,Delicious 數據集的特征維度偏小.在movieLens 數據中,Deep AEMF+neg 的性能略低于Deep AE-MF 性能,原因是Deep AE-MF+neg 沒有像Deep AE-MF 在預測時偏好于將大部分的標簽預測為?1,在數據集中標簽為?1 相對1 所占的比例是非常大的,故而將標簽預測為?1,可有效地減少預測錯誤率(即得到hamming loss 值更小).從6 個數據集中的綜合結果來看,Deep AE-MF 和Deep AE-MF+neg 是優于其對比算法的.
從表4 中的結果可以看出:Deep AE-MF 和Deep AE-MF+neg 這兩種方法在6 個數據集上均取得了最好的結果,優于所有的對比算法,表明SDAE 學習得到的非線性表示有利于分類模型性能的提高.其中Deep AE-MF+neg 方法好于Deep AE-MF 方法,說明通過利用標簽的負相關性(非共現)信息可進一步提高模型的性能.從表4 中可看出BR 方法的性能較差,而基于嵌入方法的性能大都排在中間位置.
從表5 中的顯示的結果看:Deep AEMF 和 Deep AE-MF+neg 方-法-在 movie-Lens、TJ、enron、Delicious 及EURLex-4K 這5 個數據集上取得了最好的性能,且在Delicious 和EURLex-4K 上與第3 名結果有接近10% 左右的性能提高;在ohsumed 中,基于特征嵌入的幾種方法取得了比較好的結果,比Deep AE-MF 方法提高了1.5% 左右,但是在其他數據集上的性能與Deep AE-MF 和Deep AE-MF+neg 方法相比要差很多.所以,在6 個數據上進行綜合性能的比較,Deep AE-MF 和Deep AE-MF+neg 方法排在前兩位,采用了基于嵌入方法的算法排在中間位置,BR 最差.

表2 多標簽數據集字符數量統計Table 2 The number of characters in a multi-label dataset

表3 基于hamming loss的性能比較Table 3 The hamming loss of ten multi-label algorithms with respect to different data sets

表4 基于Micro-F1-label 的性能比較Table 4 The Micro-F1-label of ten multi-label algorithms with respect to different data sets

表5 基于Macro-F1-label 的性能比較Table 5 The Macro-F1-label of ten multi-label algorithms with respect to different data sets

表6 基于F1 的性能比較Table 6 The F1 of ten multi-label algorithms with respect to different data sets
從表6 中的顯示的結果看:Deep AE-MF 和Deep AE-MF+neg 在enron、ohsumed、Delicious及EURLex-4K 上取得了最好的結果,但在movie-Lens 數據集中Deep AE-MF 和Deep AE-MF+neg則排在次優位.原因是使用了線性與非線性轉化的LS-ML 方法能夠對每個實例含有的標簽進行較好的預測,但與LS ML 相比本文的方法也只相差2%和1.5%.對于數據集TJ,Deep AE-MF+neg 排在了第一位置,Deep AE-MF 則排在了中間偏低的位置,原因是這些LSDR 型算法在標簽維度約減的過程都直接或間接的利用了標簽關系信息,與Deep AE-MF 相比能夠找到一個更加有效的潛在低維標簽空間.從綜合性能上,Deep AE-MF 和Deep AEMF+neg 仍然領先于對比算法,尤其是BR 方法和FSDR 型的方法.

表7 基于P@K 的性能比較Table 7 The P@K of six multi-label algorithms with respect to different data sets
表7 中的數據是有關Deep AE-MF 和Deep AE-MF+neg 與極限多標簽分類算法在標簽數量較大的數據集中實驗結果,在性能比較時,采用極限多標簽分類常用的度量準則P@K (Precision at top K).實驗結果顯示當取不同的K值時,Deep AEMF 和Deep AE-MF+neg 均取得了最優的結果,表明了本文提出的算法能夠較好解決標簽維度過高的問題,且有著不錯的性能.
表3~表7 中在5 種評價標準上的實驗結果顯示,提出的Deep AE-MF 和Deep AE-MF+neg 的方法明顯優于其對比算法.在聯合嵌入學習過程中,SDAE 得到的非線性表示Fe(X),矩陣分解直接得到的低維標簽表示C和解碼矩陣D,有利于學習找到一個泛化能力更好的分類模型.從表中可以看出Deep AE-MF+neg 的性能幾乎一直優于Deep AE-MF,表明在對標簽嵌入時利用標簽之間的非共現信息可以進一步提高算法的性能.
為了在統計上比較提出的算法與其對比算法在6 個數據集的實驗結果,采用顯著性水平為5% 的Students t test[45].在Deep AE-MF 與除Deep AE-MF+neg 外的算法對比檢驗時,以Deep AEMF 的性能差于或等于其對比算法的性能作為零假設,以Deep AE-MF 的性能好于其對比算法性能作為備選假設.從表8 中可以看出Deep AE-MF與每個對比算法在6 個數據集上的P值,在hamming loss 上只有一個是大于0.05 (即支持原假設);在Micro-F1-label 上所有P值均小于0.05,即均支持Deep AE-MF 的性能是好于其對比算法;在Macro-F1-label 上,僅有兩個P值是大于0.05;綜合分析說明Deep AE-MF 的性能優于其他算法.對于Deep AE-MF 與Deep AE-MF+neg 性能檢驗時,以二者性能相當作為零假設,從表8 中可以看出在3 種評價準則與6 個數據集上,18 個P值中只有2 個是大于0.05 (支持原假設),因此可認為二者的性能是有顯著差異的.上述t test 的結果與分析驗證本文提出算法的有效性.
3.5.1 超參α 的敏感性分析
為了驗證超參數α對Deep AE-MF 性能的影響,在{1,5,10,···,1 000}中選擇不同值進行實驗.本文在兩個數據集上使用三種評價方式來研究參數α對實驗性能的影響,結果如圖3 所示.
從圖3 可以看出,對于hamming loss 在enron和TJ 兩個數據集上,隨著α的增加,曲線先下降再升高(即性能先上升再下降);對于基于標簽的Macro-F1 和Micro-F1 在enron 和TJ 兩個數據集上,隨著α的增加,曲線先上升再下降(即性能先上升再下降).
由圖3 中可以得出α=50 附近時,在enron 和TJ 上模型均有著最佳的性能.通過分析可以認為,當α <50 時,特征和標簽聯合嵌入所占比重過小,使得在對標簽探索嵌入時,過于注重對標簽空間Y的重構,在學習標簽潛在表示空間C時未能充分利用特征信息;當α >50 時,特征和標簽聯合嵌入時所占比重過大,表明標簽嵌入時在學習標簽潛在表示空間C時偏好于使用特征信息,使模型降低對標簽空間Y的學習,導致對Y的重構或預測能力下降.綜合對實驗結果權衡分析,選取α=50 作為最終取值.
3.5.2 參數s 的敏感性分析
為找出能夠使Deep AE-MF 性能最佳時的潛在空間維度s值,在{0.1K,0.2K,···,K}中選擇不同s值進行實驗,其中K表示數據集標簽的個數.本文在兩個數據集上使用三種評價方式來研究參數s對實驗性能的影響,結果如圖4 所示.
表8 Students t test 結果P 值(加粗表示P 值大于0.05)Table 8 P value of Students t test results (Bold indicates that P value is greater than 0.05)

表8 Students t test 結果P 值(加粗表示P 值大于0.05)Table 8 P value of Students t test results (Bold indicates that P value is greater than 0.05)


圖3 α 的不同取值對數據集TJ 和enron 使用不同度量方式的性能體現Fig.3 The performance of Deep AE?MF on data sets TJ and Enronis with respect to different values of α and different metrics

圖4 s/K 的不同取值對數據集EURLex-4K 和enron 使用不同度量方式的性能體現Fig.4 The performance of Deep AE?MF on data sets EURLex-4K and enron with respect to different values of s/K and different metrics
從圖4 可以看出,對于hamming loss 在EURLex-4K 和enron 兩個數據集上,隨著s的增加,曲線總體先下降再升高(即性能先上升再下降);對于基于標簽的Macro-F1 和MicroF1 在EURLex-4K 和enron 兩個數據集上,隨著s的增加,曲線總體先上升再下降(即性能先上升再下降).綜合衡量圖4 中的實驗結果,EURLex-4K 和enron在s取值為0.6K附近時均達到最佳性能,因此選取s為0.6K作為最終的取值.
本文提出基于SDAE 和矩陣分解的多標簽分類算法Deep AE?MF 及Deep AE?MF+neg.Deep AE?MF 算法通過對SDAE 和MF 進行耦合得到一個特征嵌入和標簽嵌入聯合學習框架,能夠有效地對特征非線性關系學習并同時用于標簽嵌入學習中.Deep AE?MF+neg 算法在學習時利用標簽之間的負相關(非共現)信息特點,提高標簽嵌入學習以此最終提高模型的性能.實驗結果表明,Deep AE?MF 及Deep AE?MF+neg 優于對比算法,能夠有效地完成相關多標簽分類任務.