張海翔,李培培,胡學鋼
(1.蚌埠醫學院附屬合肥市第二人民醫院 訊息處,安徽 合肥 230012;2.合肥工業大學 大數據知識工程教育部重點實驗室,安徽 合肥 230601)
多標簽分類[1-2]指利用一組已標記數據訓練出模型對未標記的樣本進行分類。現實中對事物的描述通常用多個標簽進行描述,如視頻注解、文本分類和生物信息學。常見處理方法分為:問題轉化和算法適應。前者將多標簽任務轉換為一個或多個單標簽分類任務,后者則將傳統機器學習算法直接處理多標簽數據。同樣深度學習近年來在多標簽醫療領域應用廣泛,如:深度CNN[3]對26種心臟異常進行多標簽分類,X光圖像分類有ConvNeXt網絡[4]與BioBert編碼的語義向量相結合,EfficientNetB4架構[5]與轉移學習方法進行結合用以提高胸部X光圖像分類準確性,以及判別核卷積網絡(DKCNet)[6]用于眼科疾病智能識別。
大多數多標簽分類模型都面臨類不平衡問題[7],尤其當負類實例的數量遠大于正類實例的數量,導致分類器偏向于負類實例,分類性能降低。不平衡問題可分為:標簽內部的不平衡、標簽間的不平衡和標簽集之間的不平衡。在標簽內部不平衡中每個標簽通常包含極高數量的負樣本和極少量的正樣本[8]。標簽間不平衡考慮數據集中單個標簽的頻率,其中一個標簽(正類)的數量可能高于另一個標簽的正類數量[9]。標簽集[10]的稀疏頻率,如果考慮到完整標簽集每個類別的正樣本與負樣本比例可能與常見標簽集相關聯,由于標簽稀疏性,通常存在較多的頻繁標簽集和唯一標簽集。這也意味著一些標簽集被認為是大多數,而其余標簽集同時被認為是少數情況。
現實數據同樣面臨數據維度爆炸問題,對模型訓練將消耗過多資源。研究人員使用特征降維的技術從原始數據集篩選出對全部標簽具有代表意義的特征子集,稱為公共特征,如方法SCMFS[11]使用耦合矩陣分解技術找出特征與標簽矩陣間公共部分。而實際中每個標簽在特征空間都有對其最相關的特征稱為標簽特定特征,如方法IMLSF[12]。該方法分為兩種:特征轉換和l1范數,如LIFT[13]通過特征轉換將標簽正負實例轉換為單標簽特定特征,但這種方法無法識別出哪些特征是某標簽的特定特征。以上方法只考慮公共特征或標簽特定特征的優勢,未將兩種優勢同時考慮。CLML[14]綜合兩種方法的優勢,提出基于公共特征與標簽特定特征方法,通過l1,l2,1范數限定系數矩陣選出每個標簽的特定特征與公共特征,但該方法未能適應類不平衡數據環境。
因而,該文提出類不平衡的公共和標簽特定特征多標簽分類方法,采用啟發式重采樣技術解決類不平衡問題,然后綜合標簽公共特征和標簽特定特征的優勢進行數據篩選,不僅找出對所有標簽都有意義的公共特征集合,還為每一個標簽找出最具代表意義的特定特征。最后采用標簽相關性實現關聯標簽的相似模型輸出,實例相關性保證關聯特征共享對應標簽分布信息,提高了多標簽分類精準度。
主要貢獻如下:
(1)所提方法考慮少數標簽列表,使用這些標簽作為種子出現的實例來生成新實例,解決類不平衡問題。
(2)為降低訓練過程帶來的資源消耗,利用l1,l2,1范數限定模型系數矩陣,結合每一個標簽自身特點找出其對應的特定特征和多個標簽的公共特征。
(3)為提高分類精準度,假設相似標簽之間具有相似輸出,相關實例可共享對應標簽分布,來約束模型的系數。
類不平衡是多標簽分類過程面臨的難題之一,樣本與對應標簽并非分布在同一數據空間中。多標簽分類只采用問題轉換或算法適應策略不能很好地解決該問題。針對不平衡問題,已有方法可分為四類:重采樣、分類器自適應、集成方法和代價敏感方法。重采樣方法[15]對數據集的預處理產生新的平衡多標簽數據,獨立于分類器組。基于LP變換[16]的重采樣方法(LP-RUS)將多標簽數據集轉換為一個多類數據集,每個不同的標簽組合(標簽集)作為一個類處理。但基于LP的重采樣在解決不平衡問題時受到數據集中標簽稀疏性的限制。分類器自適應通過改進現有機器學習方法適應。Luo等[17]提出基于非對稱分階段損失函數,動態調整正樣本和負樣本的損失代價方法解決不平衡問題。集成方法將幾個基本模型結合起來產生最佳預測模型,如BR-IRUS[18]。代價敏感方法使用不同成本度量來描述任何特定錯誤分類樣本的成本,旨在使總成本最小化。如SOSHF[19]通過代價敏感聚類將多標簽學習任務轉換為不平衡的單標簽分類類型。
在多標簽分類過程中學習公共特征和標簽的特定特征能有效提高計算效率和分類性能。公共特征方法指通過某種方法從原始特征空間中提取對分類過程有意義的特征子集。Zhu等[20]面對缺失標簽空間引入流形正則化將特征相似樣本在補全標簽空間中也接近一致,構建模型時補全標簽矩陣,結合實例相關性約束模型系數。MIFS[21]為降低缺失標簽在標簽相關性中的不利因素,將原標簽空間分解至低維,在低維空間進行公共特征篩選。以上方法在模型構建過程中只選擇了被所有標簽共享的公共特征,而現實中每一個標簽都應該在特征空間中有與之對應的特定特征。
其中特征轉化的標簽特定特征方法有LIFT,LIFTAce[22]和LSDM[23],LIFTAce利用聚類技術結合標簽相關性假設滿足相關關系的標簽共享聚類結果。LSDM通過調整比例參數,針對單個標簽的正負實例聚類重建特定特征空間。IMLSF使用加速近端梯度方法,以迭代的方式快速有效地求解目標函數,找出每個標簽對應的具體特征。基于l1范數的特定特征方法如LLSF[24]假設標簽與特征子集關聯,運用線性回歸模型區分出對標簽具有代表意義的特征。LSFCI[25]通過概率鄰域圖模型計算實例相關性,在學習標簽特定特征時同時考慮實例、標簽相關性。
本節給出多標簽分類問題定義:U是實例集,L是標簽集,X為d維的輸入空間集,Y是有l個標簽的決策屬性集。輸入數據矩陣X=[x1,x2,…,xn]T∈Rn×d,xi=[xi1,xi2,…,xid],Y=[y1,y2,…,yn]T∈Rn×l,yi=[yi1,yi2,…,yil]。多標簽分類是從訓練集中學習一種映射f(·):X→Y,然后對測試數據預測標簽。
為解決類不平衡問題,該文利用重采樣策略MLSMOTE單獨處理每個少數標簽出現的實例集,每個少樣本都將是新的合成樣本,新實例由特征子集與合成標簽集構成,合成標簽集指在參考樣本及其鄰居出現的標簽都在合成實例中。該過程主要分為三步:第一步選擇一個少數實例作為參考點。在標簽空間中計算類不平衡比率得到當前標簽的不平衡程度。IRLbl表示單個標簽不平衡的程度,MeanIR表示所有標簽的IRLbl的均值,見式1和式2:
(1)
(2)
其中,li為L的第i個標簽,1≤i≤|L|,yj為xi對應的標簽集。若IRLbl(i)≥MeanIR表示該標簽比其他標簽在標簽空間中更加稀疏,將其放入少數類中得到少數類實例包,反之放入多數類。第二步少數實例篩選完成后選擇一個與其最近鄰居的集合。集合大小由參數K確定,并從鄰居集合中隨機選擇一個實例refNeigh作為參考。第三步特征集和標簽集的產生,對每一個樣本和其參考實例refNeigh合成實例特征值將沿著連接這兩個樣本的線進行插值。新實例的標簽集,從鄰域相關性計算參考樣本及其鄰居中每個標簽的出現次數,包括在合成標簽集中出現一半或更多實例中的標簽。合成的新實例樣本最終被添加到數據集中,對每一個少數類實例包樣本和剩余標簽做以上步驟處理。為達到更好的平衡效果,每個標簽的IRLbl在新標簽開始時需重新評估其平衡率,如果一個少數標簽在處理過程中達到了MeanIR值,將被排除在合成樣本生成過程中。
該文選擇線性回歸模型分類器,通過投影矩陣W關聯特征與標簽空間,為提取標簽特定特征,采用l1范數方法把投影矩陣中元素稀疏性和參數縮小,同時引入l2,1范數提取公共特征。以上過程可表示為式3:
(3)
其中,W=[w1,w2,…,wl]∈Rd×l為回歸模型系數矩陣,且W中第j個標簽系數向量為wi=[w1j,w2j,…,wdj]T,wij表示第i個特征對第j個標簽辨別程度,wij≠0表示特征與標簽存在辨別程度,該特征是第j個標簽的特定特征。β和λ2分別控制系統矩陣稀疏性和公共特征、標簽特定特征數量。此外學習過程中經常引入標簽相關性提高分類性能。但如果簡單認為標簽間存在相關,某一標簽的特定特征對另一相關標簽而言也是特定特征,相應的系數向量也相似,此假設不成立[14]。因而,該文假設標簽相關對應輸出模型XW也相似,且相關性越高,相似度越接近,使用正則項表示為式4:
(4)
其中,Sij表示標簽i與標簽j的相關性,L1是標簽相關性矩陣的拉普拉斯矩陣,因而式3可轉化為式5:
β‖W‖1+λ2‖W‖2,1
(5)
借鑒方法LSFCI引入實例相關性增強標簽特定特征選擇的結果,兩實例之間存在強相關性,對應標簽空間也存在相關性。該文也引入此技術并在K個實例鄰居之間計算相似度C,使用正則項表示為式6:
(6)
其中,Cij表示實例i與實例j的相關性矩陣,L2是實例相關性矩陣的拉普拉斯矩陣。最終目標函數表示為:
λ2‖W‖2,1
(7)
其中,α,β,λ1,λ2為常數參數。

(8)

由近端梯度算法F(W)近似優化表示為:

(9)


(10)

當給定系數矩陣W1,W2,ΔW=W1-W2,有:
αXTXΔWL1+λ1XTL2XΔW+
(12)
利普希茨常數Lf為:


為驗證對比所提方法是否取得明顯優勢,在多個數據集上進行實驗。表1給出了實驗數據集信息,包含數據量、特征數、標簽數、MaxIR和MeanIR,其中MaxIR和MeanIR分別代表最大和平均類別不平衡比。

表1 數據集
將所提方法與常見多標簽分類方法進行比較,包括:LLSF,LLSF-DL,LIFT,MLCIB,LSFCI,LSFMLL,JLCLS,CLML。其中LLSF假設任意強相關的兩個類標簽可以對應特征,利用線性回歸方法學習每個類標簽的標簽特定特征。LLSF-DL[26]在LLSF基礎上引入高階的標簽相關性。LIFT通過聚類分析手段在正負實例中學習標簽特定特征,參數γ設置為0.1。MLCIB[27]通過學習標簽正則化,把原始標簽空間映射到新空間中處理缺失標簽和類不平衡問題,參數α,β,γ在[0,1]調整,步長為0.1。LSFCI借助標簽、實例的相關性學習標簽特定特征,參數α,γ值在[2-10,210]范圍變化,步長為2,參數η值在[2-12,212]范圍變化且步長為2,閾值τ設置為0.5。LSFMLL[28]在模型訓練過程中結合標簽特定特征和相關性內容。JLCLS[29]利用標簽關系型補全缺失標簽矩陣,擴展原始標簽矩陣內容。所有對比算法相應的參數均按照文獻中的建議進行設置,所有的參數值均為其在各個數據集上的最優解。

(14)
其中,Ri(yj)是樣本xi的類標簽yj預測等級。
Ranking Loss描述樣本的標簽對被反向排序的平均比例:
(15)
Micro F1將標簽向量的每個條目視為單獨實例,不考慮標簽的區別:
(16)
Macro F1為各標簽的精度和召回率的綜合:
(17)

F1為每個樣本的精度和召回率的綜合:
(18)

Hamming Loss評估樣本對應標簽分類結果錯誤的頻率,包括標簽預測錯誤或漏預測:
(19)
Δ表示兩組之間的對稱差。


圖1 所提方法與對比算法的Nemenyi檢驗比較結果

表2 在0.05顯著性水平條件下FF每種評估方法的臨界值
根據圖1可知,在實驗指標下所提方法優于對比算法。Hamming Loss指標與標簽相關性無明顯關系,除LIFT是一階以外,其余對比算法均為二階或高階,實驗結果也顯示此指標下LIFT算法相對最優,所提方法非最優但在Hamming Loss指標對比其他算法無顯著差異。在其余實驗指標下所提方法在實驗精度上明顯高于LLSF,LSFCI,CLML,體現了類不平衡處理和公共特征與標簽特定特征的有效性。因為在構建模型過程中根據標簽信息學習標簽特定特征,類不平衡問題將影響標簽特定特征的比重,預測過程傾向大類信息。而使用重采樣策略單獨處理每個少數標簽出現的實例集,每個少數樣本視為新的合成樣本,可以有效平衡標簽特定特征的比重。
此外,在其他單指標上(如Micro F1和Macro F1),所提方法顯著優于LIFT,LLSF,LSFMLL。原因在于類不平衡情況下對標簽特定特征的選擇非最優,且這些方法忽略公共特征帶來的優勢。CLML指標排名均靠前,原因在于其他方法的假設條件并非總是成立,該文假設相似標簽之間具有相似輸出,相關實例可共享對應標簽分布。通過約束模型的系數可有效解決此類問題,且CLML和所提方法均考慮標簽特定特征和公共特征,引入實例相關性和標簽相關性,取得了較好的實驗結果。
在類不平衡的特殊環境下,不平衡的標簽空間給特征篩選過程帶來誤導,降低了分類精度。例如在MeanIR平均不平衡度較高的Corel5k,Medical和Education數據集上,可以看出所提方法均優于CLML,在低MeanIR值如:數據集Cal500、Genbase類不平衡手段未取得明顯優勢。雖然在Nemenyi排名上所提方法相比CLML沒有取得顯著優勢,但所有排名均靠前。
為了驗證類不平衡處理第二步少數實例篩選完成后選擇一個與其最近鄰居的集合,集合大小由參數K對實驗結果的影響,該文在4個代表數據集Medical,Enron,Science,Education上設置不同參數K,大小在區間[3,4,…,10],步長為1上調整。圖2為4個數據上6個評價指標下的實驗結果折線圖,由圖可知實驗結果隨K的變化而變化,其中K值取3,4,9,10時效果最差,此時篩選出來的集合大小結果要么信息缺失要么信息冗余,取值為5時在Education,Medical,Science數據集上各實驗指標結果最優,取8時實驗結果在Enron數據集上最優,且在其他數據集上實驗結果為次優。實驗結果與文獻[30]給定建議參數K取值為5吻合。

圖2 在4個代表數據集上調整K所得到的實驗結果
該文提出類不平衡的公共和標簽特定特征多標簽分類方法,在類不平衡環境中考慮實例間的相關性及公共特征問題。利用重采樣策略,通過找到種子實例的最近鄰居結合插值技術得到合成實例的特征。然后綜合標簽公共特征和標簽特定特征的優勢進行數據篩選,不僅找出對所有標簽都有意義的公共特征集合,還為每一個標簽找出最具代表意義的特定特征。最后采用標簽相關性實現關聯標簽的相似模型輸出,實例相關性保證關聯特征共享對應標簽分布信息,提高分類精準度。實驗結果表明,通過算法對比,所提方法在精準度上取得明顯優勢。未來將針對缺失特征與缺失標簽的不平衡多標簽數據展開研究。