針對弱標記數(shù)據(jù)的多標簽分類算法

2020-03-11 13:53:38王晶晶楊有龍

計算機工程與應(yīng)用 2020年5期

王晶晶，楊有龍

西安電子科技大學數(shù)學與統(tǒng)計學院，西安710126

1 引言

在單標簽學習中每個實例只與單一的類標簽相關(guān)聯(lián)，與傳統(tǒng)單標簽學習不同，多標簽學習是同時處理具有多個類標簽的實例[1]。到目前為止，多標簽學習已經(jīng)引起了人們的廣泛關(guān)注，并且應(yīng)用于各種領(lǐng)域，如文本或網(wǎng)站分類[2]、圖像或視頻注釋[3]和基因功能分析[4]等。多標簽分類任務(wù)是使用一些多標簽數(shù)據(jù)來訓(xùn)練一個分類模型，并用此模型為新出現(xiàn)的實例來預(yù)測一組標簽集合。

對于大部分現(xiàn)有的多標簽分類算法，例如LP（Label Powerset）[5]、BR（Binary Relevance）[6]、ECC（Ensembles of Classifier Chains）[7]、RAKEL（Random k-Labelsets）[8]

和ML-KNN（Multi-Label k -Nearest Neighbor）[9]等一些經(jīng)典的算法，都要求訓(xùn)練數(shù)據(jù)中所有的標簽信息是完整的，然而在實際問題中，隨著數(shù)據(jù)的爆炸式增長，獲取完全標記的實例并不是一件容易的事情。一方面的原因可能是獲得這些信息需要大量的人力物力或者付出的代價是昂貴的，例如：在化學研究中，獲得相應(yīng)的標簽信息可能需要多次有害的重復(fù)實驗；在進行新藥品的檢測時，獲得新藥成分中相應(yīng)的活性分子可能涉及到研究者暫時無法知曉的專業(yè)知識。另一方面的原因可能是收集者僅僅收集了一些相對重要的信息而丟棄了其他有用的信息。由此，產(chǎn)生了弱標記數(shù)據(jù)[10]。

弱標記數(shù)據(jù)是指實例的部分標簽未被標記或者錯誤標記的多標簽數(shù)據(jù)，在本文著重研究前一種情況。在針對弱標記數(shù)據(jù)的多標簽分類問題中，對于標簽的分配有以下三種情況：（1）在訓(xùn)練集中，存在一部分完全標記的實例，剩余的實例都是完全未標記的，稱這種情況為半監(jiān)督多標簽學習問題[11-12]；（2）在訓(xùn)練集中的實例只有部分相關(guān)標簽是已知的，其余的標簽信息都是未知的，這部分的標簽也被視為缺失的標簽信息，稱這種情況為弱標記學習問題[13]；（3）在訓(xùn)練集中的實例只有部分相關(guān)和不相關(guān)的標簽是已知的，其余的標簽信息都是未知的，稱這種情況為擴展的弱標記學習問題。圖1是對這三種情況的具體解釋，圖中的1和?1分別表示相關(guān)和不相關(guān)的標簽信息，紅色的陰影部分表示缺失的標簽信息。在本文中，主要針對第二種情況進行研究。

圖1 三種標簽分配方式

對于上述的弱標記學習問題，目前也有一些相應(yīng)的解決方法。Sun等人[13]最早將弱標記問題引入多標簽學習中，并提出WELL（Weak Label Learning）方法來解決此問題，在WELL 方法中，由一組低秩相似性矩陣來刻畫實例之間的相似性，同時考慮了弱標記問題中固有的類別不平衡問題，并強制每個標簽的分類邊界跨越低密度區(qū)域。Chen 等人[14]首次嘗試從少數(shù)的標簽分配中重建完整或未知的標簽集合，之后在輸入特征到重建標簽集合之間學習一個映射來解決問題。Wu等人[15]提出一種歸納式的方法MLML（Multi-label Learning with Missing Labels）來處理多標簽中的缺失標簽問題，這種方法加強了預(yù)測標簽和可用標簽之間的一致性以及標簽之間的局部平滑性。Chung 等人[16]提出了一種新的方式來解決這一問題，特別是針對缺失標簽的分布不是均勻分布的情況，該方法能夠通過更新權(quán)重的方式來快速地恢復(fù)缺失標簽的相關(guān)信息。Tan等人[17]提出一種歸納式的方法SMILE（Semi-supervised Multi-label Classification using Incomplete Label Information），該方法在對弱標記數(shù)據(jù)進行分類的過程中引入了基于圖的半監(jiān)督線性分類器，通過一致性和平滑性這兩個基本的假設(shè)來優(yōu)化最終的目標函數(shù)，進而得到所求的線性分類器。

為了解決上述問題，本文提出了一種MCWD（Multilabel Classification for Weak-label Data）的算法來解決弱標記數(shù)據(jù)的多標簽分類問題，它充分利用了實例之間的相似性和標簽之間的相似性，同時又引入了標簽之間的相關(guān)性，主要用于恢復(fù)訓(xùn)練數(shù)據(jù)中的缺失標簽信息。MCWD算法首先通過在可接受的執(zhí)行時間內(nèi)迭代地更新每個訓(xùn)練實例的權(quán)重來恢復(fù)80%訓(xùn)練數(shù)據(jù)的標簽信息；接下來利用標簽相關(guān)性來補充剩余實例的標簽信息；最后，使用完全恢復(fù)的訓(xùn)練數(shù)據(jù)來訓(xùn)練分類模型。在14 個基準數(shù)據(jù)集上的實驗結(jié)果表明，MCWD 算法對于不同的數(shù)據(jù)集具有較好的分類效果。

2 提出的算法

2.1 問題陳述

在傳統(tǒng)的多標簽分類任務(wù)中，訓(xùn)練集一般表示為{(xi,yi)|1 ≤i ≤m}，其中xi∈?d是第i 個實例的d 維特征向量，yi=(yi1,yi2,…,yin)∈{1,-1}n是此實例相應(yīng)的n維標簽向量，其中的值1和?1分別代表相關(guān)和不相關(guān)的標簽信息。 m 和n 分別是實例和標簽的數(shù)目。X=[x1;x2;…;xm]∈?m×d為實例的特征矩陣，Y=[y1;y2;…;ym]∈{1,-1}m×n為實例的真實標簽矩陣。對于向量yi=(yi1,yi2,…,yin)中的每個分量yij，當yij=1 時表示第j 個標簽屬于第i 個實例，否則表示為yij=-1。多標簽分類任務(wù)的目標是從已知的X 和Y 矩陣中學習一個分類模型f:?d?{1,-1}n來準確地預(yù)測新實例的標簽向量。

然而在弱標記樣本中，標簽矩陣Y 中的相關(guān)標簽是部分已知的，此時只能得到一個不完整的標簽矩陣C ∈{0,1}m×n，其中當Cij=1 時表示第j 個標簽屬于第i個實例（與上述yij=1 時的情況相同），而Cij=0 時上述相應(yīng)的標簽分量yij有兩種可能出現(xiàn)的情況：一種是yij=1，它表明雖然第j 個標簽屬于第i 個實例但是此結(jié)果沒有被觀測到；另一種是yij=-1，它表明第j 個標簽不屬于第i 個實例，同樣此結(jié)果也是沒有被觀測到的，所以將這樣的矩陣C 作為弱標記數(shù)據(jù)的初始標簽矩陣。另外，p 是為每個實例所分配相關(guān)標簽的最大數(shù)目，其值可以通過計算獲得。因此在訓(xùn)練集中為每個實例分配到的標簽數(shù)目保持在[1,p]范圍內(nèi)，即在向量Ci=(Ci1,Ci2,…,Cin)中的相關(guān)標簽數(shù)目都不超過p 的值。本文的主要目標是從已知的{X,C}中去學習得到一個完整的標簽矩陣Y?∈{1,-1}m×n，同時希望Y?與真實的標簽矩陣Y 很接近，從而能更好地執(zhí)行分類任務(wù)。

2.2 標簽恢復(fù)的具體過程

在具有弱標記數(shù)據(jù)的多標簽分類問題中，由于訓(xùn)練數(shù)據(jù)中大多數(shù)的標簽信息是缺失的，所以利用傳統(tǒng)的多標簽分類算法來解決此類問題難以產(chǎn)生好的分類效果。如果能將訓(xùn)練數(shù)據(jù)中不完整的標簽信息進行正確地恢復(fù)，此時的預(yù)測效果將會有所提升。為了解決上述問題，從而提出了一種可以正確地恢復(fù)缺失標簽信息的MCWD 算法，圖2 簡明扼要地說明了此算法的大致流程。接下來將詳細地介紹這種算法。

圖2 MCWD算法的流程框圖

2.2.1 初始化

這一步的主要想法是將已知的相關(guān)和不相關(guān)的標簽信息分配到所有的訓(xùn)練數(shù)據(jù)中，然而此時在本文的訓(xùn)練數(shù)據(jù)中沒有不相關(guān)的標簽信息，需要在訓(xùn)練數(shù)據(jù)的標簽信息中添加一些不相關(guān)的標簽信息，從而將缺失標簽和不相關(guān)標簽進行有效區(qū)分。

首先，對于初始標簽矩陣C 中的每個標簽j，在C中隨機選擇pj個Cij=0 的實例，同時將選定實例的Cij值由原來的0變?yōu)?1，其中pj是每個標簽j 中所有相關(guān)標簽的總數(shù)目。此時，經(jīng)過初始化，Cij中的值由原來的{0,1}變化為{-1,0,1}，其中1 代表相關(guān)的標簽信息，0 代表缺失的標簽信息，-1 代表不相關(guān)的標簽信息。將此時得到的標簽矩陣記為C1∈{-1,0,1}m×n。其次，將權(quán)重矩陣初始化為=C1ij。

下面以一個例子來說明初始化前后訓(xùn)練集中各個實例的標簽集所發(fā)生的具體變化。假設(shè)訓(xùn)練集中有5個實例，每個實例由3個特征和3個標簽所組成，給定p的值為1，那么初始化前的訓(xùn)練集如表1所示，經(jīng)過初始化之后所得的訓(xùn)練集如表2所示。

表1 初始化前的訓(xùn)練集

表2 初始化后的訓(xùn)練集

2.2.2 迭代和更新

這一步的主要目標是恢復(fù)訓(xùn)練數(shù)據(jù)中大部分的標簽信息，具體的步驟主要分為以下三個階段：預(yù)測標簽、更新權(quán)重以及重置標簽。

首先，使用一個實例加權(quán)的基分類器來逐個預(yù)測訓(xùn)練集中所有實例的標簽信息。選用的這個基分類器為實例加權(quán)的KNN分類器，具體的過程為：給定訓(xùn)練數(shù)據(jù)以及每個實例的初始權(quán)重，將訓(xùn)練數(shù)據(jù)中的每個實例輪流作為一次測試實例，同時將其余的實例作為一個新的訓(xùn)練集；之后計算出訓(xùn)練實例與測試實例之間的歐式距離，這些距離只需要計算一次并且在迭代的過程不會發(fā)生改變。對于一個測試實例ITest，實例加權(quán)的KNN 算法先在訓(xùn)練集中尋找它的k 個近鄰KNN(ITest)，確保此測試實例與這些近鄰之間的距離盡可能得小；之后在第t 次迭代時，其k 個近鄰KNN(ITest)標簽向量的加權(quán)平均作為此測試實例ITest在第t 次迭代的預(yù)測標簽向量

其次，用每個實例i 的每個標簽j 的值來更新每次的權(quán)重值wij，的更新值為：

其中，sgn()是符號函數(shù)，e 是高置信度閾值并且其取值在(0.5,1)，c 是低置信度閾值并且其取值在(0,0.5)，同時Maxj=maxi(，Minj=mini。此外，wij的值也在區(qū)間[-1,1]。因為的取值總在一個固定的區(qū)間中，所以根據(jù)其值可以確定區(qū)分相關(guān)與不相關(guān)標簽信息的閾值。由于輸出值總在區(qū)間[-1,1]，因此以0 作為閾值來區(qū)分實例的標簽信息，qtij的值將重新分配為：

最后，為了在每次迭代過程中將初始標簽矩陣C中的相關(guān)標簽信息保留下來，需要將經(jīng)過以上步驟所獲得的的值進行重置。這樣做的原因是因為C 中的相關(guān)標簽信息不僅是已知的，而且是完全正確的，有必要將這部分的信息進行保留并有效地加以利用，現(xiàn)在所獲得的標簽矩陣表示為Q={∈{ }-1,0,1 |1 ≤i ≤m,1 ≤j ≤n}。

如果依次執(zhí)行完畢上述的三個步驟，則表示一次循環(huán)完成。當訓(xùn)練數(shù)據(jù)中80%的標簽信息完全恢復(fù)完畢時，即這80%實例的標簽中不含有缺失值“0”時，循環(huán)結(jié)束，從而進行下一步。

2.2.3 利用標簽相關(guān)性來恢復(fù)剩余的標簽信息

多標簽學習不同于傳統(tǒng)的單標簽學習，一個實例往往關(guān)聯(lián)多個標簽，并且這些標簽相互之間常常存在著一定的關(guān)聯(lián)，所以在多標簽的學習過程中，研究和利用這些標簽之間的相關(guān)性是非常有必要的[18-20]?，F(xiàn)有的關(guān)于標簽之間相關(guān)性的求解策略可大致分為一階策略（不考慮標簽之間的相關(guān)性）、二階策略（考慮兩兩標簽之間的相關(guān)性）和高階策略（考慮多個標簽之間的相關(guān)性）三大類[7，9，17，21]，在本文中，所采用的是二階策略[17]，主要是因為它在使用過程中的簡單性和有效性，同時這也是經(jīng)常被使用的一種策略。因此，本文定義了一個標簽相關(guān)矩陣L ∈?n×n，用來衡量兩兩標簽之間的相關(guān)性，具體形式如下：

其中，qc1用來表示被標簽c1標注的實例集合， ||qc1表示被標簽c1標注的實例數(shù)目，而 ||qc1?qc2表示被標簽c1和c2同時標注的實例數(shù)目。s ＞0 是引入的一個平滑參數(shù)，通過設(shè)置參數(shù)s，可以在一定程度上避免由于標簽不平衡問題所產(chǎn)生的一些極端情況。舉一個簡單的例子進行說明：假設(shè)現(xiàn)在有25張圖片，其中有5張被大海、輪船和魚群這三個標簽所標記，而剩余的那些都是被輪船和魚群這兩個標簽所標記。如果隨機選擇10 張圖片用來估計標簽之間的相關(guān)性，并且選擇到的這10 張圖片恰好都是被輪船和魚群這兩個標簽所標記時，那么在不考慮s 的情況下，大海與輪船之間的相關(guān)性和大海與魚群之間的相關(guān)性都會被估計為0。但是實際上這三個標簽相互之間是有所關(guān)聯(lián)的，所以引入?yún)?shù)s 是有必要的。此外，利用在上一步所得到的80%訓(xùn)練數(shù)據(jù)中完全恢復(fù)好的標簽信息來計算標簽相關(guān)矩陣L。

接下來需要在剩余20%訓(xùn)練數(shù)據(jù)中找到缺失的標簽，同時利用得到的標簽相關(guān)矩陣L 來將這些缺失值補充完整，具體補充過程如下：

當qij=0時，的值變?yōu)?，其中Maxj=之后選擇一個閾值來確定最終的值，如果的值大于0.5時，在Q 中qij的值變?yōu)?；否則在Q 中qij的值變?yōu)?1。通過這一步，的值會被快速地恢復(fù)。

到目前為止，所有的缺失標簽全部恢復(fù)完畢，換言之此時訓(xùn)練數(shù)據(jù)全部的標簽信息都是完整的，將最終恢復(fù)好的標簽矩陣記為?∈{1,-1}m×n，同時將其作為訓(xùn)練實例新的標簽集。利用這個新的訓(xùn)練集{X,來訓(xùn)練一個多標簽分類模型，其中現(xiàn)在的標簽集與初始的標簽集C 是不同的，之后使用得到的分類模型來預(yù)測測試數(shù)據(jù)的標簽信息。MCWD算法的詳細過程如算法1所示。

算法1 MCWD算法

輸入：訓(xùn)練集D=[X,C]，其中X 為特征矩陣，C 為初始的標簽矩陣；為每個實例所分配相關(guān)標簽的最大數(shù)目p，迭代次數(shù)t，測試集X1。

1.for 訓(xùn)練集D 中的所有實例執(zhí)行

2. 初始化

3. 隨機添加不相關(guān)的標簽信息，標簽矩陣由初始的標簽矩陣C 變?yōu)镃1；

5. 迭代和更新

6.while C1中80%的標簽信息未恢復(fù)完全時執(zhí)行

7. for訓(xùn)練集中第1個到第m 個實例執(zhí)行

8. 使用式（1）來預(yù)測每個實例的標簽向量qt；

10. 重置標簽信息，將C 中已知的相關(guān)標簽信息保留下來；

11. end for

12. end while

13. 利用標簽相關(guān)性來恢復(fù)剩余的標簽信息

14. 使用式（4）來計算標簽相關(guān)矩陣L；

15. 尋找剩余20%訓(xùn)練數(shù)據(jù)中缺失的標簽信息，使用式（5）對其進行恢復(fù)；

16.end for

18.利用現(xiàn)有的多標簽分類算法從[X,Y?] 中訓(xùn)練分類模型；

19.返回預(yù)測的標簽矩陣Y1。

3 實驗及結(jié)果分析

在這部分，主要評估所提出MCWD 算法的有效性。將MCWD算法與其他兩種標簽恢復(fù)的方法同時配合兩種成熟的多標簽學習算法，對來自不同研究領(lǐng)域并且有著不同規(guī)模的14 個多標簽數(shù)據(jù)集進行實驗仿真，最后將所得的實驗結(jié)果進行比較和分析，從而來驗證MCWD算法的可行性和有效性。

3.1 數(shù)據(jù)集

選取了14個具有代表性的、公開的多標簽數(shù)據(jù)集，表3 中總結(jié)了這些數(shù)據(jù)集各方面的一些基本信息。對于每個數(shù)據(jù)集，介紹了其所屬的領(lǐng)域、含有實例的總數(shù)目、每個實例擁有的特征數(shù)目、每個實例擁有的標簽數(shù)目、標簽的基數(shù)或勢和p 值的大小。其中Cardinality表示標簽的基數(shù)或勢，其值可根據(jù)公式（6）進行計算，它表示為每個實例所分配到的標簽的平均數(shù)目，Density 為標簽的密度，是標簽的基數(shù)與標簽總數(shù)的比值，具體的計算方式見公式（7），最后的p 值為標簽基數(shù)的一半，在C 中它限制了為每個實例所分配標簽的最大數(shù)目。選取的整個數(shù)據(jù)集大小從194到43 000多不等，其中的特征維數(shù)從19 維到5 000 維不等，相應(yīng)的標簽個數(shù)從6 到370多不等，同時它們涉及到廣泛的領(lǐng)域和特征，具有一定的代表性和說服力。

表3 選取的多標簽數(shù)據(jù)集

其中，yi表示第i 個實例的標簽集。

上述數(shù)據(jù)集的網(wǎng)站來源：http：//mulan.sourceforge.net./datasets-mlc.html，https：//www.uco.es/grupos/kdis/kdiswiki/index.php/Resources。

3.2 評估指標

在多標簽分類問題中，由于數(shù)據(jù)集中的每個實例往往同時關(guān)聯(lián)到多個標簽，所以對于那些傳統(tǒng)的分類性能評估指標例如準確率、精確率和召回率等對此問題不完全適用。到目前為止，為了更好地評估多標簽分類的分類效果，許多研究者從分類問題的各個角度著手考慮并且在傳統(tǒng)的單標簽評估指標的基礎(chǔ)上進行改進，提出了許多種多標簽分類性能的評估標準來從不同的側(cè)面去衡量學習系統(tǒng)的泛化性能。這些評估標準大致可以概括為三類：（1）基于實例的評估標準；（2）基于標簽的評估標準；（3）基于標簽排序的評估標準。評判一個算法的泛化性能不但可以從分類預(yù)測的角度進行考慮，而且可以從標簽排序的角度進行衡量，特別是當數(shù)據(jù)集中給定的真實標簽信息不完整時，通過標簽排序的角度來評估分類性能可能更加合理。

為了驗證所提算法的有效性，選擇了以下三個評估指標，關(guān)于它們的具體描述如下：

（1）One-error 主要衡量在對所有待預(yù)測實例進行標簽排序的過程中，預(yù)測排在第一位上的標簽實際上不是相關(guān)標簽真正的待預(yù)測實例所占的比例。具體的計算過程為：

其中，S 表示測試集，f 是一個排序函數(shù)，并且對于任一個條件a ，如果a 成立時則? a? =1，否則? a? =0 。由其定義可知該評估指標的值越小，則說明算法的分類性能越優(yōu)，當One-errorS( )f =0 時，分類性能達到最佳。

（2）Macro F1是所有標簽F1度量的平均值，其中F1度量是通過精確率和召回率計算得到的。此指標具體的計算過程為：

其中，pi和ri分別表示第i 個標簽的精確率和召回率。 Macro F1的值越大，則表明算法的分類性能越優(yōu)。

（3）Micro F1是精確率和召回率的調(diào)和平均，其中精確率和召回率是針對每個標簽從TP、FP 和FN 的角度進行度量。此指標具體的計算過程為：

對于測試實例中所關(guān)聯(lián)到的第i 個標簽，其中TPi表示真正例的個數(shù)，即正類實例被分類器預(yù)測為正類的個數(shù)；FPi表示假正例的個數(shù)，即負類實例被預(yù)測為正類的個數(shù)；FNi表示假負例的個數(shù)，即正類實例被預(yù)測為負類的個數(shù)。 Micro F1的值越大，則表明算法的分類性能越優(yōu)。

3.3 實驗設(shè)置

將所提的MCWD算法與其他三種相關(guān)的方法進行比較，其中的兩種關(guān)于標簽恢復(fù)的方法需要同時配合兩種成熟的多標簽學習算法來執(zhí)行分類任務(wù)，所以需要同時兼顧兩方面的內(nèi)容：一方面是關(guān)于標簽恢復(fù)工作，另一方面是關(guān)于多標簽分類工作。

對于標簽恢復(fù)工作，采用以下兩種方法進行比較：（1）文獻[16]中關(guān)于標簽恢復(fù)的方法，為了方便討論，以下將這種方法簡記為文獻[16]。其中參數(shù)k 的取值為10，其余各個參數(shù)的具體設(shè)置詳見文獻[16]。（2）WELL方法，其中各個參數(shù)的具體設(shè)置詳見文獻[13]。

對于多標簽分類工作，主要采用以下三種方法進行實驗仿真：（1）ML-KNN方法[9]，它是一種具有一階策略的多標簽學習算法，是從傳統(tǒng)的KNN（k-Nearest Neighbor）算法演變而來。對于一個待測實例，ML-KNN首先在訓(xùn)練數(shù)據(jù)中識別出與其最近的k 個近鄰，之后從這些近鄰實例的標簽集中獲得統(tǒng)計信息，最后根據(jù)最大后驗概率來確定待測實例最終的標簽集合。其中參數(shù)k 的取值為10，平滑系數(shù)的值設(shè)置為1。（2）ECC 方法[7]，它是CC（Chain Classifier）方法的集成版本，其中集成的數(shù)目選擇為10，并且對于每一個CC 中的鏈序都是隨機生成的，其余各個參數(shù)的具體設(shè)置詳見文獻[7]。（3）SMILE[17]，它是一種歸納式的半監(jiān)督多標簽分類方法，綜合利用來自標記實例和未標記實例的標簽相關(guān)性來預(yù)測新的未知實例的標簽信息。其中各個參數(shù)的具體設(shè)置詳見文獻[17]。

在本文所提的MCWD 算法中，高置信度閾值e 的取值為0.8，低置信度閾值c 的取值為0.2，與文獻[16]中相關(guān)參數(shù)的選擇保持一致。在每次迭代過程中，k 值會發(fā)生相應(yīng)的變化，其取值與迭代的次數(shù)有關(guān)為10 ?t ，平滑系數(shù)s 的取值為1。在實驗過程中，對于每一個數(shù)據(jù)集，將其隨機劃分為訓(xùn)練集（占70%）和測試集（占30%），此過程反復(fù)進行10 次，最后將這10 次實驗結(jié)果的均值和標準差作為最終的結(jié)果輸出。

3.4 實驗結(jié)果分析

經(jīng)過實驗仿真，接下來將對MCWD 算法的性能進行分析。首先表4 統(tǒng)計了在C 中相關(guān)標簽的數(shù)目和標簽的缺失率，其中標簽的缺失率是在訓(xùn)練數(shù)據(jù)中缺失標簽的數(shù)目與標簽總數(shù)目的比值。從表4可以看出，當選定的p 值較小時，那么在C 中標簽的缺失率通常較高，表中的所有值均為10次實驗結(jié)果的平均值。

表4 C 中的相關(guān)信息統(tǒng)計

其次，圖3顯示了弱標記數(shù)據(jù)的標簽矩陣C1與多標簽數(shù)據(jù)中真實的標簽矩陣Y 相比的正確率以及通過使用4 種標簽恢復(fù)方法得到的恢復(fù)后的標簽矩陣Y?與真實的標簽矩陣Y 相比的正確率，圖中的橫坐標為選取的14 個多標簽數(shù)據(jù)集，縱坐標為與真實的標簽矩陣Y相比的正確率。從圖3 中可以清楚地看出標簽恢復(fù)之后的正確率有明顯的提高，并且使用本文方法進行恢復(fù)的效果遠遠勝過其他三種標簽恢復(fù)的方法，在這些數(shù)據(jù)集中Enron 數(shù)據(jù)集用本文方法進行恢復(fù)后的效果是最好的。

圖3 與Y 相比的正確率

最后，在14 個數(shù)據(jù)集上進行對比實驗的所有結(jié)果見表5～7，表中顯示的所有值均為10次實驗結(jié)果的平均值與標準差的組合，同時將每個數(shù)據(jù)集中評估指標的最佳結(jié)果用粗體突出顯示。對于表5 中的評估指標One-error ，其值越小表明最終的分類效果越好，然而對于表6和表7中的評估指標Macro F1和Micro F1，其值越大表明最終的分類效果越好。

從表5 中關(guān)于One-error 評估指標的實驗結(jié)果可以得出：在14 個數(shù)據(jù)集中，在MCWD 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占8 個，在文獻[16]方法下分類效果達到最優(yōu)的數(shù)據(jù)集占2個，在WELL方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1個，在SMILE方法下分類效果達到最優(yōu)的數(shù)據(jù)集占3個。與其他三種方法相比，所提的方法更具有優(yōu)勢。并且注意到CAL500 數(shù)據(jù)集在MCWD方法下使用ML-KNN 分類器后得到One-error 的值為0，此時的分類性能達到最佳，即使在使用ECC 分類器后獲得的One-error 的值也趨近于0，分類的效果也是不錯的。

表5 基于One-error 評估指標的實驗結(jié)果對比

表6 基于Macro F1 評估指標的實驗結(jié)果對比

根據(jù)表6 中關(guān)于Macro F1評估指標的實驗結(jié)果可以得出：在14 個數(shù)據(jù)集中，在MCWD 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占9 個，在文獻[16]方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1個，在WELL方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1個，在SMILE方法下分類效果達到最優(yōu)的數(shù)據(jù)集占3個。與其他三種方法相比，所提的方法更具有競爭力。同時注意到Scene 數(shù)據(jù)集在MCWD方法下使用ML-KNN分類器后得到的Macro F1的值約為0.67，此時的分類效果是所有數(shù)據(jù)集中最佳的。

表7 基于Micro F1 評估指標的實驗結(jié)果對比

根據(jù)表7 中關(guān)于Micro F1評估指標的實驗結(jié)果可以得出：在14 個數(shù)據(jù)集中，在MCWD 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占8 個，其中對于Flags 數(shù)據(jù)集，在MCWD 方法下分別使用ML-KNN 分類器和ECC 分類器后所得的Micro F1的值是相同的，在文獻[16]方法下分類效果達到最優(yōu)的數(shù)據(jù)集占2個，在WELL方法下分類效果達到最優(yōu)的數(shù)據(jù)集占1 個，在SMILE 方法下分類效果達到最優(yōu)的數(shù)據(jù)集占3 個。與其他三種方法相比，所提的方法更具有優(yōu)勢。同時注意到Genbase數(shù)據(jù)集在MCWD 方法下使用ML-KNN 分類器后得到的Micro F1的值約為0.89，此時的分類效果是所有數(shù)據(jù)集中最佳的。

綜上所述，所提出的MCWD 算法對于絕大多數(shù)的數(shù)據(jù)集都能產(chǎn)生較好的分類效果，但是也有一些例外的情況，例如其中的Mediamill 數(shù)據(jù)集，從表5～7 可以看出，此數(shù)據(jù)集使用WELL方法進行恢復(fù)后所產(chǎn)生的分類效果遠遠比使用MCWD 方法所產(chǎn)生的效果好，出現(xiàn)這種情況的原因可能是通過使用WELL 方法在恢復(fù)標簽的過程中預(yù)測產(chǎn)生了太多的相關(guān)標簽信息，從而使得最終Macro F1和Micro F1的值很大。同時注意到對于Flags數(shù)據(jù)集，無論是使用ML-KNN分類器還是ECC分類器，在每種方法下所產(chǎn)生的分類效果差不多相近，出現(xiàn)這種情況的原因可能是在此數(shù)據(jù)集中標簽之間的相關(guān)性不是很強，所以這兩種分類器產(chǎn)生的效果大致相同。對于Birds 數(shù)據(jù)集，使用SMILE 方法后在三個評估指標上均取得了較好的結(jié)果，出現(xiàn)這種情況的原因可能是此數(shù)據(jù)集更適合用基于圖的訓(xùn)練模型進行訓(xùn)練。最后，通過對上述實驗結(jié)果進行的一系列分析后，可以得出一個顯而易見的結(jié)論：通過使用MCWD 算法進行標簽恢復(fù)后，無論是使用ML-KNN 分類器還是ECC 分類器，對于絕大多數(shù)的數(shù)據(jù)集都能夠產(chǎn)生較好的分類效果，與其他三種方法相比，具有一定的競爭力。

4 結(jié)束語

在現(xiàn)實生活中，隨著數(shù)據(jù)量的迅猛增加，數(shù)據(jù)形式也越來越多樣化，這就使得利用人工對數(shù)據(jù)進行標注越來越不現(xiàn)實，因此在收集數(shù)據(jù)的過程中很難獲得完全標記的實例，然而大多數(shù)成熟的多標簽分類算法都要求訓(xùn)練實例的標簽信息必須是完整的，所以進行標簽的恢復(fù)工作就顯得格外重要。

本文針對弱標記數(shù)據(jù)的多標簽分類問題，提出了一種有效的算法MCWD來解決訓(xùn)練實例中部分相關(guān)標簽信息已知而其余標簽信息未知的問題。MCWD算法主要通過迭代地更新每個訓(xùn)練實例的權(quán)重并且引入兩兩標簽之間的相關(guān)性來恢復(fù)訓(xùn)練數(shù)據(jù)中的缺失標簽信息，同時還在一定程度上避免了由于標簽不平衡問題所導(dǎo)致的一些極端情況。實驗結(jié)果表明，與其他相關(guān)方法相比，采用現(xiàn)有的多標簽分類算法從恢復(fù)后的訓(xùn)練數(shù)據(jù)集中訓(xùn)練得到的分類模型可以在測試階段產(chǎn)生更好的預(yù)測效果。