基于全局與局部標簽關系的多標簽圖像分類方法

2022-06-21 06:39:18任煒白鶴翔

計算機應用 2022年5期

關鍵詞：語義分類方法

任煒，白鶴翔

（山西大學計算機與信息技術學院，太原 030006）（?通信作者電子郵箱2783800599@qq.com）

基于全局與局部標簽關系的多標簽圖像分類方法

任煒*，白鶴翔

（山西大學計算機與信息技術學院，太原 030006）（?通信作者電子郵箱2783800599@qq.com）

針對多標簽圖像分類任務中存在的難以對標簽間的相互作用建模和全局標簽關系固化的問題，結合自注意力機制和知識蒸餾（KD）方法，提出了一種基于全局與局部標簽關系的多標簽圖像分類方法（ML-GLLR）。首先，局部標簽關系（LLR）模型使用卷積神經網絡（CNN）、語義模塊和雙層自注意力（DLSA）模塊對局部標簽關系建模；然后，利用KD方法使LLR學習全局標簽關系。在公開數據集MSCOCO2014和VOC2007上進行實驗，LLR相較于基于圖卷積神經網絡多標簽圖像分類（ML-GCN）方法，在平均精度均值（mAP）上分別提高了0.8個百分點和0.6個百分點，ML-GLLR相較于LLR在mAP上分別進一步提高了0.2個百分點和1.3個百分點。實驗結果表明，所提ML-GLLR不僅能對標簽間的相互關系進行建模，也能避免全局標簽關系固化的問題。

圖像分類；自注意力機制；深度學習；知識蒸餾；多標簽分類

0 引言

如何對不同標簽之間存在的關系進行建模一直以來就是多標簽分類尤其是多標簽圖像分類中的一個重要問題。以卷積神經網絡（Convolutional Neural Network， CNN）［1-4］為例，在一些大型單標簽圖像數據集（例如ImageNet［5］）上精度已能夠達到90%以上［6］。然而，由于CNN獨立對待目標，將多標簽問題轉化為一組二分類問題來預測每個目標是否存在，忽視了標簽之間的依賴關系，因此很多相關研究發現其對多標簽圖像，例如數據集MSCOCO（MicroSoft Common Objects in COntext）2014［7］的分類精度通常僅有80%左右［2，8］。因此，對標簽關系進行建模是提高多標簽圖像分類精度的關鍵。

基于循環神經網絡（Recurrent Neural Network， RNN）的模型是目前多標簽圖像分類中最具代表性的一類方法［9-11］。Wang等［9］提出了使用RNN模型來對標簽關系進行建模的卷積神經網絡-循環神經網絡（CNN-RNN）模型。這一模型使用CNN和RNN的聯合嵌入空間來表征圖像與語義結構。CNN-RNN模型保留了交叉標簽相關性，提高了多標簽分類精度。然而，在CNN-RNN訓練時需要根據訓練數據中各標簽邊緣概率來定義標簽順序。這種預定義的標簽預測順序可能錯誤地對標簽依賴關系進行建模。例如，根據標簽頻率可能得到｛餐桌，花，叉子｝，然而從語義的角度上，由于“餐桌”與“叉子”有更強的依賴關系，所以正確順序應為｛餐桌，叉子，花｝。為了解決這一問題，Yazici等［11］提出了基于視覺注意力的長短期記憶（Long Short-Term Memory， LSTM）深度學習框架，通過引入視覺注意力模型來自動地學習標簽順序。然而這一模型仍然難以完全避免RNN模型自身的缺陷，即以序列方式逐個預測標簽，同標簽之間關系的雙向性相矛盾，從而導致RNN模型無法完整地對標簽之間關系進行建模。

此外，CNN-RNN模型僅關注每張圖像自身的標簽相關性，即局部標簽關系（Local Label Relationship， LLR），忽略了整個數據集上的全局標簽關系。為解決這一問題，Chen等［12］提出了基于圖卷積網絡（Graph Convolutional Network， GCN）的多標簽圖像分類（Multi-Label image classification based on GCN， ML-GCN）模型。這一模型在整個訓練集上統計全局標簽關系，利用GCN在全局標簽關系的指導下建立多個標簽之間的共現概率，進而在一定程度上提高多標簽圖像的分類精度。

圖1是ML-GCN在多標簽圖像數據集VOC2007（PASCAL VOC challenge 2007）［13］上統計出的全局標簽相關矩陣。在數據集的圖像中與“人”這一標簽具有較高共現概率的標簽有很多，如“自行車”“馬”和“摩托”。當圖像中存在“人”“桌子”時，“椅子”可能存在被遮蓋的情況從而導致漏標；但在全局標簽關系中，因為“桌子”與“椅子”有較高的共現率，所以“椅子”會被標注出來。

圖 1 VOC2007上的標簽關系矩陣（未填寫部分為0）Fig. 1 Label relation matrix on VOC2007 （0 for unfilled part）

雖然ML-GCN能夠考慮全局標簽的相關性，但由于該方法過度依賴標簽共現概率，容易導致弱關系情況下缺標簽和強關系情況下多標記的問題。

為解決上述兩個多標簽分類問題，本文提出了基于全局與局部標簽關系的多標簽圖像分類方法（Multiple Label image classification method based on Global and Local Label Relationship， ML-GLLR）。該方法利用雙層自注意力（Dual Layer Self-Attention， DLSA）來探索局部標簽之間相互作用的關系；同時，用知識蒸餾（Knowledge Distillation， KD）對全局與局部的標簽關系進行建模，并在兩個公共數據集MSCOCO2014和VOC2007上進行了實驗。

1 ML?GLLR

ML-GLLR的框架如圖2所示。該框架由兩部分組成，分別為LLR模型和KD方法，其中LLR細分為傳統分類器、語義模塊、DLSA模塊。首先，利用CNN提取圖像特征，得到特征，為特征圖的個數，、分別表示特征圖的長和寬；接著，語義模塊將按不同類別注意的區域在空間維度上加權求和得到標簽特征，為總類別數，表示標簽特征的維度；然后，經過DLSA以及DLSA分類器得到標簽分布，與由經過傳統分類器得到的標簽分布進行加權平均操作，得到局部標簽分布；最后，分別與真實標簽分布和ML-GCN得到的全局標簽分布進行知識蒸餾。

圖2 ML-GLLR整體框架Fig. 2 Overall framework of ML-GLLR

1.1 語義模塊

語義模塊的目的是在預測期間聚焦和描述感興趣的圖像區域；同時，還可以將CNN模型得到的特征轉化為標簽特征，有利于DLSA模型計算標簽關系。受文獻［11，14］啟發，使用用于圖像字幕生成的軟注意力的機制，將特征圖表示成相應的標簽特征，本文的語義模塊也使用同樣的機制。具體地，有：

不難發現，語義模塊能充分利用注意力機制來粗略定位標簽對應的區域，并根據注意力權重得到標簽特征，隱式地利用了標簽共現信息。在實驗部分會展示和說明語義模塊在多標簽圖像上的可視化結果及其作用。

1.2 DLSA模塊

張小川等［15］利用自注意力機制學習文本序列內部的詞依賴關系，提升了文本分類的精度。受此啟發，本文利用DLSA機制對標簽之間的依賴關系進行建模。DLSA模塊由兩個自注意力模塊與標簽關系矩陣組成。具體地，雙層注意力模塊分為三步。

第二步使用C維的全連接層將映射并通過函數得到結果：

1.3 知識蒸餾與傳統分類器

高欽泉等［16］針對目前用于超分辨率圖像重建的深度學習網絡模型結構深且計算復雜度高的問題，使用KD方法將知識從教師網絡轉移到學生網絡，最后在不改變學生網絡的網絡結構及參數量的前提下提升學生網絡的重建效果；鄧棋等［17］通過KD方法，將訓練好的“知識”提取到AlexNet模型中，從而實現了在減少系統資源占用的同時，提高準確率的效果。受此啟發，本文將利用KD使DLSA在保留局部標簽關系知識的同時學習ML-GCN的全局標簽關系知識。

在1.2節中，DLSA的輸出結果還無法進行知識蒸餾，需DLSA分類器與傳統分類器結合。傳統分類器分為兩步：首先，對進行全局平均池化；然后，利用全連接層進行分類。傳統分類器的標簽分布計算式為：

KD方法是以ML-GCN作為教師模型，以LLR作為學生模型，計算式為：

2 實驗與結果分析

2.1 評價指標

為了與現有方法進行公平比較，本文沿用文獻［12，18］的評價指標，具體如下。

1）在類別上的準確率（CP）、召回率（CR）、F1分數（CF1）；在總體上的準確率（OP）、召回率（OR）、F1分數（OF1），以及為每幅圖像分配得分前3名的標簽，即Top-3。

2）每個類別的平均精度（Average Precision， AP）。首先，遍歷的索引（是從高到低的排序函數，是第類別的預測得分），每次遍歷需要判斷索引位置的真實標簽是否存在，若存在則使用和統計數量（是第類別的真實標簽），然后，按照式（12）計算；若不存在則只在統計數量。遍歷結束后，第類別的準確率如式（13）所示。

3）所有類別的平均精度均值（mean Average Precision，mAP）。mAP是基于排序的度量，具體地：

2.2 實驗設置

本文以深度殘差網絡為基線方法。首先，選用101層的殘差網絡（101-layer deep Residual network， Res-101）［3］提取特征；然后，經過池化、全連接層和函數來進行多標簽圖像分類。Res-101也是LLR的主干網絡。在上述的訓練過程中，數據預處理為：對輸入圖像進行隨機裁剪并調整大小為長寬448的圖像，然后隨機水平翻轉。優化器選擇隨機梯度下降（Stochastic Gradient Descent， SGD）法，其中學習率初始化為0.05，動量為0.9。特別地，本文方法LLR中主干網絡Res-101的參數學習率初始化為0.005，其余參數為0.05。所有參數的學習率在訓練至第20輪與第30輪時以0.1的倍率進行變化，一共訓練40輪。批處理大小為16，損失函數使用二元交叉熵函數。ML-GCN以文獻［12］的方式進行訓練。訓練方法完成后，使用訓練好的LLR模型和ML-GCN模型，以式（9）為損失函數進行知識蒸餾。使用SGD為優化器，主干網絡Res-101的參數學習率初始化為0.000 5，其余參數為0.005，動量為0.9。所有參數的學習率在訓練至第5輪時以0.1的倍率變化，一共訓練10輪。

2.3 數據集

本文實驗使用MSCOCO2014［7］和VOC2007［13］這兩個公共多標簽圖像數據集。數據集具體信息如下：

1）MSCOCO2014數據集包含12 218張圖像，其中，訓練集有82 081張圖像，驗證集有40 137張圖像，共有80個類別，平均每張圖像大約有2.9個標簽。因此，MSCOCO2014常用于多標簽圖像分類。

2）VOC2007數據集包含9 963張圖像，共有20個類別，它被分為訓練集、驗證集、測試集。本文將訓練集和驗證集合并為訓練集。所以，訓練集有5 011張圖像，驗證集有4 952張圖像。

2.4 對比結果分析

將本文方法（ML-GLLR）分別與CNN-RNN、空間正則化網絡（Spatial Regularization Network， SRN）［8］、Res-101、基于多特征過濾和融合（Multi-Evidence filtering and fusion，Multi-Evidence）［19］的分類方法、基于視覺注意的CNN-LSTM（CNN-LSTM based on visual Attention， CNN-LSTM-Att）［11］、ML-GCN［12］以及語義特定圖表示學習（Semantic-Specific Graph Representation Learning， SSGRL）［18］在MSCOCO2014數據集上進行對比實驗，其結果評估如表1所示。ALL下的6個指標是將分類結果按照閾值為0.5劃分，高于0.5則標記為1，低于0.5則標記為0，然后使用式（10）～（11）計算；Top-3下的6個指標是直接將分類結果最高的3個標簽標記為1，其余為0，然后再使用式（10）～（11）計算。

表1 不同方法在MSCOCO2014數據集上的評價指標對比單位： %Tab. 1 Evaluation index comparison of different methods on MSCOCO2014 dataset unit： %

在MSCOCO2014數據集上，LLR相較于基線Res-101、ML-GCN模型，mAP分別提升了3.7、0.8個百分點，與SSGRL模型持平，都達到了83.8%；LLR相較于CNN-LSTM-Att、ML-GCN、SSGRL，OF1分別提升了1.9、0.7、1.3個百分點，CF1分別提高了3.2、0.8、2.0個百分點。當進行知識蒸餾后，考慮全局與局部標簽關系的ML-GLLR模型，其mAP可以達到84.0%，比其他方法更優。

將本文方法（ML-GLLR）分別與CNN-RNN、區域潛在語義相關性（Regional Latent Semantic Dependencies， RLSD）［20］、VGG（Visual Geometry Group）［2］、HCP（Hypothesis CNN Pooling）［21］、Res-101、ML-GCN和SSGRL在VOC2007數據集上進行對比實驗，其結果評估如表2所示。

與Res-101、ML-GCN相比，LLR的mAP分別提升了2.7、0.6個百分點。當充分考慮全局與局部標簽關系時，與ML-GCN、SSGRL、LLR相比，文本ML-GLLR的mAP分別提升了1.9、0.9、1.3個百分點。

對于各類AP，如“沙發”，ML-GCN的AP只有84.3%，而LLR達到了88.4%。通過KD方法，對ML-GCN全局標簽關系進行學習，LLR在局部標簽關系與全局標簽關系之間達到了一定的平衡，“沙發”類別的AP達到90.7%，類似的類別還有“植物”和“桌子”等。所以，實驗結果可以表明，利用KD結合全局與局部標簽關系在多標簽圖像分類中是有效的。

2.5 網絡消融分析

本文所提ML-GLLR包含三個消融因素：語義模塊、DLSA模塊、KD模塊。為了驗證ML-GLLR的有效性，在數據集MSCOCO2014和VOC2007上，采用如下的方式進行消融實驗：1）采用Res-101和維的全連接層（分類器）結合的網絡結構作為基準網絡；2）在LLR的基礎上，去除DLSA模塊，保留語義模塊；3）在LLR的基礎上，使用兩個全連接層替代語義模塊，保留DLSA模塊；4）LLR，只考慮局部標簽關系的方法；5）ML-GLLR，結合全局與局部標簽關系的方法。表3給出了上述五種方法的預測精度。其中，T-OF1和T-CF1表示Top-3下的OF1和CF1指標；A-OF1和A-CF1表示ALL下的OF1和CF1指標。

表2 不同方法在VOC2007數據集上各標簽的結果對比單位： %Tab. 2 Comparison of results in various labels on VOC2007 dataset with different methods unit： %

表3 消融實驗結果單位： %Tab. 3 Ablation experimental results unit： %

2.5.1 語義模塊的作用

語義模塊可以使CNN模型得到的特征圖按權重進行加權求和，該權重表示各個標簽在圖像中所注意的區域。圖3（a）、（e）是MSCOCO2014的測試集樣本COCO_val_476534和COCO_val_473994，圖3（b）、（c）、（d）和（f）、（g）、（h）分別展示了圖3（a）、（e）在語義模塊中注意到的區域（高亮區域）。對于2個樣本的所有真實標簽（貓、遙控器、沙發、人、狗、飛碟），LLR都預測正確。圖3（a）中，“遙控器”“貓”“沙發”能分別與圖中較亮的區域一一對應，這些區域都有著較高的權重，標簽特征就是以這些權重對CNN特征圖在空間維度上加權求和得到的。

圖3 語義模塊可視化Fig. 3 Semantic module visualization

由表3可知，當LLR去除語義模塊后，LLR的mAP在MSCOCO2014數據集上從83.8%下降到82.1%，在VOC2007數據集上從94.6%下降到93.6%，表明了語義模塊對后續標簽關系學習的有效性。

2.5.2 DLSA模塊與KD模塊的作用

DLSA模塊用于探索局部標簽關系。由表1、2可知，在兩個數據集上，含DLSA模塊的LLR和ML-GLLR各項分類指標都優于ML-GCN和CNN-LSTM-Att：與CNN-LSTM-Att相比，LLR可以充分考慮標簽之間的相互作用關系；與ML-GCN相比，DLSA模塊從局部上考慮標簽相關性。圖4中，斜體下劃線為模型預測結果中缺失的標簽，斜體下劃線加粗為多余標簽。在圖4（a）中，“貓”“植物”與其他標簽的共現率都很低，因此有這兩個標簽時，ML-GCN會忽略“瓶子”。在圖4（b）中，“人”和“電視機”都與“沙發”有較高的共現率，從而導致ML-GCN標記了不存在的“沙發”。但DLSA模塊在圖4（a）中標記出了“瓶子”，在圖4（b）中沒有標記“沙發”，所以，DLSA模塊在一定程度上防止了漏標和多標記的問題。

圖4 多標簽圖像分類中ML-GCN與ML-GLLR比較Fig. 4 Comparison of ML-GCN and ML-GLLR in multi-label image classification

此外，由表3可知，當LLR無DLSA模塊時，在MSCOCO2014數據集上mAP只能達到81.4%，在VOC2007上mAP只能達到92.7%，驗證了DLSA模塊的有效性。

事實上，無論是從局部上還是從全局上考慮標簽關系，它們都存在一定的局限性。例如，圖5是VOC2007中的兩個樣本圖像在ML-GCN、LLR和ML-GLLR中的分類結果。LLR只能識別出圖5（a）中的“椅子”“植物”以及圖5（b）中的“人”“牛”，這是因為LLR相較于ML-GCN更依賴CNN提取的特征，更重要的是缺乏全局標簽關系上的考慮。

圖6是圖5的圖像在不同模型下的標簽關系矩陣（由式（5）得到）。經過知識蒸餾后，在圖6（a）、（c）中，當存在“椅子”“植物”時，這兩個標簽與“沙發”的共現率從59.3%、60.1%變化至66.6%、66.3%；在圖6（b）、（d）中，當存在“牛”“人”時，與“馬”的共現率從64.5%、57.7%變化至64%、61.8%。這使得LLR在圖5（a）中識別出“沙發”，在圖5（b）中識別出“馬”。

圖5 多標簽圖像分類中ML-GCN、LLR與ML-GLLR比較Fig. 5 Comparison of ML-GCN， LLR and ML-GLLR in multi-label image classification

圖6 LLR經過知識蒸餾后標簽關系的變化Fig. 6 Change of LLR label relationships after knowledge distillation

同樣在圖1中也可以發現“椅子”“植物”都與“沙發”的共現率高，“人”“牛”都與“馬”的共現率高。這表明LLR通過知識蒸餾學習到了全局標簽關系，驗證了基于知識蒸餾來實現全局與局部關系信息的結合是有效的。

此外，經過知識蒸餾后的LLR在不少類別之間的共現率發生顯著變化。圖7、8分別是VOC_val_0986圖像中類別“人”與其他類別、類別“牛”與其他類別在LLR和ML-GLLR上的共現率。

不難發現，雖然在圖7中“人”與其他類別在經過知識蒸餾后共現率都有提高，但在圖9中很多類別卻不會被標記。這是因為，式（8）中局部標簽分布與傳統分類器的標簽分布相關，而傳統分類器是對圖像內容的基本分類，正如圖9中的LLR在各個類別的得分，除了類別“馬”處于被發現的臨界值外，其他類別得分都很低，所以即使提升了共現率也無法標記。KD的目的是使LLR學習全局標簽關系（如圖1中的標簽關系），所以圖7中“人”與其他類別的共現率經過KD后都有提升的趨勢，而圖8中“牛”與其他類別的共現率變化卻很難發現規律。這是因為圖6中標簽關系都是LLR根據每一個樣本的特征計算出來的，不是固化的全局標簽關系。雖然LLR通過知識蒸餾處理全局標簽關系，但它不會完全地擬合全局標簽關系，一定程度上也需要考慮樣本自身標簽關系的內部聯系，避免出現強標記的問題。

圖7 VOC_val_0986中類別“人”與其他類別的共現率Fig. 7 Co-occurrence rate of category “people” and other categories in VOC_val_0986

圖8 VOC_val_0986中類別“牛”與其他類別的共現率Fig. 8 Co-occurrence rate of category “cattle” and other categories in VOC_val_0986

圖9 VOC_val_0986中各個類別在LLR和ML-GLLR模型的得分Fig. 9 Scores of each category of VOC_val_0986 in LLR and ML-GLLR models

本文方法的不足之處是語義模塊。CNN得到的特征在經過語義模塊表示為各個類別特征后，一些類別可能會包含其他類別的信息，如圖3（h）除飛碟區域有很高的注意程度外，對人的區域也有少量的注意程度，這表明語義模塊得到的特征向量不能十分準確地表達各個類別信息，這可能會對標簽關系的判斷造成一定的干擾。所以，對于該問題還需進一步的研究。

3 結語

標簽關系的挖掘是多標簽圖像分類的關鍵問題之一，本文提出了基于全局與局部標簽關系的多標簽圖像分類方法（ML-GLLR）。該方法利用DLSA對樣本內部的標簽關系即局部上的標簽關系進行建模，又通過知識蒸餾充分考慮全局上與局部上的標簽關系。在兩個公共數據集MSCOCO2014和VOC2007上的實驗結果表明，所提方法的性能優于其他對比方法。但本文所提方法也存在一些問題：首先，不是端到端的訓練方法，需要進行多次訓練，導致實用性差；語義模塊對圖像中各類的注意區域存在重合問題，可能會影響最后的判斷。所以，如何將模型構建成端到端的訓練方法以及消除各類別的注意區域重合問題是接下來的研究重點。

[1] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks ［C］// Proceedings of the 2012 25th International Conference on Neural Information Processing Systems. Red Hook： Curran Associates Inc.， 2012： 1097-1105.

[2] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition ［EB/OL］. ［2021-03-15］. https：//arxiv.org/pdf/1409.1556.pdf

[3] HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition ［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2016： 770-778.

[4] 劉尚旺，郜翔.基于深度模型遷移的細粒度圖像分類方法［J］.計算機應用，2018，38（8）：2198-2204.（LIU S W， GAO X. Fine-grained image classification method based on deep model transfer ［J］. Journal of Computer Applications， 2018， 38（8）： 2198-2204.）

[5] DENG J， DONG W， SOCHER R， et al. ImageNet： a large-scale hierarchical image database ［C］// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2009： 248-255.

[6] PHAM H， DAI Z H， XIE Q Z， et al. Meta pseudo labels ［C］// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2021：11552-11563.

[7] LIN T Y， MAIRE M， BELONGIE S， et al. Microsoft COCO： common objects in context ［C］// Proceedings of the 2014 European Conference on Computer Vision， LNCS 8693. Cham： Springer， 2014： 740-755.

[8] ZHU F， LI H S， OUYANG W L， et al. Learning spatial regularization with image-level supervisions for multi-label image classification ［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2017： 2027-2036.

[9] WANG J， YANG Y， MAO J H， et al. CNN-RNN： a unified framework for multi-label image classification ［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE， 2016： 2285-2294.

[10] CHEN S F， CHEN Y C， YEH C K， et al. Order-free RNN with visual attention for multi-label classification ［C］// Proceedings of the 2018 32nd AAAI Conference on Artificial Intelligence. Palo Alto： AAAI Press， 2018： 6714-6721.

[11] YAZICI V O，GONZALEZ-GARCIA A， RAMISA A， et al. Orderless recurrent models for multi-label classification ［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020：13437-13446.

[12] CHEN Z M， WEI X S， WANG P， et al. Multi-label image recognition with graph convolutional networks ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 5172-5181.

[13] EVERINGHAM M， GOOL VAN L， WILLIAMS C K I， et al. The PASCAL Visual Object Classes （VOC） challenge ［J］. International Journal of Computer Vision， 2010， 88（2）：303-338.

[14] XU K， BA J L， KIROS R， et al. Show， attend and tell： neural image caption generation with visual attention ［C］// Proceedings of the 2015 32nd International Conference on Machine Learning. New York： JMLR.org，2015： 2048-2057.

[15] 張小川，戴旭堯，劉璐，等.融合多頭自注意力機制的中文短文本分類模型［J］.計算機應用，2020，40（12）：3485-3489.（ZHANG X C， DAI X Y，LIU L， et al. Chinese short text classification model with multi-head self-attention mechanism ［J］. Journal of Computer Applications， 2020， 40（12）： 3485-3489.）

[16] 高欽泉，趙巖，李根，等.基于知識蒸餾的超分辨率卷積神經網絡壓縮方法［J］.計算機應用，2019，39（10）：2802-2808.（GAO Q Q， ZHAO Y， LI G， et al. Compression method of super-resolution convolutional neural network based on knowledge distillation ［J］. Journal of Computer Applications， 2019， 39（10）： 2802-2808.）

[17] 鄧棋，雷印杰，田鋒.用于肺炎圖像分類的優化卷積神經網絡方法［J］.計算機應用，2020，40（1）：71-76.（DENG Q， LEI Y J，TIAN F. Optimized convolutional neural network method for classification of pneumonia images ［J］. Journal of Computer Applications， 2020，40（1）： 71-76.）

[18] CHEN T S， XU M X， HUI X L， et al. Learning semantic-specific graph representation for multi-label image recognition ［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019：522-531.

[19] GE W F， YANG S B， YU Y Z. Multi-evidence filtering and fusion for multi-label classification， object detection and semantic segmentation based on weakly supervised learning ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 1277-1286.

[20] ZHANG J J， WU Q， SHEN C H， et al. Multilabel image classification with regional latent semantic dependencies ［J］. IEEE Transactions on Multimedia， 2018， 20（10）： 2801-2813.

[21] WEI Y C， XIA W， LIN M， et al. HCP：a flexible CNN framework for multi-label image classification ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016，38（9）： 1901-1907.

Multi-label image classification method based on global and local label relationship

REN Wei*， BAI Hexiang

（School of Computer and Information Technology，Shanxi University，Taiyuan Shanxi030006，China）

Considering the difficulty of modeling the interaction between labels and solidification of global label relationship in multi-label image classification tasks， a new Multiple-Label image classification method based on Global and Local Label Relationship （ML-GLLR） was proposed by combining self-attention mechanism and Knowledge Distillation （KD） method. Firstly，Convolutional Neural Network （CNN）， semantic module and Dual Layer Self-Attention （DLSA） module were used by the Local Label Relationship （LLR） model to model local label relationship. Then， the KD method was used to make LLR learn global label relationship. The experimental results on the public datasets of MicroSoft Common Objects in COntext （MSCOCO） 2014 and PASCAL VOC challenge 2007 （VOC2007） show that，LLR improves the mean Average Precision （mAP） by 0.8 percentage points and 0.6 percentage points compared with Multiple Label classification based on Graph Convolutional Network （ML-GCN） respectively， and the proposed ML-GLLR increases the mAP by 0.2 percentage points and 1.3 percentage points compared with LLR. Experimental results show that， the proposed ML-GLLR can not only model the interaction between labels， but also avoid the problem of global label relationship solidification.

image classification; self-attention mechanism; deep learning; knowledge distillation; multi-label classification

TP391.4

1001-9081（2022）05-1383-08

10.11772/j.issn.1001-9081.2021071240

2021?07?16；

2021?08?31；

2021?09?14。

國家自然科學基金資助項目（41871286）。

任煒（1996—），男，山西襄汾人，碩士研究生，主要研究方向：深度學習、計算機視覺；白鶴翔（1980—），男，山西榆次人，副教授，博士，主要研究方向：機器學習、數據挖掘。

This work is partially supported by National Natural Science Foundation of China （41871286）.

REN Wei， born in 1996，M. S. candidate. His research interests include deep learning， computer vision.

BAI Hexiang， born in 1980，Ph. D.， associate professor. His research interests include machine learning， data mining.