999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全局與局部標簽關系的多標簽圖像分類方法

2022-06-21 06:39:18任煒白鶴翔
計算機應用 2022年5期
關鍵詞:語義分類方法

任煒,白鶴翔

(山西大學 計算機與信息技術學院,太原 030006)(?通信作者電子郵箱2783800599@qq.com)

基于全局與局部標簽關系的多標簽圖像分類方法

任煒*,白鶴翔

(山西大學 計算機與信息技術學院,太原 030006)(?通信作者電子郵箱2783800599@qq.com)

針對多標簽圖像分類任務中存在的難以對標簽間的相互作用建模和全局標簽關系固化的問題,結合自注意力機制和知識蒸餾(KD)方法,提出了一種基于全局與局部標簽關系的多標簽圖像分類方法(ML-GLLR)。首先,局部標簽關系(LLR)模型使用卷積神經網絡(CNN)、語義模塊和雙層自注意力(DLSA)模塊對局部標簽關系建模;然后,利用KD方法使LLR學習全局標簽關系。在公開數據集MSCOCO2014和VOC2007上進行實驗,LLR相較于基于圖卷積神經網絡多標簽圖像分類(ML-GCN)方法,在平均精度均值(mAP)上分別提高了0.8個百分點和0.6個百分點,ML-GLLR相較于LLR在mAP上分別進一步提高了0.2個百分點和1.3個百分點。實驗結果表明,所提ML-GLLR不僅能對標簽間的相互關系進行建模,也能避免全局標簽關系固化的問題。

圖像分類;自注意力機制;深度學習;知識蒸餾;多標簽分類

0 引言

如何對不同標簽之間存在的關系進行建模一直以來就是多標簽分類尤其是多標簽圖像分類中的一個重要問題。以卷積神經網絡(Convolutional Neural Network, CNN)[1-4]為例,在一些大型單標簽圖像數據集(例如ImageNet[5])上精度已能夠達到90%以上[6]。然而,由于CNN獨立對待目標,將多標簽問題轉化為一組二分類問題來預測每個目標是否存在,忽視了標簽之間的依賴關系,因此很多相關研究發現其對多標簽圖像,例如數據集MSCOCO(MicroSoft Common Objects in COntext)2014[7]的分類精度通常僅有80%左右[2,8]。因此,對標簽關系進行建模是提高多標簽圖像分類精度的關鍵。

基于循環神經網絡(Recurrent Neural Network, RNN)的模型是目前多標簽圖像分類中最具代表性的一類方法[9-11]。Wang等[9]提出了使用RNN模型來對標簽關系進行建模的卷積神經網絡-循環神經網絡(CNN-RNN)模型。這一模型使用CNN和RNN的聯合嵌入空間來表征圖像與語義結構。CNN-RNN模型保留了交叉標簽相關性,提高了多標簽分類精度。然而,在CNN-RNN訓練時需要根據訓練數據中各標簽邊緣概率來定義標簽順序。這種預定義的標簽預測順序可能錯誤地對標簽依賴關系進行建模。例如,根據標簽頻率可能得到{餐桌,花,叉子},然而從語義的角度上,由于“餐桌”與“叉子”有更強的依賴關系,所以正確順序應為{餐桌,叉子,花}。為了解決這一問題,Yazici等[11]提出了基于視覺注意力的長短期記憶(Long Short-Term Memory, LSTM)深度學習框架,通過引入視覺注意力模型來自動地學習標簽順序。然而這一模型仍然難以完全避免RNN模型自身的缺陷,即以序列方式逐個預測標簽,同標簽之間關系的雙向性相矛盾,從而導致RNN模型無法完整地對標簽之間關系進行建模。

此外,CNN-RNN模型僅關注每張圖像自身的標簽相關性,即局部標簽關系(Local Label Relationship, LLR),忽略了整個數據集上的全局標簽關系。為解決這一問題,Chen等[12]提出了基于圖卷積網絡(Graph Convolutional Network, GCN)的多標簽圖像分類(Multi-Label image classification based on GCN, ML-GCN)模型。這一模型在整個訓練集上統計全局標簽關系,利用GCN在全局標簽關系的指導下建立多個標簽之間的共現概率,進而在一定程度上提高多標簽圖像的分類精度。

圖1是ML-GCN在多標簽圖像數據集VOC2007(PASCAL VOC challenge 2007)[13]上統計出的全局標簽相關矩陣。在數據集的圖像中與“人”這一標簽具有較高共現概率的標簽有很多,如“自行車”“馬”和“摩托”。當圖像中存在“人”“桌子”時,“椅子”可能存在被遮蓋的情況從而導致漏標;但在全局標簽關系中,因為“桌子”與“椅子”有較高的共現率,所以“椅子”會被標注出來。

圖 1 VOC2007上的標簽關系矩陣(未填寫部分為0)Fig. 1 Label relation matrix on VOC2007 (0 for unfilled part)

雖然ML-GCN能夠考慮全局標簽的相關性,但由于該方法過度依賴標簽共現概率,容易導致弱關系情況下缺標簽和強關系情況下多標記的問題。

為解決上述兩個多標簽分類問題,本文提出了基于全局與局部標簽關系的多標簽圖像分類方法(Multiple Label image classification method based on Global and Local Label Relationship, ML-GLLR)。該方法利用雙層自注意力(Dual Layer Self-Attention, DLSA)來探索局部標簽之間相互作用的關系;同時,用知識蒸餾(Knowledge Distillation, KD)對全局與局部的標簽關系進行建模,并在兩個公共數據集MSCOCO2014和VOC2007上進行了實驗。

1 ML?GLLR

ML-GLLR的框架如圖2所示。該框架由兩部分組成,分別為LLR模型和KD方法,其中LLR細分為傳統分類器、語義模塊、DLSA模塊。首先,利用CNN提取圖像特征,得到特征,為特征圖的個數,、分別表示特征圖的長和寬;接著,語義模塊將按不同類別注意的區域在空間維度上加權求和得到標簽特征,為總類別數,表示標簽特征的維度;然后,經過DLSA以及DLSA分類器得到標簽分布,與由經過傳統分類器得到的標簽分布進行加權平均操作,得到局部標簽分布;最后,分別與真實標簽分布和ML-GCN得到的全局標簽分布進行知識蒸餾。

圖2 ML-GLLR整體框架Fig. 2 Overall framework of ML-GLLR

1.1 語義模塊

語義模塊的目的是在預測期間聚焦和描述感興趣的圖像區域;同時,還可以將CNN模型得到的特征轉化為標簽特征,有利于DLSA模型計算標簽關系。受文獻[11,14]啟發,使用用于圖像字幕生成的軟注意力的機制,將特征圖表示成相應的標簽特征,本文的語義模塊也使用同樣的機制。具體地,有:

不難發現,語義模塊能充分利用注意力機制來粗略定位標簽對應的區域,并根據注意力權重得到標簽特征,隱式地利用了標簽共現信息。在實驗部分會展示和說明語義模塊在多標簽圖像上的可視化結果及其作用。

1.2 DLSA模塊

張小川等[15]利用自注意力機制學習文本序列內部的詞依賴關系,提升了文本分類的精度。受此啟發,本文利用DLSA機制對標簽之間的依賴關系進行建模。DLSA模塊由兩個自注意力模塊與標簽關系矩陣組成。具體地,雙層注意力模塊分為三步。

第二步 使用C維的全連接層將映射并通過函數得到結果:

1.3 知識蒸餾與傳統分類器

高欽泉等[16]針對目前用于超分辨率圖像重建的深度學習網絡模型結構深且計算復雜度高的問題,使用KD方法將知識從教師網絡轉移到學生網絡,最后在不改變學生網絡的網絡結構及參數量的前提下提升學生網絡的重建效果;鄧棋等[17]通過KD方法,將訓練好的“知識”提取到AlexNet模型中,從而實現了在減少系統資源占用的同時,提高準確率的效果。受此啟發,本文將利用KD使DLSA在保留局部標簽關系知識的同時學習ML-GCN的全局標簽關系知識。

在1.2節中,DLSA的輸出結果還無法進行知識蒸餾,需DLSA分類器與傳統分類器結合。傳統分類器分為兩步:首先,對進行全局平均池化;然后,利用全連接層進行分類。傳統分類器的標簽分布計算式為:

KD方法是以ML-GCN作為教師模型,以LLR作為學生模型,計算式為:

2 實驗與結果分析

2.1 評價指標

為了與現有方法進行公平比較,本文沿用文獻[12,18]的評價指標,具體如下。

1)在類別上的準確率(CP)、召回率(CR)、F1分數(CF1);在總體上的準確率(OP)、召回率(OR)、F1分數(OF1),以及為每幅圖像分配得分前3名的標簽,即Top-3。

2)每個類別的平均精度(Average Precision, AP)。首先,遍歷的索引(是從高到低的排序函數,是第類別的預測得分),每次遍歷需要判斷索引位置的真實標簽是否存在,若存在則使用和統計數量(是第類別的真實標簽),然后,按照式(12)計算;若不存在則只在統計數量。遍歷結束后,第類別的準確率如式(13)所示。

3)所有類別的平均精度均值(mean Average Precision,mAP)。mAP是基于排序的度量,具體地:

2.2 實驗設置

本文以深度殘差網絡為基線方法。首先,選用101層的殘差網絡(101-layer deep Residual network, Res-101)[3]提取特征;然后,經過池化、全連接層和函數來進行多標簽圖像分類。Res-101也是LLR的主干網絡。在上述的訓練過程中,數據預處理為:對輸入圖像進行隨機裁剪并調整大小為長寬448的圖像,然后隨機水平翻轉。優化器選擇隨機梯度下降(Stochastic Gradient Descent, SGD)法,其中學習率初始化為0.05,動量為0.9。特別地,本文方法LLR中主干網絡Res-101的參數學習率初始化為0.005,其余參數為0.05。所有參數的學習率在訓練至第20輪與第30輪時以0.1的倍率進行變化,一共訓練40輪。批處理大小為16,損失函數使用二元交叉熵函數。ML-GCN以文獻[12]的方式進行訓練。訓練方法完成后,使用訓練好的LLR模型和ML-GCN模型,以式(9)為損失函數進行知識蒸餾。使用SGD為優化器,主干網絡Res-101的參數學習率初始化為0.000 5,其余參數為0.005,動量為0.9。所有參數的學習率在訓練至第5輪時以0.1的倍率變化,一共訓練10輪。

2.3 數據集

本文實驗使用MSCOCO2014[7]和VOC2007[13]這兩個公共多標簽圖像數據集。數據集具體信息如下:

1)MSCOCO2014數據集包含12 218張圖像,其中,訓練集有82 081張圖像,驗證集有40 137張圖像,共有80個類別,平均每張圖像大約有2.9個標簽。因此,MSCOCO2014常用于多標簽圖像分類。

2)VOC2007數據集包含9 963張圖像,共有20個類別,它被分為訓練集、驗證集、測試集。本文將訓練集和驗證集合并為訓練集。所以,訓練集有5 011張圖像,驗證集有4 952張圖像。

2.4 對比結果分析

將本文方法(ML-GLLR)分別與CNN-RNN、空間正則化網絡(Spatial Regularization Network, SRN)[8]、Res-101、基于多特征過濾和融合(Multi-Evidence filtering and fusion,Multi-Evidence)[19]的分類方法、基于視覺注意的CNN-LSTM(CNN-LSTM based on visual Attention, CNN-LSTM-Att)[11]、ML-GCN[12]以及語義特定圖表示學習(Semantic-Specific Graph Representation Learning, SSGRL)[18]在MSCOCO2014數據集上進行對比實驗,其結果評估如表1所示。ALL下的6個指標是將分類結果按照閾值為0.5劃分,高于0.5則標記為1,低于0.5則標記為0,然后使用式(10)~(11)計算;Top-3下的6個指標是直接將分類結果最高的3個標簽標記為1,其余為0,然后再使用式(10)~(11)計算。

表1 不同方法在MSCOCO2014數據集上的評價指標對比 單位: %Tab. 1 Evaluation index comparison of different methods on MSCOCO2014 dataset unit: %

在MSCOCO2014數據集上,LLR相較于基線Res-101、ML-GCN模型,mAP分別提升了3.7、0.8個百分點,與SSGRL模型持平,都達到了83.8%;LLR相較于CNN-LSTM-Att、ML-GCN、SSGRL,OF1分別提升了1.9、0.7、1.3個百分點,CF1分別提高了3.2、0.8、2.0個百分點。當進行知識蒸餾后,考慮全局與局部標簽關系的ML-GLLR模型,其mAP可以達到84.0%,比其他方法更優。

將本文方法(ML-GLLR)分別與CNN-RNN、區域潛在語義相關性(Regional Latent Semantic Dependencies, RLSD)[20]、VGG(Visual Geometry Group)[2]、HCP(Hypothesis CNN Pooling)[21]、Res-101、ML-GCN和SSGRL在VOC2007數據集上進行對比實驗,其結果評估如表2所示。

與Res-101、ML-GCN相比,LLR的mAP分別提升了2.7、0.6個百分點。當充分考慮全局與局部標簽關系時,與ML-GCN、SSGRL、LLR相比,文本ML-GLLR的mAP分別提升了1.9、0.9、1.3個百分點。

對于各類AP,如“沙發”,ML-GCN的AP只有84.3%,而LLR達到了88.4%。通過KD方法,對ML-GCN全局標簽關系進行學習,LLR在局部標簽關系與全局標簽關系之間達到了一定的平衡,“沙發”類別的AP達到90.7%,類似的類別還有“植物”和“桌子”等。所以,實驗結果可以表明,利用KD結合全局與局部標簽關系在多標簽圖像分類中是有效的。

2.5 網絡消融分析

本文所提ML-GLLR包含三個消融因素:語義模塊、DLSA模塊、KD模塊。為了驗證ML-GLLR的有效性,在數據集MSCOCO2014和VOC2007上,采用如下的方式進行消融實驗:1)采用Res-101和維的全連接層(分類器)結合的網絡結構作為基準網絡;2)在LLR的基礎上,去除DLSA模塊,保留語義模塊;3)在LLR的基礎上,使用兩個全連接層替代語義模塊,保留DLSA模塊;4)LLR,只考慮局部標簽關系的方法;5)ML-GLLR,結合全局與局部標簽關系的方法。表3給出了上述五種方法的預測精度。其中,T-OF1和T-CF1表示Top-3下的OF1和CF1指標;A-OF1和A-CF1表示ALL下的OF1和CF1指標。

表2 不同方法在VOC2007數據集上各標簽的結果對比 單位: %Tab. 2 Comparison of results in various labels on VOC2007 dataset with different methods unit: %

表3 消融實驗結果 單位: %Tab. 3 Ablation experimental results unit: %

2.5.1 語義模塊的作用

語義模塊可以使CNN模型得到的特征圖按權重進行加權求和,該權重表示各個標簽在圖像中所注意的區域。圖3(a)、(e)是MSCOCO2014的測試集樣本COCO_val_476534和COCO_val_473994,圖3(b)、(c)、(d)和(f)、(g)、(h)分別展示了圖3(a)、(e)在語義模塊中注意到的區域(高亮區域)。對于2個樣本的所有真實標簽(貓、遙控器、沙發、人、狗、飛碟),LLR都預測正確。圖3(a)中,“遙控器”“貓”“沙發”能分別與圖中較亮的區域一一對應,這些區域都有著較高的權重,標簽特征就是以這些權重對CNN特征圖在空間維度上加權求和得到的。

圖3 語義模塊可視化Fig. 3 Semantic module visualization

由表3可知,當LLR去除語義模塊后,LLR的mAP在MSCOCO2014數據集上從83.8%下降到82.1%,在VOC2007數據集上從94.6%下降到93.6%,表明了語義模塊對后續標簽關系學習的有效性。

2.5.2 DLSA模塊與KD模塊的作用

DLSA模塊用于探索局部標簽關系。由表1、2可知,在兩個數據集上,含DLSA模塊的LLR和ML-GLLR各項分類指標都優于ML-GCN和CNN-LSTM-Att:與CNN-LSTM-Att相比,LLR可以充分考慮標簽之間的相互作用關系;與ML-GCN相比,DLSA模塊從局部上考慮標簽相關性。圖4中,斜體下劃線為模型預測結果中缺失的標簽,斜體下劃線加粗為多余標簽。在圖4(a)中,“貓”“植物”與其他標簽的共現率都很低,因此有這兩個標簽時,ML-GCN會忽略“瓶子”。在圖4(b)中,“人”和“電視機”都與“沙發”有較高的共現率,從而導致ML-GCN標記了不存在的“沙發”。但DLSA模塊在圖4(a)中標記出了“瓶子”,在圖4(b)中沒有標記“沙發”,所以,DLSA模塊在一定程度上防止了漏標和多標記的問題。

圖4 多標簽圖像分類中ML-GCN與ML-GLLR比較Fig. 4 Comparison of ML-GCN and ML-GLLR in multi-label image classification

此外,由表3可知,當LLR無DLSA模塊時,在MSCOCO2014數據集上mAP只能達到81.4%,在VOC2007上mAP只能達到92.7%,驗證了DLSA模塊的有效性。

事實上,無論是從局部上還是從全局上考慮標簽關系,它們都存在一定的局限性。例如,圖5是VOC2007中的兩個樣本圖像在ML-GCN、LLR和ML-GLLR中的分類結果。LLR只能識別出圖5(a)中的“椅子”“植物”以及圖5(b)中的“人”“牛”,這是因為LLR相較于ML-GCN更依賴CNN提取的特征,更重要的是缺乏全局標簽關系上的考慮。

圖6是圖5的圖像在不同模型下的標簽關系矩陣(由式(5)得到)。經過知識蒸餾后,在圖6(a)、(c)中,當存在“椅子”“植物”時,這兩個標簽與“沙發”的共現率從59.3%、60.1%變化至66.6%、66.3%;在圖6(b)、(d)中,當存在“牛”“人”時,與“馬”的共現率從64.5%、57.7%變化至64%、61.8%。這使得LLR在圖5(a)中識別出“沙發”,在圖5(b)中識別出“馬”。

圖5 多標簽圖像分類中ML-GCN、LLR與ML-GLLR比較Fig. 5 Comparison of ML-GCN, LLR and ML-GLLR in multi-label image classification

圖6 LLR經過知識蒸餾后標簽關系的變化Fig. 6 Change of LLR label relationships after knowledge distillation

同樣在圖1中也可以發現“椅子”“植物”都與“沙發”的共現率高,“人”“牛”都與“馬”的共現率高。這表明LLR通過知識蒸餾學習到了全局標簽關系,驗證了基于知識蒸餾來實現全局與局部關系信息的結合是有效的。

此外,經過知識蒸餾后的LLR在不少類別之間的共現率發生顯著變化。圖7、8分別是VOC_val_0986圖像中類別“人”與其他類別、類別“牛”與其他類別在LLR和ML-GLLR上的共現率。

不難發現,雖然在圖7中“人”與其他類別在經過知識蒸餾后共現率都有提高,但在圖9中很多類別卻不會被標記。這是因為,式(8)中局部標簽分布與傳統分類器的標簽分布相關,而傳統分類器是對圖像內容的基本分類,正如圖9中的LLR在各個類別的得分,除了類別“馬”處于被發現的臨界值外,其他類別得分都很低,所以即使提升了共現率也無法標記。KD的目的是使LLR學習全局標簽關系(如圖1中的標簽關系),所以圖7中“人”與其他類別的共現率經過KD后都有提升的趨勢,而圖8中“牛”與其他類別的共現率變化卻很難發現規律。這是因為圖6中標簽關系都是LLR根據每一個樣本的特征計算出來的,不是固化的全局標簽關系。雖然LLR通過知識蒸餾處理全局標簽關系,但它不會完全地擬合全局標簽關系,一定程度上也需要考慮樣本自身標簽關系的內部聯系,避免出現強標記的問題。

圖7 VOC_val_0986中類別“人”與其他類別的共現率Fig. 7 Co-occurrence rate of category “people” and other categories in VOC_val_0986

圖8 VOC_val_0986中類別“牛”與其他類別的共現率Fig. 8 Co-occurrence rate of category “cattle” and other categories in VOC_val_0986

圖9 VOC_val_0986中各個類別在LLR和ML-GLLR模型的得分Fig. 9 Scores of each category of VOC_val_0986 in LLR and ML-GLLR models

本文方法的不足之處是語義模塊。CNN得到的特征在經過語義模塊表示為各個類別特征后,一些類別可能會包含其他類別的信息,如圖3(h)除飛碟區域有很高的注意程度外,對人的區域也有少量的注意程度,這表明語義模塊得到的特征向量不能十分準確地表達各個類別信息,這可能會對標簽關系的判斷造成一定的干擾。所以,對于該問題還需進一步的研究。

3 結語

標簽關系的挖掘是多標簽圖像分類的關鍵問題之一,本文提出了基于全局與局部標簽關系的多標簽圖像分類方法(ML-GLLR)。該方法利用DLSA對樣本內部的標簽關系即局部上的標簽關系進行建模,又通過知識蒸餾充分考慮全局上與局部上的標簽關系。在兩個公共數據集MSCOCO2014和VOC2007上的實驗結果表明,所提方法的性能優于其他對比方法。但本文所提方法也存在一些問題:首先,不是端到端的訓練方法,需要進行多次訓練,導致實用性差;語義模塊對圖像中各類的注意區域存在重合問題,可能會影響最后的判斷。所以,如何將模型構建成端到端的訓練方法以及消除各類別的注意區域重合問題是接下來的研究重點。

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 25th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2012: 1097-1105.

[2] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2021-03-15]. https://arxiv.org/pdf/1409.1556.pdf

[3] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016: 770-778.

[4] 劉尚旺,郜翔.基于深度模型遷移的細粒度圖像分類方法[J].計算機應用,2018,38(8):2198-2204.(LIU S W, GAO X. Fine-grained image classification method based on deep model transfer [J]. Journal of Computer Applications, 2018, 38(8): 2198-2204.)

[5] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

[6] PHAM H, DAI Z H, XIE Q Z, et al. Meta pseudo labels [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021:11552-11563.

[7] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Cham: Springer, 2014: 740-755.

[8] ZHU F, LI H S, OUYANG W L, et al. Learning spatial regularization with image-level supervisions for multi-label image classification [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2017: 2027-2036.

[9] WANG J, YANG Y, MAO J H, et al. CNN-RNN: a unified framework for multi-label image classification [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2016: 2285-2294.

[10] CHEN S F, CHEN Y C, YEH C K, et al. Order-free RNN with visual attention for multi-label classification [C]// Proceedings of the 2018 32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 6714-6721.

[11] YAZICI V O,GONZALEZ-GARCIA A, RAMISA A, et al. Orderless recurrent models for multi-label classification [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020:13437-13446.

[12] CHEN Z M, WEI X S, WANG P, et al. Multi-label image recognition with graph convolutional networks [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 5172-5181.

[13] EVERINGHAM M, GOOL VAN L, WILLIAMS C K I, et al. The PASCAL Visual Object Classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2):303-338.

[14] XU K, BA J L, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention [C]// Proceedings of the 2015 32nd International Conference on Machine Learning. New York: JMLR.org,2015: 2048-2057.

[15] 張小川,戴旭堯,劉璐,等.融合多頭自注意力機制的中文短文本分類模型[J].計算機應用,2020,40(12):3485-3489.(ZHANG X C, DAI X Y,LIU L, et al. Chinese short text classification model with multi-head self-attention mechanism [J]. Journal of Computer Applications, 2020, 40(12): 3485-3489.)

[16] 高欽泉,趙巖,李根,等.基于知識蒸餾的超分辨率卷積神經網絡壓縮方法[J].計算機應用,2019,39(10):2802-2808.(GAO Q Q, ZHAO Y, LI G, et al. Compression method of super-resolution convolutional neural network based on knowledge distillation [J]. Journal of Computer Applications, 2019, 39(10): 2802-2808.)

[17] 鄧棋,雷印杰,田鋒.用于肺炎圖像分類的優化卷積神經網絡方法[J].計算機應用,2020,40(1):71-76.(DENG Q, LEI Y J,TIAN F. Optimized convolutional neural network method for classification of pneumonia images [J]. Journal of Computer Applications, 2020,40(1): 71-76.)

[18] CHEN T S, XU M X, HUI X L, et al. Learning semantic-specific graph representation for multi-label image recognition [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019:522-531.

[19] GE W F, YANG S B, YU Y Z. Multi-evidence filtering and fusion for multi-label classification, object detection and semantic segmentation based on weakly supervised learning [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1277-1286.

[20] ZHANG J J, WU Q, SHEN C H, et al. Multilabel image classification with regional latent semantic dependencies [J]. IEEE Transactions on Multimedia, 2018, 20(10): 2801-2813.

[21] WEI Y C, XIA W, LIN M, et al. HCP:a flexible CNN framework for multi-label image classification [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016,38(9): 1901-1907.

Multi-label image classification method based on global and local label relationship

REN Wei*, BAI Hexiang

(School of Computer and Information Technology,Shanxi University,Taiyuan Shanxi030006,China)

Considering the difficulty of modeling the interaction between labels and solidification of global label relationship in multi-label image classification tasks, a new Multiple-Label image classification method based on Global and Local Label Relationship (ML-GLLR) was proposed by combining self-attention mechanism and Knowledge Distillation (KD) method. Firstly,Convolutional Neural Network (CNN), semantic module and Dual Layer Self-Attention (DLSA) module were used by the Local Label Relationship (LLR) model to model local label relationship. Then, the KD method was used to make LLR learn global label relationship. The experimental results on the public datasets of MicroSoft Common Objects in COntext (MSCOCO) 2014 and PASCAL VOC challenge 2007 (VOC2007) show that,LLR improves the mean Average Precision (mAP) by 0.8 percentage points and 0.6 percentage points compared with Multiple Label classification based on Graph Convolutional Network (ML-GCN) respectively, and the proposed ML-GLLR increases the mAP by 0.2 percentage points and 1.3 percentage points compared with LLR. Experimental results show that, the proposed ML-GLLR can not only model the interaction between labels, but also avoid the problem of global label relationship solidification.

image classification; self-attention mechanism; deep learning; knowledge distillation; multi-label classification

TP391.4

A

1001-9081(2022)05-1383-08

10.11772/j.issn.1001-9081.2021071240

2021?07?16;

2021?08?31;

2021?09?14。

國家自然科學基金資助項目(41871286)。

任煒(1996—),男,山西襄汾人,碩士研究生,主要研究方向:深度學習、計算機視覺; 白鶴翔(1980—),男,山西榆次人,副教授,博士,主要研究方向:機器學習、數據挖掘。

This work is partially supported by National Natural Science Foundation of China (41871286).

REN Wei, born in 1996,M. S. candidate. His research interests include deep learning, computer vision.

BAI Hexiang, born in 1980,Ph. D., associate professor. His research interests include machine learning, data mining.

猜你喜歡
語義分類方法
分類算一算
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产成人一级| 国产精品lululu在线观看| 一级爆乳无码av| 免费毛片a| 国产成人8x视频一区二区| 国产 日韩 欧美 第二页| 免费国产小视频在线观看| 2021国产v亚洲v天堂无码| 久久综合结合久久狠狠狠97色| 国产精品丝袜在线| 午夜电影在线观看国产1区| 国产微拍一区| 2048国产精品原创综合在线| 美女裸体18禁网站| 亚洲精选无码久久久| 亚洲欧洲日产国产无码AV| 欧美综合区自拍亚洲综合绿色| 亚洲高清国产拍精品26u| 看你懂的巨臀中文字幕一区二区 | 69免费在线视频| 精品久久久久成人码免费动漫 | 一级毛片在线播放免费| www.99精品视频在线播放| 国产精品国产三级国产专业不| a级毛片一区二区免费视频| 精品久久综合1区2区3区激情| www成人国产在线观看网站| 中文字幕无码电影| 精品一区二区三区波多野结衣| 国产亚洲精品91| 国产男人的天堂| 国产精品成人一区二区不卡| 视频国产精品丝袜第一页| 夜夜操国产| AV在线天堂进入| 18禁黄无遮挡网站| 久久综合九九亚洲一区| 青草视频免费在线观看| 人妻无码中文字幕第一区| 亚洲天堂网站在线| 国产亚洲精品97在线观看| av尤物免费在线观看| 99人体免费视频| 国产免费黄| 精品国产网| 欧美午夜小视频| 怡红院美国分院一区二区| 成人毛片免费观看| 久996视频精品免费观看| 日韩精品一区二区三区大桥未久| h网站在线播放| 日韩国产黄色网站| 欧美不卡视频在线观看| 欧美黄网在线| 精品一区二区久久久久网站| A级全黄试看30分钟小视频| 欧美啪啪视频免码| 性视频一区| 亚洲综合国产一区二区三区| 欧美精品高清| 亚洲国内精品自在自线官| 国产成人精品亚洲日本对白优播| 日本不卡视频在线| 广东一级毛片| 欧美一级专区免费大片| 国产精品观看视频免费完整版| 国产在线观看一区精品| av在线人妻熟妇| 精品亚洲欧美中文字幕在线看| 日本亚洲最大的色成网站www| 日韩在线网址| 久久毛片免费基地| 精品人妻AV区| 中文字幕在线看| 成人a免费α片在线视频网站| 免费一极毛片| 国产成人综合亚洲欧美在| 国产欧美精品一区二区| 国产精品女同一区三区五区| 国产另类视频| 不卡的在线视频免费观看| 亚洲码在线中文在线观看|