











摘 要: 為了解決人工標注服裝圖像屬性效率低下的問題,提出了一種融合注意力機制與改進ResNet50的服裝圖像屬性預測方法。首先對傳統(tǒng)多標簽分類方法中的模型進行了改進,改進后的方法能更充分利用任務之間的相關(guān)性,并減少數(shù)據(jù)稀缺問題帶來的影響;接著引入CBAM注意力機制,用于捕捉服裝屬性上的細節(jié)特征。結(jié)果表明:在未引入注意力機制的情況下,基于改進ResNet50的方法在多項評價指標上均優(yōu)于傳統(tǒng)多標簽分類方法,準確率提高了25.96%;與ResNet34、EfficientNet_V2、VGG16模型相比,ResNet50模型在服裝圖像屬性預測方面整體表現(xiàn)更佳;引入CBAM注意力機制后,基于改進ResNet50的方法的準確率再提高了1.72%。所提的融合注意力機制與改進ResNet50的服裝圖像屬性預測方法,能夠有效預測服裝圖像屬性,為實現(xiàn)服裝圖像屬性的自動化標注提供了新的思路。
關(guān)鍵詞: 服裝圖像;屬性預測;注意力機制;ResNet50;深度學習
中圖分類號:" TP391.41;TS102.3""" 文獻標志碼:" A""" 文章編號: 1009-265X(2025)01-0058-07
近年來, 隨著在線購物的普及,互聯(lián)網(wǎng)上涌現(xiàn)了大量的服裝圖像。如何從這些海量的服裝圖像中自動提取關(guān)鍵信息成為當前研究的熱點[1]。通過分析和識別這些服裝圖像的相關(guān)屬性,并結(jié)合價格、銷量、用戶評論等信息,可以進一步實現(xiàn)智能推薦和趨勢預測。這不僅可以幫助商家提前把握市場需求,制定更精準的營銷策略和商業(yè)決策,還可為設計師提供了寶貴的創(chuàng)意靈感[2]。然而,對大量服裝圖像進行屬性標注,對在線服裝銷售商而言是一項繁瑣且成本高昂的任務。因此,開展服裝圖像屬性的分類預測研究具有重要的實際意義和應用價值。
服裝圖像屬性預測本質(zhì)上屬于計算機視覺領(lǐng)域的圖像分類問題。在早期的研究中,服裝圖像屬性分類主要依賴人工提取特征[3-4]。然而,這些方法在處理細粒度的服裝圖像時存在局限性,其分類結(jié)果受光照、扭曲等因素的影響較大。隨著人工智能技術(shù)的廣泛應用,尤其是深度學習技術(shù)的快速進步,越來越多研究表明,基于深度學習分類算法能夠顯著提高服裝屬性預測的準確性。孫秀秀[5]和劉和娟[6]對現(xiàn)有的深度學習模型進行改進,采用Sigmoid激活函數(shù)和二元交叉熵損失函數(shù),實現(xiàn)服裝屬性的多標簽分類。然而,這些方法在進行多標簽分類時,未能解決服裝屬性標簽之間的強相關(guān)性問題[7],這限制了預測性能的提升。雷冬冬等[8]在DFA算法基礎(chǔ)上引入了循環(huán)十字交叉注意力和高效通道注意力,從而實現(xiàn)服裝關(guān)鍵點定位及屬性預測算法。然而,由于評價指標中未考慮top-1的分類準確率和召回率,因此預測效果難以確定。Ferreira等[9]基于深度學習模型, 研究了服裝目錄及屬性的多任務分類方法。該方法測試結(jié)果顯示平均準確率為59.41%, 表明其分類精度仍有待提升。Shajini等[10]提出了結(jié)合知識共享和基于深度學習的T-S對模型的方法, 該方法屬于一種半監(jiān)督多任務學習方法,其top-3" 平均準確率可達91.99%,但在屬性預測方面的top-3 平均準確率只有51.89%。綜上所述,服裝圖像屬性預測的研究需進一步深入探討和改進。
為提升服裝圖像屬性預測精度,并解決人工標記服裝圖像屬性效率低的問題,本文提出一種融合注意力機制與改進ResNet50的服裝圖像屬性預測方法。該方法對ResNet50模型的網(wǎng)絡結(jié)構(gòu)進行改進,以適應服裝多屬性預測任務,同時在改進后的ResNet50模型中引入注意力機制,用于捕捉服裝屬性上的細節(jié)特征,以期提高預測精度。
1 研究方法
1.1 實驗數(shù)據(jù)集
DeepFashion數(shù)據(jù)集已被廣泛用于計算機視覺研究,包括目錄與屬性預測、店內(nèi)服裝檢索、消費者到商店的服裝檢索和關(guān)鍵點檢測共4項任務。該數(shù)據(jù)集包含大量時尚圖像及相關(guān)標注信息,可用于模型的訓練、驗證和測試。本文選取了“目錄與屬性預測”任務中的高質(zhì)量圖像和標注數(shù)據(jù),共計2萬張圖像,其中包括14000張訓練數(shù)據(jù),2000張驗證數(shù)據(jù)和4000張測試數(shù)據(jù)。數(shù)據(jù)集中的部分圖像如圖1所示。從圖1中可以看出,圖像來源廣泛,包括專業(yè)拍攝的模特圖像和野外拍攝的生活圖像,這些圖像構(gòu)成了一個跨域圖像集合。
此外, 本文數(shù)據(jù)集包含服裝對應的6個屬性類別,分別是圖案、袖型、款式、領(lǐng)型、布料和松緊度。表1中列出了數(shù)據(jù)集各屬性類別及其相應的取值。
1.2 傳統(tǒng)基于ResNet50的多標簽分類方法
ResNet50是一種深度卷積神經(jīng)網(wǎng)絡,被廣泛應用于各種計算機視覺任務,特別是在圖像分類、目標檢測和語義分割等領(lǐng)域表現(xiàn)出色。ResNet50模型主要由多個殘差塊組成,每個殘差塊內(nèi)部包含多個卷積層。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡不同,ResNet50在每個殘差塊中引入了跳躍連接,即將輸入直接添加到輸出,從而構(gòu)成了殘差學習的結(jié)構(gòu)。這種結(jié)構(gòu)有助于緩解深層網(wǎng)絡訓練過程中的梯度消失和梯度爆炸問題[11],使其適用于訓練更深的網(wǎng)絡。
服裝屬性預測通常被視為多標簽分類任務。為了實現(xiàn)對服裝多個屬性的預測,一種常見的方法是將ResNet50模型最后一層的Softmax激活函數(shù)替換為Sigmoid激活函數(shù)[5-6]。這種替換使得每個屬性的輸出為0到1之間的單個概率值,每個屬性的值都對應一個獨立的概率值。然后,從每組屬性輸出值中選擇最大的概率值作為屬性預測的結(jié)果。例如,對于松緊度屬性,若輸出值為{0.6,0.5,0.4},分別對應緊、松和常規(guī),那么松緊度的預測結(jié)果就是“緊”。具體的網(wǎng)絡結(jié)構(gòu)如圖2所示。
1.3 CBAM注意力機制
CBAM注意力機制是一種用于增強卷積神經(jīng)網(wǎng)絡性能的機制,通過通道和空間注意力模塊來提取和利用重要的特征信息。其結(jié)構(gòu)如圖3所示,其中通道注意力模塊關(guān)注每個通道的重要性,而空間注意力模塊則關(guān)注不同位置的重要性,從而使網(wǎng)絡能夠有選擇地增強或抑制不同通道和位置的特征響應。CBAM模塊可以嵌入到常見的卷積神經(jīng)網(wǎng)絡架構(gòu)中,能夠顯著提升網(wǎng)絡性能[12]。
1.4"" 融合CBAM注意力機制與改進ResNet50 的分類方法
圖像多任務分類是將圖像分類任務視為一個多任務學習問題,同時預測圖像的多個相關(guān)但不同的屬性或類別。其優(yōu)點是可利用任務之間的相關(guān)性來提高模型的泛化能力,同時可以減少數(shù)據(jù)稀缺問題,"從而提高模型的訓練效率[13]。為了解決服裝圖像屬性預測的多標簽多任務分類問題,本文提出了一種融合CBAM注意力機制與改進ResNet50的分類"" 方法。圖4展示了該方法的網(wǎng)絡結(jié)構(gòu)。由圖4可知,該方法共享了特征提取部分網(wǎng)絡和參數(shù),同時各任務擁有獨立的分類層,屬于一種多任務學習方法。具體改進之處主要包括:
a)特征提取部分:在圖2網(wǎng)絡結(jié)構(gòu)的基礎(chǔ)上,在最后一個卷積層后面引入了CBAM注意力機制。
b)輸出部分:在圖2網(wǎng)絡結(jié)構(gòu)中,只有一個單一的全連接輸出,激活函數(shù)采用采用Sigmoid;而本文方法采用多個獨立的全連接層輸出,每個類別標簽對應一個分類部分,激活函數(shù)采用Softmax。
2 實驗和結(jié)果分析
2.1 實驗環(huán)境
后續(xù)實驗的軟硬環(huán)境包括:
a)硬件環(huán)境:CPU為Intel(R) Core(TM) i7-9700 CPU@3.00 GHz 3.00 GHz、內(nèi)存16 GB、固態(tài)硬盤,未使用GPU。
b) 軟件環(huán)境:Python 3.10.1語言、PyTorch 2.0.0 框架、VS Code 1.70.0編輯器。
2.2 評價指標
由于本文方法用于解決多標簽問題,涉及多個屬性的預測,因此評價方法不僅要考慮模型整體性能的評估,還需對每個類別進行評估。為了評估模型整體性能以及每個類別的表現(xiàn),本文采用了準確率、精確度、召回率和F1分數(shù)這4個指標。各指標說明如下:
準確率:表示模型正確分類的樣本數(shù)量與總樣本數(shù)量之比。計算公式為:
VAcc= VTP+VTN VTP+VFN+VFP+VTN" (1)
式中:VTP表示真正為正類別且被模型預測為正類別的樣本數(shù)量,VFP表示實際為負類別但被模型錯誤預測為正類別的樣本數(shù)量,VFN表示實際為正類別但被模型錯誤預測為負類別的樣本數(shù)量,VTN表示實際為負類別且但被模型正確預測為負類別的樣本數(shù)量。
在本文中,每張測試圖像都包含6個屬性類別,而每個類別又是一個樣本,因此,總樣本數(shù)為測試圖像數(shù)量的6倍。
精確度:又被稱為查準率,表示模型預測為正類別且真正為正類別的樣本數(shù)量與所有預測為正類別的樣本數(shù)量之比。計算公式為:
VP= VTP VTP+VFP" (2)
召回率:也被稱為查全率,表示模型預測為正類別且真正為正類別的樣本數(shù)量與所有真正為正類別的樣本數(shù)量之比。計算公式為:
VR= VTP VTP+VFN" (3)
F1分數(shù)(F1-score):綜合考慮模型的準確性和召回率。計算公式為:
VF1-score=(1+β2) (VP×VR) β2×VP+VR" (4)
式中:β的取值為1。
2.3 訓練過程及結(jié)果分析
為了驗證方法的有效性,本文對3種模型分別進行訓練:a) 模型1對應于前文1.2中所使用的傳統(tǒng)多標簽分類方法的模型;b) 模型2對應于前文1.3中本文提出的方法的模型;c) 模型3則是在模型2的基礎(chǔ)上去除了CBAM注意機制的模型。
在模型訓練前,訓練程序設置了如下的訓練參數(shù):學習率為0.0005、批次大小為16、線程數(shù)量為8、總的迭代次數(shù)為50次。此外,還選擇交叉熵損失函數(shù)來計算損失值,并采用Adam優(yōu)化器函數(shù)來優(yōu)化模型的參數(shù)。
訓練過程中,程序交替進行訓練和驗證。在訓練階段,程序循環(huán)處理每個批次,包括梯度清零、前向傳播、損失計算以及反向傳播和參數(shù)優(yōu)化等步驟。而在驗證階段,程序?qū)⒛P驮O置為評估模式,執(zhí)行前向傳播并計算損失。在每完成一個批次后,程序都會檢查準確率是否達到最佳水平。若是,則保存當前模型參數(shù),并將其視為最優(yōu)模型;否則,不做任何操作。
訓練完成后,得到了如圖5所示的各模型對應的準確率及損失率變化情況。由圖5可知,模型2和模型3在訓練過程中的準確率和損失率明顯優(yōu)于模型1,這表明改進后的ResNet50模型訓練效果更好。此外,引入CBAM注意機制后,模型訓練過程中的準確率得到了進一步的提高,而損失率無明顯變化。
2.4 模型測試結(jié)果與分析
為了評估本文方法模型的整體性能,設計了3種測試方案:
方案1:將前文1.2中的傳統(tǒng)基于ResNet50的多標簽分類方法與同樣未引入注意力機制的改進ResNet50方法進行測試,并比較它們的性能。
方案2:在不引入不同注意力機制的情況下,針對本文提出的方法,在不同深度學習模型上繼續(xù)訓練,并評價各模型的屬性預測效果。除了使用ResNet50模型,本文還選擇了ResNet34、EfficientNet_V2[14]、 VGG16[15]這3個模型。
方案3:引入不同的注意力機制方法,對方法進行對比測試。本文選取的注意力機制方法包括CBAM、SE[16]、BAM[17]及ECA[18]4種。
2.4.1 方案1測試結(jié)果與分析
為了驗證改進模型在服裝圖像屬性預測上的有效性,方案1對前文1.2中的傳統(tǒng)多標簽分類方法和前文1.3中的本文方法進行了對比測試。由于 傳統(tǒng)方法未引入注意力機制,因此這里的基于改進的ResNet50的方法也未引入注意力機制,且模型均選擇ResNet50模型。測試的結(jié)果見表2。由表2可知,未引入注意力機制的基于改進的ResNet50模型的方法在準確率、精確度以及召回率等各項指標均優(yōu)于傳統(tǒng)多標簽分類方法,其中準確率提高了25.96%。
2.4.2 方案2測試結(jié)果與分析
除了方案1中使用的ResNet50模型外,方案2還與ResNet34、EfficientNet_V2和VGG16多種深度學習模型進行了對比。需要注意的是,方案2同樣未引入注意力機制,具體的測試結(jié)果見表3。由表3可知,ResNet50模型在準確率、精確度、召回率以及F1分數(shù)指標上均表現(xiàn)更佳。
2.4.3 方案3測試結(jié)果與分析
注意力機制方法眾多,本文選用了幾種常見的注意力機制方法,具體包括CBAM、SE、BAM、ECA方法。通過分別引入不同的注意力機制,完成對本文方法的測試,其結(jié)果見表4。由表4可知,CBAM方法在準確率、精確度、召回率以及F1分數(shù)各項指標上整體表現(xiàn)更佳。與表3中未引入CBAM注意力機制的本文方法相比,引入了CBAM注意力機制的基于改進ResNet50的方法在準確率上提高了1.72%。
2.5 服裝類別測試結(jié)果與分析
采用本文提出方法對服裝圖像的每個類別進行測試,測試結(jié)果見表5。由表5可知,對袖型進行預測的準確率最高,達到了0.854,而布料預測的準確率最低,僅為0.684。需要注意的是,盡管布料和松緊度在精確度上表現(xiàn)較好,分別是0.947和0.934,但召回率只有0.167和0.333。產(chǎn)生精確度高、召回率低的主要原因是屬性類別之間的數(shù)量極度不平衡導致的。例如,松緊度3種屬性值(緊、松、常規(guī))所對應的樣本數(shù)分別為2001、758和11241。這種不平衡導致模型無法有效捕捉到少數(shù)類別樣本的特征。針對上述問題,可采用生成部分合成樣本、類別加權(quán)或者集成學習等方法,以提高布料和松緊度的預測精度。
2.6 方法可視化設計
為了讓用戶可以直觀地了解本文方法在服裝屬性預測方面的表現(xiàn),本文采用flask框架開發(fā)了一套基于Web的服裝屬性預測應用程序。該應用程序能夠接收用戶上傳的服裝圖像,并對測試集中圖像的服裝屬性進行預測。軟件的運行界面如圖6所示。用戶上傳圖像后,點擊“開始預測”按鈕,應用程序會自動調(diào)用前面訓練好的模型進行屬性預測,并將真實結(jié)果和預測結(jié)果展示在界面上。根據(jù)圖6中的預測結(jié)果,用戶可以清楚地看到圖像中服裝的各種屬性,包括圖案、袖型、款式、領(lǐng)型、布料和松緊度。其中,圖6(a)中的6個屬性全部預測正確;圖6(b)中圖案和領(lǐng)型預測錯誤,標記的圖案為花卉,預測為純色,實際上是上身為純色、褲子為花卉,說明數(shù)據(jù)集標定并不十分準確,此外,衣領(lǐng)也預測錯誤,將無領(lǐng)預測成為圓領(lǐng);圖6(c)中領(lǐng)型和布料預測錯誤,褲子標記為白色牛仔褲,但由于這類牛仔褲在樣本集中偏少,導致模型對該類別訓練不足,從而出現(xiàn)識別錯誤。同樣,這里的領(lǐng)型預測也出現(xiàn)了錯誤。
3 結(jié)論
本文提出了一種融合注意力機制與改進ResNet50 的服裝圖像屬性預測方法。該方法首先通過對傳統(tǒng)多標簽分類方法中的模型進行改進,充分利用了任務之間的相關(guān)性來提高模型的泛化能力,同時解決了部分樣本數(shù)據(jù)稀缺問題;其次,引入CBAM注意力機制,增強了模型的表征能力,進而提升了模型的預測性能。主要得出以下結(jié)論:
a)在未引入注意力機制的情況下,基于改進ResNet50的方法在準確率、精確度、召回率以及 F1 分數(shù)等各項指標均優(yōu)于傳統(tǒng)的多標簽分類方法,其中準確率提高了25.96%。
b)在未引入注意力機制的情況下,相較于ResNet34、EfficientNet_V2、VGG16模型,ResNet50模型在準確率、精確度、召回率以及F1分數(shù)各項指標上表現(xiàn)均更佳。
c)與未引入CBAM注意力機制的方法相比,引入CBAM注意力機制的基于改進ResNet50的方法在準確率上提高了1.72%。
d)在對各個屬性類別的預測中,圖案、袖型和款式表現(xiàn)較好,而領(lǐng)型的準確率僅為0.684,表現(xiàn)不佳。此外,布料和松緊度出現(xiàn)了精確度高而召回率低的情況。
綜上所示,融合了注意力機制與改進ResNet50的服裝圖像屬性預測方法能夠有效提升服裝圖像屬性預測精度,為實現(xiàn)服裝圖像屬性的自動化標注提供了新的思路。在未來的研究中,可以構(gòu)建更高質(zhì)量的數(shù)據(jù)集進行訓練,也可以選擇對某些服裝屬性類別進行單獨研究,以提高模型的預測精度。
參考文獻:
[1] 李圓,于淼.基于深度學習圖像處理的服裝推薦研究進展[J].毛紡科技,2023,51(12):119-126.
LI Yuan, YU Miao. Research progress of clothing recommendation based on deep learning image processing[J]. Wool Textile Journal, 2023, 51(12):119-126.
[2] 王靜,王小藝,蘭翠芹, 等.服裝個性化定制中信息技術(shù)的應用與展望[J].絲綢,2024, 61(1):96-108.
WANG Jing, WANG Xiaoyi, LAN Cuiqin, et al.Application and prospect of information technology in personalized clothing customization[J]. Journal of Silk, 2024, 61(1): 96-108.
[3] 劉聰,丁貴廣.基于視覺的服裝屬性分類算法[J].微電子學與計算機,2016,33(1):28-33.
LIU Cong, DING Guiguang.Visual-based clothing attribute classification algorithm[J]. Microelectronics amp; Computer,2016, 33(1):28-33.
[4] CHEN H, GALLAGHER A, GIROD B. Describing Clothing by Semantic Attributes[C]//European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2012: 609-623.
[5] 孫秀秀. 基于深度學習的多標簽服裝圖像分類研究[D]. 北京: 華北電力大學, 2020: 24-26.
SUN Xiuxiu. Research on Multi-Label Clothing Image Classification Based on Deep Learning[D]. Beijing: North China Electric Power University, 2020: 24-26.
[6] 劉和娟. 基于深度學習的姐妹裝圖像檢索技術(shù)研究[D]. 昆明: 云南大學,2019:23-34.
LIU Hejuan. Research on Sister Outfit Image Retrieval Technology Based on Deep Learning[D]. Kunming: Yunnan University,2019:23-34.
[7] 楊小童,陳月明,楊坤.融合多標簽特征在心電異常事件分類上的應用[J].計算機仿真,2022,39(8):508-513.
YANG Xiaotong, CHEN Yueming, YANG Kun. Applica-tion of multi-label features fusion in ECG anomaly classifi-cation[J]. Computer Simulation, 2022, 39(8): 508-513.
[8] 雷冬冬,王俊英,董方敏, 等.基于混合域注意力機制的服裝關(guān)鍵點定位及屬性預測算法[J]. 東華大學學報(自然科學版),2022,48(4):28-35.
LEI Dongdong, WANG Junying, DONG Fangmin,et al. Clothing key points location and attribute prediction algorithm based on mixed domain attention mechanism[J]. Journal of Donghua University(Natural Science),2022,48(4):28-35.
[9] FERREIRA B Q, BAA L, FARIA J, et al. A unified model with structured output for fashion images classifi-cation[EB/OL]. 2018: 1806.09445.http://arxiv.org/abs/1806.09445v1.
[10] SHAJINI M, RAMANAN A. A knowledge-sharing semi-supervised approach for fashion clothes classification and attribute prediction[J]. The Visual Computer, 2022, 38(11): 3551-3561.
[11] 曹涵穎,妥吉英.基于改進YOLOv5和ResNet50的女裝袖型識別方法[J].現(xiàn)代紡織技術(shù),2024,32(1): 45-53.
CAO Hanying, TUO Jiying. A method for identifying" women '" s sleeves based on improved YOLOv5 and ResNet50 [J]. Advanced Textile Technology,2024,32(1): 45-53.
[12] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]//European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[13] 張鈺,劉建偉,左信.多任務學習[J].計算機學報,2020,43(7):1340-1378.
ZHANG Yu, LIU Jianwei, ZUO Xin. Survey of multi-task learning[J]. Chinese Journal of Computers, 2020, 43(7): 1340-1378.
[14] TAN M, LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[C]// 36th Interna-tional Con-ference on Machine Learning (ICML). Los Angeles: Proceedings of Machine Learning Research, 2019:6105-6114.
[15] SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J]. 3rd Inter-national Conference on Learning Representations, ICLR 2015-Conference Track Proceedings, 2015:1-14.
[16] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[17] PARK J, WOO S, LEE J Y, et al. BAM:bottleneck attention module[EB/OL]. (2018-07-18)[2024-04-30]. https://arxiv.org/pdf/1807.06514.
[18] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional" Neural Networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020: 11531-11539.
A clothing image attribute prediction method integrating attention mechanism and improved ResNet50
YOU" Xiaorong1a,2," LI" Shufang1b," SHAO" Hongyan1a,2
(1a.School of Intelligent Manufacturing; 1b. School of Intelligent Textiles and Materials, Changzhou VocationalInstitute of Textile and Garment, Changzhou 213164, China; 2.Jiangsu Research Center of Intelligent Manufacturing Technology for Carbon Fiber and Advanced Material, Changzhou 213164, China)
Abstract:
In recent years, with the popularity of online shopping, a large number of clothing images have emerged on the Internet. How to automatically extract key information from these massive clothing images has become a hot topic in current research. Through analyzing and identifying the relevant attributes of these clothing images and combining them with information such as price, sales volume and user comments, intelligent recommendations and trend predictions can be further achieved. This not only helps merchants grasp market demand in advance and formulate more accurate marketing strategies and business decisions but also provides designers with valuable creative inspiration. However, labeling the attributes of a large number of clothing images is also a tedious and costly task for online clothing sellers. Therefore, researching the classification and prediction of clothing image attributes has important practical significance and application value.
To improve the prediction accuracy of clothing image attributes and to address the inefficiency of manual labeling of clothing image attributes, this paper proposes a clothing image attribute prediction method integrating the attention mechanism and improved ResNet50. This method improves the network structure of the ResNet50 model to adapt to the clothing multi-attribute prediction task and introduces the attention mechanism into the improved ResNet50 model to capture the detailed features of clothing attributes to improve the prediction accuracy. The method not only applies the improved deep learning algorithm to clothing attribute prediction, but also verifies the effectiveness of the method in clothing attribute prediction. It can effectively improve the accuracy of clothing image attribute prediction and identify attribute categories with superior prediction outcomes, providing new ideas for realizing the automatic labeling of clothing image attributes. The experimental results show that in the absence of the attention mechanism, the method based on the improved ResNet50 outperforms the traditional multi-label classification method in terms of accuracy, precision, recall, and F1 score, with the accuracy increasing by 25.96%. On the whole, the ResNet50 model performs better than the ResNet34, EfficientNet_V2, and VGG16 models in terms of accuracy, precision, recall, and F1 score. Compared with the method without the introduction of the CBAM attention mechanism, the ResNet50 method enhanced with CBAM improves the accuracy by 1.72%. In the prediction of each attribute category, the pattern, sleeve type, and style performed well, while the accuracy of the collar type is only 0.684, which is not good. In addition, the fabric and tightness show high accuracy but low recall. In future research, higher quality datasets can be built for training, and certain clothing attribute categories can also be studied separately to improve the prediction accuracy of the model.
Keywords:
clothing images; attribute prediction; attention mechanism; ResNet50; deep learning
基金項目: 常州紡織服裝職業(yè)技術(shù)學院2023年院學術(shù)科研基金項目(應用技術(shù)類)(CFK202316)
作者簡介: 游小榮(1981— ),男,江西臨川人,副教授,碩士,主要從事紡織服裝智能化和人工智能應用方面的研究