孫 潔, 丁笑君, 杜 磊, 李秦曼, 鄒奉元
(1. 浙江理工大學(xué) 服裝學(xué)院, 浙江 杭州 310018; 2. 浙江傳媒學(xué)院 設(shè)計藝術(shù)學(xué)院, 浙江 杭州 310018; 3. 浙江省服裝工程技術(shù)研究中心, 浙江 杭州 310018; 4. 絲綢文化傳承與產(chǎn)品設(shè)計數(shù)字化技術(shù)文化和旅游部重點實驗室, 浙江 杭州 310018)
織物是服裝的三大物態(tài)構(gòu)成要素之一,織物圖像的分類、識別與檢索技術(shù)在紡織服裝行業(yè)數(shù)字化設(shè)計與智能制造領(lǐng)域發(fā)揮著重要作用[1-2]。隨著織物圖像數(shù)量的迅速增加,如何合理地組織、表達織物圖像信息,使用戶能夠快速、準(zhǔn)確地從海量圖像數(shù)據(jù)集中找到目標(biāo)圖像是一個亟待解決的問題[3]。
基于內(nèi)容的圖像檢索(CBIR)通過圖像像素相似性匹配實現(xiàn)檢索。在CBIR系統(tǒng)中,圖像淺層視覺特征經(jīng)參數(shù)化處理轉(zhuǎn)化為特征向量,從而實現(xiàn)計算機對圖像信息的讀取。目前,已有多種圖像淺層視覺特征提取方法被用于圖像檢索,如顏色、形狀及紋理特征[4]、空間包絡(luò)特征(GIST)[5-6]等基于圖像全局特征的提取方法,詞袋模型(BoW)[7]、尺度不變特征變換(SIFT)[5]等基于圖像局部特征的提取方法。特征提取后需通過歐氏距離或余弦相似度函數(shù)[6,8]等非柔性距離函數(shù)進行圖像相似度搜索,而固定的剛性相似函數(shù)或距離函數(shù),并不是最適合的復(fù)雜視覺圖像檢索任務(wù)的距離計算方法。
從計算機提取的淺層視覺特征到大腦中形成的高級人類感知是一個復(fù)雜的映射關(guān)系,即由淺層視覺特征到高層感知判斷的過程存在“語義鴻溝”。深度學(xué)習(xí)被認(rèn)為是當(dāng)下克服“語義鴻溝”的重要途徑。該方法通過多個層次的數(shù)據(jù)抽取進行特征學(xué)習(xí),并允許系統(tǒng)學(xué)習(xí)復(fù)雜的函數(shù)[1,3,9],進而實現(xiàn)語義概念的抽象表達[10]。近年來,學(xué)者們提出了大量的深度學(xué)習(xí)技術(shù)。其中,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計算機視覺和圖像識別的各種任務(wù)和競爭中都表現(xiàn)出了較優(yōu)的性能[11]。在CNN分類識別任務(wù)基礎(chǔ)上實現(xiàn)基于語義的圖像檢索(SBIR)已成為圖像檢索的發(fā)展趨勢。
織物圖像檢索的關(guān)鍵是設(shè)計適合的、高效的圖像特征提取方法,并能夠在此基礎(chǔ)上構(gòu)建具有適用性的分類與識別模型[11-12]。針對上述問題,本文分別從織物圖像淺層視覺特征提取、深度特征學(xué)習(xí) 2個方面梳理并討論其在織物圖像檢索中的適用性,并從高層語義屬性、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計與距離尺度學(xué)習(xí)3個方面論述了檢索模型的優(yōu)化路徑,最后基于現(xiàn)狀展望了該領(lǐng)域未來的研究重點。
圖像淺層視覺特征主要關(guān)注圖像的顏色、紋理、形態(tài)等視覺特征以及GIST、SIFT等手工提取特征。
1.1.1 顏色特征
顏色特征是織物圖像識別過程中最直觀的視覺特征。顏色特征提取主要有顏色矩(CM)[6]、顏色直方圖(CH)[2,13-14]及顏色相關(guān)圖[15]等方法。顏色直方圖可用于描述不同色彩在整幅圖像中所占的比例,但并不能捕捉到顏色區(qū)域的空間關(guān)系[6]。顏色相關(guān)圖和顏色矩是基于圖像顏色全局分布的顏色索引方法,具有特征向量維數(shù)低、計算次數(shù)少等優(yōu)點[6],但對圖像的尺寸與空間信息不敏感。故顏色特征在圖像分類、識別與檢索中一般不單獨使用,需要與其他特征結(jié)合使用。
1.1.2 紋理特征
紋理特征旨在捕獲圖像中的表面細(xì)粒度和重復(fù)模式,描述圖像中對象的表面性質(zhì),對區(qū)域內(nèi)部灰度變化進行量化[16]。
在織物特征的表達中,紋理特征對織物表面肌理[14,17]、重復(fù)周期[17-18]、疵點[19]等具有較好的表征效果。Jing等[17]采用灰度均值、灰度方差和灰度共生矩陣等紋理特征分析色織物的意匠圖和重復(fù)特征,識別色織物的組織模式。Yildiz[19]采用局部二值(LBP)特征表征起絨織物表面疵點特性,實現(xiàn)織物疵點檢測。但以上2個單獨使用紋理特征進行織物特征表征的案例中,樣本均為純色織物圖像,對于色差大、復(fù)雜程度高的織物圖案,還需融合其他特征使用。
1.1.3 形狀特征
形狀特征提取通常需在圖像分割與輪廓提取后進行。形狀特征提取方法可分為2類:基于邊界和基于區(qū)域[6,20]。傅里葉描述符[21]和不變矩[2,22-23]是形狀特征的2種常用表示。傅里葉描述符使用傅里葉變換邊界進行形狀描述。不變矩的主要目的是利用變換不變的區(qū)域內(nèi)像素點的矩進行形狀描述。形狀特征在多色織物圖案元素的識別問題中具有重要作用,在檢索運用中,形狀特征也需要與其他特征融合使用[22-23]。
如上所述,顏色、紋理和形狀特征是圖像的淺層視覺特征,每一類特征在單獨使用時均存在缺陷。結(jié)合2個及以上的特征,可達到更好的檢索效果[6,22]:Kuo等[2]采用顏色直方圖和重復(fù)單元圖像的Hu不變矩構(gòu)建波點印花織物的檢索數(shù)據(jù)庫;向忠等[24]提出了一種基于邊緣特征和顏色特征的織物花型檢索算法,具有平移、縮放、旋轉(zhuǎn)不變性,平均查準(zhǔn)率可達93.17%。
以上研究僅對織物的淺層視覺特征進行相似匹配計算,并未就織物高層屬性進行識別。有學(xué)者嘗試采用淺層視覺特征構(gòu)建分類模型,探索織物高層語義識別問題。
Suciati等[14]提出一種基于分形紋理特征與HSV顏色特征的織物圖像檢索系統(tǒng),對“batik”和非“batik”2種織物表面肌理進行識別,檢索召回率分別為94%和92%。Chen等[13]提取了織物顏色、紋理等特征,使用支持向量回歸(SVR)來構(gòu)建特征與情感語義標(biāo)簽之間的映射函數(shù),分別對8、16個屬性進行識別,平均檢索召回率高于80%。Jing等[6]提出了基于顏色矩和GIST特征的織物紋樣檢索算法,對5類織物紋樣進行檢索,平均檢索精度達86.3%,平均召回率達53.3%。Umam等[22]采用三維特征提取方法(CVQ)提取顏色特征以及Hu不變矩識別Madurese蠟染織物的26類設(shè)計母題,結(jié)果顯示基于顏色特征的平均檢索精度僅為46.72%,基于形狀特征的平均檢索精度為80%??梢钥吹?,隨著語義識別屬性的增多,檢索效率明顯下降。
以上涉及的織物淺層視覺特征提取文獻比較如表1所示。可見,手工特征提取方法在小樣本數(shù)據(jù)集中具有一定的適用性,但由于該方法依賴人工標(biāo)注,未在大樣本圖像檢索中得到普及。此外,淺層視覺特征在高層語義識別問題中表現(xiàn)并不理想,特別是當(dāng)語義屬性數(shù)量增加時,檢索效果明顯不佳。

表1 織物淺層視覺特征提取文獻比較Tab.1 Comparison of literatures on extraction of superficial features of fabrics
圖像深度特征學(xué)習(xí)旨在將研究對象的語義信息表示為稠密低維實值向量,在低維空間中計算語義聯(lián)系。深度卷積神經(jīng)網(wǎng)絡(luò)在圖像特征學(xué)習(xí)方面已經(jīng)被證明優(yōu)于傳統(tǒng)手工提取特征[25]。
卷積神經(jīng)網(wǎng)絡(luò)模型是一種典型的監(jiān)督學(xué)習(xí)模型,是LeCun于1989年在梯度反向傳播算法(BP)的基礎(chǔ)上提出的一種包含卷積層的深度神經(jīng)網(wǎng)絡(luò)[26],即LeNet-5 CNN模型,如圖1所示。該模型由2部分組成:一是卷積層和池化層;二是全連接層和隱含層。

圖1 LeNet-5 CNN模型結(jié)構(gòu)Fig.1 LeNet-5 CNN model structure
在服裝及織物圖像的分類、識別與檢索問題中常采用在LeNet-5模型基礎(chǔ)上改進的AlexNet和VGGnet模型。其中AlexNet克服了LeNet-5模型的過擬合問題,采用11×11的巨大卷積核進行降維處理,但快速縮小也意味著可能丟失更多的細(xì)節(jié)特征[27];VGGnet在卷積層的結(jié)構(gòu)中采用多個3×3的卷積核代替大卷積核,并在多個卷積層后加入池化層,以保證網(wǎng)絡(luò)深度[28]。
通過CNN圖像特征學(xué)習(xí),實現(xiàn)圖像識別與檢索的基本思路如圖2所示。通過CNN分類過程將圖像分配到不同的預(yù)設(shè)語義標(biāo)簽上,從而構(gòu)建圖像與語義信息的映射關(guān)系。這一過程通常提取圖像的全局特征,當(dāng)圖像中包含多個感興趣對象/區(qū)域時,首先需要利用圖像淺層視覺特征進行區(qū)域分割,實現(xiàn)目標(biāo)檢測;然后,通過CNN提取特征,經(jīng)支持向量機(SVM)等分類器,完成由圖像輸入到語義輸出的識別過程。

圖2 基于CNN的織物圖像語義識別框架Fig.2 Framework of fabric SBIR based on CNN
CNN網(wǎng)絡(luò)特征提取過程中,卷積窗口在圖像上滑動,將窗口內(nèi)的元素進行卷積操作。遍歷過程中產(chǎn)生的所有的輸出按位置組成了特征圖,而每一層需要設(shè)計多少特征圖取決于需要學(xué)習(xí)多少種特征。特征圖數(shù)量設(shè)計的好壞直接影響著最終的網(wǎng)絡(luò)性能。如何科學(xué)計算特征圖數(shù)目,目前還沒有形成詳細(xì)的理論指導(dǎo),大都依賴實驗和經(jīng)驗決定。
CNN分類過程中,不同圖像數(shù)據(jù)集具有的圖像標(biāo)簽數(shù)是不同的,而網(wǎng)絡(luò)最后一層全連接層的輸出個數(shù)需要與圖像標(biāo)簽的數(shù)目一致。故在網(wǎng)絡(luò)結(jié)構(gòu)中,若全連接層的輸出個數(shù)能夠根據(jù)數(shù)據(jù)集的標(biāo)簽數(shù)變化,將有效提升模型的適用范圍。為此,Wan等[29]嘗試在AlexNet結(jié)構(gòu)上,將第2層全連接層的輸出個數(shù)設(shè)置為可變,使得第1層全連接層的輸出個數(shù)到第3層全連接層的輸出個數(shù)的改變可以相對平滑,最后一層全連接層能平滑擬合不同的標(biāo)簽數(shù)量。
研究表明經(jīng)過預(yù)處理的大規(guī)模數(shù)據(jù)集可直接用于SBIR任務(wù)特征提取[29]。可從3個方面提升織物檢索模型的精度:一是語義分類標(biāo)簽的合理設(shè)計;二是CNN的結(jié)構(gòu)優(yōu)化;三是距離尺度學(xué)習(xí)。
CNN作為一種有監(jiān)督的機器學(xué)習(xí)模型,需要預(yù)先進行語義分類標(biāo)簽設(shè)定。標(biāo)簽的設(shè)計一方面需要全面反映織物的固有屬性,另一方面需適應(yīng)機器學(xué)習(xí)。人工標(biāo)注方法是目前常用的圖像標(biāo)注方法[30],主要通過專家知識[13,22,30]或用戶使用頻數(shù)排序[1]來確定標(biāo)簽。但人工標(biāo)注對大樣本數(shù)據(jù)集并不適用,特別是當(dāng)一張圖片同時觸發(fā)多個屬性時,人工標(biāo)注費時費力且難以詳盡。
此外,以上標(biāo)簽詞均是封閉詞匯,雖然便于建模假設(shè),但對織物多樣化多層次的屬性表達具有極大的限制。針對這一問題,有學(xué)者將本體構(gòu)造引入織物圖像檢索[31]。基于本體的圖像檢索技術(shù)可表達較為復(fù)雜的語義關(guān)系,并且具備語義模糊匹配能力。Kuang等[32]集成深度CNN構(gòu)建了基于本體的服裝屬性語義識別模型,論證了該模型在細(xì)粒度的服裝(含織物)語義識別中具有更優(yōu)的表現(xiàn)。
諸多學(xué)者探索了如何優(yōu)化CNN結(jié)構(gòu),使其更適合織物圖像檢索。汪珊娜等[30]在AlexNet模型基礎(chǔ)上構(gòu)建并行的CNN網(wǎng)絡(luò)后,經(jīng)Softmax分類器輸出織物圖像的情感類別。并與LeNet-5模型、AlexNet模型、VGG-16模型進行對比發(fā)現(xiàn),并行模型對小樣本數(shù)據(jù)有更好的分類識別效率。
針對大樣本數(shù)據(jù)集,F(xiàn)ashionNet模型實現(xiàn)了服裝中織物的語義屬性識別,采用VGG-16目標(biāo)識別框架,通過位置標(biāo)定處理織物在服裝中的形變和位置變化,由學(xué)習(xí)到的特征集合誘導(dǎo)出帶有位置信息的織物識別檢索,實現(xiàn)end-to-end的特征學(xué)習(xí)與語義自動標(biāo)注[1]。
為進一步提升網(wǎng)絡(luò)識別效率,學(xué)者們嘗試在CNN模型中嵌入尺度學(xué)習(xí)算法[33-34],通過共同學(xué)習(xí)圖像表示和語義識別的度量,弱化類內(nèi)變化,增強類間變化,提升模型的魯棒性。
針對如何在現(xiàn)有的CNN模型中嵌入距離尺度學(xué)習(xí)以提升檢索精度問題,Deng等[3]提出一種聚焦于排序的嵌入算法(FRE),并與現(xiàn)有的Pair、Magnet和Triplet的3種嵌入算法進行對比,F(xiàn)RE方法的檢索召回率達93.5%,優(yōu)于其他3種距離尺度學(xué)習(xí)嵌入模型,在細(xì)粒度織物圖像分類識別問題上呈現(xiàn)出較大的優(yōu)勢。該方法基于AlexNet模型實現(xiàn),將AlexNet的前7層作為網(wǎng)絡(luò)架構(gòu)的早期層,再添加輔助層來計算損失函數(shù),損失函數(shù)為
式中:f(x)為原始圖像至特征向量的變換;D(x,x)為2個特征向量之間的距離;σ(x)為邏輯函數(shù),σ(x)=log2(1+2-x)。f(x)與某一對象x具有相同標(biāo)簽的圖像為正,用x+表示,反之用x-表示。
可見,CNN對于捕捉圖像高層語義信息對應(yīng)的淺層像素信息具有較好的效果。針對不同類型的檢索任務(wù),CNN模型需通過適當(dāng)?shù)募?xì)化方案,在特征表示學(xué)習(xí)過程中能獲得優(yōu)于手工特征的效果。同時,通過相似性學(xué)習(xí)可進一步提高深度模型的分類識別能力,在細(xì)粒度的圖像分類問題上具有明顯優(yōu)勢。
目前國內(nèi)外學(xué)者在織物圖像特征提取與檢索領(lǐng)域的研究已取得一些成果。為更好地優(yōu)化織物圖像檢索的準(zhǔn)確度,實現(xiàn)細(xì)粒度的語義識別效果,未來面料檢索系統(tǒng)的構(gòu)建應(yīng)具有以下特點。
1) 語義標(biāo)簽合理化設(shè)計。合理的語義標(biāo)簽既要充分反映織物固有的屬性以及屬性間的關(guān)系,也需適用于機器學(xué)習(xí)過程。簡單而有效的語義模型構(gòu)造將是未來織物語義識別研究的重要內(nèi)容??椢镎Z義本體的構(gòu)建,有助于設(shè)計知識的表示和管理,有效提升織物圖像數(shù)字化設(shè)計中對設(shè)計信息表述的支持能力,增強建模的自動化水平。
2) 精準(zhǔn)的圖像自動分割與分類識別。在圖像檢索過程中,準(zhǔn)確的對象分割與識別是實現(xiàn)語義檢索的前提與關(guān)鍵。精準(zhǔn)的對象識別以及對顯著性區(qū)域的排序,是實現(xiàn)對多個區(qū)域或?qū)ο笮枨箜憫?yīng)的重要環(huán)節(jié),在此基礎(chǔ)上可實現(xiàn)設(shè)計規(guī)律與要素信息的挖掘。
3) 多模態(tài)融合、交互式語義識別。數(shù)據(jù)信息本質(zhì)上是多模態(tài)的,多模態(tài)的語義模型構(gòu)造可更有效反映數(shù)據(jù)信息的內(nèi)在本質(zhì)關(guān)聯(lián),通過模態(tài)的信息對齊更有效地獲取目標(biāo)圖像集合。此外,允許用戶使用擴展的關(guān)鍵字來描述檢索圖像的屬性,構(gòu)建交互式檢索系統(tǒng),可提高圖像檢索的適用性,提升信息共享效率。