王 淳 逯 洋
(吉林師范大學,吉林 四平 136000)
少數民族服飾很大意義上象征了每個民族的文化傳承,也是中國傳統文化中最寶貴的重要財富之一。由于文化發展的不同,形成了風格、習慣不同的民族。在風格各異的少數民族服飾中,人們容易混淆各個民族的類別。根據調查發現,少數民族服飾圖像分類的方法稀少,一方面由于少數民族服飾文化隨著時間的流逝,部分服飾元素消失在歷史長河里,導致無法追溯;另一方面,從計算機的視角對少數民族服飾圖像進行分類需要研究者對計算機領域和少數民族服飾文化領域均有所涉獵。少數民族服飾是民族文化的具象體現。不過隨著社會科技化,大量需要傳承的傳統民族服飾逐漸趨向日常化,喪失了屬于本民族的民族特色元素,如何對少數民族服飾圖像進行保護,值得深入研究。為了處理人工手動對少數民族服飾圖像分類存在的誤差與問題,越來越多的研究者采用圖像處理技術來代替手動分類。
少數民族服飾圖像分類的實質是利用圖像的形象特征來確定服飾所屬的民族與類別,按圖像的任務分類可以細分為民族種類分類(例如侗族、苗族、布依族等)以及民族服飾屬性分類(比如紋樣分類、顏色分類、款式分類等)兩種。分類基本流程如圖1所示,首先對少數民族服飾的圖像采取預處理操作,然后用傳統或深度學習的方法提取處理后的圖像中的圖像特征,可以得到特征向量。最后將獲取到的特征向量準確輸入到對應的分類器中,進行相對細化的分類,由此就可以輸出少數民族服飾的類別。

圖1 少數民族服飾圖像分類基本流程
當前少數民族服飾圖像的分類方式可以分為基于傳統圖像內容的少數民族服飾圖像分類檢索方法和基于深度學習的少數民族服飾圖像的分類檢索方法這兩種。
少數民族服飾圖像分類方法的常用評估標準與服裝圖像分類方法相同,常用的評估標準有準確率(Accuracy)[1]、召回率(Recall)[2]、精準度(Precision)[3]和平均精度均值(mean Average Precision,mAP)[4]等。
基于傳統圖像內容的少數民族服飾圖像分類檢索方法所提取的圖像特征中,包括局部特征和全局特征,有一定的局限性。局部特征是針對圖像中的某個特定區域被提取出來的圖像描述符,如尺度不變特征(Scale Invariant Feature Transform,SIFT)[5]。基于全局特征的方法雖然可以描述整體屬性,但是區分度不大,對部分特征具有局限性,如場景特征。全局特征可以分為紋理特征、顏色特征和形狀特征等。基于傳統圖像的內容,從全局特征和局部特征這兩個方面,描述少數民族服飾圖像的分類檢索。
1.1.1 基于紋理特征的少數民族服飾圖像分類檢索
紋理特征屬于全局特征,用來說明圖像以及圖像區域下所對應物體表面的性質,比如圖像紋理的粗細、稠密等特征。研究圖像紋理特征最早可以追溯到1962年Julesz[6]的工作。常見的紋理特征提取算法有Laws紋理能量測度算法[7]、灰度共生矩陣、局部二值模式(Local Binary Pattern,LBP)[8]等。
賈學明等[9]針對彝族服飾,提出了一種基于圖像紋理與統計概率分析的識別方法,通過對區域特點的不同,實現對圖像的分割,提取出基礎服飾的紋理,利用Laws算法的特性對基礎圖案紋理的能量進行提取,同時用矢量圖統計相應紋理數量,并對向量統計的有效性與相似度進行分析,最后得到紋理差異比,驗證了地域改變,會造成服飾之間的差異性。
紋理特征通過計算少數民族服飾圖像中局部重復出現次數的方式來描述對應圖像,有較不錯的旋轉不變性,不過就算同一個地區或相鄰的地區,其服飾的紋理也不盡相同。
1.1.2 基于顏色特征的少數民族服飾圖像分類檢索
顏色特征提取方法有很多種,包含但不限于顏色相關圖和顏色直方圖等。顏色直方圖在衡量和比較圖像全局差的方面具有優勢。它具有旋轉不變的特性,同時也具有很好的魯棒性,但是傳統的直方圖沒有空間信息因素。Shen等[10]通過對少數民族服裝圖像中定義的幾個子塊的顏色直方圖進行組合,將空間信息融入其中,并采用不同的量化數的RGB、HSV和LAB 3個顏色空間來測試融入后的性能;文獻也運用了融合RGB顏色空間下的顏色直方圖[11-13],以此為特征,從而進行后續的分類操作。
1.1.3 基于形狀特征的少數民族服飾圖像分類檢索
形狀特征描述了物體的形狀,是全局特征的一種,相對穩定并且在魯棒性方面較好[14]。常見的形狀特征可以分為邊界輪廓和內部區域特征兩種。由于目前提出的單一類型的全局特征的算法,都存在一定的局限性,所以越來越多的研究者采用多種全局特征融合的方法進行研究,力求提高準確率。文獻[13]描述形狀邊緣,得到形狀特征直方圖,融合相似性度量公式,進行后續操作,從而實現對圖像的檢索。
全局特征是針對少數民族的服飾圖像特征的整體描述,所以對局部特征信息較為遲鈍。但在一定條件下,提取到一定量的局部特征信息就可以完成少數民族服飾圖像的分類。常用的局部特征描述子有快速魯棒性尺度不變(speeded up robust features,SURF)[15]、尺度不變變換(Scale Invariant Feature Transform,SIFT)、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[16]、梯度位置和方向直方圖(Gradient Location and Orientation Histogram,GLOH)[17]和旋轉不變特征變換(Rotation-Invariant Feature Transform,RIFT)[18]等。
在局部特征描述子中,SIFT描述子具有代表性,并且應用廣泛,該描述子具有較強的區分性,針對一定視角光照的變化、圖像旋轉以及尺度變化具有比較高的魯棒性。SURF描述子采用的主要策略和SIFT描述子都是通過計算主方向本身及旋轉方向來達到旋轉不變性,不過SURF運用積分圖以及海森矩陣行列式特征點檢測的方法提高計算速度。陳金廣等[19]人對比了在噪聲干擾、尺度變化和圖像旋轉等情況下,SIFT和SURF算法在民族服飾圖案特征上所提取的匹配率,驗證了某些情況下SIFT算法正確匹配率比SURF算法高,但相比之下SURF算法有較低的時間復雜度;Huo等[20]針對民族服飾分類任務提出了基于局部和特征相互融合的分類方法,在該方法中融入了SIFT特征,實現了對多個少數民族服飾圖像的分類,并提高了準確率。
HOG特征通過計算梯度方向出現的次數來實現統計,是較為常見的局部特征,基于該特征的分類方法更偏向形狀方向的少數民族服飾圖像分類。Zhang等[21]結合HOG和結構森林算法對少數民族服飾圖像進行特征計算,得到了更強的適應性,并且具有較高的分類精度。
提取單一類型的全局或局部圖像特征進行分類,具有一定的局限性。為了擴大分類檢索任務適用范圍,需要融合多種特征的方法。Zhao等[22]人模糊顏色形成多特征融合,有效地避免了簡單分割算法導致的分割不準確和復雜分割算法造成的計算復雜度高,同時,引入了區域權重因子抑制了復雜背景和干擾區域產生的負面影響,提高了算法的魯棒性;周前前等[23]構建了一種全局-局部特征的提取模型,提出關于新的細粒度民族服飾的圖像檢索提取方法,實現了細粒度檢索。然而,現有的各類方法難以針對少數民族服飾圖像中細粒度屬性特征來進行分類和檢索,需要結合重排序完成細粒度檢索任務。許多工作使用重排序方法提高檢索準確率,Pedronette等[24]引入最短路徑算法,對上下文圖像進行了重定義和重排序,在算法的每一個步驟中根據檢索列表的相似度更新圖像之間的距離,完成圖像重排序;Yu等[25]直接對全局特征以及局部特征進行了融合,根據模糊對象在特征空間中的鄰域對其特征進行細化的相似度計算,得到了重排序的結果,但是沒有考慮到在特征融合過程中,可區分的細粒度特征不能得到很好地表示,導致其檢索準確率較低。
少數民族服飾圖像數據集是評估和衡量少數民族服飾分類性能的重要數據來源,但是關于少數民族服飾圖像的公共數據集較為稀少,大多數的服飾圖像數據集都是來自線上圖像庫以及研究者自建的少數民族服飾圖像數據集。自建少數民族服飾圖像數據集的原始數據來自實地拍攝、博物館信息采集、網絡搜索等多種途徑,收集的圖片格式不夠系統,圖片大小、格式也不統一,因此需要通過對原始圖片進行格式大小、區域分割等一系列操作,才構成了各個自建的少數民族服飾圖像數據集。
上述基于傳統的少數民族的服飾圖像分類檢索方法分別針對不同問題,各類傳統圖像內容的少數民族服飾圖像分類檢索方法的對比分析結果見表1。但是由于少數民族服飾種類不斷增多,傳統的方法進行前的預處理、匹配等過程耗時較長,不能詳盡地描述復雜的分類任務。總的來說,傳統的方法對某些分類任務具有局限性,過于依靠特征選擇,適合分類類別數量少且區分度高的分類任務。

表1 傳統圖像內容分類檢索方法的對比分析
深度學習的快速發展,促進了各個領域的研究,在少數民族服飾圖像分類領域中也出現了一些基于深度學習的少數民族服飾圖像的分類檢索方法。
基于深度學習的少數民族服飾圖像分類檢索方法由神經網絡自動學習獲得。深度學習的方式有3種,分別是有監督學習、半監督學習和無監督學習,同時根據特征深度的不同,分為淺層特征和深層特征。
神經網絡擁有大量的神經元,神經元之間互相連結搭成神經網絡。神經網絡由輸入層、隱藏層和輸出層3層構成。傳統神經網絡的模型如圖2所示。

圖2 傳統神經網絡模型
常用的深度神經網絡模型主要有卷積神經網絡(Convolutional Neural Networks,CNN)[26]、全卷積網絡(Fully Convolutional Network,FCN)[27]、概率神經網絡(Probabilistic Neural Network,PNN)[28]以及徑向基神經網絡(Radial Basis Function,RBF)[29]等。
卷積神經網絡被廣泛應用于圖像處理任務,其中包括但是不限于圖像分割、分類以及圖像檢索等。CNN網絡構成如圖3,主要有輸入層、卷積層、池化層和全連接層4部分,將上述幾層疊加構成完整的CNN。CNN是一種擁有自動提取特征,待訓練參數相對較少等優點的神經網絡。

圖3 卷積神經網絡基本結構
孔謙等[30]采用CNN算法和Faster R-CNN算法[31]對瑤族紋樣符號進行分類,分別用這兩種算法訓練好的模型對相應測試集中的圖像進行檢測,證明了Faster R-CNN算法比CNN算法更有較好的分類檢測能力;趙海英等[32]利用CNN卷積神經網絡中間層學習服飾本體信息,較高層學習隱義信息,通過兩者的依賴關系設計出融合“本體-隱義”的多標簽圖像分類模型,分類圖像的深層隱義信息;Sun等[33]通過R-CNN神經網絡提取特征,使用目標檢測方法對民族服飾圖像進行人體和屬性檢測,最后完成識別;趙海燕[34]介紹了深度卷積神經網絡,并利用現有的數據庫和網絡框架,用3種不同的網絡結構模型訓練優化圖像樣本,通過對比發現CaffeNet網絡模型的識別效果最好。
沒有全連接層的CNN,就是全卷積網絡,全卷積網絡可以輸入不同大小的圖像。張茜等[35]提出的服裝圖像檢索方法利用視覺風格分析概率模型標簽優化,加入側分支網絡,利用標注標簽進行語義分割,計算相似度實現檢索。
RBF是一種包括輸入層、隱藏層、輸出層在內的3層神經網絡(圖4),訓練簡潔,具有較簡單的結構。

圖4 RBF神經網絡結構
PNN基于統計原理,是徑向基網絡的一種,學習過程簡單且訓練速度快,在模式分類方面較優秀。PNN一般由輸入層、模式層、求和層和輸出層4層組成(圖5)。PNN具有較好的容錯性。

圖5 PNN神經網絡結構
徐紅梅[36]結合PNN神經網絡和RBF神經網絡,提出一種以民族服飾視覺特征為主的識別方法,對互助土族的女性衣袖“秀蘇”和土族盤繡繡片實現自動識別。其中,“秀蘇”的識別準確率達到98%,而盤繡繡片準確率為75%。
除了基于神經網絡的方法外,還有其他的少數民族服飾圖像的分類檢索方法。
多任務學習就是把多個相關聯的任務放在一起學習,目的是為了使多個任務之間產生相互影響。吳圣美等[37]結合人體檢測和多任務學習,提出新的少數民族服裝識別方法,并以云南少數民族服裝為例,提取出5種底層特征包括顏色直方圖、HOG以及LBP算子等,用多任務分類器模型來實現少數民族服裝圖像的識別。
主成分分析(Principal Component Analysis,PCA)[38]常用于數據降維,用于提取數據的特征分量。姜興瓊[39]利用PCA方法提取少數民族服飾圖像上的主成分特征,提取閾值分割下所得到的PCA特征。
以上介紹了幾種基于深度學習的少數民族服飾圖像的分類檢索方法,相比于傳統圖像內容方法,精準度有了顯著的提高,且分類任務更偏向于日常實際應用的場景。各類基于深度學習的少數民族服飾圖像分類對比與分析見表2。

表2 深度學習分類方法的對比與分析
就目前的研究情況來看,少數民族服飾圖像分類檢索任務以民族種類和民族服飾屬性為主。不同文獻的分類、識別任務類別數目不同難度也不同。一般來說類別數量越多,分類、識別難度越大。不管是基于傳統圖像內容的少數民族服飾圖像分類檢索方法還是基于深度學習的少數民族服飾圖像分類檢索方法都取得了一定進展,但是目前還尚未成熟,還需要克服一定的問題。其中可以加強研究的問題有:
(1)添加新類別困難。由于少數民族服飾存在遺失,所以大部分的少數民族服飾分類不全面。一旦添加新種類的少數民族服飾,就需要輸入全部的少數民族服飾圖像數據進行模型的重新訓練。隨著少數民族服飾不斷被恢復,圖像種類不斷被增加,同時圖像數目達到一定的數量,訓練變得困難。
(2)如何進行特征選取。圖像特征是少數民族的服飾圖像分類檢索的基礎,使用不同的圖像特征會直接影響到少數民族服飾的分類任務準確率。基于傳統圖像的內容容易依賴于圖像特征,對研究者定義的圖像特征要求較高,但是對數據數量要求較低。而深度學習的方法中,在進行一系列卷積池化的操作后,使用最后一個全連接層時,容易丟失部分少數民族服飾圖像的細節信息,導致分類結果出現偏差。
(3)數據集稀缺。數據集是訓練模型時的必需品。但是現有的少數民族服飾圖像不足以支撐完整的龐大的數據集,數量上還是有欠缺,只能在線上或博物館才能收集到少數民族的服飾圖像,收集到的圖像還需要進行一系列的預處理才能使用。而且,每個研究者對少數民族服飾的分類理解不同,就目前來說,還沒有較為標準的數據集。
(4)相關參考文獻稀少。少數民族服飾的研究,大多屬于文科或藝術類學科,大部分都是少數民族文化研究或少數民族服飾圖樣款式研究,與計算機結合的方法沒有那么多,因此相關參考文獻較為稀少,還有大量發展的空間。