王 琴, 黃成泉, 萬林江, 張博源, 周麗華
(貴州民族大學 a.數據科學與信息工程學院; b.工程技術人才實踐訓練中心,貴陽 550025)
少數民族服飾是各民族在漫長的歷史進程中形成的具有特色、異彩紛呈的民族文化,是中國的寶貴文化資源,因此其樣式、圖案、技藝、材質都應當被詳細記錄和研究分析。中國少數民族種類繁多,民族服飾數不勝數,如何高效、精確地分割少數民族服飾圖案,對少數民族文化的保護具有重要意義。現已有學者對少數民族服飾圖像進行研究,但大部分是基于模糊C均值聚類算法[1]和主動輪廓模型[2],基于深度學習算法進行少數民族服飾圖像分割的幾乎沒有。
在多樣的民族服飾中,苗族服飾被譽為“最美的少數民族服飾”之一,其具有華麗的繡花和恢弘大氣的銀飾,是民族服飾里綺麗多姿、時代久遠的民族服飾。目前各民族博物館、學校圖書館等大多都只是局限于對苗族服飾圖像的實物保存,而忽略了對服飾圖像的數字化保護。在互聯網、大數據飛速發展的背景下,本文提出融合注意力機制的深度學習算法對苗族服飾圖像進行研究,不僅方便研究者們對民族服飾圖像進行存儲與檢索,還有利于民族服飾圖像的數字化保護及民族文化的傳承。
圖像分割是人工智能和模式識別領域的一個重要分支,分割質量決定特征提取、圖像檢索和圖像分類的準確性。采用基于深度學習的網絡模型進行圖像分割,一個較大的挑戰是充分訓練網絡,以對難以學習像素產生良好判斷,正確預測對分割結果有很大影響[3]。近年來,由于注意力機制的出現,在各種神經網絡中引入注意力機制已成為一種改善模型性能的有效方法,如Gunesli等[3]提出一種新的基于自適應增強的多注意學習模型(AttentionBoost),解決難以學習像素點問題;全卷積注意網絡(FCANet)[4]通過嵌入兩種類型的注意模塊來聚合遠程和短程的上下文信息,以高效準確地解決生物醫學圖像分割任務。然而,在服飾分割領域中,側重于采用深度神經網絡對時尚服飾圖像進行分割[5]。Khurana等[6]提出了一種用于時尚圖像分割的兩階段深度神經網絡模型,該模型第一階段使用全卷積網絡架構來給出準確的服飾分割,第二階段采用Gabor提取特征圖的紋理作為輸入,并確定服裝類型。金字塔網絡(EPYNET)[7]是以EfficientNet模型作為骨干網絡的一個服飾分割框架,該框架集成了數據增強方法和降噪技術,以提高分割的準確性。但少數民族服飾與時尚服飾相比,具有以下特點:1)服飾圖案色彩差異大;2)圖案種類繁多;3)圖案紋理復雜多樣。從而導致采用已有的圖像分割方法進行少數民族服飾分割存在特征空間信息丟失,圖像分割效率與精度較低的問題。
針對上述問題,本文提出一種基于注意力機制的苗族服飾圖案分割模型。首先,使用Keras庫自帶的數據增強技術對數據集大小進行擴充,再采用本文所構建的網絡架構對苗族服飾圖像進行特征提取,實現圖像的精確分割。因此,從深度學習和計算機視覺的角度來分析少數民族服飾的視覺特征,在一定基礎上起到發展與保護少數民族服飾文化的作用,并為少數民族服飾圖像分割算法研究提供一定的參考。
Long等[8]提出了一種用于語義圖像分割的深度學習方法FCN。基于FCN的苗族服飾圖案分割方法,其本質是一個像素級別的辨識問題。基本原理如下:首先將苗族服飾圖像輸入到FCN進行前向傳播,輸出與原圖尺寸相同的概率圖,再將其與真值圖像進行對比,分別對每一個像素進行損失值計算,并進行反向傳播,從而網絡更新權重,截止網絡模型學習到最優權重參數[9]。訓練好的模型能夠對圖像上的前景與背景像素進行區分,并涂上不同的顏色,即可得到精確的苗族服飾圖案分割圖。
FCN模型核心思想是使用卷積層來代替卷積神經網絡模型中的全連接層,接著使用反卷積操作在最后輸出的特征圖上進行上采樣,并引入跳躍連接改善上采樣粗糙的像素定位,從而使得全卷積網絡可預測圖像中每個像素點的類別。該模型是一種端到端訓練的圖像分割方法,可以接收任意尺寸的輸入圖像。其網絡結構總的包括9個網絡層,每層都采用了2個3×3卷積進行特征通道數加倍和Dropout層防止模型過擬合,前4層采用了2×2最大池化操作使圖片像素減半,后4層采用步長為2的2×2上采樣將圖片像素加倍。最后,通過一次1×1卷積操作生成分割圖。該網絡模型只在1×1卷積操作中使用了Sigmoid激活函數,其余均使用ReLU激活函數,FCN模型結構如圖1所示。

圖1 FCN模型結構示意
在基于深度學習的圖像分割方法中,為了實現對復雜圖像前景與背景的精確區分,多種注意力機制被相繼提出,如Hu等[10]使用通道注意力機制的方式來獲取圖像的全局上下文信息,以構建各類別之間的依賴關系;Woo等[11]提出一種輕量級的注意力模塊(CBAM)(圖2),通過從特征中學習或提取出權重分布改變原有特征的分布,來增強有效特征抑制無效特征或噪音;Gu等[12]提出一個聯合空間注意模塊使網絡更加關注前景區域,并提出一個新的通道注意模塊以自適應地重新校準通道的特征響應。在深度學習中,注意力機制能夠迅速發展的主要原因有:1)在解決多任務問題中,注意力機制是最先進的模型;2)能使模型將感興趣的特征從局部水平關聯到全局水平;3)能有效提高深度學習算法的效率。

圖2 CBAM注意力模塊
本文為了使網絡模型能夠精確分割苗族服飾圖像,將CBAM模塊嵌入到FCN模型中,不僅能夠減少模型訓練參數,還能提高模型分割性能。CBAM包括2個子模塊,即通道注意力模塊(Channel attention module,CAM)和空間注意力模塊(Spatial attention module,SAM),分別如圖3、圖4所示。CAM的具體步驟如下:首先對輸入的特征圖E做全局平均池化和全局最大池化操作,再輸入到共享的神經網絡(MLP)中,最后通過激活函數Sigmoid對特征進行非線性轉換,以及將輸入的特征圖E與通道特征做乘法操作,最終生成SAM需要的輸入特征圖F。

圖3 通道注意力模塊

圖4 空間注意力模塊
在SAM中,對輸入的特征圖F進行全局平均池化和全局最大池化操作,得到兩個H×W×1的特征圖,再將這2個特征圖做concat操作,然后經過一個7×7卷積操作和Sigmoid函數生成空間特征。最后將該特征與輸入特征做乘法,得到最終生成的特征M。
本文模型以FCN作為骨干結構,具體結構如圖5所示。模型設計主要是在FCN的基礎上融入注意力模塊(CBAM),使模型能夠更好地將感興趣的特征從局部水平關聯到全局水平,以提高模型的分割性能。模型前4個網絡層中的每一個層都采用3×3卷積層、Batch Normalization(BN)層、CBAM層、Add層和2×2池化層。其中卷積層用于提取圖像特征,并且通道數加倍,不同大小的卷積核可以獲得圖像的不同特征;BN層主要對訓練圖像進行歸一化處理,防止模型過擬合;CBAM層的主要目的是使模型在學習網絡權值的同時更加關注前景像素;Add層增加圖像特征下的信息量;池化層對圖像進行下采樣操作將圖像尺寸縮小2倍,保留主要特征的同時減少參數量,提高模型泛化能力。第5層與前4層相比沒有最大池化層。后4層是先進行上采樣操作逐步恢復圖像大小,接著將前4個網絡層中的Add層與相應的特征層使用concat操作進行跳躍連接,使模型提取更多豐富的特征信息,然后進行卷積和BN操作,使通道數減半,所有卷積層均采用的ReLU激活函數。最后,采用1×1的卷積層將通道數減少為1,該層采用Sigmoid函數。
由圖5可知,本文所建立的網絡模型總的有9個網絡層,僅在前5個網絡層中每個網絡層的第3層融入了CBAM注意力模塊,第4層使用Add進行前3層圖像特征下信息量的增加,以有利于在后4個網絡層進行concat操作時服飾圖像特征的提取。

圖5 基于注意力機制的苗族服飾圖案分割模型
本文模型是在Ubuntu 14.04、Python 3.5中基于TensorFlow 2.3.1、Keras 2.4.1深度學習框架下實現的,CUDA 10.1,GPU版本是GeForce GTX 1080 Ti。所有訓練階段都是在一臺Linux服務器上進行的,該服務器擁有CPU(4.20 GHz)、運行內存8 G。基于對驗證圖像的損失計算,采用早期停止方法從頭開始訓練。模型訓練的Epochs設為100,批大小為1,并使用學習率為0.000 1的Adam優化器及交叉熵損失函數來訓練網絡。交叉熵損失函數計算如下式所示:
(1)

本文是在苗族服飾圖案數據集上驗證模型分割性能,實驗數據來源于北京服裝學院民族服飾博物館(http://www.biftmuseum.com)及書籍《一針一線:貴州苗族服飾手工藝》[13]和《苗族服飾研究》[14]。該博物館是中國第一家服飾類專業博物館,其設有服飾、首飾、蠟染廳等七個展廳,收藏有中國各民族的服裝、刺繡、飾品等一萬余件。實驗數據集的數據分布如下:北京服裝學院民族服飾博物館474張、《一針一線:貴州苗族服飾手工藝》48張、《苗族服飾研究》37張。數據標簽來源于文獻[2],數據集包含蠟染、刺繡等總的559張圖像,其中訓練圖像402張,驗證圖像45張,測試圖像112張。為了使網絡進行更好地訓練,提高模型分割性能,本文將圖像尺寸大小統一處理為(512,512,3)。
在深度學習中,當只有少量樣本數據可用時,數據增強對模型的泛化能力和魯棒性至關重要。采用Keras庫中自帶的ImageDataGenerator對數據進行旋轉、剪裁、移動等處理擴充數據集大小,讓模型更加關注難以分割像素部分,提高模型的泛化能力,同時避免出現過擬合現象,其參數設置如表1所示。數據擴充后的圖像如圖6所示。

表1 參數設置

圖6 數據增強示意
使用單一的評價指標并不能準確地驗證模型的性能,因此,為了多角度定量分析本文模型的分割性能,將采用準確度(Acc)、交并比(IoU)、Dice系數、敏感度(Sensitivity)及精確度(Precision)5個指標對模型進行準確評價。

(2)

(3)

(4)

(5)

(6)
式中:TP(True positives)表示服飾圖案被正確預測的像素數量,FP(False positives)表示服飾圖案被錯誤預測的像素數量,FN(False negatives)表示背景像素被預測為服飾圖案的像素數量,TN(True negatives)表示背景像素被正確預測的像素數量。
將Dice系數作為驗證本文模型性能的主要評價指標,其值越接近1,表明分割后的圖像與原圖相似度越高,模型分割結果越準確。
苗族服飾圖案千奇百態,然而圖案的復雜度對分割結果也存在一定的影響。因此,為了驗證本文算法在苗族服飾圖像上的分割性能,將其運用在圖像類型各式各樣的苗族服飾圖像數據集上。本文模型分割結果可視化如圖7所示,圖像分割結果的可視化可以清楚顯示本文模型對圖像中不同特征信息的提取效果。圖7中包含刺繡圖像和蠟染圖像,其中第1行是原圖,第2行是圖像標簽,第3行為本文模型分割結果。

圖7 苗族服飾圖案分割結果
為了進一步證明本文算法在類型豐富的苗族服飾圖像數據集上的魯棒性,將其與FCN[8]、U-Net[15]、FCANet[4]、SENet[10]4個不同的網絡模型進行比較,實驗結果如表2所示。表2中實驗數據表明,本文模型在5個評價指標上的分割結果都要優于其他模型。雖然FCANet和SENet網絡模型中都加入了不同的注意力,但本文算法使用的是輕量級的通用模塊CBAM,節約了參數,因此總參數量最少,損失也是最小。從表2中的數據還可看出,加入注意力機制的模型與傳統FCN、U-Net模型相比分割結果要好。因此,基于注意力機制的網絡模型可根據圖像信息的權重去衡量各個信息特征的重要性,使網絡關注有用信息而忽略無用信息,從而達到研究者們的理想結果。為了從視覺上直觀體現本文算法的有效性,本文展示了不同風格的苗族服飾圖像在不同模型中的分割結果,如圖8所示。在圖8中,第1列展示的是包含刺繡圖像和蠟染圖像的原圖像,第2列是原圖像所對應的標簽,第3列是本文算法分割結果圖,其余4列分別表示SENet、FCANet、U-Net、FCN這4個網絡模型對6張圖像的分割結果可視化圖。

表2 苗族服飾圖案數據集在各個模型中的分割結果
從圖8中展示的圖像可直觀地看出,同一張苗族服飾圖像在5個模型中,本文模型不論是在顏色豐富、服飾圖案多樣,還是在圖案色彩差異大的圖像上,分割效果都要優于另外4個模型。同時也可以從圖8中看出,由于苗族服飾圖像與醫學、自然圖像等主流圖像相比,苗族服飾圖像存在清晰度低、色彩差異大、顏色種類繁多、刺繡圖像紋理過于復雜等問題,導致本模型對少許區域分割結果不太理想。即使分割結果受多種因素的影響,但本文提出的網絡模型在苗族服飾圖像上仍然具有較好的分割性能。

圖8 不同模型分割結果視覺對比示意
絢麗多姿的苗族服飾圖案是民族精神追求的高度概括,其圖案樣式、色彩、紋樣等都是服飾圖案具有的獨特風格特征。圖9為3張不同風格的苗族服飾圖案在3個模型上的分割可視化結果。圖9中第1列是原圖,第2列是標簽,第3、第4列是FCN、U-Net模型分別對應的分割效果圖,第5列是本文模型分割結果。FCN、U-Net模型對三張圖像的整體分割效果較好,但在一些局部區域上分割結果還是不太理想,如圖9中紅色框標記區域。而本文模型不僅能對圖案紋理復雜區域(如圖9中第2行原圖紅色框標記區域)精確分割,也能對邊界像素(如圖9中第1、第3行原圖中紅色框標記像素)進行準確分割。從而有效證明了融入注意力機制的網絡模型能夠捕獲豐富的上下文信息,獲取更為精確的特征,提高模型分割效率。

圖9 三種模型分割效果示意
本文提出一種基于注意力機制的苗族服飾圖案分割模型,采用FCN作為主干結構,該模型主要針對少數民族服飾圖案數據集進行分割。該算法的主要目的是通過注意力機制來調節輸入圖像的特征權重以改善分割性能,以有利于模型能夠更好地將感興趣的特征從局部水平關聯到全局水平。首先,采用數據增強對圖像數據進行預處理,提高模型泛化能力和魯棒性的同時避免過擬合現象。然后,使用融合注意力機制的全卷積網絡模型進行特征提取,減少空間信息丟失,從而有效提高模型分割精度,降低損失率。最后,在苗族服飾圖案數據集上的實驗結果表明,與FCN、U-Net、FCANet、SENet這4個模型相比,本文模型在交并比、準確性、敏感性等5個指標上都有顯著提高,證明該方法是有效可行的。同時,該模型的提出有利于少數民族服飾圖像的數字化保護,也為少數民族服飾圖像的研究者們進行快速、精準地分割苗族服飾圖案提供了一定的參考。在今后的研究中,將從服飾風格特征點與圖像分割處理后的圖像特征點之間的映射關系等方面進行深入研究。

《絲綢》官網下載

中國知網下載