趙海英,楊 婷
?
基于雙層模型的宮廷服飾龍紋自動分割算法研究
趙海英1,2,楊 婷1
(1. 北京郵電大學數字媒體與設計藝術學院,北京 100876;2.北京郵電大學世紀學院移動媒體與文化計算北京市重點實驗室,北京 102101)
宮廷服飾紋樣蘊含著豐富的文化內涵,但由于缺少像素級語義標注的數據庫,使得宮廷服飾紋樣精準分割成為極具挑戰的問題。為此,提出一種融合深度學習和GrabCut算法的雙層模型,實現目標檢測和分割功能。分析不同深度卷積神經網絡的特點,在模型目標檢測層(ODL)選擇使用二階段目標檢測框架中的R-FCN方法;在模型分割層(SL)使用基于圖論的GrabCut算法產生最終分割結果。在宮廷服飾圖像數據集上進行仿真實驗,證明基于深度卷積神經網絡和GrabCut算法的雙層模型可以產生較好的分割效果。
自動分割;雙層模型;目標檢測層;分割層;宮廷服飾圖像
宮廷服飾圖像中的紋樣,如龍、鳳、祥云、海水、江崖等蘊含著豐富的文化內涵,其中龍紋樣是最具代表的文化符號,也是封建時代中國帝王及東亞各國君王服飾的標志物。宮廷服飾圖像中的大量典型紋樣可以反映出穿戴者的身份、地位、所處朝代等文化屬性,分割這些紋樣有利于宮廷服飾文化的分析和解讀。本團隊一直專注民族服飾文化方面的研究,主要研究新疆民族織物圖案的自動分割和生成算法[1-4],并對宮廷服飾中的紋樣基元進行分割以用于圖案生成。
交互式分割算法通過與用戶互動可以產生良好的分割效果,但當待分割的圖片數量龐大時不適合選用該方法。由于傳統自動分割方法產生的分割效果均不理想,近幾年興起的深度學習方法在圖像分割上取得了較好的效果,如FCN[5],DeepLab[6],CRF-RNN[7],DeconvNet[8],DPN[9],Piecewise[10]等方法,但都需要精確的手工標注ground-truth,且有些還需要像素級別的標注。目前,缺少宮廷服飾圖像的數據集,為了解決這一特定類型的數據集分割問題,本文提出一種由目標檢測層(object detection layer,ODL)和分割層(segmentation layer,SL)組成的雙層圖像自動分割模型,能夠較好地分割出宮廷服飾圖像中典型紋樣。
基于深度學習的圖像自動分割方法主要分為基于候選區域和端到端的2類方法。
基于候選區域的自動分割方法不需要像素級別標注的數據集,人工標注代價少。文獻[11]采用RCNN方法進行目標檢測和語義分割,每張圖片約有2 000個自底向上的區域,分別對這些候選區域提取CNN特征,然后利用線性SVM分類器對其進行分類,最后利用CNN特征實現語義分割,在PASCAL VOC 2011驗證數據集上RCNN的分割準確度為47.9%。文獻[12]采用SPP-net解決了RCNN重復提取特征帶來的計算冗余問題,SPP-net對整張圖片只進行了一次特征提取,速度更快。文獻[13]采用SDS算法實現圖像分割,其精度可達52.6%。針對SDS算法需要生成區域提議來協助解決分割產生時間開銷大,及分割精度受區域提議質量影響較大的問題。文獻[14]采用MPA算法實現端到端的分割,提高了算法效率。文獻[15]提出Fast R-CNN方法克服了R-CNN和SPP-net存在的缺點,訓練過程更加簡單,使用多任務損失函數實現了整個網絡端到端的訓練方式,精度和速度更高,但是生成候選區域的時間代價仍是影響算法效率的主要因素。文獻[16]提出Faster R-CNN方法,即使用區域建議網絡(region proposal network,RPN)代替selective search方法,RPN與檢測網絡共享整幅圖像的卷積特征,幾乎可以無成本地生成高質量區域建議,算法速度和精度得到了進一步地提高。文獻[17]提出的R-FCN方法丟棄了全連接層,使用全卷積層進行目標檢測,一張圖像上所有計算幾乎都是共享的,并使用OHEM算法[18]提高了模型訓練的效率,算法性能更好。本文方法屬于基于候選區域的圖像自動分割方法。
端到端的自動分割方法是直接對圖像進行逐像素分類,所以分割效果更理想。文獻[5]提出全卷積網絡(fully convolutional networks,FCN)對圖像進行像素級分類,FCN擴展了原有的CNN結構,可以在去除全連接層的情況下實現密集預測,FCN在PASCAL VOC 2012驗證數據集上精度達到了62.2%。文獻[19]提出的Zoom-out方法可直接基于超像素做特征提取和分類,提取超像素的Zoom-out特征后對其進行分類從而實現語義分割,該方法的精度為64.4%。文獻[6]提出的DeepLab_v1模型先使用深度卷積神經網絡(deep convolutional neural network,DCNN)做密集分類,產生比較粗糙的目標預測圖,然后使用條件隨機場[20]進行后處理以提高分割的精細度,其分割準確度為71.6%。受文獻[6]的啟發,文獻[7]提出CRF-RNN方法,將CRF建模成遞歸神經網絡(recurrent neural network,RNN),CRF-RNN模型是分類和后處理階段合并為一體的端到端模型,其分割準確度為72.0%。文獻[8]的方法結合了深度反卷積網絡(deep deconvolution network,DDN)和候選區域級別的預測,減輕了基于FCN語義分割方法的局限性,分割準確度可達72.5%。文獻[21]將膨脹卷積用于密集預測中,膨脹卷積考慮了多尺度的上下文信息且沒有降低輸入的分辨率,在CRF-RNN模型中應用膨脹卷積后分割精度從72.0%提高到了75.3%。文獻[22]提出使用加權求和的方法融合多尺度輸入圖像特征,各個尺度的權重由注意力模型(attention model)獲得,其分割精度為75.7%。文獻[23]提出reconstruction模塊代替普通的上采樣操作,并提出一種基于拉普拉斯金字塔的不同層特征融合方法,整合了底層位置信息和高層語義信息,其分割準確度為76.8%。文獻[9]采用深度解析網絡(deep parsing networketworks,DPN)解決圖像語義分割問題,使分割準確度達到78.0%。文獻[24]提出的DeepLab_v2方法使用膨脹空間金字塔池化(atrous spatial Pyramid pooling,ASPP)實現了多尺度特征提取,其分割精度為79.7%。文獻[25]中提出的DeepLab_v3方法改善了ASPP方法,并去除了CRF后處理階段,使分割精度達到86.9%。
端到端的圖像語義分割方法分割精度高,但需要對數據集進行大量像素級別的標注,標注的任務對人力和時間的需求遠高于標定圖像中目標位置的任務,因此在人力和時間相對緊缺的情況下可以優先考慮基于候選區域的語義分割方法。另外,團隊之前進行的宮廷服飾圖像采集工作,為本文的標注工作提供了基礎。
雙層模型由ODL和SL組成,如圖1所示。傳統的目標檢測算法著重于提取目標物體的顏色、紋理等特征,而宮廷服飾中大多數目標物體和背景顏色比較接近,同時由于服飾褪色和磨損,圖像丟失了大量紋理信息。針對這些問題,本文在ODL采用R-FCN方法[17]檢測宮廷服飾中的龍紋。在眾多交互式分割算法中,GrabCut算法[26]擁有較好的分割性能且操作簡單,只需用戶將目標框住就可以完成良好地分割,所以本文在SL采用GrabCut算法完成最后的分割步驟。

圖1 雙層模型結構
通過分析宮廷服飾圖像的特點和對比不同卷積神經網絡,在ODL選擇了R-FCN檢測方法,并簡要介紹其工作原理。
2.1.1 宮廷服飾圖像分析與模型選擇
宮廷服飾是一種具有豐富文化寓意的典型非物質文化遺產。首先,由于受時間久和環境因素的影響,大量服飾圖像中顯著目標的輪廓信息和紋理信息丟失嚴重;其次,由于宮廷服飾圖像的文化背景,其目標與背景顏色相近,使得目標檢測困難。而R-FCN模型的特點是:①主干網使用的殘差網絡ResNet深度更深,更容易優化,最重要的是對微小差異具有高度的靈敏度,在目標與背景差異性較小時(圖2 (a))也能很好地學習特征;②移除了全連接層,采用全卷積神經網絡進行目標檢測,擁有較大的感受野,可更好地考慮上下文信息,并合理地推斷出丟失或遮擋的信息,圖2 (a)中有輪廓和紋理信息丟失嚴重及有遮擋的目標可以被檢測出來;③二階目標檢測方法可以很好地檢測尺寸較小或較大的目標;④使用PASCAL VOC 2007+2012訓練集優化模型,在VOC 2007驗證集上,YOLO[27],SSD300[28],Faster R-CNN VGG-16[16]和R-FCN ResNet-101[17]目標檢測模型的精度如圖2 (b)所示,可以看到R-FCN模型的檢測精度最高,mAP達到79.5%,高于第二名SSD300[28]5.2。綜上,由于宮廷服飾圖像的特殊性和R-FCN模型的優點,在雙層模型的ODL層,本文選擇使用R-FCN模型完成了宮廷服飾圖像中的龍紋檢測。

圖2 模型選擇
2.1.2 R-FCN模型
R-FCN模型的基本結構如圖3所示,首先使用一組基礎的卷積網絡(如ResNet)提取圖像的特征圖用于后續卷積計算。使用特殊構造的卷積層(2(+1))在特征圖上進行卷積運算構建位置敏感分數圖(position-sensitive score maps),位置敏感分數圖編碼了感興趣區域(region of interest,ROI)的相對空間位置信息,RPN在特征圖上進行卷積運算獲得候選ROIs應用于位置敏感分數圖。位置敏感 ROI池化層用于監管位置敏感分數圖,為每個ROI生成分數,之后進行投票得到每一類的分數,最后使用Softmax得到每一類的最終得分。邊界框回歸是共享特征圖的另一個分支,用來獲得目標的精確位置。下面重點介紹R-FCN模型的核心——RPN網絡和位置敏感分數圖及位置敏感ROI池化。

圖3 R-FCN基本結構
(1) 區域建議網絡。RPN輸入的是一幅任意尺寸的圖像,輸出的是一組矩形的目標建議以及每個建議的目標得分。在R-FCN最后一層共享卷積層輸出的feature maps上滑動一個小型網絡來生成區域建議,其與特征圖上尺寸為×(取=3)的空間窗口全連接。每個滑動窗口都映射成一個低維向量,可使用ReLUs函數進行激活,然后將該向量送入2個全連接層,即用來微調目標位置的邊界框回歸層(reg)和用來二分類的邊界框分類層(cls),從而得到ROI。
區域建議網絡的損失函數[16]為



其中,

(2) 位置敏感分數圖及位置敏感ROI池化。如圖4[17]所示,最后一個卷積層可為每個類別產生2個位置敏感分數圖,因此對于個目標類共有2(+1)個通道的輸出層(+1為加入一個背景類),2個分數圖與描述相對位置的×空間網格相關,例如×=3×3時,得到的9個分數圖編碼了一個目標類的{top?left, top?center, top?right, ···, bottom?right}。R-FCN[17]的最后一層是位置敏感ROI池化層,為每個ROI生成分數,該層是選擇池化操作,即對不同的通道進行池化,×個bin的響應分別從×個分數圖所對應的分數圖獲得。

圖4 R-FCN進行目標檢測的關鍵結構(k×k=3×3張位置敏感分數圖)
在雙層模型的SL選用了GrabCut算法[26],如圖5所示,ODL的輸出作為SL的輸入,通過GrabCut算法輸出SL的分割結果。GrabCut算法由初始化、迭代最小化和用戶修正等組成,雙層模型中的SL選用了GrabCut算法的初始化和迭代最小化2個部分。GrabCut算法流程(圖6):①通過ODL獲得矩形框,初始化算法參數;②給矩形框中每個像素分配GMM分量;③通過圖像數據學習GMM參數;④使用min cut算法最小化能量E,重復第2~4步直到能量E收斂,從而獲得圖像分割結果。

圖5 SL層

圖6 SL選用的GrabCut算法流程
介紹本文使用的數據集,分析ODL的輸出結果和整個雙層模型的輸出結果,并與傳統圖像分割方法進行對比。
本文實現宮廷服飾圖像自動分割的實驗數據集為420幅包含龍紋的宮廷服飾圖像,其中300幅圖像用作訓練,120幅作測試。圖7為部分宮廷服飾圖像,其龍紋的數量、顏色、形狀、姿態及空間布局等有很大差異。
3.2.1 目標檢測層實驗結果分析
在NVIDIA GeForce GTX 1080上進行實驗,使用平均精度均值(mean average precision,mAP)衡量目標檢測精度,其中,動量為0.9,權重衰減為0.000 5。Faster R-CNN[16]使用ZF網絡[29]和VGG-16網絡[30]進行訓練,學習率為0.001,交替訓練的迭代次數為[40000,20000,40000,20000],近似聯合訓練的迭代次數為20 000;R-FCN[17]使用不同深度的ResNets[31]進行訓練,學習率為0.00 1,交替訓練的迭代次數為[1000,1000,1000,1000,1000],近似聯合訓練的迭代次數為2 000;YOLO[27]使用GoogLeNet[32]進行訓練,前520次迭代學習率為0.001,520~16 000次為0.01,16 000~24 000次為0.001,24 000~32 000次為0.000 1;SSD300[28]使用VGG-16[30]進行訓練,前10 000次迭代學習率設置為0.01,10 000~20 000次為0.001,20 000~40 000次為0.000 1。表1為實驗結果,SSD模型平均精度可達90.6%,R-FCN模型(ResNet-101)使用近似聯合訓練方法所需訓練時間比SSD300少66倍,且平均精度與其相近。圖8為宮廷服飾數據測試集上使用R-FCN模型ODL輸出的龍紋目標檢測結果。

圖7 部分宮廷服飾圖像

表1 使用不同卷積神經網絡ODL的輸出結果
3.2.2 雙層模型實驗結果分析
表2展示了在宮廷服飾圖像數據集上雙層模型的分割結果,其中第1列為原圖,第2列為雙層模型輸出的分割結果,第3列為理想分割結果,第4列為分割結果和理想分割結果的交并比(intersection over union,IOU),第5列為假陽性率,第6列為分割一個子圖所需的時間。
3.2.3 對比實驗
使用融合mean shift和區域合并方法的圖像分割方法(EDISON系統)與基于標記的分水嶺圖像分割算法進行仿真實驗,并與本文方法進行對比。前兩種方法在多次調整參數后可以得到較好的分割結果,但大多數情況下無法獲得完整、有意義的分割結果,如圖9所示。計算4幅圖像分割結果的平均IOU,如圖10所示,本文方法所得的平均IOU值最高。

圖8 在宮廷服飾數據集測試集上使用R-FCN模型ODL輸出的龍紋檢測結果

表2 分割結果
與前兩種方法相比,本文方法可獲得較完整、有意義的分割結果,原因是雙層模型中ODL輸出的邊界框為后續SL提供了完整目標的位置信息,指導了分割。

圖9 融合mean shift和區域合并的圖像分割方法(第1行)與基于標記的分水嶺圖像分割方法(第2行)分割圖像失敗的例子

圖10 4幅圖像分割結果的平均IOU柱狀圖
本文根據宮廷服飾圖像中紋樣的多樣性和特殊性,提出基于深度卷積神經網絡和GrabCut算法的雙層模型實現宮廷服飾圖像中龍紋的自動語義分割。該模型由ODL和SL組成,ODL選擇使用R-FCN網絡,其具有容易優化、訓練時間短且準確率高的特點,SL采用GrabCut算法得到最終分割結果。未來工作將進一步優化模型,不斷提高在不同數據源上目標分割的準確性和魯棒性,并解決分割邊緣不平滑的問題。
(致謝:感謝《天朝衣冠》和《明清織繡》為本論文提供相關的圖片數據。)
[1] 趙海英, 彭宏, 楊一帆, 等. 基于拓撲構型的地毯圖案生成方法[J]. 計算機輔助設計與圖形學學報, 2013, 25(4): 502-509.
[2] 趙海英, 潘志庚, 徐正光. 基于構型風格的新疆民族織物圖案自動生成[J]. 圖學學報, 2013, 34(1): 17-21.
[3] 趙海英, 徐正光, 張彩明. 一類新疆民族風格的織物圖案生成方法[J]. 圖學學報, 2012, 33(2): 1-8.
[4] 趙海英, 陳洪, 葉瑞松. 一種基于平面對稱群的對稱圖案生成方法[J]. 圖學學報, 2015, 36(6): 872-878.
[5] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3431-3440.
[6] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [J]. Computer Science, 2014(4): 357-361.
[7] ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1529-1537.
[8] NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1520-1528.
[9] LIU Z, LI X, LUO P, et al. Semantic image segmentation via deep parsing network [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1377-1385.
[10] LIN G, SHEN C, VAN DEN HENGEL A, et al. Efficient piecewise training of deep structured models for semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3194-3203.
[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[12] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [C]//European Conference on Computer Vision. Cham: Springer, 2014: 346-361.
[13] HARIHARAN B, ARBELáEZ P, GIRSHICK R, et al. Simultaneous detection and segmentation [C]//European Conference on Computer Vision. Cham: Springer, 2014: 297-312.
[14] LIU S, QI X, SHI J, et al. Multi-scale patch aggregation (mpa) for simultaneous detection and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3141-3149.
[15] GIRSHICK R. Fast r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.
[16] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [C]// International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 91-99.
[17] DAI J, LI Y, HE K, et al. R-fcn: Object detection via region-based fully convolutional networks [C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2016: 379-387.
[18] SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 761-769.
[19] MOSTAJABI M, YADOLLAHPOUR P, SHAKHNAROVICH G. Feedforward semantic segmentation with zoom-out features [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3376-3385.
[20] KR?HENBüHL P, KOLTUN V. Efficient inference in fully connected crfs with gaussian edge potentials [C]// Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2011: 109-117.
[21] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2018-06-04]. https://arxiv. org/abs/1511.07122.
[22] CHEN L C, YANG Y, WANG J, et al. Attention to scale: Scale-aware semantic image segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3640-3649.
[23] GHIASI G, FOWLKES C C. Laplacian pyramid reconstruction and refinement for semantic segmentation [C]//European Conference on Computer Vision. Cham: Springer, 2016: 519-534.
[24] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2018, 40(4): 834-848.
[25] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2018-06-11]. https://arxiv. org/abs/1706.05587.
[26] ROTHER C, KOLMOGOROV V, BLAKE A. Grabcut: Interactive foreground extraction using iterated graph cuts [C]//ACM Transactions on Graphics (TOG). New York: ACM Press, 2004, 23(3): 309-314.
[27] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.
[28] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector [C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[29] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]//European Conference on Computer Vision. Cham: Springer, 2014: 818-833.
[30] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-05-10]. https://arxiv.org/ abs/1409.1556.
[31] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.
[32] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2015: 1-9.
Automatic Segmentation of Dragon Design Based on Bi-Level Model in Chinese Imperial Costume Images
ZHAO Hai-ying1,2, YANG Ting1
(1. School of Digital Media & Design Arts, Beijing University of Posts and Telecommunication, Beijing 100876, China; 2. Beijing key Laboratory of Mobile Media and Cultural Computing, Beijing University of Posts and Telecommunications, Beijing 102101, China)
The design pattern of Chinese imperial costumes contains rich cultural connotation. However, due to the lack of data set of pixel-level semantic annotation, the accurate segmentation of Chinese imperial costume images has become a very challenging problem. In this paper, a bi-level model integrating deep learning and GrabCut is proposed to realize the object detection and segmentation. The characteristics of different deep convolution neural network models are analyzed, and a two-stage object detector R-FCN is selected in the object detection layer (ODL). The segmentation layer (SL) of the proposed model employs GrabCut algorithmbased on graph theory to produce final segmentation result. Experiments show that the proposed bi-level model can produce good segmentation results in the Chinese imperial costume image data set.
automatic segmentation; bi-level model; object detection layer; segmentation layer; Chinese imperial costume image
TP 391
10.11996/JG.j.2095-302X.2019010150
A
2095-302X(2019)01-0150-08
2018-09-25;
2018-10-18
國家自然科學基金項目(61163044);北京市科委基金課題(D171100003717003);甘肅省人才引進項目(2015-RC-47)
趙海英(1972-),女,山東煙臺人,副教授,博士,碩士生導師。主要研究方向為文化計算與媒體信息挖掘。 E-mail:zhaohaiying@bupt.edu.cn