楊帆
摘 要 為擁有大量圖片的用戶提供按照以面孔為單位進行圖片管理的方法,同時能夠在眾多圖片中快速定位圖片,實現(xiàn)高效準確的圖片搜索,提高圖片管理和檢索效率。
關鍵詞 圖像檢索;深度學習;特征表示
引言
傳統(tǒng)的檢索方法通常選擇一些為多媒體相似性搜索提取低級特征,如歐幾里得距離或余弦相似性?;趦?nèi)容的圖像檢索是圖像檢索的基礎之一,該方法旨在通過分析它們的視覺內(nèi)容搜索圖像,從而形象地表現(xiàn)出目標圖像。然而,固定的相似性/距離函數(shù)可能會造成復雜圖像檢索任務的失敗,提取低層視覺特征的語義鴻溝以及高層次的人類感知成為檢索圖像的挑戰(zhàn)[1]。
1基于內(nèi)容圖像檢索的深度學習
通過對CBIR任務應用深度學習,給出了所提框架的總體視圖,其中為了實現(xiàn)深度CNN學習,該模型已經(jīng)成功地在imageNet的ILSVRC-2012數(shù)據(jù)集上進行了訓練并找到狀態(tài)[2]。
深度卷積網(wǎng)絡框架由兩部分組成:卷積層和最大匯集層以及完全連接層和輸出層。在神經(jīng)網(wǎng)絡結(jié)構(gòu)中第一層為輸入層,該層像素均值中心原始RGB像素。利用兩種增強數(shù)據(jù)的方法來避免過度擬合,可以簡單概括為:首先在尺寸為256×256的原始圖像中隨機抽取補丁,補丁數(shù)為224×224,利用這些補丁生成了能夠水平反射和平移的輸入圖像,這些補丁能夠支持網(wǎng)絡進行訓練。其次,照明和顏色不變性的捕捉工作,添加RGB到整個數(shù)據(jù)集,其中對RGB像素值的主要分量作隨機倍數(shù)的改變,模型中測試集誤差將會至少降低1%。
輸入層后五個卷積層中第一卷積層和第二卷積層為響應歸一化層和最大匯集層,第三層、第四層和第五層則不具備匯集和歸一化,僅體現(xiàn)為互相連接。神經(jīng)元輸出函數(shù)是非線性函數(shù),整流線性單位(ReLU),另外所采用的“重疊池”方案在訓練時所耗時間較長,最大池化步驟能夠增強特征映射的變換不變性。
2CBIR的特征表示
通過擴展CBIR任務中學習特征表示的訓練模型來研究有效的技術,主要來解決兩類問題:第一,如何將訓練有素的CNN從分類應用到ImageNet中的CBIR任務。第二,如何在新領域的CBIR任務的學習特征表示中推廣訓練有素的CNN模型[3]。
下面詳細介紹兩種泛化方法。
方案一:直接代表。
將訓練CNN模型的原始數(shù)據(jù)集作為圖片集,直接采用DF.FC1,DF.FC2和DF.FC3之一的激活功能。并將數(shù)據(jù)集中的圖像饋送到預訓練CNN模型輸入層,再從最后三層獲取激活值,以此獲得特征表示,由于只需要基于矩陣乘法一次計算前饋網(wǎng)絡,整個方案將非常有效。
方案二:通過模型再培訓進行精煉。
通過使用ImageNet訓練模型的參數(shù)初始化CNN模型,在新圖像數(shù)據(jù)集上重新訓練不同CBIR任務的深度卷積神經(jīng)網(wǎng)絡。根據(jù)可用的標簽信息,有兩種方法可以重新訓練CNN模型[4]。
3面部圖像標注結(jié)果與分析
使用Pubfig83LFW面部數(shù)據(jù)集上的第一和第三特征方案來評估基于搜索的面部圖像標注性能,結(jié)果中可以發(fā)現(xiàn):
(1)通過與眾所周知的面部圖像表示特征進行比較,方案一在面部圖像數(shù)據(jù)集上表示較差。特別的是,(DF.FC1)的最佳MAP值僅為0.51。
基于KNN注釋方法,通過比較方案一和方案二的Precision-Recall可以看到,采用方案二可以顯著提高檢索性能。這一結(jié)果再次驗證了CNN模型在新領域中學習有效特征的良好泛化性能。
通過使用方案二并在新的面部圖像數(shù)據(jù)集上重新訓練新的深CNN模型,可以顯著提高深度特征的性能[5]。
4結(jié)束語
通過介紹基于內(nèi)容的圖像檢索中(CBIR)的表示問題,目的是評估深度學習是否是希望在長期內(nèi)彌合CBIR中的語義差距,以及通過探索最先進的深度學習技術,實現(xiàn)CBIR任務的實質(zhì)性改進特征表示和相似性度量。在大規(guī)模數(shù)據(jù)集上預訓練的深度CNN模型可以直接用于新CBIR任務中的特征提取;通過預先訓練的CNN模型提取的特征可能會或可能不會比傳統(tǒng)的手工制作的特征更好,但通過適當?shù)奶卣魈釤挿桨?,深度學習特征表現(xiàn)出始終優(yōu)于所有數(shù)據(jù)集上的傳統(tǒng)特征;當在新域中應用特征代表時,能夠發(fā)現(xiàn)相似性學習可以進一步提高預訓練深度模型的直接特征輸出的檢索性能。
參考文獻
[1] Agnieszka M,Michal G.Data augmentation for improving deep learning in ima-ge classification problem[C]. 2018 International Interdisciplinary PhD Workshop.IEEE,2018:117-122.
[2] Perez L,Wang J. The Effectiveness of Data Augmentation in Image Classification using Deep Learning[J]. Computer Vision and Pattern Recognition,2017(12):12-22.
[3] Felea I,Vertan C,F(xiàn)lorea L. The use of deep learning in image segmentation, classification and detection[J]. Computer Science,2016(3):6-15.
[4] Asadi-Aghbolaghi M,Albert Clapés,Bellantonio M,et al. A Survey on Deep Learning Based Approaches for Action and Gesture Recognition in Image Sequences[C].IEEE International Conference on Automatic Face & Gesture Recognition. IEEE,2017(1):476-483.
[5] Litjens G,Kooi T,Bejnordi B E,et al. A survey on deep learning in medical image analysis[J]. Medical Image Analysis,2017(42):60-88.