基于深度學(xué)習(xí)的SIFT圖像檢索算法①

2020-09-22 07:45:22蘇勇剛高茂庭

計(jì)算機(jī)系統(tǒng)應(yīng)用 2020年9期

關(guān)鍵詞：特征

蘇勇剛,高茂庭

1(常州工業(yè)職業(yè)技術(shù)學(xué)院,常州 213164)

2(上海海事大學(xué),上海 201306)

隨著大數(shù)據(jù)時(shí)代的到來(lái),龐大數(shù)據(jù)集的圖像檢索已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)[1]和人工智能[2]等先進(jìn)領(lǐng)域.如何從這個(gè)大數(shù)據(jù)庫(kù)的數(shù)字資源中快速檢索到用戶(hù)需要的圖像信息和提高圖像檢索效率,就成為了計(jì)算機(jī)視覺(jué)一個(gè)亟待解決的問(wèn)題.

在圖像庫(kù)中,查找具有包含指定內(nèi)容或特征圖像的這個(gè)過(guò)程,定義為圖像檢索.其中圖像之間的相似度值高低對(duì)一個(gè)圖像檢索算法的性能起著至關(guān)重要的作用.目前的圖像檢索方法分為早期的監(jiān)督圖像檢索和無(wú)監(jiān)督圖像檢索方法.監(jiān)督圖像檢索方法中使用的圖像是人工標(biāo)記的,而無(wú)監(jiān)督圖像檢索所使用的是基于深度特征的.在計(jì)算機(jī)視覺(jué)領(lǐng)域,起初的圖像檢索是根據(jù)圖像的低級(jí)特征(人工特征)來(lái)檢索,比如SIFT[3]、Bow[4]和VLAD[5],作為特征提取的主流算法,取得了一定的成效,但其效果仍然不能令人滿(mǎn)意.傳統(tǒng)圖像檢索效果不佳的原因是低級(jí)特征無(wú)法表達(dá)圖像的內(nèi)容,所以圖像檢索的深度特征逐漸取代低級(jí)特征,目前神經(jīng)網(wǎng)絡(luò)提取深度特征能力得到廣大科研人員的認(rèn)可.

隨著機(jī)器學(xué)習(xí)的迅猛發(fā)展,圖像檢索領(lǐng)域運(yùn)用了卷積神經(jīng)網(wǎng)絡(luò)模型,代表性的模型有Alex Net[6]和VGG-Net[7]等.CNN 模型大多數(shù)都被用來(lái)確定每一目標(biāo)的位置和類(lèi)別.比如CNN 學(xué)習(xí)SIFT 特征[8]和深度特征,利用學(xué)習(xí)來(lái)的圖像特征來(lái)做目標(biāo)檢測(cè),成功應(yīng)用于藝術(shù)品的圖像分類(lèi).但是,CNN 算法存在一些弊端,例如邊緣和位置信息容易被忽視.對(duì)此,文獻(xiàn)[9]提出了對(duì)卷積層的卷積特征提取與加權(quán)的解決思路,從而使得包含邊緣和位置信息的元素被賦予更大的權(quán)重.同時(shí)CNN 算法還存在不能適用于不同尺寸的圖像問(wèn)題,文獻(xiàn)[10]對(duì)此改進(jìn)CNN 算法即在卷積層和全連接層中加了SPP (Spatial Pyramid Pooling)層,這樣在不同規(guī)格尺寸的圖像下進(jìn)行學(xué)習(xí)以及生成多種尺度大小的特征.其實(shí)最主要的問(wèn)題在于,當(dāng)深度學(xué)習(xí)生成的高維圖像特征較多時(shí),就會(huì)造成維災(zāi)難問(wèn)題.同時(shí)社交媒體時(shí)代的快速發(fā)展,網(wǎng)絡(luò)圖像數(shù)量的爆炸式增長(zhǎng)大,給大規(guī)模圖像檢索帶了巨大挑戰(zhàn).若使用常規(guī)的檢索算法,檢索效率會(huì)受到極大限制.

針對(duì)傳統(tǒng)圖像檢索的檢索效率低、圖像內(nèi)容無(wú)法準(zhǔn)確表達(dá)和高維圖像特征的維災(zāi)難等問(wèn)題和借鑒深度學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)點(diǎn),提出一種基于深度學(xué)習(xí)的SIFT 圖像檢索算法,對(duì)CNN 的卷積層的選擇框構(gòu)造圖像金字塔、池化層融合了SIFT 算法,來(lái)保證圖像的位置特征不丟失,再利用Spark[11]大數(shù)據(jù)平臺(tái)的SVM 對(duì)圖像庫(kù)進(jìn)行無(wú)監(jiān)督聚類(lèi),然后再利用自適應(yīng)的圖像特征度量來(lái)對(duì)檢索結(jié)果進(jìn)行重排序,以改善用戶(hù)體驗(yàn).

1 基本概念

1.1 CNN

卷積神經(jīng)網(wǎng)絡(luò)(CNN)包含以下幾種層:

卷積層(convolutional layer),由多個(gè)卷積單元構(gòu)成,但只能提取低級(jí)的特征.

矩陣卷積:計(jì)算圖像的特征,其中有兩種方法:全卷積和有效值卷積.

全卷層的計(jì)算如式(1)所示為:

其中,Xi,j是圖像特征,Ku-i,v-j卷積核,z(u,v)是圖像卷積特征.

假設(shè)X是m×m階,K是n×n階矩陣,Krot是由K旋轉(zhuǎn)1800得到,有效值卷積的計(jì)算如式(2)、式(3)為:

其中,X(i,j)為1 表示Xi,j有效卷積特征,若為0 則表示無(wú)效卷積特征.

池化層(pooling layer),在上面的幾層特征提取和運(yùn)算后,會(huì)產(chǎn)生維度很大的特征,將特征切成幾個(gè)區(qū)域,取其最大值或平均值,得到新的、維度較小的特征,其計(jì)算如式(4):

其中,input_height,input_width分別是池化特征矩陣的高度和寬度,filter_height,filter_width分別是自定義的過(guò)濾矩陣的高度和寬度,new_height,new_width分別是新特征矩陣的高度和寬度.

注意:池化層的輸出深度與輸入的深度相同.另外池化操作是分別應(yīng)用到每一個(gè)深度切片層,如圖1所示.

圖1 池化過(guò)程演示

全連接層(fully-connected layer),把全部的局部特征聯(lián)系在一起,然后生成全局特征,最終用來(lái)計(jì)算最后每一類(lèi)的得分,如圖2所示.

圖2 全連接示意

其中,(X1,X2,X3) 是輸入神經(jīng)元,而(Y1,Y2)是輸出神經(jīng)元,兩層之間的連接就是卷積核:

1.2 相似性度量

相似性度量極大關(guān)乎一個(gè)算法的性能,其方法一般分為特征度量、CNN 特征度量和距離度量.

1.2.1 圖像特征度量

圖像特征度量是指通過(guò)圖像的顏色、位置和形狀等特征來(lái)衡量它們的相似性.

顏色特征:即圖像區(qū)域的平均色代表.為了方便顏色相似度的計(jì)算,將色度坐標(biāo)(色調(diào)h,飽和度s,亮度v)統(tǒng)一轉(zhuǎn)換為柱坐標(biāo)系下的歐式空間坐標(biāo)(c1,c2,c3)表示,如式(5)所示.

式(6)中,W和H分別代表圖像的寬度和高度.

形狀特征:主要包括形狀大小ρ 和偏心率e.e是圖像最適橢圓的短、長(zhǎng)軸之比;ρ是目標(biāo)面積占圖像總面積的百分比.

綜合考慮顏色、位置和形狀等多個(gè)特征,圖像i的特征用矢量表示為采用高斯函數(shù)計(jì)算圖像相似度,在計(jì)算圖像i和圖像j之間的特征相似度中分別需要用到顏色特征方差 σ1、位置特征方差 σ2、形狀特征方差σ3.

顏色相似度計(jì)算如式(7)所示.

位置相似度計(jì)算如式(8)所示.

形狀相似度計(jì)算如式(9)所示.

式(9)中,wρ和we分別為形狀大小和偏心率的加權(quán)系數(shù),wρ+we=1.

上述圖像歸一化的圖像特征D越接近1,兩個(gè)圖像越相似,D越接近0,兩個(gè)圖像越不相似.

綜合多個(gè)特征的圖像相似度是各特征間相似度的加權(quán)平均,設(shè)w1、w2和w3分別表示顏色特征、位置特征和形狀特征的加權(quán)系數(shù),w1+w2+w3=1,兩幅圖像i與j之間的多特征相似度計(jì)算如式(10)所示.

利用用戶(hù)對(duì)返回結(jié)果集的反饋,提出一種自適應(yīng)的特征權(quán)值調(diào)整,依據(jù)返回結(jié)果集的主特征來(lái)增強(qiáng)該特征,在每次檢索時(shí),每次檢索后加強(qiáng)結(jié)果圖像的主特征的加權(quán)系數(shù),從而可以使特征相關(guān)程度較大的圖像排在較前的位置,以改善與用戶(hù)交互體驗(yàn).即當(dāng)用戶(hù)檢索完,若所選擇圖像和查詢(xún)圖像間相似度最高的特征為特征i,則增大特征i的加權(quán)系數(shù)來(lái)加強(qiáng)該特征,同時(shí)減小其它特征j(j≠i)的加權(quán)系數(shù)以減弱其它特征,權(quán)值調(diào)整具體計(jì)算如式(11)所示.

式(11)中,N為圖像庫(kù)中圖像的總數(shù).

而傳統(tǒng)的距離度量方法因?yàn)橐獫M(mǎn)足距離的條件,所以會(huì)在原來(lái)的模型上加以另外的限制條件,增加了模型的復(fù)雜度.同時(shí)對(duì)于很多傳統(tǒng)的距離度量方法,因?yàn)橛芯嚯x的概念,在樣本擾動(dòng)一點(diǎn),其距離相差不大,難以區(qū)分不同類(lèi)的圖像[12].

文獻(xiàn)[13] 圖像檢索領(lǐng)域的雙線性相似性度量(Bilinear Similary Measure,BSM),克服了距離度量的缺陷.它是由成對(duì)的相似性函數(shù)S 是算法學(xué)習(xí)得到的,S 函數(shù)公式如式(12)所示.

其中,pi、pj是兩個(gè)樣本圖片的特征向量,W是本文要學(xué)習(xí)的矩陣.

2 基于深度學(xué)習(xí)的SIFT 圖像檢索算法

SIFT 算法主要應(yīng)用于圖像檢索工作,大致流程:先按照某種規(guī)則生成尺度空間,在尺度空間檢測(cè)圖像位置來(lái)剔除尺度和旋轉(zhuǎn)變化大的興趣點(diǎn),然后選取穩(wěn)定的興趣點(diǎn)作為關(guān)鍵點(diǎn)同時(shí)也為分配一個(gè)方向或多個(gè)方向,最后利用關(guān)鍵點(diǎn)的鄰域向量來(lái)度量圖像的相似程度.SIFT 算法優(yōu)勢(shì)在于圖像縮放、旋轉(zhuǎn)和亮度變化保持不變性.

2.1 SIFT 算法

SIFT 算法的處理過(guò)程一般分為以下幾步:

第1 步.生成尺度空間.

第2 步.在尺度空間檢測(cè)并精確定位極值點(diǎn).

第3 步.設(shè)定關(guān)鍵點(diǎn)方向參數(shù),并生成其的描述子.

第4 步.最后通過(guò)SIFT 特征向量來(lái)計(jì)算圖片之間的相似度.

下面以一個(gè)實(shí)例SIFT 算法,設(shè)有兩幅大小不一的紅花a 和紅花b 圖像,如圖3所示.

圖3 SIFT 算法的圖解過(guò)程

開(kāi)始先進(jìn)行SIFT 特征提取,在尺度空間中檢測(cè)出描述子,然后將不同方向的描述子映射相對(duì)應(yīng)方向的局部子直方圖,最后計(jì)算直方圖的相似度.若相似度系數(shù)越接近0,則表示兩幅圖像越相似.

根據(jù)上述SIFT 算法的圖像相似度的計(jì)算過(guò)程,分析了SIFT 算法的缺陷:(1)大數(shù)據(jù)時(shí)代下的圖像庫(kù)數(shù)量爆炸式增長(zhǎng),SIFT 算法的檢索效率也隨之急劇下降;(2) SIFT 特征比較粗糙和單一.為此,本文提出基于深度學(xué)習(xí)的SIFT 圖像檢索算法(SIFT Image Retrieval Algorithm based on Deep Learning).

2.2 本文算法

本文算法通過(guò)CNN 和SIFT 特征相似度度量來(lái)提高相似度的精度,并采用基于內(nèi)存計(jì)算的并行計(jì)算框架Spark 和SVM算法對(duì)原始圖像庫(kù)進(jìn)行分類(lèi)來(lái)縮小檢索范圍,從而大大提升算法的效率并自適應(yīng)改善圖像檢索結(jié)果的排序,其處理過(guò)程總共5 步,流程圖如圖4.

圖4 本文算法流程圖

第1 步:統(tǒng)一提取原始圖像庫(kù)的CNN、SIFT 特征;

第2 步:通過(guò)Spark 的MLlib 庫(kù)中的SVM 來(lái)訓(xùn)練圖像特征這些數(shù)據(jù)分類(lèi),同時(shí)計(jì)算出每個(gè)圖像庫(kù)類(lèi)別的均值CNN、SIFT 特征;

其中,C,N分別是圖像CNN 特征、SIFT 特征.

第3 步:建立訓(xùn)練、測(cè)試數(shù)據(jù)集并訓(xùn)練優(yōu)化CNN網(wǎng)絡(luò)(如圖5所示):依次是卷積層、池化層、激活層、全連接層、全連接層、分類(lèi)層;其中,為便于建模,對(duì)圖像進(jìn)行分塊(如圖6所示),輸入圖像為32×32,70%數(shù)據(jù)為訓(xùn)練集,15%數(shù)據(jù)校驗(yàn)集,15%數(shù)據(jù)測(cè)試集,通過(guò)動(dòng)量法動(dòng)態(tài)調(diào)整學(xué)習(xí)率的訓(xùn)練、校驗(yàn)和測(cè)試,卷積層、池化層、激活層和全連接層的參數(shù)都得到優(yōu)化調(diào)整,最終本文神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了分類(lèi)的最優(yōu)化效果.本文的目標(biāo)函數(shù)如式(14)所示:

其中,Fi,j是圖像特征,a是學(xué)習(xí)率,P(a,b)為均方差損失函數(shù),用以訓(xùn)練本文神經(jīng)網(wǎng)絡(luò)模型.

圖5 本文卷積神經(jīng)網(wǎng)絡(luò)框架

圖6 圖像分塊的原圖和CNN 特征

第4 步:檢索圖像時(shí),先設(shè)定圖像相似度度量的閾值,然后比較進(jìn)行待查詢(xún)圖像特征與每一類(lèi)庫(kù)索引特征的相似性度量來(lái)確定類(lèi)別庫(kù),再?gòu)念?lèi)庫(kù)中產(chǎn)生一些符合查詢(xún)條件的候選結(jié)果,結(jié)果排序則是根據(jù)圖像SIFT 和CNN 特征相似度的值.

其中,t為閾值,Si,j為圖像i,j之間的相似度量,R為1 時(shí),表示相似;R為0,則表示不相似.

第5 步:在用戶(hù)從結(jié)果集中挑選出最滿(mǎn)意的圖像之后,再按式(8)對(duì)圖像各特征的加權(quán)系數(shù)進(jìn)行調(diào)整,以便用戶(hù)下一次更好的體驗(yàn).

在本文算法檢索過(guò)程中,先對(duì)原始圖像庫(kù)圖像特征處理并建立訓(xùn)練數(shù)據(jù),再利用改進(jìn)的CNN 網(wǎng)絡(luò)對(duì)圖像特征庫(kù)進(jìn)行訓(xùn)練,然后在Spark 平臺(tái)下由SVM 算法進(jìn)行分類(lèi),將圖像特征庫(kù)訓(xùn)練成若干類(lèi)圖像特征庫(kù).選出代表類(lèi)特征庫(kù)的索引.檢索的過(guò)程中,最先把圖像提取特征與各類(lèi)庫(kù)特征索引比較來(lái)確實(shí)圖像所在大概某個(gè)或某幾個(gè)類(lèi)庫(kù),這樣大大縮小了查找范圍,有效提高圖像檢索效率,如圖7所示.

圖7 基于Spark 平臺(tái)訓(xùn)練圖像庫(kù)

本文算法中選用的是Spark 平臺(tái),Spark 計(jì)算效率高,主要是因?yàn)椴捎昧嘶趦?nèi)存計(jì)算的并行計(jì)算框架,可以處理大數(shù)據(jù)以及自帶一些經(jīng)典的機(jī)器學(xué)習(xí)算法,彌補(bǔ)了隨著圖像庫(kù)數(shù)據(jù)增長(zhǎng)導(dǎo)致檢索效率下降的劣勢(shì).

本文算法檢索時(shí),先將原始的圖像庫(kù)進(jìn)行圖像CNN、SIFT 特征提取,然后利用Spark 平臺(tái)MLlib 庫(kù)中的SVM 算法對(duì)圖像特征進(jìn)行分類(lèi).分類(lèi)之后,取每個(gè)類(lèi)圖像庫(kù)的均值圖像特征作為索引,用戶(hù)檢索時(shí),需提交要查詢(xún)的圖像,交由圖像特征提取機(jī)制進(jìn)行特征提取,遞交給搜索機(jī)制,讓其根據(jù)特征相似度度量的返回查詢(xún)結(jié)果,同時(shí)圖像各視覺(jué)特征的加權(quán)系數(shù)會(huì)隨用戶(hù)的檢索行為而改變(即圖像相似性度量的原理),從而達(dá)到自適應(yīng)的效果.若提交的圖片不在標(biāo)準(zhǔn)庫(kù)中,則算法利用離線方式對(duì)圖像CNN 特征進(jìn)行學(xué)習(xí),優(yōu)化結(jié)果集;當(dāng)再次提交時(shí),系統(tǒng)就會(huì)返回用戶(hù)滿(mǎn)意的結(jié)果.本文算法流程如圖8所示.

圖8 本文算法流程圖

3 實(shí)驗(yàn)過(guò)程與分析

實(shí)驗(yàn)硬件環(huán)境:3.5 GHz 主頻的CPU、內(nèi)存8 GB,軟件開(kāi)發(fā)環(huán)境:開(kāi)發(fā)工具PyCharm、開(kāi)發(fā)語(yǔ)言Python,并基于Spark 平臺(tái)對(duì)原圖像庫(kù)進(jìn)行分類(lèi);實(shí)驗(yàn)數(shù)據(jù):10 000 幅corel 圖像庫(kù)[14]中的圖像,總共分為10 個(gè)類(lèi)別,每類(lèi)1000 幅,分別為花、巴士、水果、大象、建筑、駿馬、恐龍、人臉、天空和雪山.

3.1 實(shí)驗(yàn)設(shè)計(jì)

3個(gè)對(duì)照實(shí)驗(yàn),主要驗(yàn)證本文算法比傳統(tǒng)SIFT 算法的性能更佳并且對(duì)用戶(hù)更加友好.實(shí)驗(yàn)1 比較算法查準(zhǔn)率;實(shí)驗(yàn)2 驗(yàn)證在檢索海量數(shù)據(jù)集時(shí)本文算法的時(shí)間復(fù)雜度比傳統(tǒng)SIFT 算法低;實(shí)驗(yàn)3 驗(yàn)證本文算法檢索出的圖像結(jié)果集排序更合理.

3.2 圖像檢索性能評(píng)價(jià)性能

為了評(píng)價(jià)本文算法的性能,采用圖像檢索領(lǐng)域最基本的評(píng)價(jià)指標(biāo):査全率和均值查準(zhǔn)率mAP(mean Average Precision).

式(16)中,A為檢索返回圖像相關(guān)的數(shù)量,B為目標(biāo)圖像相關(guān),但未檢索到的數(shù)量;m為檢索的次數(shù),R為與目標(biāo)圖像相關(guān)的數(shù)量.

3.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)1.是本文算法與傳統(tǒng)SIFT 算法、VLAD 算法和BOW 算法對(duì)圖像庫(kù)中3 類(lèi)(花、巴士、水果-本文挑選了3 個(gè)具有代表性的類(lèi)別)的查準(zhǔn)率,見(jiàn)表1.

表1 傳統(tǒng)算法與本文算法對(duì)某類(lèi)圖像庫(kù)的查準(zhǔn)率對(duì)比

從表1和表2可知,與傳統(tǒng)SIFT 算法、VLAD 算法和BOW 算法相比,本文算法對(duì)各類(lèi)圖像的平均查準(zhǔn)率和平均查全率均得到提高,尤其對(duì)于傳統(tǒng)的SIFT算法,查準(zhǔn)率提高了約30 個(gè)百分點(diǎn)及查全率提高了約20 個(gè)百分點(diǎn).因?yàn)楸疚乃惴ㄌ崛〉膱D像特征提取更加精準(zhǔn),所以本文圖像的查準(zhǔn)率和查全率優(yōu)勢(shì)明顯.

表2 傳統(tǒng)算法與本文算法對(duì)某類(lèi)圖像庫(kù)的查全率對(duì)比

實(shí)驗(yàn)2.本文算法與傳統(tǒng)算法、VLAD 算法和BOW 算法在不同數(shù)量級(jí)的圖像庫(kù)時(shí)的時(shí)間復(fù)雜度進(jìn)行對(duì)比,結(jié)果詳見(jiàn)圖9.

從圖9可以看出,隨著圖像數(shù)目規(guī)模增大,傳統(tǒng)SIFT 算法檢索耗時(shí)呈指數(shù)增長(zhǎng),而B(niǎo)OW 算法、VLAD算法和本文算法檢索耗時(shí)增長(zhǎng)相對(duì)平緩,但從中可以得出本文算法的檢索效率較高.因?yàn)楸疚乃惴ń柚髷?shù)據(jù)Spark 平臺(tái)的高效計(jì)算和SVM 的高效分類(lèi),所以圖像庫(kù)數(shù)量激增到5000 的時(shí)候,本文算法優(yōu)勢(shì)比較明顯.

圖9 本文算法與傳統(tǒng)SIFT 算法運(yùn)行時(shí)間對(duì)比

實(shí)驗(yàn)3.本文算法與傳統(tǒng)SIFT 算法的檢索結(jié)果集圖像排序的對(duì)比,結(jié)果詳見(jiàn)圖10.

圖10為檢索黃色花朵圖像時(shí)的返回結(jié)果集,圖10(c)的傳統(tǒng)SIFT 算法頁(yè)面檢索結(jié)果中圖像的歐式距離較小的排在首面,唯一的排序因素造成排序結(jié)果較不理想,即會(huì)影響到用戶(hù)的友好體驗(yàn);由于本文采用了圖像的自適應(yīng)特征度量,所以圖10(b)的本文算法檢索圖像排序則依據(jù)圖像CNN 學(xué)習(xí)特征和SIFT 特征的相似度大小來(lái)排序,從而檢索圖像的結(jié)果集排序更加合理,最終用戶(hù)的體驗(yàn)得到改善.

圖10 兩種算法檢索結(jié)果排序

4 結(jié)語(yǔ)

本文提出了一種基于深度學(xué)習(xí)的SIFT 圖像檢索算法,該算法適用于大容量的圖像數(shù)據(jù)庫(kù)檢索,也方便用戶(hù)對(duì)檢索結(jié)果集篩選,然后利用Spark 平臺(tái)MLlib庫(kù)中的SVM 算法對(duì)圖像特征進(jìn)行分類(lèi).分類(lèi)之后,取每個(gè)類(lèi)圖像庫(kù)的均值圖像CNN 特征作為索引,縮小圖像檢索范圍,再利用特征度量自適應(yīng)地重構(gòu)加權(quán)系數(shù),不但適用于大規(guī)模數(shù)據(jù)集時(shí)的圖像的檢索,而且檢索結(jié)果集圖像排序更符合用戶(hù)要求.實(shí)驗(yàn)表明本文算法有效地解決了數(shù)據(jù)集的暴增帶來(lái)的圖像檢索效率低下和檢索結(jié)果圖像集的不合理圖像先后次序等問(wèn)題,從而極大地改善用戶(hù)體驗(yàn).