鐘奇林,左劼,孫頻捷
(1.四川大學計算機學院,成都610065;2.上海政法學院,上海200000)
近十余年來,多媒體上圖像數據快速增長,基于內容的圖像檢索這一研究領域吸引了廣大學者們的關注。基于內容的圖像檢索的任務是用戶用待查詢圖像作為檢索任務輸入,檢索現有圖像庫中與待查詢圖像視覺語義相近的前n 張圖像。該領域的關鍵問題在于如何抽取低維度的具有表示能力的圖像特征,使得圖像類內相似度高,類間相似度低。2014 年,Ali Sharif Razavian 等學者第一次提出了將預訓練的卷積神經網絡模型和Spatial Search 區域提取方法應用到基于內容的圖像檢索問題的Off the Shelf 方法[1],并在圖像檢索公開數據集上取得了不錯的效果,該方法引起了學者們將卷積神經網絡和圖像區域提取方法應用于圖像檢索領域的關注。從2015 年至2019 年出現了更多基于區域、使用卷積神經網絡進行圖像檢索的研究方法,并在各公開數據集上取得了優異的成果,進一步證明了提取圖像區域對于圖像檢索問題上的有效性和研究意義。
上世紀70 年代初,學者們就開始了對圖像檢索的研究,起初是研究基于文本的圖像檢索,即通過對圖像庫圖像進行文本標注的方式以滿足用戶方便地檢索圖像庫中相應主題的圖像需求。直至90 年代,隨著互聯網上人們產生的圖像數據日益增多,基于文本的圖像檢索所需的人工標注量太大,于是產生了基于內容的圖像檢索,即用戶可以檢索現有圖像庫中與用戶查詢圖像相同場景、紋理、顏色分布的圖像。基于內容的圖像檢索一般步驟分為四步,如圖1 所示。第一步:使SIFT、CNN 方法對圖像進行特征抽取;第二步:對于抽取的圖像特征進行聚類,聚類中心抽象為相應的視覺詞匯,形成相應的視覺詞匯表;第三步:對圖像抽取的特征進行索引,產生表示圖像的多維特征向量;第四步:進行圖像間相似度或距離的計算,返回用戶排序好最為相似的檢索圖像列表。這四個步驟中第二、三步屬于可選,主要被基于SIFT 方法的框架所使用。基于內容的圖像檢索根據檢索速度大致分為兩類:基于實值特征的檢索方法和基于二值特征的檢索方法,其中經典的二值特征方法有LSH[3]、DQN[4]、DHN[5]、ITQ[6]等方法。根據抽取特征采用方法大致也分為兩類:基于SIFT 方法抽取圖像特征的檢索方法和基于卷積神經網絡抽取圖像特征的檢索方法,基于SIFT 方法抽取圖像特征的檢索方法自2003 年開始研究,研究成果頗豐,其中經典的方法包括BOVW[7]、VLAD[8]、FV[9]、RootSIFT[10],基于卷積神經網絡抽取圖像特征的檢索方法自2014 年開始研究,研究進度較快,其中經典的方法包括Off the Shelf、MSS[11]、R-MAC[12]、SiaMAC[13]、Deep Retrieval[14]。

圖1 CBIR圖像檢索總體框架[2]
自2013 年后,深度學習為大多數領域的進一步研究提供了新的方向,CBIR 圖像檢索領域也出現了很多基于區域使用深度學習的檢索方法,這些方法抽取卷積神經網絡輸出層作為特征的方式可分為兩類:
(1)抽取全連接層輸出。即抽取CNN 全連接層神經元輸出作為輸入圖像的特征向量。
(2)抽取卷積層輸出。即抽取CNN 卷積部分的卷積層神經元輸出值,該輸出為三階張量,需要轉換為向量,常用的轉換方法公式如下:

式中Ifeat為最終的圖像特征向量,Iconv( )W,H,K 為卷積層輸出張量,由K 個通道,每個通道上的特征圖大小為W×H。
這些方法計算圖像間相似度方式也可分為兩類:
(1)由圖像多區域間相似度計算得到圖像之間的相似度(Region Similarity to Image Similarity)。即由圖像區域特征之間的相似度計算得到圖像之間的相似度,然后根據圖像之間的相似度對檢索圖像進行排序。該類方法為早期研究方法所采用,如Off the Shelf、MSS 等方法。方法公式如下:


(2)由圖像區域特征得到圖像特征再計算圖像間相似度(Region Feature to Image Feature)。即由圖像多區域的特征通過池化的方式處理得到圖像的特征,然后根據圖像特征向量計算得到圖像之間的相似度并對圖像進行排序。典型的方法有R-MAC、MR-MRAC+方法。池化方法公式如下:

式中Ifeat為圖像特征向量,為圖像第j 個區域特征向量,維度均為n 維,m 維圖像提取的區域個數。為圖像特征向量第i 維度數值。func 函數可以為max、sum 等函數,R-MAC、MR R-MAC+[15]方法采用sum 函數。
目前基于多尺度多分辨率方法提取區域的方法假定圖像重要區域可能出現在不同尺度的不同位置上,這些研究以簡單快捷的多分辨率、多尺度方法獲取圖像區域,提取區域后基于圖像區域的特征得到圖像之間的相似度。該類方法主要基于Spatial Search 及其改進方法提取圖像區域,Spatial Search 方法對于輸入圖像,提取L 級不同大小的圖像區域,對于第i 級,提取i× i 個有重疊、相同大小、共同覆蓋輸入圖像的區域。Off the Shelf 方法首次采用Spatial Search 方法提取圖像區域,并使用全連接層輸出作為區域特征、Region Similarity to Image Similarity 方式計算圖像間相似度。MSS方法對Off the Shelf 方法進行改進,將原圖像左右旋轉90 度后的圖像加入提取的圖像區域集合中。并使用卷積層輸出轉化為特征向量作為區域特征、在Region Similarity to Image Similarity 方式中使用與區域面積成正相關的權重。R-MAC 方法對Off the Shelf、MSS 方法進行改進,先提取圖像的CNN 卷積特征Fconv,在卷積特征Fconv(W,H,K)上應用Spatial Search 方法抽取相應區域卷積層輸出轉化為特征向量作為區域特征,并提出Region Feature to Image Feature 方法,降低圖像之間相似度計算的復雜度。MR R-MAC+方法對R-MAC 方法進行改進,將多分辨率概念引入區域提取方法中,同時對Spatial Search 改進以提取不同長寬比圖像的區域。
目前基于Selective Search 提取區域的方法研究不多,Selective Search 方法于2013 年J. R. R. Uijlings 等人提出以檢測圖像中目標區域,該方法假設圖像中各物體存在層級關系,例如勺子在杯子里而被子在桌子上,由圖像分割方法產生小區域并不斷融合區域產生新區域最終得到候選目標區域集合。OLDFP 方法[16]首次采用Selective Search 方法提取圖像中的物體區域集合,并使用全連接層輸出作為區域特征、Region Feature to Image Feature 方式獲取圖像特征向量,其在Region Feature to Image Feature 方式中使用max 函數進行池化。方法提取的特征具有抗圖像中物體的空間位置變換、幾何變換等性質。
目前基于RPN 網絡提取區域的方法借助網絡模型融合預測圖像目標區域位置與目標區域類別兩個模塊于一個模型中。基于一個模型改進可以完成區域提取、區域特征提取、區域特征聚合生成圖像特征多個功能。Amaia Salvador 首次提出將Faster R-CNN 網絡模型應用于CBIR 圖像檢索的方法[17],方法針對Faster RCNN 網絡模型提出了兩種特征池化的策略:圖像級激活層池化和區域級激活層池化。圖像級激活層池化應用于初始檢索階段,區域級激活層池化應用于空間重排序階段。方法使用Faster R-CNN 模型在圖像檢索數據集上進行遷移學習,便于網絡抽取更具有表征能力的圖像特征,并嘗試只更新分類分支的全連接層權重和整個網絡中除前兩層卷積層后的所有網絡層權重兩種方式,實驗對比說明后者效果明顯優于前者。由于R-MAC 方法中提取的區域未能完整包含物體,Albert Gordo 等人對R-MAC 方法改進提出了Deep Retrieval 方法,方法包含學習R-MAC 方法池化機制的過程,并用RPN 網絡解決了R-MAC 方法中提取區域未能完整包含物體的問題。在方法中使用三元排序損失的孿生神經網絡對修改的網絡模型進行參數調優,提升模型抽取的圖像特征表示能力。其提出的方法中訓練、特征抽取階段如圖2 所示。

圖2 Deep Retrieval方法中訓練、特征抽取流程[14]
2017 年Albert Gordo 等人對Deep Retrieval 方法改進[18],引入了多分辨率,建立了一個端到端圖像特征抽取模型,模型在更大的Landmarks 數據集上遷移學習,效果達到了此前的state-of-art 水平。
基于多尺度多分辨率方法提取區域的方法基于規則提取圖像區域,提取的每個區域不一定能剛好覆蓋圖像中物體,但該類型的方法具有易于實現、效果較好、可遷移、后續改進方法檢索速度快等特點。基于Selective Search 方法提取區域的方法為使用RPN 網絡作為提取區域方法前的過渡階段,Selective Search 方法在輸入圖像過大時運行時間過長,但Selective Search 方法基于紋理、顏色等因素融合現有區域產生目標區域的方式更適用于自然界中拍攝的圖像,其包含的物體各種各樣,很難用RPN 網絡遷移學習解決。基于RPN 網絡提取區域的方法目前在圖像檢索公開數據集的檢索精度達到state-of-art 水平,對于特定圖像庫進行遷移學習后效果顯著,但是需要對圖像庫中圖像的物體區域信息進行標注,較為耗時耗力。歸納的檢索方法在各公開圖像檢索數據集上的檢索性能對例如表1 所示。

表1 歸納方法在公開檢索數據集上精度:其中Ukbench數據集為p@4 指標、其余數據集為MAP 指標
基于區域的CBIR 圖像檢索方法自卷積神經網絡快速發展后引領著圖像檢索領域的研究熱潮,其研究成果頗豐。近年來,不少研究方法在傳統圖像檢索公開數據集精度已非常高,使用查詢擴展、空間重排序等策略后,效果進一步提升。圖像檢索開始涉足細粒度、多標簽、醫學等領域,如2018 年Zheng Zhang 等人對多標簽圖像檢索提出的IDSH 二值特征學習方法[19]、2019年Narayan Hegde 等人對于醫學HE 細胞染色圖像提出的SMILY 方法[20]。結合新領域的圖像檢索將會遇到新領域未知的檢索挑戰,解決新領域新的挑戰將成為圖像檢索新的研究熱潮。