方潛生,李 惠,蘇亮亮,楊亞龍
(1. 安徽建筑大學智能建筑與建筑節(jié)能安徽省重點實驗室,安徽 合肥 230601;2. 安徽省建設領域碳達峰碳中和戰(zhàn)略研究院,安徽 合肥 230601;3. 安徽建筑大學電子與信息工程學院,安徽 合肥 230022)
當前基于內容的圖像檢索技術(Content-Based Image Retrieval,CBIR)[1]已得到廣泛的研究,然而絕大部分都是基于圖像搜索圖像,而現(xiàn)實中卻存在待檢索的圖像示例不容易獲取或者不存在,導致不能實現(xiàn)圖像的查找與檢索,于是手繪草圖[2]作為一種能夠直觀表達用戶檢索意圖的輸入模態(tài),可以有效彌補缺少待檢索圖像的不足,并且伴隨著觸摸屏等電子設備的普及,使得手繪草圖的繪制也變得更加簡單、便捷。由此導致基于草圖的圖像檢索技術(Sketch-Based Image Retrieval,SBIR)[3]逐漸成為了計算機視覺領域的研究熱點。
目前的SBIR研究可以劃分為兩大類,一類是基于手工特征設計的SBIR研究。手工特征包括顏色、紋理、形狀、梯度等,能夠有效刻畫邊緣輪廓信息,且相對簡單。例如常見的邊緣關系直方圖(Edge Relation Histogram,ERH)[4]、尺度不變性特征(Scale Invariant Feature Transform,SIFT)[5]、局部二值模式(Local Binary Pattern,LBP)[6]、以及方向梯度直方圖(Histogramof Gradient,HOG)[7]、視覺詞袋模型(Bag of Visual Word,BoVW)[8]等。其優(yōu)點是目的明確、解釋性強以及效率高,不足在于需要根據數(shù)據特點進行設計。另一類是基于深度特征的SBIR研究,即以深度網絡為基礎來進行特征學習,如AlexNet[9]、VGG[10]、GoogleNet[11]等,這類方法往往能夠獲得更加接近語義層面的特征表示,然而前提是需要大量數(shù)據進行訓練以支撐其復雜的網絡模型。
綜合考慮上述兩類方法的優(yōu)勢,并結合手繪草圖線條輪廓豐富與語義較抽象的特點,本文分別選取HOG特征和AlexNet網絡,擬將傳統(tǒng)手工特征與深度特征進行融合提出了基于HOG與深度特征融合的草圖檢索方法,通過在公開數(shù)據集上與其它方法的實驗對比,其結果顯示了本文方法的有效性,同時本文方法同樣可以擴展到其它手工特征與不同深度特征的融合。
邊緣檢測是草圖-圖像檢索的基礎,能否從復雜的自然圖像中獲取有效的邊緣圖像對草圖檢索的結果有著重要影響。邊緣檢測的目的是找到圖像中亮度變化明顯的點的集合。常用的邊緣檢測方法有Canny[12]、Sobel[13]等。
自然圖像經過單純的邊緣檢測后得到的仍然是充滿冗雜信息的邊緣圖像。為了解決這個問題,本文采用多尺度[14]的Canny算子。使用比例為0.5的因子對圖像進行下采樣,迭代進行,最后得到圖像的尺寸大小約為200×200像素,并提取每個尺度下圖像的邊緣圖。整個過程迭代多次后停止。經過本文多次實驗,發(fā)現(xiàn)保存第三尺度的邊緣圖可以達到邊緣信息的有效保留。圖1為整個下采樣邊緣提取過程。從圖中可以看出,相對于原始圖像的邊緣圖,第三尺度下邊緣圖中的噪聲信息顯著降低。

圖1 自然圖像及其多尺度邊緣圖

圖2 深度特征提取示意圖
在一副圖像中,局部目標的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。HOG作為一種在計算機視覺領域以及圖像處理中用來進行物體檢測的特征描述子,正是通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構成特征,是草圖檢索最原始且最具有代表性的特征之一。與其它的特征描述方法相比,HOG特征對于幾何和光學等的形變都具有很好的魯棒性,能夠克服梯度特征的少量偏移和局部變形的影響。HOG特征提取算法的具體實現(xiàn)過程如下:
1)將目標圖像M(x, y)灰度化并且歸一化。首先將目標圖像轉化成灰度圖,其次采用gamma校正法對輸入圖像進行歸一化,處理后可以有效地降低圖像局部的陰影和光照變化所造成的影響,以及減少噪聲的干擾。其中gamma通常取值為0.5。
M′(x,y)=(M(x,y)/255)gamma,gamma∈(0,1)
(1)
2)計算圖像中每個像素的梯度。分別由式(2)、式(3)計算出每個像素的梯度大小G(x,y)和方向θ(x,y)。其中,Gx(x,y)表示水平方向梯度,Gy(x,y)表示垂直方向梯度。

(2)

(3)
3)統(tǒng)計每個胞元(cell)的梯度方向直方圖。將檢測窗口劃分為多個cell,再將每個cell的梯度方向共360°平均分成9個方向塊(bin),接著對cell內每個像素用梯度方向在直方圖上加權投影,得到每個cell的梯度方向直方圖。
4)生成圖像塊(block)特征描述符。將若干cell合成一個block,并將block內所有cell的梯度方向直方圖進行歸一化串聯(lián)處理,生成該block的特征描述符。
5)生成HOG特征描述符。將圖像作為滑動窗在檢測窗口進行掃描,滑動步長為一個cell,則一個cell的特征會以不同結果出現(xiàn)在若干block中。最后將檢測窗口所有block特征描述符串聯(lián),從而即可得到該圖像的HOG特征描述符。
卷積神經網絡(convolutional neural network,CNN)[15]是由多層感知機演變而來的一種網絡模型。自2012年AlexNet[9]被提出以來,基于CNN的深度學習技術開始應用于圖像檢索領域,且逐漸成為解決相關問題的主流方法。不同于傳統(tǒng)手工設計特征的提取需要層層設計,CNN網絡提取的深度特征能夠根據特定的任務自動對手繪草圖與自然圖像分別進行低、中、高多層次的深度特征學習[16,17],并且網絡的深度和廣度都可以進行自主調整,彌補了傳統(tǒng)方法的不足。
基于CNN提取的深度特征主要分為兩類:深度全局特征與深度卷積特征。
深度全局特征具有向量化,便于提取與相似性計算等特點,同時包含了圖像更高層次的語義信息;而深度卷積特征更關注圖像的細節(jié)信息,結構復雜。考慮草圖信息較少,因此選用深度全局特征作為圖像的深度特征。
傳統(tǒng)的手工特征具有明確的設計目的,能夠有效刻畫圖像特定方面的信息,并且計算速度快;而基于神經網絡的深度特征具有更好的語義信息,對圖像形變和旋轉不敏感。于是結合兩類特征的優(yōu)勢,同時考慮到手繪草圖線條輪廓豐富與語義較抽象的特點,嘗試將傳統(tǒng)手工特征HOG與基于AlexNet網絡的深度特征進行融合后形成新的特征表示,再進行相似性檢索。圖3給出了本文方法實現(xiàn)草圖-圖像檢索整體流程。

圖3 基于HOG與深度特征融合的草圖檢索流程
具體步驟如下:
①預處理。首先獲取數(shù)據集中所有自然圖像多尺度下的Canny邊緣圖,并保存第三尺度下的邊緣圖;對于數(shù)據集中的手繪草圖進行下采樣,保存第三尺度下的草圖。相較于自然圖像,草圖省略了邊緣提取這一步驟。
②特征提取。先提取HOG特征。分別提取第三尺度下邊緣圖的HOG特征Fi1以及手繪草圖的HOG特征Fs1。提取深度特征。首先按照9:1的比例將預處理后的邊緣圖劃分為訓練集與驗證集對AlexNet網絡進行訓練,保存參數(shù)。接著在訓練好的網絡中分別提取第三尺度下邊緣圖的深度特征Fi2以及手繪草圖的深度特征Fs2。
③特征融合。將HOG特征F1與深度特征F2級聯(lián)融合成新的特征表示。形成最終圖像的特征向量Fi與手繪草圖的特征向量Fs。
④相似性度量。分別計算出手繪草圖的特征向量Fs與數(shù)據集中所有圖像的特征向量Fi之間的余弦距離,按照從大到小的順序排列輸出。
本次實驗采用Flickr15k公開數(shù)據集[18]與TU-Berlin公開數(shù)據集。
其中Flickr15k數(shù)據集由Hu等人構建,是草圖檢索任務的常用數(shù)據集之一,其中包含BigBen、Bird、Sydney Opera等33個類別共10244張圖像。由于數(shù)據集中每個類別圖像的數(shù)量不一,從最少的Horse類21張,到最多的Eiffeltower類1607張,并且各類別圖像的復雜程度也不盡相同,由此導致Flickr15k數(shù)據集極具挑戰(zhàn)性。此外,該數(shù)據集的查詢草圖包含與之對應的33個類別,每類10張,分別由10位非專業(yè)人員繪制,因此查詢草圖缺乏專業(yè)相關水平和細節(jié),且各查詢草圖之間具有很大差異。如圖4所示為Flickr15k數(shù)據集中部分類別圖像與查詢草圖示例。

圖4 Flickr15k數(shù)據集中不同類別圖像與對應不同繪圖者的手繪草圖示例
不同于Flickr15k數(shù)據集,TU-Berlin數(shù)據集為草圖數(shù)據集,其中總共包含250類,每類80張1111×1111大小的手繪草圖。
為了驗證本文方法的有效性,本文選取了基于Canny邊緣提取的草圖檢索[19],基于Canny邊緣提取與HOG特征的草圖檢索[20],基于AlexNet深度特征的草圖檢索[9]和基于VGG16深度特征[10]的草圖檢索,共4種方法作為對比,分別簡記為Canny、Canny+HOG、AlexNet和VGG16,實驗發(fā)現(xiàn)基于VGG16網絡的草圖檢索效果反而沒有基于AlexNet的草圖檢索效果好。因此采用基于HOG與AlexNet深度特征融合的草圖檢索方法,記為AlexNet+HOG。
將以上五種算法首先在Flickr15k數(shù)據集上進行實驗。本次實驗采用P-R曲線與各圖像類別的平均檢索精度(mean Average Precision, mAP)以及所有類別的mAP值作為評價標準。實驗中,將數(shù)據集按照9:1的比例進行分割。深度網絡模型在訓練集完成訓練并收斂之后,再在測試集上進行測試,從而獲得模型的檢索精度。如圖5為AlexNet網絡模型在訓練過程中損失函數(shù)值變化情況,由圖6可知,大約在140次迭代后,趨于收斂。

圖5 TU-Berlin數(shù)據集中不同類別草圖示例

圖6 損失函數(shù)值變化圖
選取背景較為簡單的Moon圖像類別以及背景較為復雜的Eiffeltower圖像類別,通過比較這兩種特定圖像類別的P-R曲線,來對五種算法進行對比。如圖7所示為P-R曲線。

圖7 P-R曲線
通過圖7可以發(fā)現(xiàn),無論是對于背景較為簡單的Moon圖像類別,還是對于背景較為復雜的Eiffeltower圖像類別,與其它4種算法相比,AlexNet+HOG算法(本文方法)的檢索效果都是最好的。
為了進一步比較不同算法在實現(xiàn)SBIR任務上的結果差異,隨后在Flickr15k數(shù)據庫上進行了全部33個圖像類別的SBIR實驗并給出了所有類別的mAP值,其結果如表1所示。圖8用折線圖更加直觀的顯示了實驗結果。

圖8 不同算法在Flickr15k所有圖像類別上草圖檢索的mAP值
通過圖7可以發(fā)現(xiàn),無論是對于背景較為簡單的Moon圖像類別,還是對于背景較為復雜的Eiffeltower圖像類別,與其它4種算法相比,AlexNet+HOG算法(本文方法)的檢索效果都是最好的。
為了進一步比較不同算法在實現(xiàn)SBIR任務上的結果差異,隨后在Flickr15k數(shù)據庫上進行了全部33個圖像類別的SBIR實驗并給出了所有類別的mAP值,其結果如表1所示。圖8用折線圖更加直觀的顯示了實驗結果。
從表1和圖8中可以更加直觀的說明AlexNet+HOG算法的檢索效果優(yōu)于其它四種算法。為了驗證該結論,在TU-Berlin數(shù)據庫上繼續(xù)基于五類算法的SBIR實驗,實驗結果如表2所示。

表2 不同算法在TU-Berlin數(shù)據集上的mAP值
由表2也驗證了本文方法最優(yōu)。由此得出如下結論:相較于其它幾類單一特征提取算法,Alexnet+HOG算法使得整個圖像類別的mAP值有所提升,檢索效果最好。另外,層數(shù)更深的VGG16網絡反而沒有AlexNet對草圖的檢索效果好。考慮可能是由于手繪草圖的隨意性、高抽象性以及信息量較少的原因,深層次的網絡更適合于色彩信息豐富的自然圖像檢索。并且,由于數(shù)據集中,各個類別的圖像數(shù)量不一,對于數(shù)量過少的類別或沒有顯著特征的類別,由于訓練樣本過少,無法得到好的檢索結果,需要通過多種方法增加數(shù)據量。
本文嘗試一種新的草圖-圖像檢索算法,將傳統(tǒng)手工特征HOG與基于AlexNet的深度特征進行融合,形成新的特征表示,再進行相似性檢索。該方法不僅具有傳統(tǒng)手工特征的優(yōu)點,能夠克服圖像中光線因素的影響,另一方面也綜合了深度學習的優(yōu)點,對圖像形變和旋轉不敏感,并且能夠學習到更好的語義信息。通過將兩種方法得到的特征進行融合,使得草圖檢索的性能得到了提高。在公開的數(shù)據集上進行對比實驗,結果顯示,本文方法優(yōu)于使用單一特征的檢索方法,證明了本文方法的可行性和有效性。下一步工作考慮契合草圖應用的具體場景,如建筑設計、城市安防、公安偵查等,進一步優(yōu)化特征提取與融合策略,將融合深度特征與優(yōu)秀的手工特征的思想延伸到這些領域,提供新的解決途徑和方法。