石力



摘要:近些年來,圖像識別技術發展迅速,識別精度越來越高,應用領域也越來越廣。但是傳統算法在大規模復雜場景的識別效率和準確度不高,尤其當場景中有大型建筑物時,由于建筑物復雜的結構以及戶外環境如天氣、光照、遮擋等因素,特征點多而雜,分布不均勻,難以獲取正確的特征信息。文章應用了AKAZE算法來進行戶外場景識別,并構建了基于詞匯樹的海量圖像識別框架。實驗證明,該識別框架在戶外建筑場景中識別準確度和識別效率較高。
關鍵詞:AKAZE;戶外建筑場景識別;詞匯樹算法
1 AKAZE特征提取算法
傳統的SIFT,SURF及ORB算法等都是犧牲了局部精度,使用線性高斯金字塔構建圖像尺度空間來提取穩定的特征點,造成的精度損失會影響圖像的魯棒性。2012年,Alcantarilla等[1]提出了 KAZE算法,采用非線性尺度分解來提取特征。2013年9月,該作者提出了改進的AKAZE算法[2],該算法使用FED算法代替KAZE的AOS算法求解非線性擴散濾波,并且基于新的M-LDB描述符,相比KAZE算法計算速度有了很大提高。
1.1 非線性擴散濾波
基于線性高斯金字塔進行尺度分解會發生高斯模糊,高斯模糊在過濾圖像噪聲的同時過濾掉了邊緣紋理信息,造成邊界模糊和圖像細節缺失。相較而言,非線性擴散濾波算法能夠在過濾圖像噪聲的同時,保留相對重要的邊界細節信息。而AKAZE算法就是通過非線性擴散濾波算法構建非線性尺度空間,保證了算法的準確性。
FED算法的核心思想是對n個顯示擴散過程采用改變步長τj的方式進行M步的循環,求解擴散方程。如式(1):
FED算法是將非線性擴散方程的數值迭代分成了若干循環進行計算,替代了每步的求逆運算。相較于AOS算法,提高了計算效率,同時使算法結果更加穩定。
1.2 構建非線性尺度空間
AKAZE算法構建的非線性尺度空間,所有共有O組,每組S層,其尺度層級按對數增長呈三角狀,與SIFT和SURF算法構建的線性尺度空間類似。不同的是,AKAZE構造的尺度空間,每層圖像的分辨率等同于原始圖像。每層的尺度參數計算公式如式(3):
將σi轉化為時間單位,以表示尺度參數,可得映射公式如式(4):
FED算法將利用得到的進化時間、對比度參數以及時間步長構建非線性尺度空間。
1.3 特征點檢測及描述
AKAZE算法在傳統二值描述子的基礎上,提出了改進的局部差分二值描述子,即M-LDB描述子。M-LDB把圖像劃分成n×n個網格單元,計算每個網格單元的一階梯度和灰度,獲取網格單元內部如邊緣大小和方向等信息,然后進行二值化處理構建出二值描述向量。
AKAZE算法尋找各個尺度下Hessian局部極大值點來獲取穩定的興趣點。當前尺度下Li利用Hessian矩陣檢測方法如式(5):
LDB描述子需要通過中心像素點其鄰域的灰度值來確定主方向,重新計算積分圖像,這增加了計算復雜度和時間消耗。而M-LDB描述子不再計算網格內所有像素的平均值,而是以尺度σ進行采樣,以部分點進行近似的二值描述,使描述子具有尺度變化的穩健性。同時將特征點檢測過程中計算的方向導數用于描述階段的計算,大大減少了計算量。
2 戶外建筑場景識別
傳統的暴力識別法是在線下提取訓練集圖像特征并存儲,當進行實時識別時,首先獲取真實場景的實時圖像幀,在線提取特征,與訓練集圖像特征進行逐一匹配,選取匹配度最高的圖像返回為識別結果。實時幀提取的特征需要與訓練集所有特征進行匹配,耗時較長。本文選取AKAZE算法對訓練集和實時幀進行特征提取,使用基于詞匯樹的圖像檢索技術[3]代替暴力圖像特征匹配,構成適用于海量戶外建筑場景識別模塊的關鍵技術框架。
2.1 離線訓練
2.1.1 詞匯樹構建
訓練集中所有圖像的特征向量構成特征向量集合F={fi},特征向量集合中每一個特征向量對應圖像ID的集合為imageld={pi},表示特征向量fi屬于ID為pi的圖像。
繼而對特征向量集合F進行分層聚類,本文采用K-Means聚類算法,設定分支因子A:,首先將原始特征集合進行第一層K-Means聚類,得到k個簇,每一個特征向量分別被劃分到聚類最近的簇中,每一個簇是第一層的個節點,將該k個簇分別再進行K-Means聚類,可以得到k×k個新簇。按照上述規則,對每一個簇不斷的進行K-Means聚類,直到樹的深度達到預先規定的L層。每個新簇中特征向量個數小于時便不再進行聚類。此時整棵詞匯樹的節點總數為式(6):
2.1.2 圖像向量
詞頻-逆文件頻率(Termfre Quency-Inverse DocumentFrequency, TF-IDF)[4]是一種常用的加權計算方法,TF的基本思想是:若某詞匯在一篇文檔中出現頻率高,同時在其他文檔中出現頻率較低,則能夠較好地表征該篇文檔的內容,同時具有很好的分類功能;逆文檔頻率(Inverse Document Frequency,IDF)思想主要是若某詞匯在少數文檔中出現,則表明該詞匯有較好的分類能力。
詞頻(Term Frequency,TF)為給定詞匯ti在文檔dj中出現的頻率,表示為式(7):
其中,ni,j是給定詞匯在查詢文檔中出現的次數,分母為查詢文檔中所有詞匯出現的頻率之和,因此若給定詞匯在查詢文檔中出現的次數越多,貝瞭示它在文檔中的重要性就越高。
另一個重要的參數——IDF表示給定詞匯ti在整個查詢文檔集中的重要程度,可表示為式(8):
利用詞頻向量表示文檔,向量的不同分量代表詞匯,分量數值為該詞匯在文檔中出現的頻率,由于不同詞匯在文檔中權重不同,表現在向量中即權值詞頻向量。因此,對于給定的詞匯ti,在當前查詢文檔dj中的權重可以量化。
2.2 在線識別
將帶查詢圖像q和訓練集中圖像d用權值詞頻向量表示,則二者的相似度可以歸一化表示為式(9):
假設參數服從高斯分布,為了防止模型迎合訓練集而過于復雜造成過擬合的情況,提高模型的泛化能力,采用L-2范數簡化為式(10):
式(10)將圖像間的相似性度量轉化為特征向量上對應維度上非零元素的累計求和,加快了計算速度。在詞匯樹中表現為比較兩幅圖像自上而下的相似程度。
最后對西安建筑科技大學南門的識別結果,訓練集圖像規模為300張,輸入了30張對南門從不同角度、尺度、光照下拍攝的圖像。其中一張測試圖像的結果集返回了前4個匹配結果,當前圖像匹配度從高到低分別為98.56%,95.88%,52.41%,51.71%,成功返回了匹配到的結果集,識別時間平均約為123.7 ms,成功識別到28張,成功率約為93.3%。
3 結語
本文介紹了AKAZE特征提取算法,提出使用AKAZE算法完成戶外建筑場景識別中圖像特征的提取和描述。并基于詞匯樹算法提出了適應于海量圖像識別的算法技術框架,包括服務器端離線訓練工作和在線圖像識別方法。實驗部分,利用該識別框架進行了戶外建筑場景識別實驗,取得了較為理想的實驗效果。
[參考文獻]
[1]ALCANTARILLA P F, BARTOLIA, DAVISON A J.KAZE features[C].Berlin:European Conference on Computer Vision, 2012:214-227.
[2]ALCANTARILLA P, NUEVO J, BARTOLI A.Fast explicit diffusion for accelerated features in nonlinear scale spaces[C].Bristol:British Machine Vision Conference, 2013.
[3]佘曼桂.基于詞匯樹檢索的智能手機圖書感知系統[D].北京:北京郵電大學,2013.
[4]趙小華.KNN文本分類中特征詞權重算法的研究[D].太原:太原理工大學,2010.