葉 濤
(新鄉(xiāng)學院 計算機與信息工程學院,河南 新鄉(xiāng) 453000)
淺析基于空間信息的視覺注意模型
葉 濤
(新鄉(xiāng)學院 計算機與信息工程學院,河南 新鄉(xiāng) 453000)
近幾年,基于頻譜變化的視覺顯著性檢測模型逐漸成為研究熱點,大多數頻域視覺注意模型的主要思想通常是利用離散傅里葉變換或離散余弦變換等方法把圖像從空間域變換到頻譜域,然后通過對頻域內的相位譜、幅度譜等信息進行分析和處理,提取顯著信息,最后再通過逆變換到空間域并進行后續(xù)處理得到最終的顯著圖。
空間信息;視覺注意;顯著性檢測
在圖像壓縮領域,傳統(tǒng)方法一般都是把輸入圖像切分成小圖塊,然后不加區(qū)分地對所有圖塊采用一種變換機制進行編碼,這樣做沒有充分利用人眼的視知覺特性。相關研究表明,人眼對圖像進行非均勻采樣,同時人眼以高分辨率處理關注區(qū)域,以較低分辨率處理非關注區(qū)域。因此可以通過構建視覺注意模型來預測人眼關注區(qū)域,然后分別對關注區(qū)域和非關注區(qū)域采用不同壓縮比方案,盡可能保留關注區(qū)域的圖像信息。此外,視覺注意機制的相關研究對其他一些實際應用如汽車導航、廣告設計等也有著借鑒價值。在視頻監(jiān)控、自主駕駛、數字媒體庫中的信息檢索以及醫(yī)學圖像分析時,如果采用選擇性視覺注意的方法,便可以在海量數據中高效地找到有用的信息。因此,在神經科學、認知科學和計算機工程等領域,視覺注意形成機制的探索和視覺注意計算模型的設計已經成為目前國內外的研究熱點。
2.1 聯(lián)合頻域分析與空間信息的視覺注意模型研究
為了提高頻域視覺注意模型的生物可信性和有效性,在綜合分析現(xiàn)有模型的基礎上,提出一種具有生物可信性的改進的超復數傅里葉變換視覺注意模型。為了驗證和評估提出的改進模型的性能,在相關數據集上對其進行了大量實驗,并將改進的模型應用到了圖像檢索中。本研究主要從以下4個方面對HFT進行改進:
(1)四元數實部系數的選擇;(2)四元數虛部系數的選擇;(3)如何濾除重復圖案對應的幅度譜;(4)如何利用廢棄的顯著圖選擇出最優(yōu)顯著圖。
2.2 基于卷積神經網絡的圖像檢索
深度學習提出了一種讓計算機自動學習出模式特征的方法,并將特征學習融入到了建立模型的過程中,從而減少了人為設計特征造成的不完備性。在卷積神經網絡中,圖像的一小部分(局部感受區(qū)域)作為層級結構的最低層的輸入,信息再依次傳輸到不同的層,每層通過一個數字濾波器去獲得觀測數據的最顯著的特征。這個方法能夠獲取對平移、縮放和旋轉不變的觀測數據的顯著特征,因為圖像的局部感受區(qū)域允許神經元或者處理單元可以訪問到最基礎的特征,例如定向邊緣或者角點。本研究嘗試將其應用于圖像檢索中,在顯著區(qū)域的提取基礎上,提出一個基于視覺顯著性的深度學習圖像檢索方法。基本思路是:首先,提取前面所述的融合頻域分析和空間信息的顯著性檢測的顯著區(qū)域;之后,利用卷積神經網絡對該區(qū)域進行特征提取;最后,利用相似性度量得到檢索結果。
3.1 四元數實部的選擇
傳統(tǒng)的特征提取方法是將多個底層特征提取之后,只進行簡單的融合,使不同特征反映的目標信息重新被掩蓋到單一的標量顯著性中,導致區(qū)分度不夠。而本研究擬將標量顯著性轉化為四元數顯著性,這樣能夠避免簡單的線性融合中信息的遺失,完整保留不同特征所表示的圖像信息。初級視覺皮層細胞對特定方向的刺激有著強烈的反應。而二維濾波器非常適合表示這種反應。二維Gabor濾波器是一種用于檢測邊緣的線性濾波器。本項目擬選取4個最有代表性的方向:0,45,90,135,這樣就構造出4個Gabor濾波器,分別對輸入的自然圖像濾波,就得到了4個方向的方向特征圖。然后將自然圖像的方向和亮度特征值進行多尺度中心—邊緣操作,這樣得到各自的特征值。將兩個特征值線性融合,就得到了四元數顯著性的實部系數A。
3.2 四元數虛部的選擇
目前存在的四元數頻域分析模型中,都是將顏色簡單的定義為RG和BY兩種模型。RGB色彩模式是工業(yè)界的一種顏色標準,是通過對紅(R)、綠(G)、藍(B)3個顏色通道的變化以及它們相互之間的疊加來得到各式各樣的顏色,RGB即是代表紅、綠、藍3個通道的顏色。RGB的設計主要是用于顯示輸出的,和人的視覺感知并不接近。而HSV顏色空間的色域較寬闊,設計的目的是為了更好地接近人類視覺,致力于感知的均勻性。因此,首先在HSV顏色空間上對HFT改進,并且采用改進的H,S,V 3種顏色分量作為四元數的3個虛部系數。
3.3 如何最大限度地去除冗余信息,保留關鍵信息
某種模式出現(xiàn)的次數越多,其幅度譜就越集中在某些頻率上,而呈現(xiàn)出尖峰的形狀。因此,若圖像的背景是重復出現(xiàn)的冗余信息,那么相比于顯著目標,圖像的背景所對應的幅度譜的譜峰應該更加尖銳。幅度譜的峰值對應于重復圖案,而這些圖案應該被顯著檢測抑制。因此,在幅度譜中抑制冗余背景可以從去除幅度譜譜峰角度考慮。
3.4 最終顯著圖的計算方法
HFT方法直接選用熵值最小的候選顯著圖作為最優(yōu)顯著圖。然而,在實驗中發(fā)現(xiàn),一些被淘汰的候選顯著圖中含有重要的顯著信息,不能直接被廢棄。標準差反映了空間聚集程度。如果顯著圖的顯著區(qū)域非常集中,就會接近平均中心,此時標準差較小;如果顯著圖包含大片的背景區(qū)域,注意背景是分布在圖像中所有區(qū)域中,此時標準差較大。因此,計算k個顯著圖的標準差,根據一定準則選擇一些小于某個閾值的顯著圖作為候選顯著圖。然后利用對比函數得到最優(yōu)的顯著圖。
本研究在經過中值濾波得到的尺度空間分析后,得到k個顯著圖,此時引入空間標準差σk。標準差是一個能夠反映出空間分布的聚集度,可以認為一個好的顯著圖應該有較小的方差。計算k個顯著圖的標準差,若最小標準差為σmin,那么我們選取那些小于ασmin的顯著圖作為候選顯著圖。然后對比函數選擇最優(yōu)的顯著圖。這樣更加客觀地利用所有可能的顯著信息來選擇最優(yōu)顯著圖。
為提高復雜背景的自然圖像的檢索性能,本研究采用深度學習中的卷積神經網絡方法在顯著區(qū)域提取的基礎之上進行特征提取,并采用相似性度量得到相似性結果。這樣避免了人工提取特征的不完備性,同時減少了計算復雜度和提高效率。本研究擬采用不同大小的中值濾波器分別進行濾波,然后從得到的結果中選擇一個最佳的結果。濾波器的尺寸設置是由圖像尺寸決定的。如何選擇最合適的值,能夠充分利用廢棄顯著圖中的信息。目前對于網絡層數與隱層節(jié)點的選取并沒有統(tǒng)一的標準,一般情況下,是根據經驗或者通過訓練學習之后,根據重構誤差和訓練速度綜合比較之后再選擇。
[1]WEN Z K, DU Y H, WU H S, et al. The research of visual attention mechanism model fuse multi-feature[C]. Multisensory Fusion and Information Integration for Intelligent Systems (MFI), 2014 International Conference on IEEE, 2014(10):1-7.
[2]HOU B, YANG W, WANG S, et al. SAR image ship detection based on visual attention model[C]. Geosciences and Remote Sensing Symposium (IGARSS), 2013 IEEE International IEEE, 2013:2003-2006.
[3]ZHANG J W, LIAN M C, Wang W P, et al. Detection of abnormal nuclei in cervical smear images based on visual attention model[C]// Machine Learning and Cybernetics (ICMLC), 2013 International Conference on IEEE, 2013:920-924.
[4]ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. Pattern Analysis and Machine Intelligence, 2015(11):1254–1259, 1998.
[5]ACHANTA R, Estrada F, Wils P, et al. S¨usstrunk. Salient region detection and segmentation[C]. International Conference on Computer Vision Systems, 2008.
[6]HOU, X D, ZHANG, L Q. Saliency detection: a spectral residual approach[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2007: 1-8.
[7]GUO C, ZHANG L. A novel multi-resolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010(1):185-198.
An analysis of visual attention model based on spatial information
Ye Tao
(Computer and Information Engineering College of Xinxiang University, Xinxiang 453000, China)
In recent years, the visual saliency detection model based on frequency domain of spectral change has become a hot research topic, most visual attention is usually the main thought of the model using discrete Fourier transform or discrete cosine transform method to image from the spatial domain to the frequency domain, then through analysis and processing of phase of frequency spectrum, amplitude spectrum and other information, extract significant information, and then through the inverse transform to the spatial domain and subsequent processing to get the final saliency map.
spatial information; visual attention; saliency detection
葉濤(1979— ),男,河南新鄉(xiāng),本科,講師。