劉 瓊 秦世引
(北京航空航天大學 自動化科學與電氣工程學院,北京100191)
隨著計算機科學和認知科學的交叉發展,基于人類視覺生理機制實現計算機視覺并應用于目標檢測逐漸成為一個活躍的研究分支[1-4].心理學對人類視覺生理機制的研究發現,包含新異刺激、較強刺激和人所期待刺激的場景區域最容易引起觀察者的研究注意[5].目前絕大部分的視覺注意計算模型都針對前兩種刺激來源開展研究,即通過視覺顯著性度量尋找感興趣區域[6-7].很顯然,與前述兩種刺激引發的注意機制不同,目標檢測是源于高層知識驅動的視覺行為,這種刺激可以處于圖像中的任意非顯著位置,因此簡單地將已有的視覺注意計算模型應用于目標檢測時,將會產生大量無關的視點轉移而浪費時間,甚至漏檢.
從人腦的認知原理可知:即使在復雜的場景下,人眼也可以辨識出目標位置.人腦可以根據經驗預測目標大致區域后再進行細致的搜索,因此由粗到精是人眼檢測目標的常用檢測模式.針對現有的視覺注意計算模型應用于目標檢測的不足,并受人類視覺系統檢測目標的行為方式所啟發,本文提出了一種基于決策規則的目標區域預測方法,并對Itti-Koch視覺注意計算模型進行了改進,進而將兩者結合起來,以實現快速精確的目標檢測.
根據大腦中存有的先驗知識進行區域預測,并逐漸聚焦注意力是人類視覺系統執行目標檢測任務之前的潛意識行為[8].在實現計算機目標檢測算法時,采用類似的由粗到精的目標檢測模式,可以縮小檢測范圍,提高檢測速度[9].本文通過將圖像從上往下依次劃分為Ah,Am,Al3個水平子區域,并計算各子區域的方向特征灰度比率和區域信息熵特征,作為預測目標區域的依據.
水平和垂直方向特征是行人的典型特征,尤其在遠距離拍攝的情況下,其步態對水平和垂直方向特征的干擾可以忽略不計.因而,提取圖像的水平和垂直方向特征圖,綜合比較特征圖中各子區域的灰度比率值,可以將天空、地面、車輛等具有典型水平方向特征的物體與行人初步分辨.Gabor濾波器模擬人眼視網膜細胞對方向信息的感知特性,在提取方向特征中得到了廣泛地應用[10].本文采用Gabor濾波器提取水平和垂直方向特征圖后,根據式(1)計算各子區域的灰度比率特征值作為有效預測目標區域的第1類特征.

其中,r(x)為x子區域在原圖方向特征圖中的灰度比率特征值;g(xij)為x子區域中(i,j)處的像素灰度值;g(OFMkl)為原圖方向特征圖中(k,l)處的像素灰度值.
由于場景中建筑物的出現頻率高且同樣具有典型的垂直和水平方向特征,因而根據單一的方向特征無法有效地預測目標區域.通過對比發現:當區域中主要內容為建筑物時,其紋理豐富導致灰度分布比較均勻,信息熵較大;反之當區域中主要內容為行人時,其灰度的分布比較集中,且信息熵較小.因此,本文選擇區域信息熵作為有效預測目標區域的第2類特征.信息熵的計算式為

其中,pi為子區域256維灰度直方圖中各個維度上的像素個數占該區域總像素個數的比率.
通過對街道戶外場景圖像提取相應特征,并分析3個子區域的兩類特征屬性值的大小關系,如圖1所示,可建立表1中的預測規則集,表中|d|代表原圖任意兩個子區域的熵差.

圖1 3個水平子區域圖像及其對應的3種特征屬性值

表1 目標區域預測的規則集合
本文在預測過程中采用逐步剔除非目標區域的方式,得到目標區域.決策算法具體步驟如下:
1)區域劃分:將原圖劃分為3個大小近似相等的水平子區域.
2)特征提取與計算:①采用Gabor濾波器提取原圖的水平和垂直方向特征圖;②根據式(1)計算各子區域方向特征;③根據式(2)計算各子區域信息熵.
3)目標區域預測:①根據各子區域的特征屬性值以及其位置信息,并對照表1中的規則前件;若圖像某一區域的相應特征能完全滿足第1條或第3條規則的前件,則排除該區域;若圖像某一區域的相應特征能完全滿足第2條規則的前件,則排除該區域,并將其相鄰的上方區域作為目標區域;若圖像某一區域的相應特征能完全滿足表中第4條規則的前件,則保留該區域;若圖像中所有子區域的特征組合不能構成表1中任何規則的規則前件,則將整幅圖像作為目標區域;②當預測結果為相鄰的兩個區域,則將其合并輸出,作為一個目標區域.
根據上述區域預測的決策算法,對83幅待檢測圖片進行測試發現,本文算法預測準確率平均為96%,相對隨機預測,準確率提高了63%.部分實驗圖像的目標區域預測結果如圖2所示.

圖2 原圖與行人所在區域的預測結果
經典的Itti-Koch模型中對所有視覺特征通道采取一概而論的方式,因而將模型直接用于目標檢測將有可能導致誤檢.本文通過優選特征以及優化特征顯著圖之間的組合權重,得到了更好的檢測效果.通過大量試驗,當方向特征的融合權重設置為2,灰度和顏色特征的融合權重設置為1時,對行人目標的檢測效果最為可靠.此外,考慮到通常情況下,行人目標并不具有對角線方向的特征,而提取該特征反而會給目標檢測帶來不利的競爭,因此,在改進的Itti-Koch模型中,方向特征只考慮水平和垂直兩個方向.改進后的Itti-Koch計算模型如圖3所示.

圖3 改進的Itti-Koch視覺注意計算模型
對目標區域進行預測并結合具有主動搜索行為的視覺注意模型,是本文實現復雜場景快速目標檢測與精確定位的核心思想,檢測流程如圖4所示.

圖4 基于區域預測和視覺注意模型的目標檢測流程
快速目標檢測與定位的具體算法步驟如下:
1)目標區域預測:根據目標區域預測的決策算法實現目標區域預測.
2)基于改進Itti-Koch模型的視覺注意計算:①優化模型參數;②將預測的目標區域作為視覺注意計算模型的輸入,計算模型預測結果.
3)目標精確定位:人工輔助判斷模型計算結果是否為目標區域.若是,即輸出帶有目標位置標記的原始圖像;若否,即開始新一輪的特征顯著圖之間的競爭得到新的計算結果,并給出新的判斷,直到找到目標位置.
本文實驗分別在圖像數據庫和實拍圖像中進行.圖像數據庫來源于Li Jia的自然圖像數據庫[11]和 MIT LabelMe 圖像數據庫[12].在上述兩個圖像庫中包含有行人目標的街道戶外場景圖像,共選出52幅.此外,實拍圖片31幅.為了充分說明區域預測和改進視覺注意模型結合的有效性,將本文算法與經典的Itti-Koch模型相比較,部分實驗結果如圖5.從圖中可看出,本文算法只需很少的視點轉移,即可精確捕獲目標.
對83幅圖像進行目標檢測,其算法性能分析統計結果如表2.

表2 算法性能分析統計結果對比
結果表明:相比單純的Itti-Koch模型視覺注意計算,本文的快速目標檢測方法縮短了30%的檢測時間,并提高了9%的檢測準確率.

圖5 Itti-koch模型與本文方法在圖像庫圖像與實拍圖像中的目標檢測結果
本文提出的結合區域預測與視覺注意計算的目標檢測方法在能快速檢測到目標的同時,還能保證檢測結果具有較高的準確率.實現區域預測的4條規則主要源于對日常拍攝的自然圖像的總結.在這一類圖像中,行人在圖像中的尺寸一般不超過圖像高度的1/3.由于文中實驗圖像都是自然圖像,且通過日常非特寫的拍攝方式獲取,因此可將其推廣用于安防視頻監控以及災難救援中的行人檢測,也可用于相機拍攝中的人物鎖定等.
本文方法以戶外場景中的行人目標作為實驗驗證平臺,在將其應用于不同檢測目標時,只需構建相應的區域預測決策規則,優化視覺注意模型參數,則基于區域預測和視覺注意模型相結合的快速目標檢測模式依然適用.
References)
[1]鄭南寧.認知過程的信息處理和新型人工智能系統[J].中國基礎科學,2000(8):11-20 Zheng Nanning.Information processing for cognition process and new artificial intelligent systems[J].China Basic Science,2000(8):11-20(in Chinese)
[2]王璐,蔡自興.未知環境中基于視覺顯著性的自然路標檢測[J].模式識別與人工智能,2006,19(1):100 -105 Wang Lu,Cai Zixing.Visual saliency based natural landmarks detection under unknown environments[J].Pattern Recognition and Artificial Intelligence,2006,19(1):100 -105(in Chinese)
[3]Mutch J,Lowe D G.Object class recognition and localization using sparse features with limited receptive fields[J].International Journal of Computer Vision,2008,80(1):45 -57
[4]李志成,秦世引,Itti L.遙感圖像的顯著-概要特征提取與目標檢測[J].北京航空航天大學學報,2010,36(6):659 -662 Li Zhicheng,Qin Shiyin,Itti L.Extraction of saliency-gist features and target detection for remote sensing images[J].Journal of Beijing University of Aeronautics and Astronautics,2010,36(6):659-662(in Chinese)
[5]Yantis S.Stimulus-driven attentional capture and attentional control settings[J].Journal of Experimental Psychology:Human Perception and Performance,1993,19(3):676 -681
[6]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254 -1259
[7]張菁,沈蘭蓀,高靜靜.基于視覺注意模型和進化規劃的感興趣區檢測方法[J].電子與信息學報,2009,31(7):1646-1652 Zhang Jing,Shen Lansun,Gao Jingjing.Region of interest detection based on visual attention model and evolutionary programming[J].Journal of Electronics & Information Technology,2009,31(7):1646 -1652(in Chinese)
[8]Pollmann S,Manginelli A A.Repeated contextual search cues lead to reduced bold-onset times in early visual and left inferior frontal cortex[J].Open Neuroimag J,2010(4):9 - 15
[9]Oliva A,Torralba A,Castelhano M S,et al.Top-down control of visual attention in object detection[C]//SuviSofi Oy Ltd.Proceedings of the IEEE International Conference on Image Processing.Barcelona,Spain:IEEE Signal Processing Society,2003:253-256
[10]Durrie D,Mcminn P S.Computer-based primary visual cortex training for treatment of low myopia and early presbyopia[J].Trans Am Ophthalmol Soc,2007,105:132 -140
[11]Li Jia.Photography image database[EB/OL].University Park:The Pennsylvania State University,2001[2010-06-17].http://www.stat.psu.edu/~ jiali/index.download.html
[12]Torralba A.LabelMe image database[EB/OL].Cambridge,MA:Computer Science and Artificial Intelligence Laboratory,Massachusetts Institute of Technology,2006 [2010-06-17].http://people.csail.mit.edu/torralba/GlobalFeaturesAndAttention/