摘 要:從視覺系統生理結構出發,對Itti視覺注意力模型進行了改進,融入運動特征,提出了一種基于視覺空時顯著性感知的運動目標檢測方法。首先提取圖像的空間特征,形成空間顯著圖;然后利用相鄰幀圖像的全局運動、局部運動和相對運動,確定運動目標與背景的運動差異,形成運動顯著圖,并且對各顯著區的空間特征和運動特征進行融合形成空時顯著圖,檢測出運動目標。理論分析和實驗結果表明,該方法能快速、準確地發現目標,減少目標的截獲時間,提高目標跟蹤性能。
關鍵詞:空間顯著圖; 運動顯著圖; 空時顯著圖; 運動目標檢測
中圖分類號:TP183文獻標志碼:A
文章編號:1001-3695(2010)06-2391-03
doi:10.3969/j.issn.10013695.2010.06.113
Moving target detection method based onspatiotemporal saliency perception
LI Zhengzhou1, LI Wenyan1, TAN Ju1,2, LIU Guojin1
(1.College of Communication Engineering, Chongqing University, Chongqing 400030, China; 2.University of Chongqing Arts Science, Chongqing 610209,China)
Abstract:This paper proposed a new spatiotemporal model based on the mechanism of visual attention and the improved Itti’s visual attention model, fused the motion characteristic of objects.Firstly, extracted spatial characters of the image sequence and built spatial salient maps of all features. Then,detected global motion, local motion and relative motion between continuous frames, and built the temporal salient map after the motional difference between moving target and confirmed background. Finally, built the spatiotemporal map by fusing the spatial salient map and the temporal salient map, and the moving target could be found. Some experimental results show that the method can quickly and accurately detect moving target in complex backgroud.
Key words:spatial salient maps; temporal salient map; spatiotemporal saliency map; moving target detection
0 引言
復雜背景下視頻運動目標檢測常采用Fourier變換域、速度場和特征匹配等方法。這些方法在目標與背景對比度低、形態復雜和目標姿態變化強的情況下,即使提取出了背景或目標的某些特征,也會因這些特征變化劇烈而最終導致跟蹤效果不佳。因此,如何有效提取、識別與跟蹤混雜在復雜背景中的運動目標一直是光電探測系統面臨的難題,需要尋求新的思路才能取得突破。
視覺心理學研究表明,人類視覺系統選擇性注意機制主要包括兩個子過程[1,2]:a)快速的、采用bottomup控制策略的預注意機制,該機制是基于輸入景象的顯著性計算的,屬于低級的認知過程; b)慢速的、采用topdown控制策略的注意機制,它通過調整選擇準則,以適應外部任務要求,從而達到將注意力集中于特定目標的目的,屬于高級的認知過程。目前對過程a)的研究較多,提出了許多計算模型,在一些模型中還討論了bottomup策略的生理理論,而對過程b)的研究較少,其原因主要在于研究外界命令如何參與注意的計算方面存在較大的困難。因此,注意機制在圖像處理中的研究也多集中于bottomup控制策略的應用。
Itti模型是目前最具代表性的視覺注意計算模型[3,4],在靜態圖像的顯著區域檢測方面取得了良好的效果,而在動態圖像方面的應用研究較少,其原因在于該模型較少研究運動特征提取和分析。實際上,高級視皮層從 V1 區的簡單細胞分為兩個通路,即what和where通路[5]。前者對物體的形狀、顏色、紋理等內容感知,后者對空間運動速度和方向等感知[6,7]。因此,Itti模型與視覺生理系統的運動感知功能存在差異,有待進一步提高和完善。
運動目標檢測往往需要利用目標與背景存在的運動特征差異。本文在借鑒Itti模型的基礎上,融入運動特征,提出一種基于視覺空時顯著性感知的運動目標檢測方法。首先提取圖像的初級視覺特征,如顏色、強度和方向,并通過中央周邊差操算子[8]計算各特征在不同尺度下的視覺反差,形成空間顯著圖;然后利用金字塔多分辨策略對前后幀圖像的各顯著區進行匹配,提取出各顯著區的運動速度,即全局運動、局部運動和相對運動,確定運動目標與背景的運動差異,形成運動顯著圖;再對各顯著區的空間特征和運動特征進行相互競爭、協調融合形成空時顯著圖,檢測出運動目標。理論分析和實驗結果表明,該方法能快速、準確地發現目標,減少目標的截獲時間,提高目標跟蹤性能。
1 空時顯著性感知模型
神經生理學家對視網膜、視神經通道和大腦視皮層等結構和功能研究表明,在注意視覺中存在三條通道[9]:a)視網膜→側膝體核的小細胞層→視皮層V1區的色斑區→V2區的細條紋區→V4區;b)視網膜→側膝體核的小細胞層→視皮層V1區的色斑間區→V2的條紋間區→V4區;c)視網膜→側膝體核的大細胞層→視皮層V1區的4B層→V2區的粗條紋區→顳葉中區。第二通道產生靜止圖像邊界輪廓的突發分割;第一通道則是對上述邊界輪廓進行特征填充。第一通道和第二通道共同對靜態圖像進行視覺處理,而第三通道則是感知場景中的運動及其方式 。由此可見,運動感知是生物視覺系統的重要功能,目標運動的速度快慢及其形態變化,均未對生物感知性能造成多大影響。
鑒于神經系統感知運動的功能,本文構建了一種空時顯著性感知的運動目標檢測方法,即在Itti模型里融合運動特征和形態特征,如圖1所示。具體實施步驟如下:
a)提取序列圖像的空間特征,將其融合形成空間顯著圖;
b)匹配前后幀圖像的各顯著區,提取各顯著區的運動速度,形成運動顯著圖;
c)對各顯著區進行空間特征和運動特征的相互競爭、協調融合形成空時顯著圖。
1.1 空間顯著圖
提取圖像的邊緣、方向、紋理和對比度等特征,采用局部迭代法獲取各像素點的顯著值(saliency),形成空間顯著圖(spatial saliency map)。
1.1.1 提取視覺特征
視覺系統初級信息處理過程中具有側抑制效應,即由暗中央亮周邊或亮中央暗周邊敏感的神經元提取相鄰像素的反差,這與邊緣特征提取過程是一致的。記中央周邊差操算子為Θ,則邊緣特征可由式(1)求取
I(c,e)=|I(c)ΘI(e)|(1)
其中:I(c)、I(e)表示尺度分布為c和e的圖像。
用四個方向(0,45,90,135)的Gabor濾波器對圖像I(x)濾波,得到四幅方向特征圖O0(x),O45(x),O90(x),O135(x),以模擬對方向敏感的神經元處理圖像的過程。
對于紋理特征圖,求取I(x)的灰度共生矩陣,提取諸如角二階矩、相關、熵、差熵等灰度共生矩陣的二階統計量,從而形成紋理特征圖T(x)。
1.1.2 生成空間特征圖
在提取上述特征圖后,對各顯著圖規則化,形成規格化特征圖N(O)、N(I)和N(T),再將它們加以合并,組合成空間特征圖M。
M=13(N(I)+N(O)+N(T))(2)
通常,空間特征圖比較疏散,聚集程度不高,可采用局部迭代法處理,提高特征聚集程度,滿足特征稀疏性要求。
1.1.3 生成空間顯著圖
高斯差分函數具有中央自激勵、鄰域范圍內抑制的結構,與人眼主視皮層的中央自激勵、鄰域范圍內抑制的神經元間的側連接組織方式一致,具有生物學上的合理性,能促成相鄰顯著點之間的局部競爭。局部迭代法采用高斯差分函數對空間特征圖進行卷積。
M=[M+MDOG-C](3)
DOG(r)=c2ex2πσ2exexp-r22σ2ex-c2inh2πσ2inhexp-r22σ2inh(4)
其中:r表示距中心像素點的距離;表示卷積,DOG是高斯差分函數;σex和σinh是興奮和抑制帶寬;c2ex和c2inh是興奮和抑制常數;常數C是引入一個偏置,使得合并策略能夠抑制大致平衡的區域,如均勻的紋理。迭代的次數可人為設定,也可設定迭代終止條件,使得迭代結束后圖中大多數位置的值收斂至0??臻g顯著圖SalS則是經過高斯差分函數迭代運算后的空間特征圖M。
1.2 運動顯著圖
序列圖像中各顯著區可能存在全局運動、局部運動和相對運動。采用金子塔多分辨率策略匹配前后幀圖像的各顯著區,提取各顯著區的運動速度,即全局運動Vglobal和各顯著區的局部運動Vlocal,以及各顯著區的相對運動Vrelative=Vglobal-Vlocal。背景和靜態物體作全局運動,動態目標與景物作相對運動。動態目標與背景存在的運動差異是動態目標區別于景物的顯著特征之一。自然景物的相對運動Vrelative接近于零,而動態目標的相對運動Vrelative較大,可突出動態目標和抑制背景。
各顯著區域s運動顯著圖SalT(s)定義為
SalT(s)=Vrelative(s)Γmedian×λ(5)其中:λ=maxsVrelative(s)Γmedian,Γmedian是Vrelative(s)的中間值。
1.3 空時顯著圖
心理學研究表明,與外部特征信號相比,人類視覺系統對運動物體更為敏感[10~12]。例如,觀測一個場景,其中有一架運動的飛機和靜止的花草樹木,人眼在觀察該場景時首先注意到的就是運動的飛機,而不是靜止的房屋和樹木。在這個例子中,與其他特征相比,運動特征較顏色、紋理和強度更能引起注意。另一方面,如果場景中沒有運動物體,此時人類感知系統更容易被一些視覺感知對比度強的特征吸引,如顏色和形狀。鑒于此,融合空間顯著圖和時間顯著圖應滿足下述準則:
a)如果序列中存在強運動對比,運動顯著圖優于空間顯著圖;
b)如果運動對比不強烈,那么融合的空時顯著模型中應該包含更多的空間顯著模型成分。
采用動態加權融合方法形成空時顯著圖:如果空間顯著圖存在明顯的運動特征,則賦予運動顯著圖較高的權值;相反,如果運動對比特征相對較低,那么就賦予空間顯著圖較高的權值,即
Sal(s)=kT×SalT(s)+ks×SalS(s)(6)
其中:kT 和ks分別為運動顯著圖和空間圖的動態權值,分別定義為
kT=VarTVarT+Const,ks=ConstVarT+Const(7)
其中:VarT=max(SalT(s))-median(SalT(s));Const是一個常量,由全局運動量Vglobal確定,且隨Vglobal增加而增加。從式(7)中可以看出,如果運動顯著圖中存在高的運動對比,那么VarT的權值將會增加,運動顯著圖的動態權值kT也相應增加,而空間顯著圖的融合權值則相應減少。
2 實驗結果及分析
圖2為測試序列圖像數據中一幀圖像,有飛機、樹木、山坡、草地等自然背景及噪聲,其中飛機是需注意和跟蹤的目標。
圖3為采用Itti模型計算出的空間顯著圖,顯著程度以灰度亮度不同表示,即區域顯著性越強則越亮。樹木表現出比飛機、草地較強的邊緣和紋理特征,在空間顯著圖上最為顯著,飛機次之,而草地最弱。
圖4為運動顯著圖,以灰度亮弱不同表示區域的顯著性差異,即區域顯著性越強則越亮。經匹配前后幀圖像的各顯著區,飛機相對運動Vrelative較大,作勻速運動;而樹木和草地的相對運動Vrelative接近于零。在運動顯著圖中,飛機最為顯著,而樹木、草地次之。
圖5為空時顯著圖,同樣以灰度亮弱不同表示區域的顯著性差異。由于飛機所作勻速運動明顯,存在高的運動對比,運動顯著圖加權系數kT和空間顯著圖的加權系數ks取值差異十分明顯,即kt>>ks,融合后空時顯著圖主要由運動顯著圖控制,飛機最為顯著。
通過注意空時顯著圖進行精細特征提取和分辨,提取感興趣的目標,如圖6所示。對比圖3、5和6可知,本文提出的融入運動特征后的空時顯著性感知的運動目標檢測方法能更為準確地排除干擾,檢測到感興趣的運動目標。
3 結束語
運動感知是生物視覺系統的重要功能,運動目標與背景景物存在的運動差異是區別兩者的顯著特征之一。本文在借鑒Itti模型的基礎上,融入運動特征,提出一種基于視覺空時顯著性感知的運動目標檢測方法。與Itti模型相比,該方法更能反映人類視覺系統對運動物體的感知過程,更為符合神經生理學和視覺心理學研究成果,在實現快速準確地檢測和定位運動目標上表現了一定的優越性。
此外,該方法在檢測運動這一特定任務下,將注意力集中在特定的運動目標上,屬于高級的認知過程。因此,該方法綜合了視覺的bottomup控制策略和topdown控制策略,能進一步反映視覺系統對事物的認識過程。同時,該基于視覺空時顯著性感知的運動目標檢測方法是運動感知和學習的初步探討,對融合空間顯著圖和運動顯著圖形成空時顯著圖的參數還需深入研究,使其能進一步反映視覺神經動力學過程。
參考文獻:
[1]張鵬,王潤生.基于視點轉移和視區追蹤的圖像顯著區域檢測[J].軟件學報,2004,15(6):891-898.
[2]高靜靜,張菁,沈蘭蓀.視覺注意力模型的改進算法[J]. 電子測量技術,2008,31(3):1-3.
[3]ITTI L.Models of bottomup and upbottom visual attention [D].California: California Institute of Technology,2000.
[4]ITTI L. Automatic foveation for video compression using a neurobiological model of visual attention[J].IEEE Trans on Image Processing,2004,13(10):1304-1318.
[5]羅四維.視覺感知系統信息處理理論[M].北京:電子工業出版社,2006.
[6]楊文璐,張麗清,麻力波.內容和運動方向感知計算模型[J].中國科學,2008,38(4):386-397.
[7]VAISHAMPAYAN V. Design of multiple description scalar quantizers[J]. IEEE Trans on Information Theory,1993,39(3):821-834.
[8]ITTI L,KOCH C,NIEBUR E.A model of saliencybased visual attention for rapid scene analysis[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[9]劉長欽.基于生物視覺的運動感知模型研究與仿真[D].長沙:國防科技大學,2005.
[10]KOCH C,ULLMAN S. Shifts in selective visual attention:towards the underlying neural circuitry[J].Human Neurobiology,1985,4(4):219-227.
[11]LIU Y, BOUGANIS C S, CHEUNG Y K. A spatiotemporal saliency framework[C]//Proc of IEEE International Conference on Image Processing. 2006:437-440.
[12]CHAMORROMARTNEZ J, FERNNDEZVALDIVIA J. A new approach to motion pattern recognition and its application to optical flow estimation[J]. IEEE Trans on Systems, Man and Cybernetics, Part C: Application and Reviews,2007,37(1):39-51.