摘要:模擬人類視覺中有意識(shí)主動(dòng)尋找與無意識(shí)被動(dòng)受吸引相交互的視覺過程,提出了一種基于雙向融合機(jī)制的建筑目標(biāo)檢測(cè)方法。該方法綜合了基于自底向上數(shù)據(jù)驅(qū)動(dòng)的視覺顯著性模式和自頂向下基于環(huán)境感知的目標(biāo)搜索模式檢測(cè)圖像中的建筑目標(biāo)區(qū)域。利用拍攝的自然圖像進(jìn)行實(shí)驗(yàn)表明:該方法能較好地檢測(cè)出圖像中的建筑目標(biāo),具有處理速度快#65380;準(zhǔn)確性高的特點(diǎn),能夠滿足處理復(fù)雜場(chǎng)景圖像的實(shí)時(shí)性要求。
關(guān)鍵詞:雙向融合; 建筑; 顯著性; 豎直線
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)02-0455-03
選擇圖像目標(biāo)區(qū)域的過程一般包含兩種機(jī)制:a)基于自底向上數(shù)據(jù)驅(qū)動(dòng)的視覺顯著性模式。它模擬人類無意識(shí)地被場(chǎng)景中的凸顯區(qū)域所吸引的過程。b)基于自頂向下的任務(wù)驅(qū)動(dòng)的主動(dòng)搜索模式。它模擬人們利用先驗(yàn)知識(shí)和經(jīng)驗(yàn),有意識(shí)地尋找目標(biāo)的過程。
傳統(tǒng)的目標(biāo)檢測(cè)與識(shí)別方法通常采用自頂向下的方式,利用目標(biāo)的先驗(yàn)知識(shí),試圖從整個(gè)場(chǎng)景中尋找符合特征要求的目標(biāo),忽視了快速泛讀的重要性,使得大量的計(jì)算資源浪費(fèi)在與目標(biāo)無關(guān)的細(xì)節(jié)上。研究人員也提出了基于自頂向下任務(wù)引導(dǎo)的計(jì)算模型[1,2]模擬人眼的任務(wù)搜索功能。然而以往提出的計(jì)算模型一般只利用目標(biāo)本身的知識(shí),目標(biāo)周圍的環(huán)境知識(shí)利用得不多。事實(shí)上,目標(biāo)的環(huán)境知識(shí)對(duì)識(shí)別結(jié)果也起著重要作用,過去這方面的研究多見于場(chǎng)景分析#65380;機(jī)器人自主導(dǎo)航控制領(lǐng)域[3,4]。隨著視覺心理學(xué)研究的深入,計(jì)算機(jī)視覺中也引入了選擇性注意機(jī)制,提出了基于自底向上策略的視覺顯著性模型。相關(guān)的計(jì)算模型很多[5,6],最新提出的計(jì)算模型[6]對(duì)自然圖像也取得了很好的效果。然而選擇性注意機(jī)制中自頂向下的方式常常被忽略,原因在于如何使先驗(yàn)知識(shí)參與到注意的計(jì)算方面存在較大的困難[7]。
在復(fù)雜場(chǎng)景圖像中檢測(cè)建筑目標(biāo),無論是采用自頂向下的檢測(cè)方式,還是根據(jù)目標(biāo)在場(chǎng)景中客觀視覺顯著性的不同進(jìn)行檢測(cè)均不符合人類視覺系統(tǒng)特性。因此,本文提出了基于自頂向下與自底向上相結(jié)合的雙向融合策略的檢測(cè)方法,試圖克服兩種方式各自孤立使用的缺陷,達(dá)到更好的目標(biāo)檢測(cè)效果。
1基于環(huán)境感知的搜索模式
在建筑目標(biāo)檢測(cè)中,建筑周圍的環(huán)境信息對(duì)判斷建筑很有幫助。然而已往的研究中,環(huán)境信息如植被區(qū)#65380;樹木#65380;道路等一般均被當(dāng)做目標(biāo)的干擾信息被排除;若能對(duì)這些環(huán)境信息適當(dāng)處理,將有助于檢測(cè)圖像中的建筑目標(biāo)。
一般說來,建筑目標(biāo)的紋理#65380;細(xì)節(jié)等信息均比較顯著的,傳統(tǒng)的基于像素的影像處理方式的效率以及其所能獲得的結(jié)果信息都是十分有限的。因此本文利用基元[8]作為處理的基本單位,通過將一幅圖像分割成不同基元組成的區(qū)域;然后根據(jù)識(shí)別對(duì)象的不同,將圖像中基元分為目標(biāo)基元和環(huán)境基元兩大類。
圖像中不同基元之間具有一定的位置關(guān)系,如拓?fù)潢P(guān)系#65380;重合關(guān)系#65380;遮擋關(guān)系等。例如建筑的一部分被樹木遮擋;樹木一般生長(zhǎng)在公路的兩側(cè);車輛#65380;停車場(chǎng)一般位于建筑附近。這些目標(biāo)和環(huán)境的相互關(guān)系對(duì)目標(biāo)檢測(cè)起著重要作用,特別是在復(fù)雜場(chǎng)景圖像中,目標(biāo)本身的信息不足以完成識(shí)別的任務(wù),此時(shí)利用目標(biāo)和環(huán)境的關(guān)系,如遮擋關(guān)系等有著一定的啟發(fā)作用。本文充分利用環(huán)境信息對(duì)目標(biāo)的啟示作用,在自頂向下任務(wù)驅(qū)動(dòng)的搜索模式中采用基于環(huán)境感知的方法確定圖像中的建筑目標(biāo)區(qū)域。
1)提取某種環(huán)境基元建筑圖像中的環(huán)境基元多種多樣,如車輛#65380;道路#65380;樹木等均是環(huán)境基元,而且不同圖像中的環(huán)境信息對(duì)目標(biāo)的啟示作用各不相同,這取決于已有的先驗(yàn)知識(shí),并且根據(jù)先驗(yàn)知識(shí)的不同,提取圖像中的環(huán)境基元。
2)提取圖像中的建筑目標(biāo)區(qū)域本文研究自然圖像中的主要建筑具有較長(zhǎng)的外墻體直線段并且是基本正立。對(duì)建筑目標(biāo)的邊緣圖進(jìn)行分析發(fā)現(xiàn):豎直線是建筑目標(biāo)存在的明顯特征。因此本文提取圖像的豎直線特征,并分析如圖1所示的豎直線的空間位置關(guān)系,進(jìn)行豎直線分組,每個(gè)組均對(duì)應(yīng)著圖像中存在建筑目標(biāo)的區(qū)域。
最后,分析提取的環(huán)境基元與圖像中建筑目標(biāo)區(qū)域的關(guān)系,如位置關(guān)系#65380;拓?fù)潢P(guān)系等,修正得到的目標(biāo)區(qū)域。例如已知位于道路兩側(cè)的建筑目標(biāo),利用道路和建筑的位置關(guān)系,確定圖像中的建筑目標(biāo)區(qū)域。
2自底向上數(shù)據(jù)驅(qū)動(dòng)的視覺顯著性模型
在自然圖像中,建筑目標(biāo)相比天空#65380;樹林#65380;山脈等自然背景往往更容易吸引視覺的注意,因此通過視覺注意力機(jī)制進(jìn)行計(jì)算可以找出圖像中視覺焦點(diǎn)集中的區(qū)域。這種方法能夠有效排除自然景物的干擾,縮小搜索范圍,對(duì)建筑目標(biāo)識(shí)別等視覺處理任務(wù)是非常有意義的。
本文在文獻(xiàn)[9]中的模型基礎(chǔ)上針對(duì)建筑圖像的特點(diǎn)進(jìn)行了改進(jìn),并應(yīng)用于建筑圖像的顯著性計(jì)算。文獻(xiàn)[9]中的模型提取的特征包括了方向信息,而對(duì)于建筑圖像來說,人工建筑的方向一般均比較規(guī)則,相互之間差異小;反倒是一些自然景物具有不規(guī)則和差異較大的方向特征,因此方向信息不適合被用在顯著性建筑區(qū)域檢測(cè)中。為了克服這個(gè)問題,筆者擯棄了方向信息這個(gè)特征,而以亮度和顏色信息為主進(jìn)行顯著性計(jì)算;同時(shí)為更好地反映顏色信息的顯著性,選擇在HSI顏色空間進(jìn)行特征提取,然后利用文獻(xiàn)[10]中的方法提取建筑圖像的顯著圖。該方法從輸入的RGB圖像中提取H#65380;S#65380;I三個(gè)分量的信息后,分別構(gòu)造它們的Gaussian金字塔。在三個(gè)特征金字塔的基礎(chǔ)上,接著進(jìn)行視覺差異程度的計(jì)算和顯著圖的合成。計(jì)算每個(gè)特征的center-surround的特征差異圖,對(duì)不同尺度下的特征差異圖進(jìn)行多尺度融合,最終得到建筑圖像的顯著圖。
3雙向融合的目標(biāo)檢測(cè)機(jī)制
在兩種建筑目標(biāo)檢測(cè)策略的基礎(chǔ)上,本文提出的基于雙向融合策略的建筑目標(biāo)檢測(cè)方法。該方法融合了基于環(huán)境感知的任務(wù)搜索模式和視覺顯著性模型兩種策略:a)基于環(huán)境感知的目標(biāo)檢測(cè)過程屬于自頂向下任務(wù)驅(qū)動(dòng)的主動(dòng)搜索模式,即利用目標(biāo)的先驗(yàn)知識(shí)和經(jīng)驗(yàn)(如目標(biāo)和環(huán)境的位置關(guān)系),在圖像中有意識(shí)地尋找目標(biāo);b)顯著性計(jì)算過程屬于自底向上數(shù)據(jù)驅(qū)動(dòng)的視覺顯著性模式,即基于目標(biāo)本身醒目的設(shè)計(jì)原則,計(jì)算出客觀圖像中感興趣目標(biāo)區(qū)域。
對(duì)建筑圖像來說,基于雙向融合策略的目標(biāo)檢測(cè)方法首先利用先驗(yàn)知識(shí),特別是目標(biāo)和環(huán)境的關(guān)系快速定位出建筑圖像中的建筑目標(biāo)的區(qū)域,獲得建筑目標(biāo)的分割圖。在分割圖上對(duì)利用視覺注意力模型獲得各區(qū)域的顯著性效果。根據(jù)分割區(qū)域顯著性效果的不同,提取圖像中超過閾值的區(qū)域,確定為建筑目標(biāo)的候選區(qū)域并進(jìn)行驗(yàn)證,獲得圖像中建筑目標(biāo)的位置。
4實(shí)驗(yàn)結(jié)果和分析
本文利用基于雙向融合的建筑目標(biāo)檢測(cè)方法實(shí)現(xiàn)了一個(gè)實(shí)驗(yàn)系統(tǒng)。該系統(tǒng)首先利用文獻(xiàn)[10]中的豎直線分組算法獲得圖像中建筑目標(biāo)的區(qū)域,并根據(jù)樹木#65380;道路#65380;草地的紋理不同提取圖像中的環(huán)境基元,對(duì)每一幅圖像提取何種基元由輸入指定;然后,將圖像中建筑區(qū)域中的點(diǎn)到包含環(huán)境基元最小矩形中心的距離定義為鄰近關(guān)系,并去除不滿足鄰近關(guān)系的建筑目標(biāo)區(qū)域。同時(shí)利用文獻(xiàn)[11]中的視覺注意力的算法提取各分割區(qū)域的顯著性圖。最后,將區(qū)域中各個(gè)像素的顯著性值與設(shè)定閾值進(jìn)行比較,將高于設(shè)定閾值的像素確定為圖像中的建筑目標(biāo)區(qū)域。
實(shí)驗(yàn)中,將實(shí)地拍攝的大量建筑圖像作為測(cè)試集圖像進(jìn)行了實(shí)驗(yàn)。圖像是在不同光照條件下拍攝的大小為640×480,JPG格式的自然圖像。以下是一個(gè)典型圖像的實(shí)驗(yàn)結(jié)果。已有先驗(yàn)知識(shí)是建筑目標(biāo)位于草地上,因此提取圖像中草地信息作為環(huán)境基元。
圖2是利用環(huán)境感知方法對(duì)原圖進(jìn)行分割的結(jié)果。其中利用草地的紋理特征提取圖像底部的草地作為環(huán)境基元,并根據(jù)建筑目標(biāo)位于草地之上的知識(shí),將圖像分割為上下兩個(gè)部分。同時(shí)根據(jù)圖像中豎直線的分組關(guān)系,將圖像中草地以上部分分割兩個(gè)部分。如圖2(c)所示。從(c)可以發(fā)現(xiàn):建筑目標(biāo)位于圖像中一個(gè)分割區(qū)域內(nèi),但不能精確地確定它在圖像中的位置。
接下來,對(duì)得到的分割圖利用視覺注意力方法獲得的顯著圖進(jìn)行分析。圖3是分割圖的顯著圖效果。從顯著圖上看出:與其他區(qū)域相比,建筑目標(biāo)區(qū)域的顯著性比較高,算法中設(shè)閾值參數(shù)為0.3,提取顯著性值高于閾值的像素值作為候選的建筑目標(biāo)區(qū)域,并根據(jù)建筑目標(biāo)的形狀信息檢測(cè)出建筑目標(biāo)在圖像中的位置,如圖4所示。
本文以平均運(yùn)行時(shí)間作為算法時(shí)間性能的評(píng)價(jià)標(biāo)準(zhǔn),利用兩種方法建立了建筑目標(biāo)識(shí)別系統(tǒng):a)本文基于雙向融合的區(qū)域檢測(cè)方法,稱為算法1;b)文獻(xiàn)[11]中的區(qū)域檢測(cè)方法,稱為算法2。
算法1中主要包括兩個(gè)算法步驟:a)提取圖像的顯著圖,稱為算法步1;b)利用環(huán)境感知方法獲得圖像中的建筑目標(biāo)區(qū)域,稱為算法步2。利用測(cè)試集圖像進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境是主頻3 GHz#65380;1 GB內(nèi)存。表1為實(shí)驗(yàn)結(jié)果。
從表1看出,建筑物檢測(cè)算法主要耗時(shí)在于獲取圖像的顯著圖。其中:本文給出的算法中獲取圖像顯著圖的算法步平均耗時(shí)是0.2 s;文獻(xiàn)[11]中的計(jì)算圖像顯著圖的算法平均耗時(shí)是0.7 s。這是因?yàn)楸疚乃惴ɡ靡延邢闰?yàn)知識(shí)對(duì)圖像中建筑目標(biāo)區(qū)域進(jìn)行了分割,并計(jì)算分割圖的顯著性。因此與算法2相比,本文算法的時(shí)間復(fù)雜度有了明顯的降低,滿足處理自然圖像的實(shí)時(shí)性要求。
5結(jié)束語
本文提出了一種基于自頂向下和自底向上檢測(cè)策略相結(jié)合的建筑目標(biāo)檢測(cè)方法。在基于自頂向下的主動(dòng)搜索過程中,利用環(huán)境感知技術(shù)尋找圖像中的建筑目標(biāo)區(qū)域。在基于自底向上的檢測(cè)過程中,采用視覺顯著性模型獲得圖像中不同區(qū)
域的顯著性圖;然后融合兩種區(qū)域檢測(cè)策略提出了一種建筑目標(biāo)檢測(cè)方法。實(shí)驗(yàn)表明,該方法取得了較好的檢測(cè)效果和處理效率。下一步,筆者要更深入地研究紋理#65380;顏色等信息在分割和識(shí)別中的應(yīng)用,探索自底向上和自頂向下兩種搜索策略更好的結(jié)合方式。此外,僅僅基于可見光圖像也是不夠的,還應(yīng)該通過多傳感器信息融合技術(shù),結(jié)合其他如紅外#65380;DEM等數(shù)據(jù)信息,達(dá)到更好的分割和識(shí)別效果以及讓該方法在更加復(fù)雜的自然環(huán)境和天氣條件下?lián)碛懈玫倪m應(yīng)性。
參考文獻(xiàn):
[1]ITTI L, KOCH C. Computational modeling of visual attention[J]. Nature Reviews Neuroscience, 2001,2(3):194-203.
[2]NAVALPAKKAM V, ITTI L. Modeling the influence of task on attention[J]. Vision Research, 2005,45(2):205-231.
[3]鄒小兵,蔡自興.基于傳感器信息的環(huán)境非光滑建模與路徑規(guī)劃[J]. 自然科學(xué)進(jìn)展, 2002,12(11):1188-1192.
[4]SALICHS M A, MORENO L. Navigation of mobile robots: open questions[J]. Robotica, 2000,18(2):227-234.
[5]PETERS R J, IYER A, ITTI L, et al. Components of bottom-up gaze allocation in natural images[J]. Vision Research, 2005,45(8):2397-2416.
[6]MEUR O L, CALLET P L, BARBA D, et al. A coherent computational approach to model bottom-up visual attention[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(5):802-817.
[7]桑農(nóng),李正龍,張?zhí)煨?人類視覺注意機(jī)制在目標(biāo)檢測(cè)中的應(yīng)用[J].紅外與激光工程,2004,33(1):38-42.
[8]明冬萍,駱劍承,周成虎,等.高分辨率遙感影像信息提取及塊狀基元特征提取[J].數(shù)據(jù)采集與處理,2005,20(1):34-39.
[9]ITTI L. Visual attention and target detection in cluttered natural scenes[J]. Optical Engineering, 2001,40(9):1784-1793.
[10]葉聰穎. 建筑目標(biāo)識(shí)別中檢測(cè)與分割技術(shù)的研究[D].廈門:廈門大學(xué),2005:36-47.
[11]葉聰穎,李翠華.基于HSI的視覺注意力模型及其在船只檢測(cè)中的應(yīng)用[J].廈門大學(xué)學(xué)報(bào):自然科學(xué)版,2005,44(4):484-488.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”