樊一娜,郎 波
(北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海 519087)
選取一個(gè)好的特征并且設(shè)計(jì)出相應(yīng)的表征方法是物體識(shí)別模型的前提。在人類(lèi)對(duì)物體的感知屬性中,形狀信息可能是最能引起視覺(jué)注意的一個(gè)特征,相比其他屬性(比如顏色、紋理等)可以使觀察者預(yù)測(cè)關(guān)于物體的更多信息。除此之外,形狀信息也是物體最穩(wěn)定的屬性,它不隨圖像亮度、對(duì)比度等因素的變化而發(fā)生實(shí)質(zhì)性的變化。形狀的分解表征決定著一個(gè)物體識(shí)別模型的最終效果,因?yàn)閺奈矬w的形狀可以初步確定一個(gè)物體的類(lèi)別,從形狀所拆分得到的部件、部件之間的空間信息、部件之間組成的全局特征都是非常重要的特征。為了衡量帶背景物體之間的形狀相似性,需要一種適合計(jì)算機(jī)理解的形狀表征方法來(lái)量化形狀之間的相似度。基于此,將生物視覺(jué)中得到的“朝向特征”與“上下文信息”相融合對(duì)物體形狀進(jìn)行表征,找到一種最適合基于形狀的物體識(shí)別模型[1-2]。
如圖1所示,神經(jīng)元感受野的位置居于明暗對(duì)比的刺激區(qū)域。

圖1 神經(jīng)元感受野對(duì)明暗變化的刺激對(duì)比


(1)

結(jié)合文獻(xiàn)[4-6]的研究結(jié)果,神經(jīng)元感受野在物體邊緣上的分布如圖2所示。

圖2 感受野覆蓋在刺激邊緣的分布

(2)
得到最優(yōu)解為:
(3)
計(jì)算檢測(cè)到的方向與觀測(cè)數(shù)據(jù)之間的誤差為:
(4)
為了評(píng)估計(jì)算結(jié)果,引入最大允許誤差emax,如果優(yōu)化誤差e(k,b) 物體的形狀輪廓由一些基本線段組成,如圖3所示,基本線段之間的互聯(lián)用連接線段表示。 圖3 構(gòu)成輪廓的基本線段(BL,實(shí)線)和連接線段(LL,虛線) 底部水平的實(shí)線線段的上下文信息由其他所有線段和虛線段決定。圖3中出現(xiàn)兩個(gè)夾角(θ,γ),其中θ表示基本線段和連接線段的夾角,γ表示基本線段之間的夾角。底部線段的形狀信息表示為Pj={pj1,pj2,…,pjk},其中pji=(θji,φji),θji表示基本線段BLj和BLi之間的角度,每一條基本線段的形狀特征被整合在一起,組成物體的形狀特征P={P1,P2,…,PK}。對(duì)于一個(gè)良好的形狀上下文來(lái)說(shuō),物體真實(shí)形狀和上下文之間的描述應(yīng)該是一一對(duì)應(yīng)的,具有不同形狀物體對(duì)應(yīng)的輪廓上下文肯定也不同。對(duì)于具有背景的圖片的輪廓上下文來(lái)說(shuō),同一類(lèi)圖片(例如汽車(chē))的相似度是非常大的,而在不同類(lèi)之間,上下文的相似度就降低了,這一屬性和是否具有背景無(wú)關(guān)。輪廓上下文可以用直方圖矩陣來(lái)表示: (5) 其中,#表示計(jì)數(shù);bin(k)表示一些特定的角度范圍,例如bin(1)表示[0,45°),bin(2)表示[45°,90°]。 得到輪廓特征直方圖后,需要一種相似度度量方法來(lái)比較直方圖之間的相似度,因?yàn)楸尘皶?huì)擴(kuò)大形狀距離但是不會(huì)減少形狀相似度。文中采用相似度累積方式,統(tǒng)計(jì)特征直方圖相同位置的最小值,背景的出現(xiàn)并不會(huì)減少公共區(qū)域的值,兩條線段的輪廓上下文的相似度可以通過(guò)以下公式進(jìn)行計(jì)算: (6) 當(dāng)兩條線段實(shí)際上就是一對(duì)匹配的線段時(shí),它們的輪廓上下文直方圖也是很相似的。在文獻(xiàn)[6]中提到了形狀連續(xù)性原理,即如果不同形狀的兩個(gè)邊緣點(diǎn)匹配是正確的,那么它們各自相鄰的邊緣點(diǎn)也應(yīng)該是匹配的,將此原理應(yīng)用到相似度計(jì)算上,可認(rèn)為每一條線段特征的相似度可以通過(guò)與之相鄰的線段特征之間的相似度進(jìn)行調(diào)整,如式(7)所示: (7) 線段匹配的基本原理遵循局部一致性準(zhǔn)則,即如果測(cè)試圖片中的某一條線段是物體的線段,那么與之相鄰的線段也最有可能是物體的線段[7-9]。 給定模板圖像P={p1,p2,…,pk}及測(cè)試圖像Q={q1,q2,…,qn}的輪廓上下文特征,利用式(8)實(shí)現(xiàn)從模板圖像到測(cè)試圖像的匹配: (8) 在實(shí)際情況中,測(cè)試圖片顯示出的線段數(shù)量會(huì)遠(yuǎn)遠(yuǎn)多于模板圖像的數(shù)量,那么如何尋找映射問(wèn)題就被轉(zhuǎn)化成一個(gè)優(yōu)化問(wèn)題,如式(9)所示: maxH(x)=xTSx(x∈δ) (9) 其中,x表示測(cè)試圖片的索引坐標(biāo)向量;δ={x∈{0,1}N×1};S∈RN×N,K=‖P‖⊕4,K,N表示模板線段圖和測(cè)試線段圖各自的線段數(shù)目。 整個(gè)優(yōu)化目標(biāo)就是從相似矩陣S中找到一個(gè)最優(yōu)匹配,使得整個(gè)相似度值最大。根據(jù)1.1節(jié)的內(nèi)容,設(shè)定一個(gè)利用局部朝向特征之間相似度的計(jì)算公式。設(shè)兩對(duì)相鄰的線段為M=M1,M2,I=I1,I2,相似度計(jì)算公式定義如下: (10) β‖T(I1,I2)-T(M1,M2)‖ (11) 其中,D(a,b)表示線段a,b中點(diǎn)之間的距離;T(a,b)表示線段a,b之間歸一化的角度值;α,β是權(quán)重值(α>β),且α+β=1,隨著線段數(shù)目的變化而變化。 線段匹配算法是整個(gè)物體識(shí)別的重要組成部分,在實(shí)際物體檢測(cè)中,面對(duì)的困難主要是測(cè)試圖像包含太多的背景線段會(huì)對(duì)識(shí)別過(guò)程產(chǎn)生干擾。由于線段匹配是直接從相似矩陣S中進(jìn)行匹配,沒(méi)有考慮到線段之間的位置關(guān)系,找出來(lái)的匹配有可能不符合最終的結(jié)果,如圖4所示。到了實(shí)際物體檢測(cè)階段,主要工作就是去除背景因素的影響,找到更為精確的物體邊界。物體相似度就是將所有匹配好的線段對(duì)的相似度相加,隨著越來(lái)越多的測(cè)試物體的線段被匹配,得到的匹配結(jié)果也越精確,最終模板M與測(cè)試形狀I(lǐng)之間的相似度表示如下: (12) 原始測(cè)試圖 由輪廓上下文組成的測(cè)試圖像 為了處理同一幅圖片中出現(xiàn)的多個(gè)相同類(lèi)別的物體,可以先設(shè)置一個(gè)閾值η,當(dāng)一幅圖像檢測(cè)出來(lái)的物體相似度值高于η時(shí),繼續(xù)對(duì)同一幅圖像進(jìn)行搜索,直至找出的物體相似度值小于η為止,具體流程如下: 輸入:模板線段M={M1,M2,…,Mk},測(cè)試圖線段I={I1,I2,…,Ik} 1.得到線段隊(duì)列QM,計(jì)算I,M的輪廓上下文 2.計(jì)算相似度: 3.調(diào)整相似度: 4.得到起始線段:start←DEQUEUE(Q) 5.fori=1∶ndo simi(start,Ii)←S(start,I) end 6.pre←start 7.while 隊(duì)列Q非空 do 出隊(duì):q=DEQUEUE(Q) forIi∈Ido end end 8.fori=1∶kdo end (13) 實(shí)驗(yàn)采用的數(shù)據(jù)集是ETHZ形狀數(shù)據(jù)集,參與測(cè)試的圖片分別與其中模板進(jìn)行匹配,得到各自不同的匹配結(jié)果,每次識(shí)別某一類(lèi)物體時(shí),其他包含另外四種類(lèi)別的圖像都被當(dāng)作負(fù)例。利用ETHZ圖庫(kù)自帶的模板,即每個(gè)物體類(lèi)別只有唯一的一個(gè)模板,不需要設(shè)計(jì)多個(gè)不同形狀的模板依次進(jìn)行比較。識(shí)別過(guò)程是建立在形狀匹配的基礎(chǔ)上進(jìn)行的,匹配結(jié)果如圖5所示。從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),即便物體的尺度發(fā)生變化,文中方法還是可以利用同樣一個(gè)模板找到物體的位置并匹配物體的準(zhǔn)確輪廓。在識(shí)別過(guò)程中沒(méi)有使用諸如滑動(dòng)窗口、霍夫投票等方法,這表明該形狀表征具備尺度不變的性質(zhì)。 文中使用ETHZ形狀來(lái)驗(yàn)證物體識(shí)別的準(zhǔn)確性。該圖庫(kù)包含5個(gè)物體類(lèi),共計(jì)255張圖像,其中蘋(píng)果圖像40張,瓶子圖像48張,長(zhǎng)勁鹿圖像87張,杯子圖像48張,天鵝圖像32張。圖庫(kù)對(duì)每一個(gè)類(lèi)別提供一個(gè)手工模板原型,如圖6所示,這使得圖庫(kù)對(duì)基于形狀匹配的物體識(shí)別具有評(píng)判的標(biāo)準(zhǔn)。255張圖片都作為測(cè)試圖,分別與五個(gè)模型進(jìn)行匹配,得到各自不同的匹配結(jié)果。 圖5 ETZH圖庫(kù)形狀匹配結(jié)果 圖6 ETZH圖庫(kù)提供的手工模板原型 評(píng)價(jià)指標(biāo)采用FPPI(false positive per image)和DR(detection rate)進(jìn)行衡量,F(xiàn)PPI表示識(shí)別的所有結(jié)果圖像中假正例出現(xiàn)的比例,DR表示檢測(cè)結(jié)果中找出的正例占所有正例數(shù)的比率,即識(shí)別率。五個(gè)類(lèi)別的DR-FPPI統(tǒng)計(jì)數(shù)據(jù)如圖7所示,對(duì)比算法分別來(lái)自文獻(xiàn)[11-14]。從實(shí)驗(yàn)結(jié)果可以看出,文中提出的模型在識(shí)別率方面占有一定的優(yōu)勢(shì)。 圖7 ETHZ圖庫(kù)的DR-FPPI對(duì)比數(shù)據(jù) 物體識(shí)別是計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向,而形狀匹配則是其中最為關(guān)鍵的步驟。文中提出的基于物體朝向的特征是一種尺度不變的形狀表征方法,結(jié)合了生物視覺(jué)通路的原理,利用通路中簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞感受到的朝向特征來(lái)構(gòu)造基于物體輪廓的形狀表征模型,并與自適應(yīng)的上下文信息整合到一起,適用于帶有復(fù)雜背景的形狀匹配[15]。但是,目前基于形狀匹配標(biāo)準(zhǔn)的模板都是人工設(shè)計(jì)的,在后期的工作中,要從改善表征模型入手,結(jié)合機(jī)器學(xué)習(xí)的手段,實(shí)現(xiàn)從海量圖片中自動(dòng)學(xué)習(xí)到模板原型。 參考文獻(xiàn): [1] 李新德,劉苗苗,徐葉帆,等.一種基于2D和3D SIFT特征級(jí)融合的一般物體識(shí)別算法[J].電子學(xué)報(bào),2015,43(11):2277-2283. [2] 劉 曦,史忠植,石志偉,等.一種基于特征捆綁計(jì)算模型的物體識(shí)別方法[J].軟件學(xué)報(bào),2010,21(3):452-460. [3] EINEVOLL G T.Mathematical modelling in the early visual system:why and how[C]//NATO advanced institute series:modulation of neuronal signaling:implications for visual perception.Amsterdam:IOS Press,2003. [4] CRONER L J,KAPLAN E.Receptive fields of P and M ganglion cells across the primate retina[J].Vision Research,1995,35(1):7-24. [5] XU X,BONDS A B,CASAGRANDE V A.Modeling receptive-field structure of koniocellular,magnocellular,and parvocellular LGN cells in the owl monkey (aotus trivigatus)[J].Visual Neuroscience,2002,19(6):703-711. [6] THAYANANTHAN A, STENGER B, TORR P H,et al.Shape context and chamfer matching in cluttered scenes[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2003:127-133. [7] 劉亦書(shū),楊力華,孫 倩.輪廓矩不變量及其在物體形狀識(shí)別中的應(yīng)用[J].中國(guó)圖象圖形學(xué)報(bào),2004,9(3):308-313. [8] 劉亞楠,涂錚錚,羅 斌.基于反饋稀疏約束的非負(fù)張量分解算法[J].計(jì)算機(jī)應(yīng)用,2013,33(10):2871-2873. [9] 鄭 軍,魏海永.基于白化變換及曲率特征的3維物體識(shí)別及姿態(tài)計(jì)算[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2016,56(10):1025-1030. [10] 郎 波,黃 靜,危 輝.利用多層視覺(jué)網(wǎng)絡(luò)模型進(jìn)行圖像局部特征表征的方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015,27(4):703-712. [11] SERRE T,WOLF L,POGGIO T.Object recognition with features inspired by visual cortex[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2005:994-1000. [12] GRAUMAN K,DARRELL T.The pyramid match kernel: discriminative classification with sets of image features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,6(10):1458-1465. [13] HOLUB A D,WELLING M,PERONA P.Combining generative models and fisher kernels for object recognition[C]//Proceedings of the 10th international conference on computer vision.Washington DC,USA:IEEE Computer Society,2005:136-143. [14] ZHANG H,BERG A C,MAIRE M,et al.SVM-KNN:discriminative nearest neighbor classification for visual category recognition[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2006:2126-2136. [15] 郎 波,樊一娜,黃 靜,等.基于混合高斯模型的物體成分?jǐn)M合方法[J].電子技術(shù)應(yīng)用,2016,42(6):128-131.1.2 朝向輪廓上下文



2 物體識(shí)別過(guò)程
2.1 線段匹配

2.2 形狀匹配




2.3 上下文“敏感特征”形狀的匹配


3 實(shí)驗(yàn)結(jié)果
3.1 形狀匹配
3.2 性能評(píng)價(jià)




4 結(jié)束語(yǔ)