陳樹楠 范影樂 房濤 武薇
輪廓信息作為圖像目標的一種低維視覺特征,不僅將顯著影響到后續圖像分析和理解的準確性,而且對從輸入層級降低系統的復雜性也具有重要意義.
以Canny 等算子[1-2]為代表的傳統輪廓檢測方法,通常關注于以滑窗為基礎的局部鄰域梯度特征,具有較好的數學意義可解釋性以及檢測效率.但由于其在分離目標與背景像素時,忽視了視覺機制在空間關系描述中的重要作用,因此在對具有紋理背景干擾的圖像目標輪廓定位時,尤其是對于弱對比度圖像,經紋理抑制后將會丟失大量真實輪廓信息.
隨著視覺生理實驗及計算神經的發展,在視通路對視覺信息流的傳遞和處理過程中,各種視覺機制被陸續得到驗證和應用.例如有研究考慮視覺神經元非經典感受野(non-classical receptive field,nCRF)對經典感受野(Classical receptive field,CRF)的調節作用,通過Gabor 濾波器對圖像進行不同尺度空間的紋理過濾[3];還有研究根據還有研究根據視網膜感受野X-Y 通道特性,分別利用線性與非線性調制感受野外周區的側抑制作用,強化輪廓特征信息[4];但上述方法都僅從單一感受野特性出發,難以區分主體弱邊緣與背景紋理噪聲;因此有研究進一步模擬初級視通路,例如對圖像時空信息和冗余度進行編碼,強化輪廓信息并提高檢測魯棒性[5];也有研究從神經脈沖發放角度出發,對接收刺激進行HH 神經元模型編碼,分別經ON和OFF 型感受野作用后,選取6 個方向描述視覺皮層的方向選擇性,在信號傳遞過程中引入突觸的動態可塑性對刺激響應的影響,最終融合得到最優方位圖輪廓特征[6];此外還有研究在視覺系統中引入先驗濾波以減少信息傳遞時間,并利用神經元的相關性以及稀疏編碼去除冗余噪聲信息,提高輪廓檢測準確性[7].上述基于視覺通路的神經計算模型的輪廓提取方法對視覺刺激進行遞進加工,在檢測效果上得到了明顯的提升,但必須需要指出的是它們通常只考慮視覺信息流在初級視通路上的串行層級傳遞過程,弱化了在單一節點上的多級處理能力,而且忽略或簡化了前級節點對視皮層區的跨視區調制作用,從而割裂了主體細節與顯著特征的關系.
據目前的生理實驗證明,初級視通路各節點的感受野尺寸以及作用強度等特性并不完全相同[8],而且傳遞過程中不僅存在著稀疏性處理、視覺信息整合等多級加工環節,還存在分支路徑以保證視覺信息流的快速感知.因此本文基于視覺信息流的傳遞路徑,模擬上述主視通路各環節對信息的編碼處理,分別利用暗視覺適應性調節、神經稀疏性編碼、微動響應整合、突觸動態傳遞以及視覺信息流前饋投射傳遞等視覺機制,提出了一種新的結構分級響應計算模型,對自然場景下的目標主體輪廓進行獲取.首先模擬視網膜對視覺信息的暗視野自適應調節機制,利用其對暗視野的敏銳感知作用加強對圖像暗邊緣的相對響應強度,并根據神經節細胞的經典感受野的方向選擇特性獲取初級輪廓信息;其次參考外側膝狀體(Lateral geniculate nucleus,LGN)功能,提出一種將非經典感受野側抑制與信息稀疏編碼相結合的紋理抑制方法,實現在初級輪廓響應保留更多細節的前提下增強對背景強紋理的抑制效果,并探究其對微動信息的整合作用,隨后采用動態突觸將脈沖響應傳遞至V1 區,構建成LGN 與初級視皮層的動態信息關聯模型;最后提出一種新的視覺融合感知方案,利用跨視區的神經響應前饋機制對初級輪廓進行修正后,將兩者在初級視皮層區快速融合實現顯著輪廓的檢測與提取.
視網膜是人類直接接受光源的高級視覺器官,在其最深處分布著視桿細胞和視椎細胞兩種不同類型的感光細胞,負責將光信號轉換成電信號[9],繼而實現神經脈沖發放和信息傳遞.研究表明,視桿細胞作為視覺通路的前級單元,可以對弱光敏銳感知,隨后激勵信號沿著視神經束傳至中樞神經系統,完成對暗視野的視覺調節.雖然視桿細胞在弱光下的較為敏感但分辨能力較差,因此本研究如圖1 暗視野調節計算模型所示,首先引入去中心的高斯函數對原圖滑窗處理,描述非線性分布的視桿細胞對暗視野的感知作用,具體計算方法如式(1)~(3)所示.
圖1 暗視野調節過程示意圖Fig.1 The process of dark field adjustment
式中,(x,y)表示視覺圖像的二維坐標,(xm,yn)表示圖像局部窗口Sxy(以 (x,y)為中心原點,d為窗長,r=(d-1)/2為半徑)內的坐標位置,σ(x,y)表示自適應尺度,I(x,y)表示輸入圖像,Imax和Imin分別為I(x,y)的最大值與最小值;Wrod(x,y)表示暗視野調節因子,最后以平方根方式[10]與原圖融合得到暗視野調節響應Irod(x.y).
考慮亮度信息對于圖像邊緣輪廓的判斷至關重要,本研究提出一種基于局部亮度特征的自適應尺度計算模型,實現在圖像局部亮度較高的區域,視桿細胞幾乎無響應;在局部亮度較低的區域,視桿細胞響應增強,以此加強圖像暗邊緣區域的相對響應強度.本文首先采用改進的亮度特征計算方法獲取亮度通道,統計局部窗口亮度均值并歸一化為Lavg,具體定義如式(4)和式(5)所示.
以中心區感受野大小為單位,考慮其半徑至少為外周區的1/2,因此采用經修正改進的S 形函數對Lavg進行激活響應,實現對尺度的動態約束,可表示為
在神經節細胞、LGN 及初級視皮層V1 區中,神經細胞都會對特定朝向的條狀刺激產生激勵反應,稱之為方向選擇性[11-12].本文采用二維高斯導函數模擬多方向的刺激響應,如式(8)所示.
在視通路中,更高級的神經元往往會具有更復雜且范圍更大的感受野,如LGN 細胞與神經節細胞雖結構相似,但前者的感受野尺度更大.此外,初級視皮層V1 區存在簡單細胞和復雜細胞,但對方向和位置的敏感度兩者并不相同.一系列生理研究表明,視通路對光反射的刺激傳遞過程是一個多尺度、多朝向、高效率等復雜特性疊加的過程.本文為表征此特性對輪廓檢測的全局作用性,在式(8)基礎上,進一步考慮多尺度方位特性,建立多維模型,如式(10)所示.
式中,θi和σj分別表示經典感受野的第i個朝向和第j個尺度.
信息由視網膜處理經視神經纖維向兩側膝狀體投射,之后經各類神經細胞將此信號向初級視皮層和更高級的視覺中樞投射,完成對顏色、運動、亮度和其他深度視覺信息感知.為保留上述多級感受野的作用,本文使用主成分分析法模擬視通路對多尺度方位復雜信號的投射特性,以及皮層視區對視覺信息的快速理解能力.通過提取i×j個成分分量Ps并取最大值,獲得包含不同尺度大小、不同方位敏感特征,構造全局輪廓信息檢測路徑,如式(11)所示.
其中,s表示成分分量的序號,E2(x,y)表示全局輪廓信息.
稀疏表示已被證實是許多感覺神經系統中的常見現象[13],視神經節細胞的數量相比感光細胞少了近百倍,LGN 相較于前級在神經元數量級上也顯著減少,但視覺信息在視通路上仍然可以進行快速高效地傳遞.在神經生理實驗中發現,神經元集群中一般僅有少部分神經元會伴隨著刺激而產生響應.因此在視覺通路上,神經元具有響應稀疏特性,這也是視覺系統處理冗余信息的一種有效策略和方法.稀疏編碼也常被用于區分目標與背景[14],例如Alpert[15]等使用了稀疏度量方法,如式(12)所示.
其中,δ2(x,y)和μ(x,y)分別表示Irod(x,y)在局部窗口Sxy內的方差和均值,f(x,y)為E1(x,y)強紋理區域的稀疏表達.前項sparsity(x,y)對于包含輪廓區域的邊緣響應分布具有高稀疏度,而后項通??啥ㄐ钥坍嬤吘墔^與平滑區,將兩者結合能有效地避免輪廓響應細節信息的丟失以及紋理邊緣受到過度抑制.
在對視覺信息流進行稀疏處理后,考慮到非經典感受野對視覺信號具有側抑制作用,本文采用各向同性抑制方法刻畫LGN 的非經典感受野特征,進一步減弱紋理邊緣響應,如式(14)所示.
式中,DoG(x,y)表示高斯差函數,經半波整流后得到 DoG+(x,y),b(x,y)表示紋理抑制項,由初級輪廓響應E1(x,y)與距離抑制權重φ(x,y)卷積獲得.
最后根據式(15)得到經協同紋理抑制后的輪廓信息.
其中,α表示非經典感受野抑制強度,resize表示雙線性插值運算.
當信息流傳遞至LGN 時,視覺系統能利用感受野對其進行時空整合,實現對有效特征(空間頻率、顏色、視差等)的高效編碼,圖2 為本文動態過程編碼部分結果.本文首先采用LIF (Leaky integrate and fire neurons)漏放電積分模型構建外膝體環節的神經元網絡,以某一響應周期T內神經元脈沖發放頻率對突觸激勵響應進行神經編碼,同時考慮絕對不應期,如式(16)所示.
圖2 動態過程編碼示意圖Fig.2 Dynamic process coding
式中,cm和g1分別為神經元的膜電容和漏電導,v是神經元膜電壓;Ie表示為式(15)中的C(x,y;α)所對應的激勵電流.vth為脈沖發放閾值,vreset為靜態電勢,ref為絕對不應期,vg為刺激脈沖發放峰值.在激勵電流Ie刺激下,當膜電壓v達到閾值vth時神經元將會瞬間發放vg大小的脈沖響應,同時又將被重置為vreset進入絕對不應期,最終得到脈沖激勵響應IFires(x,y).
視通路端到端且按環節的傳遞方式,使得前級視覺激勵通常在經過后級處理后能表達更為有效的信息,而視覺系統的初始信息幾乎都源自于人眼固視微動.微動作為視覺系統最基本的狀態模式,能夠在視網膜神經節細胞反應能力有限的情況下幫助快速獲取更多的視覺信息[16].鑒于LGN 環節的高效視覺整合能力,本文引入LGN 神經元對微動視覺特征的整合作用,突出輪廓信息并抑制細紋理的神經脈沖發放響應強度(如圖2(b)),具體操作如式(17)和式(18)所示.
式中,Iθi(x,y)為多方向微動的神經元響應,其中θi表示由pi和qi所確定的8 個微動方向,[·]表示向下取整,dx和dy分別代表水平和豎直方向的微動尺度,得到經整合后的脈沖頻率響應Imove(x,y).
信息經LGN 傳遞至初級視皮層的過程中,突觸將神經元間的沖動相互聯系,其連接權值可針對突變刺激實現自適應性的改變[17],在一定程度上提高響應效率和差異感知能力.本文在編碼過程中充分考慮感受野內神經元的空間關系和激勵響應頻率差異,探究頻域和空域兩方面對突觸連接強度的影響,具體如式(19)所示.
式中,Wconst表示強度調節常量,|P(x,y)-P(xc,yc)|和|Imove(x,y)-Imove(xc,yc)|分別表示群體感受野周邊與中心的空間距離和神經元脈沖頻率差異,RFr是神經元群體感受野半徑,ΔImove表示群體感受野內神經元脈沖頻率響應的最大差值.
最后通過動態突觸權值與微動調節下的神經元脈沖響應頻率卷積運算,實現神經元的動態傳遞編碼(如圖2(c)),如式(20)所示.
相關生理研究表明,在視通路中視覺信息流存在兩條傳遞路徑.第1 條路徑中幾乎所有外界光刺激在視神經感知及視交叉作用后,經過外膝體區后投射至初級視皮層[18],但存在少數神經響應不受外膝體環節處理,經上丘、丘腦枕后抵達視覺皮層構成第2 條路徑,這一信息傳遞與處理過程是一個涉及復雜神經網絡的動力學過程.還有研究發現外膝體不僅是前后視覺信息的并行處理和層級傳遞關鍵,實際上視覺皮層還與其存在反饋神經關聯[19],使得外膝體能夠獲得來自V1 區的投射.此外,視覺通路中還存在自上向下及自下向上的途徑[20],實現高級視皮層對信息流的快速且高效理解,并對低級皮層實現調控作用.
綜上所述,視覺通路上信息同時存在并行與串行處理方式,而且兼具跨區域的前饋與反饋機制,這有利于視皮層對細節信息更高分辨率的感知,強化主體輪廓信息.本文在初級視皮層V1 區,利用多方向尺度快速投射的全局輪廓信息,對直接前饋的初級輪廓響應進行修正,并與經視通路多環節處理的動態脈沖響應結果快速點乘融合,加強視覺系統對輪廓的顯著性注意作用,具體實現如式(21)所示.
式中,E1(x,y)表示初級輪廓響應,E2(x,y)表示全局輪廓信息,IV1(x,y)表示動態脈沖響應結果,SE(x,y)表示在初級視皮層輪廓融合歸一化后的結果.
結合信息流在視通路中不同環節具有不同的處理加工方式特點,對本文輪廓檢測算法進行如下描述:
1)根據視網膜視桿細胞的暗視覺敏感特性,通過式(4)~(7)所提取的加權亮度通道構建動態尺寸計算模型,然后按式(1)~(3)模擬對視覺信息的暗視野動態調節.
2)基于經典感受野的方向選擇性以及多尺度特性.首先按式(8)和式(9)模擬神經節細胞對輪廓的初級感知,然后考慮不同組織結構的感受野具有不同的尺度大小,按式(10)和式(11)構建感受野多方向尺度投射模型(圖3 虛線部分),獲得全局輪廓信息.
3)根據LGN 細胞的稀疏傳遞和非經典感受野的側抑制特性,分別按式(12)和式(13)實現對初級輪廓響應的強紋理稀疏表達,按式(14)實現各向同性抑制,隨后按式(15)將兩者以α抑制強度融合,突出主體輪廓信息.
4)基于LGN 對多視覺特征的處理能力以及其和主視皮層的動態關聯特性,首先按式(16)對輪廓響應進行脈沖頻率響應編碼,再將編碼結果按式(17)和式(18)對微動信息進行整合處理,最后按式(19)和式(20)模擬LGN 將脈沖響應刺激動態傳遞至初級視皮層.
5)引入視覺系統的跨視區多通路前饋機制,按式(21)將初級輪廓響應經全局輪廓信息修正后,與視皮層區的脈沖響應輸出快速融合.再經過非極大值抑制和滯后閾值處理,得到最終的二值輪廓響應圖.
本文整體算法流程如圖3 所示.
圖3 算法流程圖Fig.3 Algorithm flowchart
自然場景下的圖像往往具有強噪聲干擾特性,且主體與背景間易發生輪廓粘連.本文使用了包含40 幅灰度圖像的RuG40 自然場景圖像數據庫(http://www.cs.rug.nl/imaging/),每幅圖像有一張手工繪制的二值基準輪廓圖,用于評估本文方法的有效性.
為保證本文后續算法的可行性,首先用經二維高斯導函數(Gaussian divative,GD)處理,但未經視皮層神經加工的輪廓響應與本文算法對比;其次選擇文獻[21]中提出的各向同性抑制模型(Isotropic inhibition model,ISO),體現本文紋理抑制方法的優越性;然后根據文獻[22]的方法,除去彩色圖像下的顏色雙拮抗機制,僅考慮灰度圖像在空間稀疏性約束條件下的輪廓檢測方法(Spatial sparseness constraint,SSC),突出變異系數調制對紋理稀疏編碼的作用;再選擇文獻[5]中提出的基于初級視通路編碼模型(Multiple-neural coding,MNC),證明本文紋理抑制方法與分級結構模型的優越性;然后與文獻[23]中的基于多特征抑制的輪廓檢測模型(Multiple-cue inhibition,MCI)比較;最后以本文算法為基礎,去除神經元動態編碼的模型(No dynamic coding,NDC)比較,驗證算法的后續有效性.本文中二維高斯導尺度σCRF=1.5,(Difference of Gaussians,DOG)中的CRF和nCRF 大小分別為2和8,γ=0.5,共選取Nθ=16個濾波器朝向,同時等間隔選取多個LGN 中的nCRF 抑制強度系數α=[0.1:0.1:1.0].為將最終輪廓檢測結果與二值標準輪廓進行定量計算,需要對輪廓響應進行非極大值抑制處理和滯后閾值處理,上限閾值t=[0.05:0.05:1.0].由于GD 方法和SSC方法不考慮α值,僅得到20 組測試數據,ISO、MNC、MCI、NDC 以及本文方法可以分別得到200 組數據.
從圖4 結果可知,僅采用GD 算法處理提取的輪廓較為完整,但存在過多的細紋理導致部分細節信息冗余,輪廓模糊.ISO 算法由于引入了非經典感受野的側抑制作用,相較于GD 算法背景紋理得到了較好的抑制,但干擾了部分主體輪廓,造成弱輪廓區域的信息丟失;SSC 算法通過構建空間稀疏約束模型實現去除顯著的大紋理區域,但其未考慮輪廓各區間的聯系,檢測結果存在較多的邊緣毛刺并且輪廓出現斷裂情況;MNC 算法進一步引入了冗余度編碼等方法,一定程度上保留了更多目標主體輪廓信息但同時也產生了新的紋理噪聲;MCI 算法以尺度為指導條件,融合了朝向、亮度、對比度三種特征,加強了輪廓信息同時也丟失了較多細節;NDC 算法由于并未考慮神經元突觸之間的相互關聯性,在紋理抑制和輪廓加強之間較難均衡,造成輪廓信息割裂;而本文方法將LGN 對信息的多層級處理方式和與初級視皮層的動態關聯性相結合,所獲得的最終輪廓檢測結果在保持主體輪廓完整的前提下,紋理相對較少.其相較于GD、ISO、MNC方法有更強的紋理抑制強度,相對SSC、MCI、NDC 方法有更加平滑完整的目標輪廓.
圖4 RuG40 自然圖像庫的輪廓檢測結果 (第1 行為自然圖像測試集;第2 行為真實輪廓圖;第3 行為GD 方法檢測結果;第4 行為ISO 方法檢測結果;第5 行為SSC 方法檢測結果;第6 行為MNC 方法檢測結果;第7 行為MCI 方法檢測結果;第8 行為NDC 方法檢測結果;第9 行為本文方法檢測結果)Fig.4 Contour detection results of RuG40 natural image library (the first line is the natural image test sets;the second line is the true contour maps;the third line is the results of GD;the fourth line is the results of ISO;the fifth line is the results of SSC;The sixth line is the results of the MNC;the seventh line is the results of the MCI;the eighth line is the results of NDC;the ninth line is the results of ours method)
由于基于視覺機制的輪廓檢測方法中,不同計算模型基于不同的機制,通常設置相應的Sigma 尺度,或者有不同的Weight 權重,以及一些模型獨有的參數,所以通常采用最優P值及其他性能指標去評價模型的性能優劣.
為更直觀地定量分析輪廓檢測效果,本文采用Grigorescu 等在文獻[21]中提出的方法進行計算,但最終的輪廓結果相對于基準輪廓圖的像素位置會存在一定范圍內的可控偏差.因此實驗認為,若檢測到某像素出現基準輪廓像素的5×5 鄰域內,則認為該像素點為檢測正確.記ED和EGT分別為算法檢測到的輪廓像素集和基準輪廓像素集,可得算法所正確檢測到的像素集E=ED∩(EGT⊕T)(⊕表示為膨脹操作,T為5×5 的結構單元);錯檢的像素集為EFP=ED-E;漏檢的像素集為EFN=EGT-(EGT∩(ED⊕T)).據此,可由式(22)~(24)得評價指標誤檢率eFP、漏檢率eFN和整體性能指標P為
式中,card(C)為集合C中的元素個數.上述各式表明,誤檢率eFP越小則背景紋理越少,漏檢率eFN越小則對象輪廓保留的越多,具體計算結果如表1 所示.
據表1 可知,定量計算結果與上述定性分析結果大致相同.GD 算法對于目標突出的自然圖像所提取的輪廓比較完整,漏檢率eFN較小而誤檢率eFP偏大,但對于如Lions 紋理復雜的圖像,該算法漏檢率更大,可能因為主體與背景紋理過于接近而無法準確獲取輪廓信息.SSC 算法在幾幅圖中表現出較高的漏檢率和較低的誤檢率,表明其根據數學空間的稀疏約束方法,雖然加強了紋理噪聲的抑制,但并沒能準確地區分紋理區和輪廓區,導致伴隨著背景強紋理受到抑制的同時,主體輪廓信息也發生了丟失.ISO、MNC和MCI 算法都是從視覺機制出發,相對于GD 算法誤檢率有所降低,并且和漏檢率之間保持一定平衡.ISO 算法采用Gabor 濾波器模擬經典感受野的朝向特性提取圖像輪廓,再考慮非經典感受野的側抑制作用實現紋理抑制,其相比GD 算法更穩定有效,但卻忽略了視通路層級傳遞的特性,實現方法過于簡單使得背景紋理抑制強度有限.MNC 算法基于初級視通路視覺感知機制,在ISO 算法基礎上引入了時空編碼,輻射區冗余度增強編碼等方法,對于具有復雜背景的圖像,檢測結果的輪廓信息較為完整,但同時含有較多的背景紋理導致誤檢率eFP偏高.MCI 算法基于初級視皮層V1 區感受野的神經元反應,綜合考慮了多種局部特征以提高輪廓檢測性能,但由于其通過組合權重的方式進行圖像融合,最終提取的輪廓不夠精準,部分細節存在丟失現象,相較于本文方法誤檢率偏高.NDC 是在本文算法基礎上,去掉神經元動態編碼后的算法模型,其提取的輪廓在部分區域存在斷裂情況,驗證了神經元動態編碼過程由于難以均衡eFP和eFN導致最終P值相比本文算法有所降低,驗證了本文算法模型的有效性.總體而言,上述6 種算法P值均劣于本文方法.本文方法將輸入圖像經暗視野調節后,結合了稀疏編碼與非經典感受野對紋理的抑制作用以及微動視覺信息整合機制,充分反映了LGN 對視覺特征的高效處理能力,然后引入神經元動態編碼過程以及跨視區前饋融合方法,檢測結果在背景紋理得到抑制的同時,輪廓也較完整清晰,對比上述其他算法具有一定優勢.
表1 圖4 中不同算法的參數設置與性能評價指標Table 1 Parameters and performance of the different algorihms in Fig.4
本文為各算法引入FPS (Frames per second)指標(即每秒處理的圖像數量),由于RuG40 數據集各圖像較為近似,本文僅以Buffalo 圖像參照說明.觀察表1 可知,GD和ISO 算法FPS 較高,但是在檢測效果上較差,而SSC和MNC 算法能夠較好地均衡了處理速率與檢測效果,但輪廓檢測性能有限.通過NDC、MCI 與本文算法FPS 指標相比較可得,本文算法在進一步深化視覺機制的加工過程中,在運行速度基本保持不變的情況下,實現檢測效果和魯棒性能的提升.
上述實驗僅包含部分圖像數據,因此為驗證本文方法針對整體數據集的有效性,需進一步定量分析各個算法在RuG40 圖像庫上的測試效果.如圖5所示,其中各算法模型的左柱狀圖表示整個數據集在最優參數下的P值,右柱狀圖表示每幅圖片的最優P值的均值,由于不同圖像間存在像素差異,故單幅圖片最優平均P值(右柱狀圖)總是更大.由圖5 可知,各算法結果與上述分析結果基本一致,且本文方法在整體圖像庫指標和單幅圖片指標的表現上均更優.
圖5 各算法模型在整個數據集的最優平均P值和單幅圖片的最優均值Fig.5 ThePvalue of each algorithm model in the entire data set and the optimal average value of a single picture
此外,本文在多組參數條件下,利用輪廓檢測算法對其他部分自然圖像進行性能測試,并將結果P值以箱線圖(圖6)方式統計.圖中箱體頂部表示在排除異常值后的最優結果,箱體中部橫線表示P值中位數.根據該7 幅圖像的測試結果可知,本文算法均有較好的性能.
圖6 部分圖像在多組參數下檢測結果的P值箱線圖(G 表示GD 算法,I 表示ISO 算法,S 表示SSC 算法,M 表示MNC 算法,C 表示MCI 算法,N 表示NDC 算法,O 表示本文算法)Fig.6 P-value box plot of the detection results of some images under multiple sets of parameters (G represents the GD,I represents the ISO,S represents the SSC,M represents the MNC,C represents the MCI,N represents the NDC,and O represents the algorithm in this paper)
為進一步突出算法模型的輪廓檢測效果及其性能,本文另針對BSDS500 數據庫圖集隨機選擇5幅圖片進行結果展示以及定量分析,如圖7 與表2所示.其中GD 算法依舊無法區分主體對象輪廓與背景紋理的差異,因此總具有較高的誤檢率eFP,ISO 在此基礎上利用非經典感受野的側抑制特性,有效減弱了圖像強紋理噪聲的響應,降低了eFP,卻由于割裂了主體與背景的主次關系導致漏檢率eFN上升;SSC 算法的稀疏約束模型雖然進一步弱化了紋理響應,但也丟失了較多復雜主體對象的輪廓信息,例如在第3 幅和第5 幅圖中,部分主體輪廓的丟失導致了漏檢率的升高;MCI、MNC 算法所引入的多特征、多機制等視覺結構模型,在對目標的輪廓檢測結果上相較于上述算法更為優異,但在輪廓細節檢測以及紋理抑制上還存在不足,因此eFP總高于本文算法;NDC 算法利用暗視野調節、改進的稀疏編碼等方法,更加有效地強化了主體輪廓,抑制了強、弱紋理響應;本文算法利用所提出的神經元動態傳遞編碼,更進一步提高了P值,降低了eFN和eFP.據以上分析,本算法在背景紋理抑制,以及輪廓檢測完整性方面表現更加有效,所提出的相關實驗步驟對于圖像顯著輪廓的檢測和強紋理噪聲的抑制作用也較為明顯,整體表現更為優異.
圖7 BSDS500 圖像數據集的輪廓檢測結果(第1 行為自然圖像測試集;第2 行為圖像真實輪廓;第3 行為GD 方法檢測結果;第4 行為ISO 方法檢測結果;第5 行為SSC 方法檢測結果;第6 行為MCI 方法檢測結果;第7 行為MNC 方法檢測結果;第8 行為NDC 方法檢測結果;第9 行為本文方法檢測結果)Fig.7 Contour detection results of BSDS500 image library (the first line is the natural image test sets;the second line is the true contour maps;the third line is the results of GD;the fourth line is the results of ISO;the fifth line is the results of SSC;The sixth line is the results of the MNC;the seventh line is the results of the MCI;the eighth line is the results of NDC;the ninth line is the results of ours method)
表2 圖7 中不同算法的參數設置與性能評價指標Table 2 Parameters and performance of the different algorihms in Fig.7
類似地,本文利用上述5 幅圖像的檢測數據構建P值箱線圖,并對BSDS500 驗證集中所有圖像進行輪廓檢測,統計各算法模型在整個數據集的最優平均P值和單幅圖片的最優均值,進一步驗證本文算法模型的有效性與泛化性,結果如圖8和圖9 所示.
圖8 BSDS500 部分圖像在多組參數下檢測結果的P值箱線圖(G 表示GD 算法,I 表示ISO 算法,S 表示SSC 算法,C 表示MCI 算法,M 表示MNC 算法,N 表示NDC 算法,O 表示本文算法)Fig.8 P-value box plot of the detection results of some BSDS500 images under multiple sets of parameters(G represents the GD,I represents the ISO,S represents the SSC,C represents the MCI,M represents the MNC,N represents the NDC,and O represents the algorithm in this paper)
圖9 各算法模型在BSDS500 數據集的最優平均P值和單幅圖片的最優均值Fig.9 ThePvalue of each algorithm model in the BSDS500 data set and the optimal average value of a single picture
根據圖8的P值箱線圖可知,本文算法模型相較于目前其他基于視覺機制的輪廓檢測方法更加優異,并具有較好的魯棒性.另外從圖9 數據中可得,本文算法在BSDS500 驗證集下也有更好的檢測效果.SSC 算法在RuG40 數據上的實驗結果較差,但是在BSDS500 數據集上的整體表現較為突出,其中可能原因是SSC 算法針對彩色圖像引入了顏色雙拮抗機制,而RuG40 數據集僅包含二值圖像.因此,本文算法模型在針對彩色復雜圖像的輪廓檢測能力上,還有可深入研究的空間.
綜合上述實驗可知,本文所提出的基于主通路結構分級響應模型的輪廓檢測方法,在RuG40 與BSDS500 數據集上均表現較好,檢測效果具有一定優勢的同時,也存在可改進之處.
本文研究基于生物視覺系統,探討了不同組織結構間的生理特性差異,提出了一種不同的視覺信息傳遞和處理方法.首先根據視網膜視桿細胞特性對灰度自然圖像進行暗視野調節,突出主體目標.根據經典感受野的方向選擇性和多尺度特性,實現初級輪廓感知和全局輪廓信息的提取;其次考慮LGN 細胞對信息的稀疏編碼加快響應速度,并結合非經典感受野的側抑制作用,強化輪廓特征抑制背景紋理;然后對輪廓信息進行生理神經元編碼,根據LGN 與初級視皮層間的層級關聯機制,提出一種結合微動信息整合的神經元動態過程編碼方法,提高了輪廓信息的完整性;最后通過視覺系統多路徑加工的特點,將初級輪廓響應經全局輪廓信息修正后與最終響應進行快速融合,在提取弱輪廓信息的同時也抑制了背景紋理噪聲.目前深度學習模型對于高質量的樣本具有較高的輪廓檢測精度,但模型并不具有可解釋性,并嚴重依賴于海量的訓練樣本.而本文所采用的輪廓檢測模型是一種基于生物視覺機制的機理模型,具有效率高、成本低、無監督的優勢,在針對RuG40、BSDS500 圖像數據集的對比實驗中驗證了其有效性,也為后續視覺信息在視通路中的傳遞編碼方式提供了新想法.