摘要:受生物學研究啟發,模擬視皮層組織結構提出了ColorMax層次模型用于彩色圖像識別問題。利用ColorMax模型進行學習能得到較高層次的復雜仿真視覺特征,這些特征具有較好的識別可分性和不變性。利用該模型實現基于對象顏色、紋理和形狀的綜合特征識別與比較。實驗結果表明,提出的模型能夠在學習樣本數量少的情況下進行學習,提高了識別的速度,能達到與當前先進算法相當識別效果。
關鍵詞:視皮層; 特征構造; 層次; 識別
中圖分類號:TP242.6文獻標志碼:A
文章編號:1001-3695(2008)05-1563-03
0引言
利用機器視覺進行模式識別具有廣闊的實際應用前景,是當前的研究熱點之一。機器視覺研究目前的衡量標
準是與人眼識別的結果進行比較。人眼能對同一物體在不同的尺度、角度和光線下都能夠進行正確識別,而目前的機器視覺在識別的不變性和可分性上與人眼識別的效果還有一定差距。經過生物科學實驗證實,靈長類動物腦內下顳葉皮層中的神經細胞的活動與動物對物體的識別有緊密聯系[1,2],對特定物體的識別是通過與腦中存儲的標準圖像模板進行比較實現。實驗表明腦下顳葉皮層區域對物體識別的處理機制是一種層次式的類前向反饋機制,視覺信息處理是按一定的通路進行傳輸的,從視網膜到達大腦皮層,在大腦皮層中其處理是一個由簡單到復雜處理的過程,而皮層中的神經細胞越復雜,則對應于視網膜上物體圖像的更大范圍。因此要達到人眼的識別效果,模擬視皮層結構來構造識別過程是一種可行的方法,而這種方法以前只在立體視覺中采用,而很少用于對象識別的研究。當前在僅有少量的研究是將機器視覺研究基于簡單神經細胞的處理上,對圖像進行類高斯處理和Gabor變化,而得到的都是低層視覺特征[3,4],與真正人眼識別所需的復雜生物視覺特征相差甚遠。
Riesenhuber和Poggio在1999年仿效視覺皮層組織機構提出了標準物體識別層次模型——HMax模型[5,6]。Thomas Serre等人在2005年和2007將HMax模型用于物體識別中[7,8],利用改進的模型構造了高層次的仿真生物視覺特征。文獻[7,8]所提到方法的突破之處在于通過層次自底向上,由簡單到復雜的處理過程。在識別物體時,沿層次結構不斷進行模板匹配和合并操作,模擬了視皮層中多具有一定的尺度,平移和旋轉不變性。而局限之處在于他們僅考慮了灰度圖像中的物體識別,而沒有考慮彩色圖像識別過程中的顏色識別過程,將該方法應用在彩色圖像識別上效果不理想并且識別時間過長。本文在HMax模型的基礎上提出了針對彩色圖像識別的 ColorMax模型,試圖模擬視皮層對彩色物體的識別過程,利用該方法構造出包含色彩信息的多層生物視覺特征。基于ColorMax模型構造的識別過程能夠快速地進行彩色圖像的識別并且得到的視覺特征具有較強的不變性,在不同光線,尺度和旋轉下能取得較好的識別結果。實驗結果顯示本文提出的方法與HMax模型比較在識別效果和識別速度上均有較大的改善,能夠達到與當前主流識別方法相當的識別效果。
1ColorMax模型及特征獲取
1.1視皮層對象識別模型
目前的生物視覺研究表明,在靈長類動物進行視覺識別的最初是100~200 ms,其主要處理過程是一種前饋層次。在識別的每一階段,神經細胞的感受野會隨著優化刺激處理復雜度的增加而增大,從簡單的神經細胞到復雜的神經細胞自底向上的逐級識別整個圖像。標準視皮層對象識別模型主要的功能是仿效視皮層神經活動的流程來實現物體識別。HMax模型是一種改進的視皮層對象識別模型,它使得到的物體特征具有尺度和位置的不變性。模型由四層計算單元構成[5],即S1、C1、S2和C2單元。S1單元通過對輸入圖像進行調諧處理,模擬了V1區域內簡單視覺神經細胞的感受野。該處理的目的在于提取具有可分性的低層特征。C1單元的工作是將空間鄰域和各尺度的特征進行的局部最大值操作,以此來獲得更大的感受野,提高對象識別的不變性。S2單元將C1單元得到的特征作為輸入,得到多方向的C1特征,將新特征與標準模板進行匹配,在這個步驟完成學習。將S2特征進行最大值操作得到C2特征,C2特征單元所進行的操作與視皮層 V4區域的神經細胞活動相似,得到的結果將作為最終用于分類的特征。整個標準視皮層對象識別模型的結果與短尾猿的下顳葉皮層活動測試結果是一致的。
1.2ColorMax模型及對象特征獲取
生物神經學研究表明,在人眼的視網膜上存在三種顏色感受器,即紅、藍、綠視錐細胞,分別接受不同波長的顏色刺激[9]。生物實驗研究表明[10],腦皮層中的V2區域中不同空間位置的神經突起會接受從視網膜傳來各不同顏色的刺激并作出反應,相鄰區域會對相近色調作出反應,并最終通過皮層神經細胞 V4區域的處理得到整體的顏色表示。受上述生物實驗的結果啟發,筆者提出一種層次式ColorMax模型,模型的基礎是標準視皮層對象識別模型。ColorMax模型主要的突破在于將顏色信息的處理引入標準視皮層處理過程中。模型自底向上由四層構成,每層分別為S1、C1、S2、C2四類計算單元。用ColorMax進行顏色特征獲取分為兩個階段,即特征學習和特征提取階段。
1.2.1特征學習
首先,利用模型在訓練集上學習出待識別對象的顏色特征模板集P(k),學習的過程由模型中的S1單元和C1單元完成。
a)S1單元。對每一幅圖像在確定的k個不同位置取不同大小的矩形區域n個,如在圖像的中心位置取大小分別為4、6、8、10、15、20的塊,,共得到k×n個區域。選取的特定位置應該是對于識別起關鍵作用的位置,如人臉識別中的關鍵點。計算每一區域的RGB標準差及方差共六個特征作為S1單元輸出的特征向量(s1),共6×k×n個。
b)C1單元。將(S1)中的特征值在某一相鄰尺度區域上取最大值作為C1的輸出,如在(8,10)尺度的區域之間比較。將得到的(C1)作為學習到的模板特征集Pkj。其中:k表示位置;j表示最大值的尺度范圍。
1.2.2顏色特征提取
在進行對象識別之前需要提取待識別對象的顏色特征,提取的過程由模型的S1、C1、S2、C2構成。
a)S1單元。對待識別的圖像,選定i個隨機位置,每個位置選取j個大小不同的區域,計算每一區域的顏色特征(S1)ij。與學習階段不同之處在于選取的位置是隨機的。
b)C1單元。同學習階段,在相鄰尺度區域上取最大值特征得到(C1)ij。
c)S2單元。將(C1)ij與學習階段得到的模板一一進行匹配,按式(1)計算區域與模板的距離:
將提取到的顏色特征與文獻[7,8]中利用HMax模型提取紋理與形狀特征的過程相結合,得到包含顏色、紋理和形狀的復雜視覺特征——ColorMax-HMax特征。特征的構成如圖1所示。
2圖像識別過程
2.1分類器的構造
圖像識別前首先需要構造分類器。在實驗中采用了 Boosting學習方法來完成分類器的訓練。1990年,Schapire提出Boosting算法。1995年,Freund和Schapire提出了AdaBoost算法,該算法相對于Boosting算法效率相當但是更適于實際應用[11,12]。AdaBoost算法能通過將一組弱分類器結合成為一個強分類器,通過樣本訓練得到一個識別準確率理想的分類器。本文提出的圖像識別算法采用了AdaBoost方法來構造不同對象的分類器。首先在訓練集圖片上按1.2節中的方法得到訓練集中每幅圖片的特征集,在特征集上訓練得到分類器,具體的分類器學習方法請參照文獻[11,12]。
2.2自底向上的識別算法
模擬視皮層的識別處理過程,設計了自底向上的圖像識別過程。從局部區域的識別擴展到更大范圍的識別。具體的識別過程是,先將輸入的圖片分割為若干個固定大小的小窗口,對每個小窗口,使用能識別小窗口的分類器對其進行判別,將判斷為真的相鄰小窗口合并為較大的區域,針對每個合并的區域,使用能識別特對象的分類器對其進行判別,若判別為假,則去掉標記。其算法步驟如下:
a)將圖像劃分為相同尺寸大小的小窗口;
b)對每個小窗口,使用能識別小窗口的分類器判別其是否為待識別對象的一部分;
c)將所有相鄰的待定窗口合并成較大的待定區域;
d)對每個待定區域,通過能識別對象的分類器判別其是否屬于某一對象區域;
e)輸出標記出的對象區域。
3實驗結果及分析
在柑桔潰瘍病的檢測系統中測試了本文提出的識別方法。檢測系統要求根據不同光線的自然環境中,在不同種類的柑桔樹上采集的柑桔葉片照片來判斷出是否感染了病害。由于柑桔潰瘍病斑的形狀和顏色多樣,病斑在不同的發病時期呈現出不同的外觀,而在自然條件下拍攝的照片有復雜的背景的干擾等因素,要檢測出病斑是一個較為復雜的問題。
3.1實驗數據準備
實驗首先選取了21幅潰瘍病斑圖片,由植物學專家在圖上標出識別的關鍵位置,得到病斑的邊緣,病斑的中心等關鍵位置,將圖片歸一化為128×128大小,按1.2.1節的方法得到特征學習的模板集。
將2 000樣本幅圖片歸一化為128×128大小,其包含有帶病斑的葉片圖片和不含病斑的葉片圖片,均按1.2.2節的方法提取了特征集,分別得到ColorMax特征集、HMax特征集及ColorMax-HMax綜合特征集。
3.2實驗結果
在2 000幅圖片的特征集中隨機選取1 000幅圖片作為分類器訓練集,余下的1 000幅圖片作為測試集。先在訓練集上經過100輪訓練得到分類器,然后在測試集上進行100輪測試后得到結果。分別用ColorMax特征、HMax特征及ColorMax-HMax綜合特征進行了實驗。
圖2展示了經過十次訓練后三種不同的特征集用于分類器訓練時所達到的平均識別率與訓練輪數的關系。從圖中可以看到三種特征集構造的分類器在經過多輪訓練后識別率都能高于97%。單獨的ColorMax特征和ColorMax-HMax特征集構造的分類器在訓練時比HMax特征構造的分類器收斂得更快,且最終生成的分類器效果也要好一些,在100輪訓練后ColorMax特征和ColorMax-HMax特征集構造的分類器其識別率能高于99.5%,而用HMax特征集構造的分類器其識別率只能達到97%左右。
圖2為三種特征集訓練得到的分類器在相同測試集上經過十次測試后,平均識別率與訓練輪數的關系。從圖中可以看到單獨的ColorMax特征和ColorMax-HMax特征集構造的分類器在測試時比HMax特征構造的分類器收斂得更快。在100輪訓練后ColorMax-HMax特征集構造的分類器識別率最高,能達到98.5%以上,ColorMax特征集構造的分類器識別率能達到98%左右,而用HMax特征集構造的分類器其識別率只能達到93%左右。在10輪訓練時,ColorMax特征和ColorMax-HMax特征集構造的分類器的識別錯誤率能很快下降到0.03左右,而HMAX特征集構造的分類器其識別錯誤率仍然保持在0.07以上。
表1列出了構造100個樣本特征集所需時間平均值的情況。其中,簡單特征是相對于擬生物視覺得到的多層次特征而言,僅通過數字圖像處理得到的圖片的顏色、紋理、形狀等特征。在進行比較實驗時,所提取的簡單特征中顏色特征為目前在對象識別領域公認識別效果較好的幾種特征:在RGB顏色空間和HSI顏色空間中各顏色分量上的均值及標準差特征,紋理特征有快速傅里葉紋理特征,灰度共生矩陣紋理特征及Gabor特征。由表中的數據可以看出與 HMax特征集構造所需時間大約是ColorMax特征集的6 .7倍,而ColorMax特征集和簡單特征集構造時間接近。
如圖所示, ColorMax特征集能達到目前先進的對象識別算法中所采用的簡單特征集相當的識別率,并且在訓練和測試時的收斂速度更快,所取得的識別效果也更穩定。從表1中也可以看到ColorMax特征集的構造速度也略快于簡單特征集的構造時間。
4結束語
本文提出了一種針對彩色圖像識別的層結構的對象識別方法。首先模擬大腦皮層中視神經識別對象的層次結構,參考標準對象識別模型HMax,提出了ColorMax模型,利用該模型能計算出彩色圖像的復雜顏色特征集——ColorMax特征集。實驗證明ColorMax特征集是一種構造方便,并且具有較強的不變性和選擇性的通用特征。利用ColorMax特征集構造的分類器在識別率和識別速度上都能達到甚至超過目前先進的對象識別算法,而且ColorMax特征集是一種與人眼視覺機制相似的生物特征集,是較高層次上的綜合特征,與當前眾多機器視覺中所采用的簡單特征是不一樣的。將ColorMax特征集與HMax特征集想結合構造的ColorMax-HMax特征集能更全面地反映物體的各種視覺特征,并在測試中顯示了其良好特性,相信在更多的物體識別問題中會得到更廣泛的應用。
其次,根據視皮層處理的過程,設計了自底向上的物體識別方法。該方法尤其在一些局部特征性較強的物體識別問題上具有優勢。利用該方法能快速地定位物體位置,并通過區域合并較準確地找出物體邊界。
還需要解決的問題在于目前的模型模擬的基礎在生物神經學研究中視皮層的識別過程,該過程主要是發生在V1、V2及V4區域的神經活動,而其他一些視覺活動過程,如心理因素、記憶因素等沒有考慮。今后隨著對于人視覺活動研究的深入,會進一步完善該模型。
可以改進的地方還有識別算法的設計,可以考慮級聯等方式在識別率和識別速度之間找到平衡,還有對于算法在不同種類物體上識別的查全率和準確率問題上也需要更多的實驗和研究。
參考文獻:
[1]AFRAZ S R,KIANI R,ESTEKY H.Microstimulation of inferotemporal cortex influences face categorization[J].Nature ,2006,442:692-695.
[2]AFRAZ D A,BONDAR I V,GIESE M A.Norm-based face encoding by single neurons in the monkey inferotemporal cortex[J].Nature,2006, 442:572-575.
[3]LIU C J.A Bayesian discriminating features method for face detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2003,25(6):725-740.
[4]JONES J P,PALMER L A.An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex[J].Neurophysiology, 1987,58:1233-1258.
[5]RIESENHUBER M,POGGIO T.Hierarchical models of object recognition in cortex[J]. Nature Neuroscience,1999,2(11):1019-1025.
[6]MUTCH J,LOWE D.Multiclass object recognition with sparse,loca-lized HMax features[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.New York:[s.n.],2006:11-18.
[7]SERRE T,KOUH M,CADIEU C,et al. A theory of object recognition:computations and circuits in the reedforward path of the ventral stream in primate visual cortex[C]//Proc of AI Memo 2005-036/CBCL Memo 259.2005.
[8]SERRE T,WOLF L,BILESCHI S,et al.Robust object recognition with cortex-like mechanisms[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29:411-426.
[9]FORSYTH D A,PONCE J.Computer vision:a modern approach[M].[S.l.]:Prentice Hall,2003.
[10]XIAO You-ping,WANG Yi,FELLEMAN D J.A spatially organized representation of colour in macaque cortical area v2[J].Nature ,2003,421:535-539.
[11] STAN Z.Floatboost learning and statistical face detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2004,26(9):1112-1123.
[12] FREUND Y.A decision-theoretic generalization of online learning and an application to boosting[J].Journal of Computer and System Science,1997,55(1):111-139.
[13]PETERS A.The organization of the primary visual cortex in the macaque.Cerebral Cortex[M]. New York: Plenum Press,1994:68-76.
[14]BLASDEL G G.Differential imaging of ocular dominance and orientation selectivity in monkey striate cortex[J].Neurosci,1992,12:3115-3138.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”