摘要:從RBF神經元的幾何意義出發,提出了一種新的用于模式識別的CRBF神經網絡分類器。與傳統RBF網絡相比,該算法能夠自動地優化RBF網絡中核函數的個數、中心和寬度,且由于競爭神經元的引入,省去了傳統RBF神經網絡輸出層線性連接權的計算,從而簡化了網絡的學習過程,大大縮短了訓練時間。
關鍵詞:模式識別;徑向基函數神經網絡;競爭徑向基函數神經網絡;分類器
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2008)03-0709-03
人工神經網絡具有極強的自學習和分類能力,在模式識別領域中得到了廣泛應用[1~5];但由于每個神經元行為的數學描述都是一個多變量的非線性函數方程,組成網絡以后的龐大多變量非線性方程組更是難以進行數學分析[6]。雖然很多學者曾提出過多種數學分析方法[7],但復雜多變量非線性方程組的處理與分析問題始終是個難題,它限制著人工神經網絡在分析角度的深入發展。目前,對神經網絡行為用數學解析的方法全面進行精確分析還難以實現。
為改善對神經網絡行為的認識和研究中的“黑匣子”式的難以處理的狀態,許多學者從幾何的角度對人工神經網絡的行為進行了分析和研究[8~11]。文獻[8,9]試圖利用MP神經元的幾何解釋在多維空間中構造一組超平面來分析神經網絡的行為;遺憾的是,隨著超平面個數和維數的增加,超平面之間的相互交叉變得異常復雜,使得對神經網絡的分析幾乎無法進行。文獻[10]也利用了MP神經元的幾何解釋,巧妙地構造出一個球領域模型,從而將神經網絡的訓練問題轉換為點集的覆蓋問題,克服了神經網絡訓練時間長和收斂性不確定的難題。在此基礎上,文獻[11]進一步提出了基于最大密度覆蓋的神經網絡訓練算法,極大地降低了學習的復雜度。
本文正是受以上思想的啟發,提出了一種新的CRBF神經網絡分類器設計方法。與傳統的RBF網絡相比,該算法能夠自動地優化RBF網絡中的核函數個數、中心和寬度。同時,由于競爭神經元的引入,省去了傳統RBF神經網絡輸出層線性連接權的計算,從而簡化了網絡的學習過程,大大縮短了訓練時間。實驗結果表明,本文算法相對于傳統的神經網絡,具有訓練時間短、正確率高的優點。
1CRBF神經網絡分類器
1.1神經元模型的幾何解釋
廣義地看待一個神經元,它的數學模型可以描述為[6]
y=f [Φ(x1,x2,…,xn)-θ](1)
其中:X=(x1,x2,…,xn)T表示輸入向量;θ表示閾值; f(·)為神經元激勵函數;y為神經元輸出。神經元的基本運算規則,如對于BP網絡的神經元
Φ(x1,x2,…,xn)=ni=1wixi(2)
其中wi表示神經元的權值。不難看出,激勵函數的基[ni=1wixi-θ]就表示輸入空間中輸入點離一個超平面的距離。這個超平面的方程是
ni=1wixi-θ=0(3)
如果激勵函數是階躍函數,則神經元的功能就是在多維空間中作一個超平面,輸入位于此超平面的一側時其輸出為1,而另一側時輸出為0。
對于RBF網絡的神經元,其數學模型可表示為
y=f [ni=1(xi-wi)2-θ2](4)
如果式(4)中RBF神經元的激勵函數f(·)為階躍函數,則該神經元相當于在輸入空間中以核心W=(w1,w2,…,wn)T為球心,以θ為半徑作一個超球面。當輸入點在此超球面內時輸出為0,在超球面以外時輸出為1。可以看出,激勵函數的基就表示輸入空間中輸入點離一個核心點的距離。
顯然超平面或超球面的幾何概念對于幫助人們對神經網絡行為的認識與分析是十分有效的。在模式識別中,可以將每個神經元看做是在多維空間中作的一個超平面或超球面,依次來劃分輸入空間的樣本點。
實質上,每一個RBF神經元就是一個輸入模式的類別鑒別器,且在幾何上表示了模式空間中的一個超球子空間,它對應于某個模式類的一個聚類區域。對于采用高斯核函數的RBF神經網絡,RBF神經元具有最大的輸出就意味著它表示的超球子空間與該輸入樣本有最小的距離。這些超球子空間的位置和大小惟一地由參數μ和δ決定,矢量μ表示超球子空間的中心,而寬度δ決定了子空間的大小。
在一個模式空間中,一個模式類通常無法只用一個子空間描述,而是要由兩個或更多的子空間來描述。也就是說,一個模式類通常由許多子類組成,每個子類對應于由該類樣本聚類形成的一個子空間,這些聚類區域則將模式空間分割成一系列子空間。因此,模式分類問題就可轉換為尋找這些子空間的問題。為了使神經網絡具有更高的效率,有必要將神經元數減到最小且可以充分地代表這些子類。也就是說,要在模式空間中找到能夠表示訓練樣本內在分布的最小樣本聚類集。
1.2CRBF神經網絡結構
在RBF層與輸出層之間增加一個競爭層(competitive layer),并將競爭層神經元與RBF層的神經元看做是一個復合處理單元,稱之為CRBF神經處理單元,如圖1所示。
一個CRBF神經處理單元的輸出可以用式(5)描述:
Ci(X)=1if (i≠j)φi(X)>φj(X)
0otherwise(5)
CRBF神經處理單元的競爭神經元的輸入為所有RBF神經元的輸出,按照“勝者全得”的原則,每次神經元被激活,只有一個競爭神經元有較大輸出,而其他神經元都被抑制。最大輸入對應的神經元成為勝者,其輸出為1,而其他所有神經元的輸出值為0。本文稱這種具有競爭層的RBF網絡為CRBF神經網絡。其網絡結構如圖2所示。
在CRBF神經網絡中,CRBF神經處理單元通過測量輸入向量X到它們所代表的聚類區域的距離來決定向量X屬于哪個子類聚類。當所有RBF神經元接收到模式空間的輸入,如果輸入向量來自某個聚類區域,那么該聚類區域對應的RBF神經元就具有最大的輸出值,對輸入向量X進行分類的過程就變成了一件比較距離測量的事情。這已經由CRBF單元的競爭神經元來完成了,就沒有必要再像傳統RBF神經網絡那樣計算所有RBF神經元輸出的線性連接權。輸出層的神經元的標記代表模式樣本的類別,因此輸出層只有一個神經元可以被標記為ωi(ωi∈{ω1,ω2,…,ωc})。這樣CRBF神經網絡就省去了RBF輸出層線性連接權的計算;同時也省去了應用某種糾錯算法訓練RBF層與輸出層之間線性連接權的過程,大大降低了學習的復雜性,節省了網絡的訓練時間。訓練CRBF神經網絡的任務就只是尋找最佳的神經元參數。
1.3CRBF神經網絡的學習算法
網絡參數優化的關鍵是CRBF網絡中核函數個數、中心和寬度的確定。從RBF神經元的幾何意義來說,高斯基核函數表示輸入空間中的一個超球形的子空間,對應訓練樣本的一個聚類的分布區域。CRBF神經網絡的學習過程可以看做是尋找最小的聚類集,且這些聚類能夠很好地描述訓練樣本在模式空間的內在分布。CRBF神經網絡的結構參數包括CRBF處理單元數以及參數(μ,δ)都在學習過程中確定。
給定一個訓練樣本集K={(Xi, j,ωi),1≤i≤c,1≤j≤numi}。其中:c表示訓練樣本的類別數;numi表示第i類的樣本個數;Xi, j∈Rn表示屬于第i類的第j個樣本向量;ωi為其輸出類別標志。對于任一訓練樣本Xi, j,它在同類樣本中的密度估計函數的定義為
Di, j=numin=1exp[-‖Xi, j-Xi,n‖2/(ri,j/2)2](6)
其中:ri, j=mini≠k(‖Xi, j-Xk,n‖)表示樣本矢量Xi, j與異類樣本的最小距離。顯然,在半徑ri, j以外的樣本向量對Xi, j的密度值Di, j幾乎沒有影響。如果一個訓練樣本有較大的密度值,則其周圍一定有較多相同類別的樣本點。
下面給出CRBF神經網絡分類器訓練算法。
a)初始時,所有訓練樣本標記設置為0,表示該訓練樣本沒有被任何超球子類聚類包含,計算所有訓練樣本矢量的密度值。
b)對于第k(1≤k≤c)類樣本:
(a)在未被包含的樣本中,選擇具有最大密度值的樣本矢量作為聚類中心μki,中心μki到異類樣本的最小距離δki作為聚類半徑,作超球面‖X-μki‖2=(a×δki)2。其中參數a(0<a<1)可以調節超球面子類聚類的大小。
(b)把將入超球面‖X-μki‖2=(a×δki)2的樣本標記置為1,表示這些樣本已被該超球子類聚類包含。
c)返回到b),重復執行,直到所有訓練樣本的標記都為1。
事實上,參數a可以用來調整相鄰超球面之間的重疊區域。如果a值太小,則不會有重疊的區域,CRBF神經網絡的泛化能力就不好;如果a值太大,則不同類別的超球面之間就會存在較大的重疊部分,落入該重疊區域的樣本可能會被錯誤分類。因此,本文的目標就是選擇恰當的寬度,使得CRBF神經網絡的泛化能力足夠強,而相鄰的不同類別的重疊區域則盡量小。
2實驗結果及分析
2.1三種鳶尾花(iris)的分類
實驗采用UCI中的iris數據庫。該數據被廣泛用來評估模式分類和聚類方法的性能。分析對象為剛毛鳶尾(iris setosa)、變色鳶尾(iris versicolour)和弗吉尼亞鳶尾花(iris virginica)三個類別,由花瓣長、花瓣寬、花萼長和花萼寬四個指標來描述。每個類別50個樣本,樣本總數為N=3×50=150。
通過主成分分析(圖3),剛毛鳶尾花與其他兩個類別是線性可分的;變色鳶尾花與弗吉尼亞鳶尾花之間由于相互重疊而很難分離,屬于非線性可分類別 。取每個類別的前25個共3×25=75個樣本組成訓練樣本集,其余75個樣本作為測試集,進行分類實驗。其結果如表1所示。
對每一個類別的樣本分別進行子類的劃分,剛毛鳶尾、變色鳶尾和弗吉尼亞鳶尾花對應的核函數個數分別為1、4、3,共八個核函數。最終CRBF網絡結構為4×8×3的網絡對訓練集的回報準確率為100%,對測試集的分類正確率為73/75=97.33%。采用結構為4×3×3的一般前向LBF網絡[12],學習1 500次,費時3 s,平均分類正確率為93.33%;結構為4×5×3的標準RBF網絡的平均分類正確率只有86.1%,重新改進學習算法后的RRBF網絡的平均分類正確率為94.9%[13];結構為4×11×3且寬度反復平滑后的GRBF網絡[14]分類正確率為97.33%。與文獻中的方法相比,本文方法既不必嘗試各種類型的RBF核函數,也無須繁瑣的參數選擇過程,且在學習中能夠自適應地確定優化的網絡結構和參數,獲得了較高的分類正確率。
2.2雙螺旋線數據分類問題
雙螺旋曲線的識別是一個典型的非線性可分問題[15],目前已成為人們驗證分類算法的重要標準。Roberts[16]試圖利用BP算法求解雙螺旋問題,但是沒有成功;Chen[5]提出生成—收縮法,經過3 000次迭代運算,但正確率只有89.6%;Fahlman等人[17]提出級聯神經網絡,使用超過10層神經網絡來處理同一問題,但結果也不甚理想。由此可知此問題的難度。
本次實驗采用卡內基梅隆人工智能庫(Carnegie Mellon AI repository)中的雙螺旋線數據。該數據庫由兩個數據集組成,每個集合有97個數據點。螺旋形狀參數變化如下:
angle=(i×PI)/(16×density)
radius=maxRadius×[(104×density)-i]/(104×density)
x=radius×cos(angle)
y=radius×sin(angle)(7)
實驗采用交叉驗證法來檢驗本文算法的分類性能。所謂交叉驗證法就是從樣本數據集中拿走一些樣本作為檢測樣本,剩余的樣本作為訓練樣本。然而,任何交叉驗證法對于本文螺旋分類問題都不是很適合。因為為了檢測的目的而拿走一些樣本,螺旋曲線必然會產生許多裂口,任何分類器都容易作出誤判。為了減小這些樣本對分類結果的影響,采用留一法即采用循環的方式每回依次僅拿走一個樣本進行檢測,剩余N-1個作為訓練樣本(N=194)。實驗結果如表2所示。
注:所有MATLAB程序都是在P4普通PC機上運行,參數a=0.7,density=1,maxRadius=6.5。
3結束語
本文提出的新的用于模式分類的CRBF神經網絡及其學習算法根據應用對象的不同,自動地優化RBF網絡中的核函數的個數、中心和寬度,而無須人為選擇決定網絡結構的參數;同時引入競爭層,省去了傳統RBF神經網絡輸出層線性連接權的計算,簡化了網絡的學習過程,縮短了訓練時間。實驗結果表明,該算法具有分類精度高、推廣性好、在學習過程中不易陷入局部極小點的優點。
參考文獻:
[1]MAO J,JAIN K.Artificial neural networks for feature extraction and multivariate data projection [J].IEEE Trans on Neural Networks,1995,6(2):296-317.
[2]SONG H H,LEE S W.A selforganizing neural tree for largeset pattern classification [J].IEEE Trans on Neural Networks,1998,9(5): 369-380.
[3]YUAN J L,FINE T L.Neuralnetwork design for small training sets of high dimension [J].IEEE Trans on Neural Networks,1998,9(1): 266-280.
[4]MUKHOPADHYAY S,ROY A,KIM L S.A polynomial time algorithm for generating neural networks for pattern classification:its stability properties and some test results [J].Neural Comput,1993,5(2): 317-330. [5]CHEN Q C.Generatingshrinking algorithm for learning arbitrary classification [J].Neural Networks,1994,7(9):14771489.
[6]王守覺,王柏南.人工神經網絡的多維空間幾何分析及其理論[J].電子學報,2002,30(1): 1-4.
[7]HOPFIELD J J. Neural networks and physical systems with emergent collective computational abilities [C]//Proc of Natl Acad Sci.Cambridge:Perseus Books, 1982:2554-2558.
[8]RUJAN P,MARCHAND M. A geometric approach to learning in neural networks [C]//Proc of International Joint Conference on Neural Networks.Washington DC:[s.n.],1989:105110.
[9]RAMACHER U,WESSELING M.A geometric approach to neural network design[C]//Proc of International Joint Conference on Neural Networks.Washington DC:[s.n.],1989:11471154.
[10]ZHANG Ling,ZHANG Bo.A geometrical representation of MP neural model and its applications [J].Journal of Software,1998,9(5): 334-338.
[11]黃國宏,邵惠鶴.一種新的基于神經網絡覆蓋分類算法[J].中國圖象圖形學報,2004,9(10):11651168.
[12]楊根興,高大啟.改進的RBF神經網絡模式分類方法應用研究[J].華東理工大學學報,2001,27(6):684-692.
[13]KARAYANNIS N B.Reformulated radial basis neural networks trained by gradient descent [J].IEEE Trans on Neural Networks,1999,10(3): 657-671.
[14]KARAYIANNIS N B. Gradient descent learning of radial basis neural networks [C]//Proc of IEEE Conf on Neural Networks.1997:18151820.
[15]SINGH S.2D spiral pattern recognition with possibilistic measures[J].Pattern Recognition Letters,1998,19(2):141147.
[16]ROBERTS F S.Applied combinatorics[M].[S.l.]:PrenticeHall,1984.
[17]FAHLMAN S E,LEBIERE C.The cascadecorrelation learning architecture[C]//Proc of Advances in Neural Information Processing Systems.1990:524-532.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”