馬艷東
改進的局部泛化誤差模型及其在特征選擇中的應用
馬艷東
神經(jīng)網(wǎng)絡的性能可以通過泛化誤差表達。泛化誤差越小,則說明該神經(jīng)網(wǎng)絡在未知樣本中的預測能力越強。反之,說明該神經(jīng)網(wǎng)絡的預測能力很差。對Wing W.Y. NG等人提出了局部泛化誤差模型進行了改進,并將新模型應用到特征選擇當中。試驗結果表明,相對于原有模型,該模型具有更貼近實際的對泛化能力進行表達的能力。
在模式識別率領域,泛化誤差模型能夠描述分類器對未知樣本進行準確分類的能力,也是近幾年來的研究熱點。一般的泛化誤差模型都是以包括未知樣本的整個樣本空間為基礎進行研究的。但是,Wing W.Y. NG等人卻另辟蹊徑提出了局部泛化誤差模型(Localization Generalization Error model,L-GEM)。該模型認為對距離已知樣本距離過遠的樣本考慮泛化能力沒有任何意義。故而將考慮范圍誤差模型的基礎更正為值考慮距離已知樣本距離較近的空間。這樣獲得局部泛化誤差模型不僅降低了模型推導的難度,而且,具有更貼近實際的意義。然而,通過研究發(fā)現(xiàn),該局部泛化誤差在推導過程與理論基礎上面出現(xiàn)了些許錯誤。比如在推導局部泛化誤差模型的上限過大,而且推導的理論依據(jù)也不是很堅實。本文提出了一種新型的基于范數(shù)的局部泛化誤差模型(Normbased Localization Generalization Error model,NL-GEM)。該模型不僅避免了原L-GEM模型的推導過程中出現(xiàn)的錯誤,而且具有更簡單的推導過程與更易于理解的理論基礎。
Q近鄰
對于任意給定的訓練樣本xb,可以找到一個訓練樣本集,滿足


令SQ為所有SQ(xb)的并集。
局部泛化誤差模型
假定將計算泛化誤差的考慮控件限定在Q近鄰的范圍內(nèi),則局部泛化誤差模型L-GEM的推導過程簡單描述如下。


其中,fθ(x)是分類器的真實輸出。F( x)為分類器的期望輸出。θ從域Λ中選擇出來的一組參數(shù)集。 A為目標輸出最大值與最小值之差。

基于范數(shù)的局部泛化誤差模型(NL-GEM)

NL-GEM模型的推導過程如下:


公式(5)的第2項:

是訓練集的訓練誤差,用Remp表示。因此,公式(5)則可以簡寫成:

這就是NL-GEM模型的最后推導形式。對比LGEM模型,該模型具有以下三項優(yōu)點。第一:該模型的推導過程比L-GEM的推導過程更加堅定;第二:該模型更加利于理解與計算。第三:理論基礎更加堅實。
對于訓練RBF(Radial Basis Function)神經(jīng)網(wǎng)絡的需求來說,輸入數(shù)據(jù)的維數(shù)并不是越多越好。而且數(shù)據(jù)維數(shù)越多,存儲需要的空間也越多。處理數(shù)據(jù)花費的成本也越多。更有甚者,數(shù)據(jù)維數(shù)多到一定程度,RBF神經(jīng)網(wǎng)絡的性能還會有明顯的下降。而特征選擇可以幫助RBF神經(jīng)網(wǎng)絡利用更少但更加代表數(shù)據(jù)本質(zhì)的特征,訓練出性能不比使用所有特征訓練的網(wǎng)絡的性能差,甚至更好的分類器。
SM神經(jīng)網(wǎng)絡來說是不重要的。
步1:初始化IFS為全部特征的集合;
步2:利用IFS里的特征,訓練RBF神經(jīng)網(wǎng)絡;
步5:如果終止條件沒有滿足,則跳轉(zhuǎn)到步2。
終止條件一般為:測試誤差下降的較快,或者,RBF神經(jīng)網(wǎng)絡的性能滿足要求,或者,IFS只包含一個特征。在步2中,采用兩階段發(fā)來訓練RBF神經(jīng)網(wǎng)絡。 第一階段,利用K-mean聚類算法計算隱含層節(jié)點的中心與寬度。第二階段,偽擬的方法計算網(wǎng)絡的權重。

下面對本文提出的算法進行仿真實驗,試驗數(shù)據(jù)特選取UCI機器學習數(shù)據(jù)庫中的Iris、Glass數(shù)據(jù)集,作為樣本集。其中Iris具有150個樣本數(shù),4個特征,3個類標。Glass數(shù)據(jù)集則有214個樣本,9個特征,6個類標。為驗證本算法的可行性,進行特征選擇對比試驗。分別對上述2個數(shù)據(jù)集重復進行10仿真實驗,取其識別精度的平均值作為其訓練與測試能力的評價標準。在針對Iris數(shù)據(jù)集進行試驗時,RBF神經(jīng)網(wǎng)絡的隱含層結點數(shù)目為6。針對Glass數(shù)據(jù)集進行試驗時,RBF神經(jīng)網(wǎng)絡的隱藏層節(jié)點數(shù)目為21。
仿真實驗結果如表1與2所示。

表1 Iris數(shù)據(jù)集的特征選擇結果

表2 Glass數(shù)據(jù)集的特征選擇結果
由表1可知,針對Iris數(shù)據(jù)集,當在第2此迭代時,在分別刪除第1與2個特征之后,RBF神經(jīng)網(wǎng)絡的訓練精度提高了近3個百分點。而測試精度達到了100%。
由表2可知,針對Glass數(shù)據(jù)集,如果任意刪除其中的一個特征后,RBF神經(jīng)網(wǎng)絡的訓練精度與測試精度都會有極大幅度的下降。因此,對Glass數(shù)據(jù)集來說,所有的特征都是重要的特征。
關于未來工作,將在更多的數(shù)據(jù)集上驗證該模型的可行性。還會利用均方誤差模型實現(xiàn)該模型。也會嘗試其他方法來降低該模型的復雜度。最后還會將該模型應用到其他領域,如結構選擇、激勵學習等。
10.3969/j.issn.1001-8972.2015.10.013