曾 勇 舒 歡 胡江平 葛月月
?
基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)
曾 勇 舒 歡*胡江平 葛月月
(電子科技大學(xué)自動(dòng)化工程學(xué)院 成都 611731)
在偽最近鄰(PNN)分類(lèi)算法中,待分類(lèi)樣本點(diǎn)與每一類(lèi)樣本集中各個(gè)近鄰的距離加權(quán)系數(shù)都是主觀(guān)確定的,這就使得算法得不到最優(yōu)距離加權(quán)值。針對(duì)這一問(wèn)題,該文提出一種基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)算法。首先通過(guò)計(jì)算待分類(lèi)樣本點(diǎn)與每一類(lèi)樣本集中各個(gè)近鄰的距離值,并將其作為BP神經(jīng)網(wǎng)絡(luò)的輸入。然后根據(jù)BP神經(jīng)網(wǎng)絡(luò)輸入與輸出之間的映射來(lái)自適應(yīng)確定相應(yīng)的距離加權(quán)值。最后由BP神經(jīng)網(wǎng)絡(luò)的輸出值判別樣本類(lèi)別號(hào)。實(shí)驗(yàn)結(jié)果表明,該算法能夠自適應(yīng)地調(diào)節(jié)距離加權(quán)系數(shù),同時(shí)還能有效地改善分類(lèi)準(zhǔn)確率。
偽最近鄰分類(lèi);BP神經(jīng)網(wǎng)絡(luò);自適應(yīng)
為了解決PNNR存在的不足,本文提出了一種新的分類(lèi)方法:基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)方法(Adaptive pseudo Nearest Neighbor classification based on BP neural network, BPANN),根據(jù)同類(lèi)樣本特征相似,而不同樣本特征值差異較大這一特性來(lái)計(jì)算測(cè)試樣本在每一個(gè)類(lèi)別中的個(gè)近鄰點(diǎn),充分利用了測(cè)試樣本在每一類(lèi)原型樣本集里的多個(gè)近鄰信息,將計(jì)算出的測(cè)試樣本與各近鄰點(diǎn)間的距離值作為網(wǎng)絡(luò)輸入,并通過(guò)BP神經(jīng)網(wǎng)絡(luò)輸入和輸出之間的映射自適應(yīng)地訓(xùn)練距離加權(quán)系數(shù),使得分類(lèi)器的分類(lèi)精度得以提高。
本文其余部分組織如下:第2節(jié)介紹偽最近鄰分類(lèi)算法;第3節(jié)將給出本文所提出的BPANN的具體算法步驟以及分類(lèi)器設(shè)計(jì);第4節(jié)是實(shí)驗(yàn)及結(jié)果分析;最后是本文結(jié)論。



由文獻(xiàn)[17]提出的偽最近鄰規(guī)則PNNR(Pseudo Nearest Neighbor Rule)如下:一個(gè)測(cè)試樣本對(duì)給定,則偽最近鄰分類(lèi)規(guī)則把測(cè)試樣本分配為其偽最近鄰所屬的類(lèi)別,如果有多個(gè)偽最近鄰,則在其中隨機(jī)選擇一個(gè),并把其對(duì)應(yīng)的類(lèi)別指定給測(cè)試樣本。
實(shí)驗(yàn)表明偽最近鄰分類(lèi)方法的分類(lèi)性能優(yōu)于傳統(tǒng)的最近鄰分類(lèi)方法與傳統(tǒng)的近鄰分類(lèi)方法,也優(yōu)于傳統(tǒng)的距離加權(quán)的近鄰分類(lèi)算法[17],但由于其中的距離加權(quán)系數(shù)都是人為主觀(guān)確定的,并不能得到較優(yōu)的距離加權(quán)值,為此本文提出了一種基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)的方法。
基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)是偽最近鄰分類(lèi)方法的擴(kuò)展,與PNN分類(lèi)算法不同的是,BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器的輸入不是待分類(lèi)樣本點(diǎn)的特征值,而是待分類(lèi)樣本在每一類(lèi)樣本集中的各個(gè)近鄰的距離值。并且距離加權(quán)值不需要人為確定,而是由BP神經(jīng)網(wǎng)絡(luò)輸入和輸出之間的映射自適應(yīng)確定,同時(shí)對(duì)每類(lèi)原型樣本自適應(yīng)的設(shè)計(jì)其相應(yīng)的分類(lèi)器,從有效的樣本資料中得到盡可能多的信息,使其獲得更好的分類(lèi)效果。圖1顯示的是自適應(yīng)偽最近鄰分類(lèi)器的訓(xùn)練原理圖,其中輸入數(shù)據(jù)是訓(xùn)練數(shù)據(jù)集,分別各自表示屬于類(lèi)的原型樣本數(shù),表示其對(duì)應(yīng)個(gè)近鄰按升序排列的與測(cè)試樣本的距離,表示個(gè)分類(lèi)器的輸出值。

圖1 自適應(yīng)偽最近鄰分類(lèi)器訓(xùn)練原理圖
3.1 BPANN模型的參數(shù)設(shè)置
BP神經(jīng)網(wǎng)絡(luò)具有良好的容錯(cuò)性、與人腦相似的高度并行性以及聯(lián)想記憶功能,容錯(cuò)能力和自適應(yīng)學(xué)習(xí)都較強(qiáng),可以實(shí)現(xiàn)從輸入到輸出的非線(xiàn)性映射。應(yīng)用于近鄰分類(lèi)的BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器,必須結(jié)合數(shù)據(jù)集的情況設(shè)計(jì),并在試驗(yàn)中不斷改進(jìn),才能訓(xùn)練出泛化性能好的模式分類(lèi)器。所以,必須選擇適當(dāng)大小的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)太小不能解決問(wèn)題,太大則推廣能力差。本文中,BP神經(jīng)網(wǎng)絡(luò)在樣本訓(xùn)練階段通過(guò)附加動(dòng)量法來(lái)調(diào)整層與層之間的權(quán)值和閾值,從而通過(guò)網(wǎng)絡(luò)輸入輸出之間的映射自適應(yīng)的調(diào)節(jié)距離加權(quán)權(quán)值,同時(shí)針對(duì)樣本數(shù)據(jù)的數(shù)據(jù)類(lèi)別自適應(yīng)的設(shè)計(jì)其相應(yīng)的分類(lèi)器,以便選出較優(yōu)的分類(lèi)器。
(1)輸入與輸出層節(jié)點(diǎn)數(shù)確定:BP網(wǎng)絡(luò)的輸入、輸出層維數(shù)需要根據(jù)實(shí)際要求而定,本實(shí)驗(yàn)中,若樣本預(yù)處理時(shí)采用的是近鄰,那么輸入層的維數(shù)就為;而輸出層輸出的則是樣本的相似度即新的距離加權(quán)和,因此輸出層的維數(shù)為1。
(2)隱層層數(shù)的選擇及隱層節(jié)點(diǎn)數(shù):根據(jù)戈?duì)柲炅_夫(Kolmogorov)定理,一個(gè)3層的BP網(wǎng)絡(luò)足以完成任何從輸入到輸出的連續(xù)映射,因此,我們采用具有一個(gè)隱層的3層BP神經(jīng)網(wǎng)絡(luò)。隱節(jié)點(diǎn)數(shù)目的選擇是一個(gè)比較復(fù)雜的問(wèn)題,目前確定隱節(jié)點(diǎn)數(shù)的方法有很多種,主要有修剪方法、復(fù)雜性調(diào)整方法、增益方法、進(jìn)化方法、自適應(yīng)方法[18]等。在大量實(shí)驗(yàn)的基礎(chǔ)上,這里選擇式(4)作為參考。

(3)激活函數(shù)的選擇:神經(jīng)元的激活函數(shù)一般選用Sigmoid函數(shù),經(jīng)過(guò)大量實(shí)驗(yàn)對(duì)比,最終我們選取式(5)所示logistic函數(shù)作為激活函數(shù)。

(4)初始權(quán)值的選取:因系統(tǒng)的非線(xiàn)性性使初始權(quán)值對(duì)學(xué)習(xí)是否收斂關(guān)系很大,故而希望初始權(quán)值在輸入累加時(shí)使每個(gè)神經(jīng)元的狀態(tài)值接近于零。一般,初始權(quán)值取隨機(jī)數(shù),而且權(quán)的值要求比較小。
(5)學(xué)習(xí)率以及沖量項(xiàng)的選擇:原則上,只要學(xué)習(xí)率足夠小以保證收斂,但實(shí)際上學(xué)習(xí)率可以影響到最后的網(wǎng)絡(luò)性能。而沖量項(xiàng)的目的在于:允許當(dāng)誤差曲面中存在平坦區(qū)時(shí),網(wǎng)絡(luò)可以以更快的速度學(xué)習(xí),增加了學(xué)習(xí)過(guò)程的穩(wěn)定性。對(duì)于我們所用的Sigmoid型網(wǎng)絡(luò),可以首先將學(xué)習(xí)率設(shè)為0.2,沖量項(xiàng)設(shè)為0.9,然后可以在學(xué)習(xí)過(guò)程中適當(dāng)?shù)母膭?dòng)。
3.2 BPANN分類(lèi)方法的實(shí)現(xiàn)
基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)方法實(shí)現(xiàn)的流程圖如圖2所示。
由于在實(shí)際應(yīng)用中用于訓(xùn)練的樣本各元素之間取值范圍不可能完全一致,這就給網(wǎng)絡(luò)的訓(xùn)練帶來(lái)很大不便,不僅加大了逼近函數(shù)的波動(dòng)性,使網(wǎng)絡(luò)訓(xùn)練速度下降,而且容易造成網(wǎng)絡(luò)訓(xùn)練失敗。因此先對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理是非常重要的,這在一定程度上可以加速訓(xùn)練,提高訓(xùn)練的成功率。樣本集經(jīng)過(guò)預(yù)處理后,便將其送入BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行網(wǎng)絡(luò)訓(xùn)練。對(duì)于一個(gè)數(shù)據(jù)集中個(gè)可得的訓(xùn)練樣本,令分別表示對(duì)應(yīng)于屬于類(lèi)的訓(xùn)練樣本數(shù)。

圖2 基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)方法實(shí)現(xiàn)流程
BPANN的具體步驟如下:
步驟1 將樣本數(shù)據(jù)集(data)分為訓(xùn)練集(trainsam)和測(cè)試集(testsam),進(jìn)行數(shù)據(jù)預(yù)處理。計(jì)算每個(gè)訓(xùn)練樣本點(diǎn)在每一類(lèi)訓(xùn)練樣本中的個(gè)近鄰,以及到各個(gè)近鄰的距離,并將其按升序排列為,對(duì)每一類(lèi)樣本數(shù)據(jù)經(jīng)過(guò)歸一化處理后計(jì)算對(duì)應(yīng)的正例、反例,類(lèi)的正例、反例個(gè)數(shù)分別為,其中正例指在類(lèi)內(nèi)尋找的樣本點(diǎn),反例指從類(lèi)間尋找的樣本。將每一類(lèi)的正例、反例作為BP神經(jīng)網(wǎng)絡(luò)的輸入,表示為,并且數(shù)據(jù)集中每一類(lèi)樣本分別對(duì)應(yīng)一個(gè)BP網(wǎng)絡(luò)分類(lèi)器,類(lèi)共對(duì)應(yīng)個(gè)分類(lèi)器。
{
初始化BP神經(jīng)網(wǎng)絡(luò),即設(shè)定網(wǎng)絡(luò)參數(shù)。其中輸入層到隱含層與隱含層到輸出層的權(quán)值和偏置分別表示為,將它們分別取隨機(jī)數(shù)。
完成步驟3-步驟5。
}
步驟3 預(yù)處理后的數(shù)據(jù)送入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到新的權(quán)值以及偏置。
本文采用附加動(dòng)量法來(lái)作為權(quán)值和偏置的學(xué)習(xí)算法,其權(quán)值學(xué)習(xí)公式為


式中是網(wǎng)絡(luò)輸出的誤差,用于權(quán)值和偏置的修正,是網(wǎng)絡(luò)隱含層的輸出,,
步驟4 將預(yù)處理后的測(cè)試樣本送入已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)中進(jìn)行分類(lèi),找出網(wǎng)絡(luò)輸出值中的最大值,也就是新的偽最近鄰,并將測(cè)試樣本分到最大值對(duì)應(yīng)的的索引類(lèi)。
實(shí)驗(yàn)是在MATLAB7.11.0環(huán)境下實(shí)現(xiàn),采用了機(jī)器學(xué)習(xí)庫(kù)UCI[19]上的9個(gè)數(shù)據(jù)集。所使用的數(shù)據(jù)介紹見(jiàn)表1。數(shù)據(jù)集Letter, Pen, Thyroid, Optdigits, Landsat-Satellite和Image-Segmentation,其訓(xùn)練樣本集與測(cè)試樣本集已被預(yù)先指定。而其余的3個(gè)數(shù)據(jù)集,通過(guò)5倍交叉驗(yàn)證來(lái)選擇訓(xùn)練集與測(cè)試集,其中對(duì)于數(shù)據(jù)集采用的距離度量是歐幾里得距離。
現(xiàn)在用BPANN與PNN以及傳統(tǒng)的KNN一起對(duì)機(jī)器學(xué)習(xí)庫(kù)UCI[19]上的9個(gè)數(shù)據(jù)集進(jìn)行分類(lèi),其中PNN1, PNN2, PNN3, PNN4分別是距離逆加權(quán)、指數(shù)衰減距離加權(quán)、線(xiàn)性距離逆加權(quán)、倒數(shù)距離加權(quán)的偽最近鄰分類(lèi),分類(lèi)結(jié)果見(jiàn)表2。對(duì)每一個(gè)數(shù)據(jù)集,幾種分類(lèi)方法中最好的分類(lèi)結(jié)果用黑體表示。
從表2可以看到,對(duì)數(shù)據(jù)集Letter, Pen, Optdigits, Image-Segmentation, Landsat-Satellite以及Wine,基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)的分類(lèi)性能明顯好于傳統(tǒng)的近鄰分類(lèi)以及偽最近鄰分類(lèi)。而在數(shù)據(jù)集Thyroid上,BPANN也取得了較好的分類(lèi)效果。對(duì)于數(shù)據(jù)集Iris和Glass,最終的分類(lèi)效果沒(méi)有得到明顯改善,這是由于它們屬于小樣本數(shù)據(jù)集,先前沒(méi)有分出訓(xùn)練集和測(cè)試集。而B(niǎo)PANN分類(lèi)算法在分類(lèi)器設(shè)計(jì)階段,是通過(guò)5倍交叉驗(yàn)證來(lái)選擇訓(xùn)練集與測(cè)試集,交叉分組的訓(xùn)練數(shù)據(jù)每次的變化會(huì)對(duì)權(quán)值優(yōu)化產(chǎn)生較大影響,進(jìn)而影響分類(lèi)結(jié)果。并且該算法在小樣本數(shù)據(jù)集上的誤差率是5次分類(lèi)結(jié)果的平均值,避免了實(shí)驗(yàn)結(jié)果由于訓(xùn)練集與測(cè)試集選擇的隨機(jī)性引起的偶然性。
表3為表2中幾種算法取得相應(yīng)分類(lèi)結(jié)果的分類(lèi)時(shí)間(因?yàn)镵NN直接計(jì)算測(cè)試樣本與訓(xùn)練樣本之間的距離,不需要進(jìn)行訓(xùn)練,因此實(shí)驗(yàn)中記錄的是各個(gè)算法的測(cè)試時(shí)間,即分類(lèi)時(shí)間),表中時(shí)間單位均為秒,幾種分類(lèi)算法分別在每個(gè)數(shù)據(jù)集上最少的分類(lèi)時(shí)間用黑體表示。
表1所使用數(shù)據(jù)集的一些特征

仿真所使用的數(shù)據(jù)集特征維數(shù)樣本數(shù)類(lèi)數(shù)誤差估計(jì) Letter1616000個(gè)訓(xùn)練樣本26測(cè)試樣本4000個(gè) Pen167494個(gè)訓(xùn)練樣本10測(cè)試樣本3498個(gè) Thyroid213772個(gè)訓(xùn)練樣本 3測(cè)試樣本3428個(gè) Optdigits643823個(gè)訓(xùn)練樣本10測(cè)試樣本1797個(gè) Landsat-Satellite364435個(gè)訓(xùn)練樣本 3測(cè)試樣本2000個(gè) Image-Segmentation19210個(gè)訓(xùn)練樣本 7測(cè)試樣本2100個(gè) Iris 4150 35CV Glass 9214 65CV Wine13178 35CV
表2在9個(gè)數(shù)據(jù)集上的分類(lèi)誤差(%)

數(shù)據(jù)集KNNPNN1PNN2PNN3PNN4BPANN Letter4.12 k=3 3.80 3.75 4.30 3.93 3.67 Pen2.12 k=4 1.94 2.26 2.26 1.97 1.92 Thyroid6.33 k=5 6.65 6.42 8.02 6.42 6.33 Optdigits2.00 k=1 1.67 1.84 2.00 1.67 1.56 Landsat-Satellite10.6010.5510.3510.55 9.90 8.90 Image-Segmentation12.3312.3312.3312.3312.3312.14 Wine30.7228.5727.4728.6028.0125.73 Iris 2.67 2.67 2.67 3.33 2.67 3.33 Glass35.0537.1737.6137.2036.2835.27 平均誤差率11.7711.7111.6312.3611.3810.98
表3 不同算法在各數(shù)據(jù)集上的分類(lèi)時(shí)間(s)

數(shù)據(jù)集KNNPNN1PNN2PNN3PNN4BPANN Letter35.996538.146644.469945.701341.694623.9958 Pen14.346518.077514.724513.459912.5943 8.0977 Thyroid16.984113.574811.909811.427311.0418 3.6130 Optdigits14.939418.948114.324816.629913.9480 4.1931 Landsat-Satellite13.491213.356611.012811.674111.7278 2.7176 Image-Segmentation 3.9030 4.0412 4.0186 3.3453 3.7430 3.3353 Wine 0.0163 0.0090 0.0296 0.0091 0.0085 0.0234 Iris 0.0119 0.0216 0.0342 0.0378 0.0269 0.0187 Glass 0.0091 0.0100 0.0126 0.0190 0.0257 0.0344
由表3可得,BPANN算法在數(shù)據(jù)集Letter, Pen, Thyroid, Optdigits, Landsat-Satellite以及Image- Segmentation上的分類(lèi)時(shí)間明顯的小于PNN以及KNN,從算法原理可對(duì)此作出解釋?zhuān)琍NN是通過(guò)計(jì)算距離加權(quán)和來(lái)分類(lèi),而 BPANN是由神經(jīng)網(wǎng)絡(luò)輸入與輸出間的映射來(lái)調(diào)節(jié)權(quán)值并分類(lèi),使得分類(lèi)時(shí)間相對(duì)較少。對(duì)于小樣本數(shù)據(jù)集Wine, Iris和Glass, BPANN在分類(lèi)時(shí)間上沒(méi)有取得明顯改善,這是由于為了避免實(shí)驗(yàn)的偶然性,其分類(lèi)時(shí)間計(jì)算的是交叉驗(yàn)證次數(shù)的平均值。
針對(duì)PNN算法中距離加權(quán)系數(shù)的確定問(wèn)題,本文提出了一種新的偽最近鄰方法:基于BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)偽最近鄰分類(lèi)方法。在該分類(lèi)方法中,BP神經(jīng)網(wǎng)絡(luò)的輸入不是待分類(lèi)樣本點(diǎn)的特征值,而是待分類(lèi)樣本在每一類(lèi)樣本集中的各個(gè)近鄰的距離值,同時(shí)距離加權(quán)值不需要人為確定,而是由BP神經(jīng)網(wǎng)絡(luò)輸入和輸出之間的映射自適應(yīng)確定,并且對(duì)每一個(gè)數(shù)據(jù)集自適應(yīng)的設(shè)計(jì)其相應(yīng)分類(lèi)器。因此在整個(gè)分類(lèi)過(guò)程中進(jìn)一步減少了主觀(guān)因素的參與成分,這使得分類(lèi)器性能具有更好的穩(wěn)定性和推廣性。在多個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法與傳統(tǒng)的KNN算法以及PNN算法相比,取得了更好的分類(lèi)性能。
[1] WU Xindong, KUMAR V, QUINLAN J R,Top 10 algorithms in data mining[J]., 2008, 14(1): 1-37. doi: 10.1007/s10115-007-0114-2.
[2] MATEI O, POP P C, and V?LEAN H. Optical character recognition in real environments using neural networks and k-nearest neighbor[J]., 2013, 39(4): 739-748. doi: 10.1107/s10489-013-0456-2.
[3] WAN C H, LEE L H, RAJKUMAR R,. A hybrid text classi?cation approach with low dependency on parameter by integrating-nearest neighbor and support vector machine[J]., 2012, 39(15): 11880-11888. doi: 10.1016/j.eswa.2012.02.068.
[4] CARAWAY N M, MCCREIGHT J L, and RAJAGOPALAN B.Multisite stochastic weather generation using cluster analysis and k-nearest neighbor time series resampling[J]., 2014, 508: 197-213. doi: 10.1016/ j.jhydrol.2013.10.054.
[5] RAHMAN S A, HUANG Y, CLAASSEN J,Combining Fourier and lagged-nearest neighbor imputation for biomedical time series data[J]., 2015, 58: 198-207. doi: 10.1016/j.jbi.2015.10. 004.
[6] GONZáLEZ Mabel, BERGMEIR Christoph, TRIGUERO Isaac,. On the stopping criteria for-Nearest Neighbor in positive unlabeled time series classi?cation problems[J]., 2016, 328: 42-59. doi: 10.1016/j.ins. 2015.07.061.
[7] WANG A, AN N, CHEN G,. Accelerating wrapper- based feature selection with-nearest-neighbor[J]., 2015, 83: 81-91.doi: 10.1016/ j.knosys.2015.03.009.
[8] CHEN C H, HUANG W T, Tan T H,. Using K-nearest neighbor classification to diagnose abnormal lung sounds[J]., 2015, 15(6): 13132-13158. doi: 10.3390/s150613132.
[9] HAN Y, PARK K, HONG J,. Distance-constraint k-nearest neighbor searching in mobile sensor networks[J]., 2015, 15(8): 18209-18228.doi: 10.3390/s150818209.
[11] CHOI Sangil, YOUN Ik-hyun, LEMAY Richelle,.Biometric gait recognition based on wireless acceleration sensor using-nearest neighbor classification[C]. 2014 IEEE International Conference on Computing, Networking and Communications (ICNC), Honolulu, HI, 2014: 1091-1095.doi: 10.1109/ICCNC.2014.6785491.
[12] DUDANI S A. The distance-weighted-nearest-neighbor rule[J].,,, 1976, 6(4): 325-327. doi: 10. 1109/TSMC. 1976.5408784.
[13] GOU Jianping, XIONG Taisong, and KUANG Yin. A novel weighted voting for k-nearest neighbor rule[J]., 2011, 6(5): 833-840. doi: 10.4304/jcp.6.5.833- 840.
[14] GOU Jianping, DU Lan, ZHANG Yuhong,A new distance-weighted-nearest neighbor classier[J].&, 2012, 9(6): 1429-1436.
[15] BAILY T and JAIN A K. A note on distance-weighted- nearest neighbor rules[J].,,, 1978, 8(4): 311-313. doi: 10.1109/ TSMC.1978.4309958.
[16] MORIN R L and RAESIDE B E. A reappraisal of distance- weighted-nearest-neighbor classification for pattern recognition with missing data[J].,,, 1981, 11(3): 241-243. doi: 10.1109/TSMC.1981.4308660.
[17] ZENG Yong, YANG Yupu, and ZHAO Liang. Pseudo nearest neighbor rule for pattern classification[J]., 2009, 36: 3587-3595. doi: 10.1016/j.eswa. 2008.02.003.
[18] 楊凡, 趙建民, 朱信忠. 一種基于BP神經(jīng)網(wǎng)絡(luò)的車(chē)牌字符分類(lèi)識(shí)別方法[J]. 計(jì)算機(jī)科學(xué), 2005, 32(8): 192-195.
YANG Fan, ZHAO Jianmin, and ZHU Xinzhong. A new method of license plate characters classified recognition based on BP neural networks[J]., 2005, 32(8): 192-195.
[19] BACHE K and LICHMAN M.UCI repository of machine learning databases[OL].http://www.ics.uci.edu/~mlearn/ MLRepository.html. 2014.
Adaptive Pseudo Nearest Neighbor Classification Based on BP Neural Network
ZENG Yong SHU Huan HU Jiangping GE Yueyue
(,,611731,)
Distance-weighted coefficients between unlabeled sample point and its nearest neighbors belonging to same sample set are determined subjectively in the Pseudo Nearest Neighbor (PNN) classification algorithm, which makes it difficult to obtain optimal distance-weighted value. In this paper, an adaptive pseudo neighbor classification algorithm based on BP neural network is proposed. Firstly, the distance-weighted values between unlabeled sample point and its neighbors lying in the same sample set are regarded as the input of BP neural network. Secondly, the corresponding distance-weighted values are adaptively determined according to the mapping between the inputs and outputs of BP neural network. Finally, the classification of unlabeled sample point is judged by the outputs of BP neural network. Experimental results show that the proposed approach adaptively adjusts the distance-weighted coefficients. Moreover, the classification accuracy can be effectively improved.
Pseudo Nearest Neighbor (PNN) classification; BP neural network; Adaptive
TP181
A
1009-5896(2016)11-2774-06
10.11999/JEIT160133
2016-01-29;改回日期:2016-06-17;
2016-09-08
舒歡 shuhuan163@163.com
國(guó)家自然科學(xué)基金(61104104, 61473061),四川省信號(hào)與信息重點(diǎn)實(shí)驗(yàn)室基金(SZJJ2009-002)
The National Natural Science Foundation of China (61104104, 61473061), The Fund of Sichuan Provincial Key Laboratory of Signal and Information Processing (SZJJ2009-002)
曾 勇: 男,1968年生,博士,副教授,研究方向?yàn)橹悄苄畔⑻幚怼⒅悄芸刂评碚撆c應(yīng)用、計(jì)算機(jī)視覺(jué)與模式識(shí)別.
舒 歡: 女,1991年生,碩士生,研究方向?yàn)槟J阶R(shí)別.
胡江平: 男,1977年生,教授,博士生導(dǎo)師,研究方向?yàn)槎嘀悄芟到y(tǒng)建模與控制、傳感器網(wǎng)絡(luò)信息融合、智能飛行控制等.