劉保
(淮南職業(yè)技術(shù)學(xué)院網(wǎng)絡(luò)中心,安徽淮南232001)
改進(jìn)型支持向量機(jī)在水質(zhì)分類中的應(yīng)用研究*
劉保
(淮南職業(yè)技術(shù)學(xué)院網(wǎng)絡(luò)中心,安徽淮南232001)
文章分別使用BP、RBF等神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等非線性方法對相同的水質(zhì)數(shù)據(jù)建立分類模型。使用支持向量分類機(jī)建立水質(zhì)分類模型過程中,選用RBF核函數(shù),結(jié)合歸一、降維等數(shù)據(jù)預(yù)處理手段,利用網(wǎng)格搜索算法對參數(shù)進(jìn)行尋優(yōu),得出水質(zhì)分類模型。實(shí)驗(yàn)結(jié)果證明在非線性方法中,采用支持向量機(jī)并結(jié)合相應(yīng)的數(shù)據(jù)預(yù)處理手段這種方案得出的分類準(zhǔn)確率更高,更加具有推廣性。
水質(zhì)評價(jià);分類;支持向量機(jī);神經(jīng)網(wǎng)絡(luò);核函數(shù)
1.1 RBF神經(jīng)網(wǎng)絡(luò)在水質(zhì)分類中的應(yīng)用
1.1.1 RBF神經(jīng)網(wǎng)絡(luò)概述
作為一種前向神經(jīng)網(wǎng)絡(luò),RBF神經(jīng)網(wǎng)絡(luò)和大多數(shù)前向網(wǎng)絡(luò)類似。其網(wǎng)絡(luò)結(jié)構(gòu)通常也分為輸入層、隱含層、輸出層。結(jié)構(gòu)簡單、訓(xùn)練學(xué)習(xí)速度快是這種神經(jīng)網(wǎng)絡(luò)的特點(diǎn),能夠在理論上逼近任何非線性函數(shù)。
1.1.2 利用RBF神經(jīng)網(wǎng)絡(luò)建立水質(zhì)分類模型
文章共選取189個(gè)水質(zhì)樣本,從中選取89個(gè)水質(zhì)樣本作為訓(xùn)練樣本,另外89個(gè)水質(zhì)樣本作為測試樣本。利用Matlab10.0編程建立分類模型,首先對訓(xùn)練樣本和測試樣本做數(shù)據(jù)預(yù)處理,即將訓(xùn)練集和測試集合并在一起做歸一操作。在數(shù)據(jù)預(yù)處理過程中并沒有使用主成分分析這一步驟,原因是實(shí)驗(yàn)證明對其進(jìn)行主成分分析不但沒有提高其分類準(zhǔn)確率反而降低了最終的準(zhǔn)確率,由此可以看出主成分分析包括歸一在數(shù)據(jù)預(yù)處理的過程中并不是必須的步驟。然后通過徑向基神經(jīng)元建立概率神經(jīng)網(wǎng)絡(luò),最后使用測試集來驗(yàn)證該模型的分類準(zhǔn)確率。
使用RBF神經(jīng)網(wǎng)絡(luò)建立分類模型,分類結(jié)果如圖1所示:
從分類結(jié)果對比圖1可以看出,利用RBF神經(jīng)網(wǎng)絡(luò)建立分類模型的測試結(jié)果中,測試集中3個(gè)樣本本來屬于1類,被模型誤分類為2類;有6個(gè)樣本本來屬于3類,被模型誤分類為2類。共有9個(gè)測試數(shù)據(jù)分類有誤,準(zhǔn)確率為0.898876。
1.2 BP神經(jīng)網(wǎng)絡(luò)在水質(zhì)分類中的應(yīng)用
1.2.1 BP神經(jīng)網(wǎng)絡(luò)概述
由魯梅哈特等科學(xué)家領(lǐng)導(dǎo)的團(tuán)隊(duì)于20世紀(jì)80年代提出的一種神經(jīng)網(wǎng)絡(luò)模型叫做BP神經(jīng)網(wǎng)絡(luò)。作為一種典型的反向傳播多層前饋網(wǎng)絡(luò)模型之一在其出現(xiàn)后得到非常廣泛的應(yīng)用,RBF神經(jīng)網(wǎng)絡(luò)比較相似,BP神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)也是由BP輸入層(輸入),隱藏層(隱層)和輸出層(輸出)三部分組成。

圖1 分類效果圖
1.2.2 利用BP神經(jīng)網(wǎng)絡(luò)建立水質(zhì)分類模型
和通過RBF神經(jīng)網(wǎng)絡(luò)建立分類模型類似,在使用BP神經(jīng)網(wǎng)絡(luò)建立分類模型時(shí)也是選取89個(gè)水質(zhì)樣本作為訓(xùn)練樣本,另外89個(gè)水質(zhì)樣本作為測試樣本,首先對訓(xùn)練樣本和測試樣本做數(shù)據(jù)預(yù)處理,即將訓(xùn)練集和測試集合并在一起做歸一操作。在數(shù)據(jù)預(yù)處理過程中也沒有使用主成分分析這一步驟。建立BP神經(jīng)網(wǎng)絡(luò)分類模型,最后使用測試集來驗(yàn)證模型的分類準(zhǔn)確率。
利用BP神經(jīng)網(wǎng)絡(luò)建立分類模型并測試分類準(zhǔn)確率,分類結(jié)果如圖2所示:

圖2 分類結(jié)果對比圖
從分類對比圖6可以看出,利用BP神經(jīng)網(wǎng)絡(luò)建立分類模的測試結(jié)果中,測試集中有5個(gè)測試樣本本來屬于1類,被模型誤分類為2類;有3個(gè)測試樣本本來屬于3類,被模型誤分類為2類。共有8個(gè)樣本分類有誤,準(zhǔn)確率為0.910112。
2.1 支持向量機(jī)的概念
數(shù)據(jù)挖掘的有效工具包括統(tǒng)計(jì)模式識別、線性或非線性回歸以及人工神經(jīng)網(wǎng)絡(luò)。這些數(shù)據(jù)挖掘工具目前隨著計(jì)算機(jī)軟硬件技術(shù)的高速發(fā)展已經(jīng)得到了廣泛的應(yīng)用。有一個(gè)“小樣本難題”擺在眼前,許多實(shí)際課題中已知樣本數(shù)量較少,而傳統(tǒng)的模式識別或人工神經(jīng)網(wǎng)絡(luò)方法都要求有較多的訓(xùn)練樣本。如何解決這類“小樣本難題”,既用較少的樣本數(shù)量就可以得到推廣能力較好的模型,在支持向量機(jī)技術(shù)沒有出現(xiàn)之前是模式識別研究領(lǐng)域的一個(gè)難題。
支持向量機(jī)實(shí)現(xiàn)的是如下思想:將非線性可分的樣本輸入空間通過某種特定的非線性映射方法映射到一個(gè)高維特征空間并使其線性可分。最優(yōu)分類超平面正是通過這樣一個(gè)高維特征空間構(gòu)造出來,從而實(shí)現(xiàn)分類。
2.2 利用支持向量機(jī)建立水質(zhì)分類模型
2.2.1 數(shù)據(jù)選取

圖3 訓(xùn)練集和測試集的選取
其中:train_water和train_water_labels分別是測試集和測試數(shù)據(jù)的標(biāo)簽,test_water和test_water_labels分別為測試集和測試集的標(biāo)簽。
2.2.2 數(shù)據(jù)的預(yù)處理
(1)數(shù)據(jù)歸一
文章采用Matlab10.0自帶的mapminmax函數(shù)對測試集和訓(xùn)練集進(jìn)行歸一操作。

圖4 訓(xùn)練集和測試集合并歸一
(2)主成分分析
主成分分析是一種常見的統(tǒng)計(jì)分析方法,也是一種數(shù)學(xué)降維的方法,可以從眾多變量中找出幾個(gè)綜合變量,最大程度地讓這幾個(gè)綜合變量能夠代表原來的眾多變量,而這幾個(gè)綜合變量之間則關(guān)系不大或者沒有任何關(guān)系。這種從眾多變量提取出少量幾乎沒有關(guān)聯(lián)的綜合變量的方法叫做主成分分析。
PCA就是這樣的一種分析方法。PCA一般用來對數(shù)據(jù)進(jìn)行降維,文章就是利用PCA降維這種方法來提取這種線性組合,目的是為了去除高維空間中的冗余數(shù)據(jù)信息和噪聲信息,通過降維算法來尋找內(nèi)部數(shù)據(jù)的本質(zhì)結(jié)構(gòu)特征,在某種情況下對最終的分類準(zhǔn)確率和訓(xùn)練時(shí)間有較大改善。文章采用MATLAB中princomp函數(shù)來實(shí)現(xiàn)降維護(hù),降維效果分別如圖5所示:

圖5 PCA降維效果圖
(3)參數(shù)尋優(yōu)
交叉驗(yàn)證是一種統(tǒng)計(jì)評估方法,分析機(jī)器學(xué)習(xí)方法對獨(dú)立數(shù)據(jù)集的泛化能力(推廣能力),過擬合問題得到解決(為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜)。參數(shù)蟻群算法、網(wǎng)格搜索算法、遺傳算法等都是參數(shù)尋優(yōu)的算法,各種尋優(yōu)算法都有其優(yōu)缺點(diǎn),在文章中采用各種算法對最終的結(jié)果影響很小。所以文章選用網(wǎng)格搜索算法對參數(shù)c和g進(jìn)行尋優(yōu)。
所謂網(wǎng)格搜索算法,也就是說遍歷各種可能的c和g的值,對每一組c和g的值進(jìn)行交叉驗(yàn)證,找出一組能夠產(chǎn)生最高精確度的c和g的值,這就是網(wǎng)格搜索算法的原理。網(wǎng)格算法其實(shí)就是使用多循環(huán)的方法來建立程序。為了更加形象的說明參數(shù)c和g尋優(yōu)的效果,文章以3D圖的方式展示尋優(yōu)的結(jié)果。

圖6 尋優(yōu)效果3D圖
2.2.3 創(chuàng)建模型和模型模型評測
通過上述數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、參數(shù)尋優(yōu)、創(chuàng)建模型以及驗(yàn)證等步驟,得出比較符合預(yù)期設(shè)想的分類準(zhǔn)確率。

圖7 分類結(jié)果對比圖
從分類結(jié)果對比圖中可以看出,測試集89個(gè)測試數(shù)據(jù)中有兩個(gè)測試數(shù)據(jù)預(yù)測分類不準(zhǔn)確。經(jīng)查驗(yàn)原本屬于3類的兩個(gè)樣本數(shù)據(jù),測試時(shí)誤將其分類成2類。此模型分類準(zhǔn)確率達(dá)到0.977528。
通過表1可以看出不同的數(shù)據(jù)預(yù)處理,在支持向量機(jī)模型中得出的分類準(zhǔn)確率不同,通過表2可以看出利用支持向量機(jī)和利用RBF、BP神經(jīng)網(wǎng)絡(luò)建立分類模型的分類準(zhǔn)確率的不同。

表1 支持向量機(jī)不同預(yù)處理分類準(zhǔn)確率

表2 各種分類模型對比
通過表1可以看出,對于支持向量機(jī)來說,必要的數(shù)據(jù)預(yù)處理可以提高其模型的分類準(zhǔn)確率。通過表2可以看出對于支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)來說,由于支持向量機(jī)采用了適當(dāng)?shù)臄?shù)據(jù)預(yù)處理和優(yōu)化,支持向量機(jī)分類模型其分類準(zhǔn)確率更高。
文章所進(jìn)行的研究探索以及實(shí)踐工作尚處于初步階段,在很多方面還有待進(jìn)一步完善:
(1)文章中的數(shù)據(jù)集中的各類樣本數(shù)目基本均衡,即各類所含的樣本數(shù)大致相當(dāng),而且測試集樣本和訓(xùn)練集樣本數(shù)量基本相同。即文章中所做出的模型是基于均衡數(shù)據(jù)集的情況下得出的,這種建立模型的方法在某些場合下并不適合。而且在現(xiàn)實(shí)生活中還有很多不均衡數(shù)據(jù)集的情況存在,所以今后還要對不均衡數(shù)據(jù)集進(jìn)行研究。
(2)在支持向量機(jī)方法中,直接影響支持向量機(jī)方法的性能是核函數(shù)選擇的好壞,因此核函數(shù)的選取非常關(guān)鍵。核函數(shù)及其參數(shù)的確定,完全依賴于使用者的經(jīng)驗(yàn)或者是通過實(shí)驗(yàn)在一定范圍內(nèi)進(jìn)行最優(yōu)選擇的,是因?yàn)槟壳皩τ诤撕瘮?shù)及其參數(shù)的確定,尚沒有一個(gè)明確的方法指導(dǎo)。因此,支持向量機(jī)應(yīng)用中一個(gè)有待研究的問題是如何結(jié)合具體的應(yīng)用選擇最優(yōu)核函數(shù)及參數(shù)的取值。對于最終核函數(shù)的合理選取和確定,需進(jìn)一步深入研究以提高其算法的實(shí)用性。
注釋及參考文獻(xiàn):
[1]儲岳中,徐波.基于流行分析與AP算法RBF神經(jīng)網(wǎng)絡(luò)分類器[J].華中科技大學(xué)學(xué)報(bào),2012(8):98-102.
[2]陳誠.基于GA、BP神經(jīng)網(wǎng)絡(luò)和多元回歸的集成算法研究[J].計(jì)算技術(shù)與自動化,2011(2):91-97.
[3]胡新和.基于BP神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制系統(tǒng)的改進(jìn)與優(yōu)化[J].船電技術(shù),2011(5):50-56.
[4]梅玲.支持向量機(jī)模型的相關(guān)研究[D].開封:河南大學(xué),2011.
[5]奉和國.SVM分類核函數(shù)及參數(shù)選擇比較[J].計(jì)算機(jī)工程與應(yīng)用,2011(3):127-128.
Research on theApplication of Supportive Vector Machine in the Classification of Water Quality
LIU Bao
(The Computer and Internet Work Center,Huainan Vocational Technical College,Huainan,Anhui 232001)
My paper intends to build a model based on the application of artificial neural networks such as BP, RBF and non-linear method such as supportive vector machine in classifying the data on the same water quality.In such a process,using supportive vector machine,adopted radial basic function(RBF),methodologies such as normalization,dimension reduction,and grid search algorithm to get optimization out of relevant parameter to classify the water quality.the results of my experiment suggest that among non-linear methods,combining the use of supportive vector machine with the relevant pre-processing data methods has proved more accurate in the classification,thus making it worth further promotion.
assessment of water quality;classification;supportive vector machine;artificial neural networks;radial basis function
X824
A
1673-1891(2015)01-0042-04
2015-03-25
淮南職業(yè)技術(shù)學(xué)院基金項(xiàng)目“改進(jìn)型支持向量機(jī)在水質(zhì)分類中的應(yīng)用研究”(項(xiàng)目編號:HKJ13-3)。
劉保(1979-),男,河北滄州人,講師,碩士,研究方向:計(jì)算機(jī)應(yīng)用。
西昌學(xué)院學(xué)報(bào)(自然科學(xué)版)2015年3期