姚瑤 趙瑞雪 邱俊強(qiáng)
摘 要:主要介紹了神經(jīng)網(wǎng)絡(luò)的中BP神經(jīng)網(wǎng)絡(luò)的內(nèi)容,結(jié)合BP神經(jīng)網(wǎng)絡(luò)可用訓(xùn)練人工神經(jīng)元進(jìn)行數(shù)據(jù)的分類(lèi)和預(yù)測(cè)的特點(diǎn),分析探討了BP神經(jīng)網(wǎng)絡(luò)在環(huán)境污染數(shù)據(jù)挖掘中的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);BP算法
引言:隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,如何從海量數(shù)據(jù)中提取有用信息成為當(dāng)務(wù)之急. 數(shù)據(jù)挖掘正是為順應(yīng)這種需要而發(fā)展起來(lái)的信息處理技術(shù). 它借助某些專(zhuān)門(mén)算法,利用計(jì)算機(jī)從海量數(shù)據(jù)中提取有用 的信息,揭示某些隱藏規(guī)律,從而有效預(yù)測(cè)和正確指導(dǎo)未來(lái)的工作. [1] 分類(lèi)是數(shù)據(jù)挖掘的主要功能之一,它 通過(guò)分析類(lèi),標(biāo)記已知的訓(xùn)練數(shù)據(jù)集,導(dǎo)出描述并區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型 函數(shù),以便能使用該模型預(yù)測(cè) 類(lèi)標(biāo)記未知的對(duì)象類(lèi). [1] 人工神經(jīng)網(wǎng)絡(luò)( ANN ,Artificial Neural Network)是20 世紀(jì) 80年代后期迅速發(fā)展起來(lái) 的人工智能技術(shù). 它對(duì)噪聲數(shù)據(jù)具有很高的承受能力,對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類(lèi)模擬的能力,因此在網(wǎng) 站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用. 在多種 ANN 中,反向傳播 ( BP,Back-Propagation)網(wǎng)絡(luò)是應(yīng)用最廣的一種形式[3] .
1.神經(jīng)網(wǎng)絡(luò)定義
(1)生物神經(jīng)網(wǎng)絡(luò)主要是指人腦的神經(jīng)網(wǎng)絡(luò),它是人工神經(jīng)網(wǎng)絡(luò)的技術(shù)原型。人腦是人類(lèi)思維的物質(zhì)基礎(chǔ),思維的功能定位在大腦皮層,后者含有大約1011個(gè)神經(jīng)元,每個(gè)神經(jīng)元又通過(guò)神經(jīng)突觸與大約103個(gè)其它神經(jīng)元相連,形成一個(gè)高度復(fù)雜高度靈活的動(dòng)態(tài)網(wǎng)絡(luò)。作為一門(mén)學(xué)科,生物神經(jīng)網(wǎng)絡(luò)主要研究人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能及其工作機(jī)制,意在探索人腦思維和智能活動(dòng)的規(guī)律。
(2)人工神經(jīng)網(wǎng)絡(luò)是生物神經(jīng)網(wǎng)絡(luò)在某種簡(jiǎn)化意義下的技術(shù)復(fù)現(xiàn),作為一門(mén)學(xué)科,它的主要任務(wù)是根據(jù)生物神經(jīng)網(wǎng)絡(luò)的原理和實(shí)際應(yīng)用的需要建造實(shí)用的人工神經(jīng)網(wǎng)絡(luò)模型,設(shè)計(jì)相應(yīng)的學(xué)習(xí)算法,模擬人腦的某種智能活動(dòng),然后在技術(shù)上實(shí)現(xiàn)出來(lái)用以解決實(shí)際問(wèn)題。因此,生物神經(jīng)網(wǎng)絡(luò)主要研究智能的機(jī)理;人工神經(jīng)網(wǎng)絡(luò)主要研究智能機(jī)理的實(shí)現(xiàn),兩者相輔相成
(3)BP神經(jīng)網(wǎng)絡(luò)
BP (Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。其由輸入層、中間層、輸出層組成的階層型神經(jīng)網(wǎng)絡(luò),中間層可擴(kuò)展為多層。相鄰層之間各神經(jīng)元進(jìn)行全連接,而每層各神經(jīng)元之間無(wú)連接,網(wǎng)絡(luò)按有教師示教的方式進(jìn)行學(xué)習(xí),當(dāng)一對(duì)學(xué)習(xí)模式提供給網(wǎng)絡(luò)后,各神經(jīng)元獲得網(wǎng)絡(luò)的輸入響應(yīng)產(chǎn)生連接權(quán)值(Weight)。然后按減小希望輸出與實(shí)際輸出誤差的方向,從輸出層經(jīng)各中間層逐層修正各連接權(quán),回到輸入層。此過(guò)程反復(fù)交替進(jìn)行,直至網(wǎng)絡(luò)的全局誤差趨向給定的極小值,即完成學(xué)習(xí)的過(guò)程。
2. 人工神經(jīng)元( Artificial Neuron )模型 [2]
人工神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本元素,其原理可以用下圖表示:
圖中x1~xn是從其他神經(jīng)元傳來(lái)的輸入信號(hào),wij表示表示從神經(jīng)元j到神經(jīng)元i的連接權(quán)值,θ表示一個(gè)閾值 ( threshold ),或稱(chēng)為偏置( bias )。則神經(jīng)元i的輸出與輸入的關(guān)系表示為:
圖中 yi表示神經(jīng)元i的輸出,函數(shù)f稱(chēng)為激活函數(shù) ( Activation Function )或轉(zhuǎn)移函數(shù) ( Transfer Function ) ,net稱(chēng)為凈激活(net activation)。若將閾值看成是神經(jīng)元i的一個(gè)輸入x0的權(quán)重wi0,則上面的式子可以簡(jiǎn)化為:
若用X表示輸入向量,用W表示權(quán)重向量,即:
X = [ x0 , x1 , x2 , ....... , xn ]
則神經(jīng)元的輸出可以表示為向量相乘的形式:
若神經(jīng)元的凈激活net為正,稱(chēng)該神經(jīng)元處于激活狀態(tài)或興奮狀態(tài)(fire),若凈激活net為負(fù),則稱(chēng)神經(jīng)元處于抑制狀態(tài)。
圖1中的這種“閾值加權(quán)和”的神經(jīng)元模型稱(chēng)為M-P模型 ( McCulloch-Pitts Model ),也稱(chēng)為神經(jīng)網(wǎng)絡(luò)的一個(gè)處理單元( PE, Processing Eleme
3.激活函數(shù)
在神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)解決問(wèn)題的能力與效率除了與網(wǎng)絡(luò)結(jié)構(gòu)有關(guān)外,在很大程度上取決于網(wǎng)絡(luò)所采用的激活函數(shù)。激活函數(shù)的選擇對(duì)網(wǎng)絡(luò)的收斂速度有較大的影響,針對(duì)不同的實(shí)際問(wèn)題,激活函數(shù)的選擇也應(yīng)不同。
常用的激活函數(shù)有以下幾種形式:
(1)閾值函數(shù):該函數(shù)通常也稱(chēng)為階躍函數(shù)。當(dāng)激活函數(shù)采用階躍函數(shù)時(shí),人工神經(jīng)元模型即為MP模型。此時(shí)神經(jīng)元的輸出取1或0,反應(yīng)了神經(jīng)元的興奮或抑制。
(2)線(xiàn)性函數(shù):該函數(shù)可以在輸出結(jié)果為任意值時(shí)作為輸出神經(jīng)元的激活函數(shù),但是當(dāng)網(wǎng)絡(luò)復(fù)雜時(shí),線(xiàn)性激活函數(shù)大大降低網(wǎng)絡(luò)的收斂性,故一般較少采用。
(3)對(duì)數(shù)S形函數(shù):對(duì)數(shù)S形函數(shù)的輸出介于0~1之間,常被要求為輸出在0~1范圍的信號(hào)選用。它是神經(jīng)元中使用最為廣泛的激活函數(shù)。
(4)雙曲正切S形函數(shù):雙曲正切S形函數(shù)類(lèi)似于被平滑的階躍函數(shù),形狀與對(duì)數(shù)S形函數(shù)相同,以原點(diǎn)對(duì)稱(chēng),其輸出介于-1~1之間,常常被要求為輸出在-1~1范圍的信號(hào)選用。
4.神經(jīng)網(wǎng)絡(luò)模型 [3-6]
神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元互聯(lián)而構(gòu)成的網(wǎng)絡(luò)。根據(jù)網(wǎng)絡(luò)中神經(jīng)元的互聯(lián)方式,常見(jiàn)網(wǎng)絡(luò)結(jié)構(gòu)主要可以分為下面3類(lèi):
(1) 前饋神經(jīng)網(wǎng)絡(luò) (Feedforward Neural Networks )
前饋網(wǎng)絡(luò)也稱(chēng)前向網(wǎng)絡(luò)。這種網(wǎng)絡(luò)只在訓(xùn)練過(guò)程會(huì)有反饋信號(hào),而在分類(lèi)過(guò)程中數(shù)據(jù)只能向前傳送,直到到達(dá)輸出層,層間沒(méi)有向后的反饋信號(hào),因此被稱(chēng)為前饋網(wǎng)絡(luò)。感知機(jī)( perceptron)與BP神經(jīng)網(wǎng)絡(luò)就屬于前饋網(wǎng)絡(luò)。
圖4 中是一個(gè)3層的前饋神經(jīng)網(wǎng)絡(luò),其中第一層是輸入單元,第二層稱(chēng)為隱含層,第三層稱(chēng)為輸出層(輸入單元不是神經(jīng)元,因此圖中有2層神經(jīng)元)。
對(duì)于一個(gè)3層的前饋神經(jīng)網(wǎng)絡(luò)N,若用X表示網(wǎng)絡(luò)的輸入向量,W1~W3表示網(wǎng)絡(luò)各層的連接權(quán)向量,F(xiàn)1~F3表示神經(jīng)網(wǎng)絡(luò)3層的激活函數(shù)。
那么神經(jīng)網(wǎng)絡(luò)的第一層神經(jīng)元的輸出為:
O1 = F1( XW1 )
第二層的輸出為:
O2 = F2 ( F1( XW1 ) W2 )
輸出層的輸出為:
O3 = F3( F2 ( F1( XW1 ) W2 ) W3 )
若激活函數(shù)F1~F3都選用線(xiàn)性函數(shù),那么神經(jīng)網(wǎng)絡(luò)的輸出O3將是輸入X的線(xiàn)性函數(shù)。因此,若要做高次函數(shù)的逼近就應(yīng)該選用適當(dāng)?shù)姆蔷€(xiàn)性函數(shù)作為激活函數(shù)。
(2) 反饋神經(jīng)網(wǎng)絡(luò) ( Feedback Neural Networks )
反饋型神經(jīng)網(wǎng)絡(luò)是一種從輸出到輸入具有反饋連接的神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)比前饋網(wǎng)絡(luò)要復(fù)雜得多。典型的反饋型神經(jīng)網(wǎng)絡(luò)有:Elman網(wǎng)絡(luò)和Hopfield網(wǎng)絡(luò)。
(3) 自組織網(wǎng)絡(luò) ( SOM ,Self-Organizing Neural Networks )
自組織神經(jīng)網(wǎng)絡(luò)是一種無(wú)導(dǎo)師學(xué)習(xí)網(wǎng)絡(luò)。它通過(guò)自動(dòng)尋找樣本中的內(nèi)在規(guī)律和本質(zhì)屬性,自組織、自適應(yīng)地改變網(wǎng)絡(luò)參數(shù)與結(jié)構(gòu)。
5.神經(jīng)網(wǎng)絡(luò)的研究可以分為理論研究和應(yīng)用研究?jī)纱蠓矫妗?/p>
(1)理論研究可分為以下兩類(lèi):
1)、利用神經(jīng)生理與認(rèn)知科學(xué)研究人類(lèi)思維以及智能機(jī)理。
2)、利用神經(jīng)基礎(chǔ)理論的研究成果,用數(shù)理方法探索功能更加完善、性能更加優(yōu)越的神經(jīng)網(wǎng)絡(luò)模型,深入研究網(wǎng)絡(luò)算法和性能,如:穩(wěn)定性、收斂性、容錯(cuò)性、魯棒性等;開(kāi)發(fā)新的網(wǎng)絡(luò)數(shù)理理論,如:神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)、非線(xiàn)性神經(jīng)場(chǎng)等。
(2)應(yīng)用研究可分為以下兩類(lèi):
1)、神經(jīng)網(wǎng)絡(luò)的軟件模擬和硬件實(shí)現(xiàn)的研究。
2)、神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域中應(yīng)用的研究。這些領(lǐng)域主要包括:
模式識(shí)別、信號(hào)處理、知識(shí)工程、專(zhuān)家系統(tǒng)、優(yōu)化組合、機(jī)器人控制等。隨著神經(jīng)網(wǎng)絡(luò)理論本身以及相關(guān)理論、相關(guān)技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)的應(yīng)用定將更加深入。
6. BP神經(jīng)網(wǎng)絡(luò)在環(huán)境污染數(shù)據(jù)挖掘中的應(yīng)用
通過(guò)上文對(duì)BP神經(jīng)網(wǎng)絡(luò)的模型介紹可知,BP神經(jīng)網(wǎng)絡(luò)具有反饋傳輸誤差,修正權(quán)值,最終形成適合其他數(shù)據(jù)應(yīng)用的神經(jīng)網(wǎng)絡(luò)的特點(diǎn)。BP神經(jīng)網(wǎng)絡(luò)這一特性在大數(shù)據(jù)環(huán)境下可有效利用。而環(huán)境污染方面的數(shù)據(jù)正是龐大而實(shí)時(shí)變化的大數(shù)據(jù)環(huán)境,面對(duì)這樣的大數(shù)據(jù)環(huán)境,有效應(yīng)用BP神經(jīng)網(wǎng)絡(luò)可對(duì)環(huán)境污染數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)。由此提出這樣的應(yīng)用思想:將近幾年的環(huán)境污染數(shù)據(jù),例如五大空氣質(zhì)量數(shù)據(jù)PM2.5,PM10,NO2,SO2,O3數(shù)值作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)集,相對(duì)應(yīng)的環(huán)境指標(biāo)AQI值作為BP神經(jīng)網(wǎng)絡(luò)輸出數(shù)據(jù)集,利用BP神經(jīng)網(wǎng)絡(luò)反饋傳輸修正誤差形成可預(yù)測(cè)環(huán)境指標(biāo)AQI值的神經(jīng)網(wǎng)絡(luò)。筆者應(yīng)用C語(yǔ)言簡(jiǎn)單地構(gòu)造了BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器,并應(yīng)用2016-2017南京環(huán)境污染相關(guān)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到可執(zhí)行程序。但是由于BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器有待優(yōu)化,預(yù)測(cè)結(jié)果不準(zhǔn)確。結(jié)果截圖(如圖6-1)如下:
7.結(jié)束語(yǔ)
通過(guò)本文對(duì)神經(jīng)網(wǎng)絡(luò)的介紹以及對(duì)BP神經(jīng)網(wǎng)絡(luò)在環(huán)境污染數(shù)據(jù)挖掘中應(yīng)用的探討,BP神經(jīng)網(wǎng)絡(luò)應(yīng)用領(lǐng)域可大大擴(kuò)展,尤其對(duì)環(huán)境污染數(shù)據(jù)挖掘中相關(guān)應(yīng)用。針對(duì)BP神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用,對(duì)于環(huán)境污染方面不僅僅可實(shí)現(xiàn)環(huán)境污染指標(biāo)的預(yù)測(cè),而且極大可能可實(shí)現(xiàn)大數(shù)據(jù)污染程度的分類(lèi)等等,這仍有待探究。
參考文獻(xiàn):
[1] HAN J,KAMBER M. Data Mining: Concepts andTechniques[ M] . Morgan Kaufmann Publishers,2001.
[2]張?zhí)熘?基于 GABP算法的復(fù)雜計(jì)算機(jī)網(wǎng)絡(luò)安全評(píng)價(jià)中的應(yīng)用【D】.電子科技大學(xué),2015
[3]劉 釗,蔣良孝. 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究 [ J] . 計(jì)算機(jī)工程與應(yīng)用,2004,40( 3): 172-173,190
[4]朱偉剛,徐超.BP神經(jīng)網(wǎng)絡(luò)算法在長(zhǎng)春地鐵二號(hào)線(xiàn)地表沉降預(yù)測(cè)中的應(yīng)用【J】.長(zhǎng)春工程學(xué)院.2018
[5] 馬仕.BP神經(jīng)網(wǎng)絡(luò)在地層預(yù)測(cè)中的應(yīng)用研究【D】.河北工業(yè)大學(xué).2016
[6] 董明明.蔣濤.數(shù)據(jù)挖掘中BP神經(jīng)網(wǎng)絡(luò)與決策樹(shù)技術(shù)的應(yīng)用研究【J】.揚(yáng)州大學(xué).2018
[7] 莫禮平.樊曉平,BP 神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘分類(lèi)中的應(yīng)用【D】 ,中南大學(xué)信息科學(xué)與工程學(xué)院,2006
*雙創(chuàng)項(xiàng)目:南京審計(jì)大學(xué)金審學(xué)院雙創(chuàng)項(xiàng)目201813994005Y