陳志文 劉立



摘要??? 自進(jìn)入工業(yè)化社會以來,空氣污染逐漸成為全球最大的環(huán)境問題之一。空氣中的懸浮粒子對人類身體健康產(chǎn)生有害影響,減少空氣污染的重要前提就是預(yù)測PM2.5的濃度。因此,對大氣質(zhì)量污染的監(jiān)測以及預(yù)測研究顯得尤為重要。本文采用openstack云計算組件,部署了大數(shù)據(jù)平臺,通過歷史數(shù)據(jù)加實時抓取的數(shù)據(jù)來完善BP神經(jīng)網(wǎng)絡(luò),以實現(xiàn)自我學(xué)習(xí)來提高預(yù)測數(shù)據(jù)的準(zhǔn)確度。
【關(guān)鍵詞】PM2.5 云計算 BP神經(jīng)網(wǎng)絡(luò) 預(yù)測
1 引言
空氣污染是全球最大的環(huán)境問題之一。空氣污染涉及若干因素,包括工廠產(chǎn)生的大量有毒氣體、車輛的尾氣、農(nóng)作物的焚燒以及火災(zāi)等,其中主要成分包括CO、SO2、O3、NO2。空氣污染是對人類健康的嚴(yán)重威脅,會導(dǎo)致嚴(yán)重的呼吸道疾病和皮膚病,如肺部、呼吸系統(tǒng)病變、哮喘等,甚至引起死亡,所以對空氣質(zhì)量污染的監(jiān)測以及預(yù)測研究顯得特別重要。
國內(nèi)許多學(xué)者在空氣質(zhì)量預(yù)測等方面做了大量的研究工作。王燦星等人構(gòu)建了BP神經(jīng)網(wǎng)絡(luò)對空氣中顆粒物進(jìn)行研究,能得到較高的預(yù)測精度;秦霞提出了一種用貝葉斯歸一化訓(xùn)練算法訓(xùn)練改進(jìn)的BP預(yù)報模型;李龍?zhí)岢隽艘环N基于與PM2.5濃度相關(guān)性較強(qiáng)的因素組成特征向量的最小二乘支持向量機(jī)預(yù)測模型,該模型有較準(zhǔn)確地預(yù)測精度,泛化能力也較強(qiáng);HuangM構(gòu)建了一種新的基于數(shù)據(jù)挖掘和人工神經(jīng)網(wǎng)絡(luò)的空氣污染預(yù)測模型,該模型在天氣嚴(yán)重污染時預(yù)測準(zhǔn)確率高,中度污染及以下準(zhǔn)確率接近;唐曉城提出一種基于BP神經(jīng)網(wǎng)絡(luò)改進(jìn)算法的大氣污染預(yù)測模型,較大的提高了預(yù)測準(zhǔn)確率;TianJ采用模糊C-均值聚類算法(FCM)對空氣質(zhì)量監(jiān)測的原始數(shù)據(jù)進(jìn)行分類,通過對數(shù)據(jù)的仿真訓(xùn)練,建立了預(yù)測空氣質(zhì)量水平的BP神經(jīng)網(wǎng)絡(luò)模型。
由于PM2.5的形成因素比較多而復(fù)雜,因此全面對它進(jìn)行準(zhǔn)確實時的預(yù)測比較困難,當(dāng)前存在的主要問題包括:
(1)模型比較復(fù)雜,計算量較大;
(2)實時數(shù)據(jù)難以獲取,隨時間與地點(diǎn)發(fā)生極大的變化。
眾多專家雖然構(gòu)建了各類模型對其變化進(jìn)行預(yù)測,但在實時性與精確性難以同時得到保證。本文以openstack云計算組件為平臺,以網(wǎng)絡(luò)爬蟲為實時數(shù)據(jù)獲取手段,以三層神經(jīng)網(wǎng)絡(luò)為核心算法,構(gòu)建出基于云計算的PM2.5監(jiān)控系統(tǒng),為PM2.5的預(yù)測提供參考。
2 BP神經(jīng)網(wǎng)絡(luò)
BP網(wǎng)絡(luò)的學(xué)習(xí)算法就是BP算法,又叫δ算法。此算法的一個簡單模型是三層BP神經(jīng)網(wǎng)絡(luò),由輸入層、隱含層和輸出層構(gòu)成。以此為例,當(dāng)網(wǎng)絡(luò)輸出和期望輸出不等時,存在輸出誤差E,定義如下:
將運(yùn)算結(jié)果代入至輸入層,則:
從上述變化能夠得出,BP神經(jīng)網(wǎng)絡(luò)的輸入誤差是關(guān)于和uij的函數(shù),改變這兩個函數(shù)的大小就可調(diào)整誤差E。為了使預(yù)測結(jié)果及輸出數(shù)據(jù)更接近真實數(shù)據(jù),及減小誤差,應(yīng)使權(quán)值和誤差的梯度下降成正比,即
BP神經(jīng)網(wǎng)絡(luò)算法中,各層權(quán)值調(diào)整公式原理都是一樣的,均由學(xué)習(xí)率η、本層輸出的誤差信號δ和本層輸入信號Y組成。為簡化計算,本文采用最簡單的三層神經(jīng)網(wǎng)絡(luò)。從中國氣象局網(wǎng)站爬取上海、北京、武漢等十個城市的天氣數(shù)據(jù),以各城市不同時間點(diǎn)的pm2.5、風(fēng)速、溫度以及濕度的四個指標(biāo)作為輸入數(shù)據(jù)構(gòu)成輸入層,輸出層數(shù)據(jù)則為該城市的pm2.5預(yù)測值。
3 系統(tǒng)實現(xiàn)
本文采用openstack云計算組件,通過openstack的sahara部署大數(shù)據(jù)平臺spark1.6,通過歷史數(shù)據(jù)加實時抓取的數(shù)據(jù)來完善BP神經(jīng)網(wǎng)絡(luò)。由于影響PM2.5的突發(fā)不可控因素比較多,如突發(fā)火災(zāi),焚燒秸稈等,所以選擇了方差貢獻(xiàn)率最高的且可獲取資源的前日PM2.5的濃度、風(fēng)速、溫度、濕度為輸入因子,如表1輸入因子所示。
通過BP神經(jīng)網(wǎng)絡(luò)的自我學(xué)習(xí)來調(diào)整層與層之間的權(quán)值和閾值,抓取有效數(shù)據(jù)來不斷完善正確率。系統(tǒng)獲取當(dāng)前時間點(diǎn)的PM2.5濃度數(shù)據(jù),對當(dāng)前時間的空氣情況進(jìn)行分析,并繪制最近十二小時的PM2.5濃度趨勢圖。預(yù)測結(jié)果頁面如圖1所示,本系統(tǒng)演示界面如圖2所示。
4 結(jié)論
本文根據(jù)氣象站的資料,設(shè)計并實現(xiàn)了一套基于云計算平臺的PM2.5監(jiān)控系統(tǒng),以預(yù)測霧霾的實時性變化。該研究能實時抓取數(shù)據(jù)并進(jìn)行精確預(yù)測。研究的主要局限性之一是:預(yù)測模型比較簡單,因此在預(yù)測精度上有一定的不足。
參考文獻(xiàn)
[1]?王燦星,祁國偉,何曦等.BP神經(jīng)網(wǎng)絡(luò)用于大氣中顆粒物(TSP)預(yù)測的研究[J].儀器儀表學(xué)報,2003,24(z2):539-540.
[2]?秦俠,雷蕾,姚小麗等.大氣污染預(yù)測中提高BP網(wǎng)絡(luò)泛化能力的方法[J].北京工業(yè)大學(xué)學(xué)報,2007,33(08):849-852.
[3]?李龍,馬磊,賀建峰等.基于特征向量的最小二乘支持向量機(jī)PM2.5濃度預(yù)測模型[J].計算機(jī)應(yīng)用,2014,34(08):2212-2216.
[4]HuangM,ZhangT,WangJ,etal.Anewairqualityforecastingmode1usingdataminingandartificialneuralnetwork[C].IEEEInternationalConferenceonSoftwareEngineeringandServiceScience.IEEE,2015:259-262.
[5]唐曉城.基于BP神經(jīng)網(wǎng)絡(luò)改進(jìn)算法的大氣污染預(yù)測模型[J].河南科技學(xué)院學(xué)報(自然科學(xué)版),2018(01).
[6]TianJ,F(xiàn)anZ,SunL.PredictionandanalysisforairqualitybasedonBPNeuralNetwork[J].JournalofUniversityofScience&Technology.Liaoning,2015.