歐陽建權(quán) 周 勇 唐歡容
1(湘潭大學(xué)信息工程學(xué)院 湖南湘潭 411105) 2 (智能計(jì)算與信息處理教育部重點(diǎn)實(shí)驗(yàn)室(湘潭大學(xué)) 湖南湘潭 411105) (oyjq@xtu.edu.cn)
基于Storm的在線序列極限學(xué)習(xí)機(jī)的氣象預(yù)測模型
歐陽建權(quán)1,2周 勇1唐歡容1,2
1(湘潭大學(xué)信息工程學(xué)院 湖南湘潭 411105)2(智能計(jì)算與信息處理教育部重點(diǎn)實(shí)驗(yàn)室(湘潭大學(xué)) 湖南湘潭 411105) (oyjq@xtu.edu.cn)
為提高氣象預(yù)測精度,實(shí)時(shí)應(yīng)對頻發(fā)的局域氣象災(zāi)害,擁有更高的處理海量數(shù)據(jù)的效率,提出了一種基于Storm的在線序列的極限學(xué)習(xí)機(jī)氣象預(yù)測模型.該模型首先初始化多個(gè)在線極限學(xué)習(xí)機(jī),當(dāng)新批次的數(shù)據(jù)不斷到達(dá)時(shí),模型能夠在訓(xùn)練結(jié)果的基礎(chǔ)上繼續(xù)學(xué)習(xí)新樣本,并引入隨機(jī)梯度下降法和誤差權(quán)值調(diào)整方法,對新的預(yù)測結(jié)果進(jìn)行誤差反饋,實(shí)時(shí)更新誤差權(quán)值參數(shù),以提高模型預(yù)測準(zhǔn)確率.另外,采用Storm流式處理框架對提出的算法模型進(jìn)行并行化改進(jìn),以提高處理海量高維數(shù)據(jù)的能力.實(shí)驗(yàn)結(jié)果表明:該模型與基于Hadoop的并行極限學(xué)習(xí)機(jī)算法(parallel extreme learning machine, PELM)相比,具有更高的預(yù)測精度和優(yōu)異的并行性能.
Storm;極限學(xué)習(xí)機(jī);氣象預(yù)測;在線序列;機(jī)器學(xué)習(xí)
隨著信息技術(shù)的飛速發(fā)展,各個(gè)領(lǐng)域信息化程度不斷加深,天氣預(yù)報(bào)、工業(yè)生產(chǎn)、交通管理、圖像識別、醫(yī)療診斷等人們生活中頻繁接觸的日常應(yīng)用越來越依靠計(jì)算機(jī)系統(tǒng)來采集、存儲和分析數(shù)據(jù),而其中數(shù)據(jù)分析和處理的關(guān)鍵正是機(jī)器學(xué)習(xí)技術(shù).隨著機(jī)器學(xué)習(xí)技術(shù)的研究日益深入,也給氣象行業(yè)帶來了新的挑戰(zhàn).氣象數(shù)據(jù)主要來自于地面觀測、氣象衛(wèi)星遙感、天氣雷達(dá)和數(shù)值預(yù)報(bào)產(chǎn)品.這4類數(shù)據(jù)占數(shù)據(jù)總量的90%以上,直接應(yīng)用于氣象業(yè)務(wù)、天氣預(yù)報(bào)、氣候預(yù)測以及氣象服務(wù).
氣象預(yù)報(bào)的發(fā)展使得氣象數(shù)據(jù)積累速度迅速提高,因此對機(jī)器學(xué)習(xí)技術(shù)提出了更高的要求.傳統(tǒng)的機(jī)器學(xué)習(xí)往往采用批量學(xué)習(xí)的方法,即所有的訓(xùn)練樣本一次性學(xué)習(xí)完畢后,學(xué)習(xí)過程不再繼續(xù).但在實(shí)際應(yīng)用中,訓(xùn)練樣本空間的全部樣本并不能一次全部得到,而往往是隨著時(shí)間順序得到.針對當(dāng)前大部分機(jī)器學(xué)習(xí)算法無法在單個(gè)節(jié)點(diǎn)上處理的情況,研究者們通過并行處理的方式對大規(guī)模的數(shù)據(jù)進(jìn)行學(xué)習(xí),例如將學(xué)習(xí)過程分布到結(jié)點(diǎn)之間從而利用多核機(jī)器、計(jì)算結(jié)點(diǎn)集群甚至超級計(jì)算機(jī)的并行計(jì)算能力來完成機(jī)器學(xué)習(xí)的任務(wù).雖然大規(guī)模的硬件資源能夠在一定程度上緩解數(shù)據(jù)量大帶來的問題,但是對新到達(dá)的數(shù)據(jù)進(jìn)不能行快速處理學(xué)習(xí)并及時(shí)更新學(xué)習(xí)獲得的知識[1].考慮到訓(xùn)練和預(yù)測的時(shí)空開銷需求,能夠在已有訓(xùn)練結(jié)果的基礎(chǔ)上繼續(xù)學(xué)習(xí)新樣本,不斷增強(qiáng)模型本身的識別能力,并且減少重復(fù)學(xué)習(xí)的時(shí)空開銷的在線學(xué)習(xí)方法得到了廣泛的關(guān)注[2].
目前,氣象預(yù)測研究方面已經(jīng)有前人的諸多成果,例如利用SVM和小波分解進(jìn)行大氣污染預(yù)測[3]、人工神經(jīng)網(wǎng)絡(luò)對水平面太陽輻射和風(fēng)速的預(yù)測[4-5]、模糊神經(jīng)網(wǎng)絡(luò)對短期降雨量預(yù)測[6]、樸素貝葉斯預(yù)測和決策樹方法對氣溫預(yù)測[7-8]、遺傳算法和混合粒子群優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)對降雨量的預(yù)測[9]和基于人工蜂群算法和遺傳算法的混合分類器對降雨量的預(yù)測[10]等.
這些方法的不足主要表現(xiàn)在2個(gè)方面:1)采用離線分析氣象數(shù)據(jù),不能及時(shí)反映氣象變化;2)隨著氣象預(yù)報(bào)要求不斷提高,氣象數(shù)據(jù)計(jì)算規(guī)模急劇膨脹,其處理數(shù)據(jù)的效率已經(jīng)不能適應(yīng)當(dāng)前氣象預(yù)測要求.
對于現(xiàn)階段多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí),雖然其具有學(xué)習(xí)精度高、擬合能力強(qiáng)的優(yōu)勢,但是由于其多層復(fù)雜的神經(jīng)網(wǎng)絡(luò)訓(xùn)練以及大量的學(xué)習(xí)參數(shù),使得深度學(xué)習(xí)極易陷入局部極小值和過擬合問題,并且需要花費(fèi)大量的時(shí)間進(jìn)行訓(xùn)練和消耗更多的硬件資源,不適合當(dāng)前的實(shí)時(shí)在線學(xué)習(xí)的需求.黃廣斌等人所提出來的極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)[11],是一種求解單隱層神經(jīng)網(wǎng)絡(luò)的算法.ELM最大的特點(diǎn)是相對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),ELM是單隱層前饋神經(jīng)網(wǎng)絡(luò),它并不需要對所有的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,輸入權(quán)值和隱含層偏差在訓(xùn)練開始時(shí)隨機(jī)給定,在訓(xùn)練過程中固定,而輸出連接權(quán)值可通過求解線性方程組的最小二乘解來得到,具有泛化性能好的優(yōu)點(diǎn),在保證學(xué)習(xí)精度的前提下比傳統(tǒng)的學(xué)習(xí)算法速度更快.
針對氣象數(shù)據(jù)的實(shí)時(shí)計(jì)算與海量處理的需求,本文提出了一種基于Storm的在線序列的極限學(xué)習(xí)機(jī)氣象預(yù)測模型.該模型首先初始化多個(gè)在線極限學(xué)習(xí)機(jī),當(dāng)新批次的數(shù)據(jù)不斷到達(dá)時(shí),模型能夠在訓(xùn)練結(jié)果的基礎(chǔ)上繼續(xù)學(xué)習(xí)新樣本,并引入隨機(jī)梯度下降法和誤差權(quán)值調(diào)整方法,對新的預(yù)測結(jié)果進(jìn)行誤差反饋,實(shí)時(shí)更新誤差權(quán)值參數(shù),以提高模型預(yù)測準(zhǔn)確率.另外,采用Storm流式處理框架對提出的算法模型進(jìn)行并行化改進(jìn),以提高處理海量高維數(shù)據(jù)的能力.實(shí)驗(yàn)結(jié)果表明,該模型與基于Hadoop的并行極限學(xué)習(xí)機(jī)算法(PELM)[12]相比,具有更高的預(yù)測精度和優(yōu)異的并行性能.
ELM是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,它并不需要對所有的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,輸入權(quán)值和隱含層偏差在訓(xùn)練開始時(shí)隨機(jī)給定,在訓(xùn)練過程中固定,而輸出連接權(quán)值可通過求解線性方程組的最小二乘解來得到.
雖然ELM在準(zhǔn)確率、計(jì)算性能、執(zhí)行時(shí)間方面都優(yōu)于大部分機(jī)器學(xué)習(xí)算法,但ELM算法是一種批處理學(xué)習(xí)算法,在實(shí)際氣象預(yù)測中,其并不完全適合氣象預(yù)測場景,因此,在線序列優(yōu)化是很有必要的.在線序列優(yōu)化ELM中,當(dāng)不斷到達(dá)新的批次的數(shù)據(jù)時(shí),能夠在已有的訓(xùn)練結(jié)果上的基礎(chǔ)上繼續(xù)學(xué)習(xí)新樣本,并引入隨機(jī)梯度下降法和誤差權(quán)值調(diào)整的思想,對新的預(yù)測結(jié)果進(jìn)行誤差反饋,實(shí)時(shí)更新誤差權(quán)值參數(shù),以提升模型預(yù)測準(zhǔn)確率.另外采用Storm流式處理框架對提出的算法模型進(jìn)行并行化改進(jìn),以提高處理海量高維數(shù)據(jù)的能力.
2.1在線序列極限學(xué)習(xí)機(jī)模型


Fig. 1 The flow chart of the meteorological prediction model using S-OSELM圖1 S-OSELM氣象預(yù)測模型流程圖
(1)
其中,K0=HT0H0.當(dāng)一個(gè)新的訓(xùn)練數(shù)據(jù)進(jìn)入系統(tǒng)時(shí),假設(shè)為有N1個(gè)樣本進(jìn)入模型,可求得:

(2)
當(dāng)有k個(gè)樣本進(jìn)入模型,可以得到在線序列極限學(xué)習(xí)機(jī)算法的輸出權(quán)重β的遞推公式:
βk+1=βk+K-1k+1HTk+1(Tk+1-Hk+1βk).
(3)
2.2誤差權(quán)值的調(diào)整方法

(4)
其中,σj i為第i個(gè)學(xué)習(xí)機(jī)節(jié)點(diǎn)的誤差權(quán)值,yj i為第i個(gè)學(xué)習(xí)機(jī)節(jié)點(diǎn)的輸出值,j為預(yù)測階段的第j批次預(yù)測.誤差權(quán)值通過誤差函數(shù)E計(jì)算:
(5)
要使誤差函數(shù)達(dá)到最小值,對誤差函數(shù)求導(dǎo):
(6)
使用隨機(jī)梯度下降法,可得到預(yù)測權(quán)重更新式(7)和式(8),其中,η為學(xué)習(xí)速率,這里設(shè)置為η=0.1.
(7)
由于是求最小化誤差函數(shù),所以按每個(gè)參數(shù)σ的梯度負(fù)方向來更新每個(gè)σ,得到:
σj,i+1=σj i-Δσj i.
(8)
2.3基于Storm的在線序列極限學(xué)習(xí)機(jī)流程
基于Storm的在線序列極限學(xué)習(xí)機(jī)氣象預(yù)測模型流程示意圖如圖1所示:
1) 初始化階段
首先輸入訓(xùn)練數(shù)據(jù),數(shù)據(jù)經(jīng)過關(guān)聯(lián)分析和離散化的預(yù)處理后,之后采用Hash值求余的方式對數(shù)據(jù)均勻分割,通過Kafka分布式消息隊(duì)列機(jī)制,將數(shù)據(jù)發(fā)送到Storm集群中k個(gè)ELM節(jié)點(diǎn),并將每個(gè)誤差權(quán)值σ初始化為1.
2) 訓(xùn)練階段
通過在線序列極限學(xué)習(xí)機(jī)的的訓(xùn)練方法,對不斷傳送過來的數(shù)據(jù)進(jìn)行分布式訓(xùn)練得到k個(gè)輸出權(quán)重向量β,每傳送過來一批數(shù)據(jù)集則將輸出權(quán)重向量β更新一次,不斷增強(qiáng)模型識別能力.
3) 預(yù)測階段
該階段分為2個(gè)步驟:
① 輸入預(yù)處理后的用于預(yù)測的第j批次數(shù)據(jù)集,由Hβ=T得到k個(gè)預(yù)測結(jié)果yj1,yj2,…,yj k;

4) 調(diào)整誤差權(quán)值階段
5) 預(yù)測結(jié)果輸出階段
3.1實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境基于Storm集群,采用完全分布式模式搭建9個(gè)節(jié)點(diǎn),其中1臺主節(jié)點(diǎn)(Nimbus),其余8臺為從節(jié)點(diǎn)(Supervisor).每個(gè)節(jié)點(diǎn)機(jī)器配置為2.60 GHz四核CPU,4 GB內(nèi)存,操作系統(tǒng)為Ubuntu-Server Linux14.04,網(wǎng)絡(luò)帶寬為100 Mbps,Storm版本為0.9.2.
3.2實(shí)驗(yàn)樣本
在諸多氣象指標(biāo)預(yù)測中,降雨量是防災(zāi)減災(zāi)的重要參量,很大程度反映災(zāi)害發(fā)生趨勢,降雨量對農(nóng)業(yè)生產(chǎn)、水土流式和工程應(yīng)用等有著重要的影響,對一個(gè)地區(qū)的降雨量進(jìn)行準(zhǔn)確預(yù)測,可以幫助農(nóng)業(yè)、水利部門提高防治旱澇災(zāi)害的能力,將危害降低到最低.
實(shí)驗(yàn)樣本選用英國Met Office*http://rp5.ru/發(fā)布的氣象數(shù)據(jù).本文使用的是該網(wǎng)站提供的華南某地區(qū)城市2005年至2016年真實(shí)的氣象數(shù)據(jù).氣象預(yù)測目標(biāo)是通過以上數(shù)據(jù)樣本預(yù)測某時(shí)段的的降雨量.
這些數(shù)據(jù)的屬性有28項(xiàng)之多,如大氣壓、平均氣溫、濕度、風(fēng)速、風(fēng)向、土壤溫度等.為了提高算法預(yù)測速率和準(zhǔn)確率,本文對該數(shù)據(jù)采用相關(guān)性分析和離散化方法進(jìn)行預(yù)處理,預(yù)處理的結(jié)果將作為訓(xùn)練集和測試集樣本.
1) 相關(guān)性分析
首先剔除不完整和格式不正確的數(shù)據(jù).然后選取與預(yù)測目標(biāo)相關(guān)性大的氣象屬性,并剔除相關(guān)性小的氣象屬性,達(dá)到降維的目的.最后計(jì)算它們與降雨量之間的相關(guān)系數(shù)γx y[15]:

(9)

計(jì)算得到結(jié)果如表1所示.當(dāng)|γx y|=0時(shí),稱x與y不相關(guān);當(dāng)|γx y|=1時(shí),此時(shí)x、y之間具有線性相關(guān)性.|γx y|的值越大,表示x與y相關(guān)性越高.在實(shí)驗(yàn)組選取|γx y|>0.4的氣象屬性作為預(yù)測屬性,它們分別是相對濕度、總云量、露點(diǎn)溫度、平均氣溫、大氣壓和風(fēng)速.

Table 1 The Correlation Coefficient Between DifferentWeather Attributes and Rainfall
2) 數(shù)據(jù)離散化處理
采用PKID算法[16](proportionalk-interval discretization)離散處理,最終得到樣本屬性如表2所示.輸入樣本是7維屬性向量,分別為相對濕度、總云量、露點(diǎn)溫度、平均氣溫、大氣壓、風(fēng)速和降雨量.

Table 2 The Sample Attributes Table表2 樣本屬性表
3.3實(shí)驗(yàn)結(jié)果分析
本文采用精度和性能對實(shí)驗(yàn)結(jié)果進(jìn)行評估.
3.3.1 精度評估
計(jì)算正確率:

(10)
本實(shí)驗(yàn)將支持向量機(jī)分類算法(SVM)、BP神經(jīng)網(wǎng)絡(luò)算法(BPNN)、樸素貝葉斯分類算法(NB)、極限學(xué)習(xí)機(jī)算法(ELM)、并行ELM算法(PELM)與本文的算法(S-OSELM)算法對氣象數(shù)據(jù)預(yù)測結(jié)果進(jìn)行比較.主要比較它們的訓(xùn)練精度、預(yù)測精度.其中,SVM選用高斯核函數(shù),其中核函數(shù)參數(shù)γ和分類器懲罰參數(shù)C的取值通過十折交叉驗(yàn)證法來確定.對于BP神經(jīng)網(wǎng)絡(luò)算法、極限學(xué)習(xí)機(jī)算法、PELM算法和S-OSELM算法,隱藏層的激活函數(shù)選用sigmoid函數(shù).
表3給出了支持向量機(jī)算法(SVM)、BP神經(jīng)網(wǎng)絡(luò)算法(BPNN)、樸素貝葉斯算法(NB)、極限學(xué)習(xí)機(jī)算法(ELM)、并行的極限學(xué)習(xí)機(jī)算法(PELM)和本文提出的算法(S-OSELM)六種分類算法的實(shí)驗(yàn)結(jié)果.從表2中可以看出,在6種分類算法中S-OSELM對降雨量預(yù)測效果最好,預(yù)測精度達(dá)到90.68%.
支持向量機(jī)算法(SVM)理論提供了一種避開高維空間的復(fù)雜性,利用在線性可分情況下的求解方法直接求解對應(yīng)的高維空間的決策問題.當(dāng)核函數(shù)已知,可以簡化高維空間問題的求解難度,即SVM算法適合于小樣本預(yù)測分類,相比神經(jīng)網(wǎng)絡(luò)具有較好的泛化能力.但是對于大規(guī)模氣象數(shù)據(jù)預(yù)測分類,SVM算法在求解問題分類時(shí),涉及到求解二次規(guī)劃的m階矩陣的計(jì)算,如此一來將耗費(fèi)大量機(jī)器內(nèi)存和運(yùn)算時(shí)間,并且對缺失的數(shù)據(jù)敏感,間接影響了分類精度.

Table 3 The Classification Results of the Six Algorithms表3 6種算法的分類結(jié)果
BP神經(jīng)網(wǎng)絡(luò)算法(BPNN)具有預(yù)測分類精度高、非線性映射能力強(qiáng)等特點(diǎn),但是該算法收斂速度慢.在大規(guī)模氣象數(shù)據(jù)預(yù)測分類中,其存在預(yù)測能力和訓(xùn)練能力的矛盾的問題.一般情況下,訓(xùn)練能力差時(shí),預(yù)測能力也差,并且一定程度上,隨著訓(xùn)練能力的提高,預(yù)測能力會得到提高.當(dāng)達(dá)到一定值時(shí),隨著訓(xùn)練能力的提高,預(yù)測能力反而會下降,也即出現(xiàn)所謂“過擬合”現(xiàn)象.出現(xiàn)該現(xiàn)象的原因是網(wǎng)絡(luò)學(xué)習(xí)了過多的樣本細(xì)節(jié)導(dǎo)致.
樸素貝葉斯算法(NB)在通過計(jì)算概率來進(jìn)行分類,可以處理多分類問題,同時(shí)在小規(guī)模數(shù)據(jù)訓(xùn)練分類表現(xiàn)良好,但是對于大規(guī)模氣象預(yù)測分類方面,存在著一些準(zhǔn)確率上的損失,需要計(jì)算先驗(yàn)概率,分類決策上存在錯(cuò)誤率.
極限學(xué)習(xí)機(jī)算法(ELM)隨機(jī)產(chǎn)生輸入層與隱含層間的連接權(quán)值及隱含層神經(jīng)元的偏置,且在訓(xùn)練過程中無需調(diào)整,只需設(shè)置隱含層神經(jīng)元的個(gè)數(shù),便可獲得唯一的最優(yōu)解,與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法相比,ELM方法學(xué)習(xí)速度快、泛化性能好.在大規(guī)模氣象數(shù)據(jù)預(yù)測分類方面產(chǎn)生了較好的實(shí)驗(yàn)結(jié)果.
基于Hadoop的并行的極限學(xué)習(xí)機(jī)算法(PELM)是采用MapReduce的框架對極限學(xué)習(xí)機(jī)進(jìn)行并行化優(yōu)化的算法,對于大規(guī)模氣象數(shù)據(jù)來說,ELM算法計(jì)算過程中最復(fù)雜的部分是大規(guī)模矩陣乘法和大規(guī)模矩陣轉(zhuǎn)置的運(yùn)算,根據(jù)矩陣乘法每個(gè)元素的計(jì)算彼此間不存在依賴關(guān)系,采用并行計(jì)算,把大規(guī)模矩陣乘法轉(zhuǎn)換成向量點(diǎn)乘和向量求和2個(gè)過程.通過合理設(shè)定元素(key,value)鍵值對,實(shí)現(xiàn)大規(guī)模矩陣的轉(zhuǎn)置,該算法具有較好的分類精度和并行效率.
基于Storm的在線序列極限學(xué)習(xí)機(jī)算法(S-OSELM)是一種基于在線序列極限學(xué)習(xí)機(jī)的氣象預(yù)測算法,該算法利用Storm流式處理框架,對多個(gè)ELM進(jìn)行并行訓(xùn)練,并引入在線序列,從而每次訓(xùn)練樣本只需要迭代處理一個(gè)傳輸過來的樣本,而不需要對整個(gè)樣本重新訓(xùn)練,提高了訓(xùn)練和預(yù)測效率.同時(shí)對多個(gè)預(yù)測結(jié)果采用隨機(jī)梯度下降法進(jìn)行誤差權(quán)值反饋更新,最后用加權(quán)平均對分類結(jié)果進(jìn)行整合,在預(yù)測精度得到了較大的提高.
3.3.2 性能評估
本文采用運(yùn)行時(shí)間和加速比來測試S-OSELM算法的并行性能.加速比是衡量并行系統(tǒng)或者程序并行化的性能指標(biāo),加速比γspeedup如式(11)所示:
(11)
其中,Tsingle是單機(jī)運(yùn)行的時(shí)間,Tcluster是集群運(yùn)行的時(shí)間.
在性能評估的實(shí)驗(yàn)中,本文的S-OSELM算法與PELM算法在運(yùn)行時(shí)間和加速比上做對比.表4給出了實(shí)驗(yàn)對比參數(shù)和范圍.在每組實(shí)驗(yàn)中,改變一個(gè)參數(shù),同時(shí)設(shè)置剩余參數(shù)為默認(rèn)值.

Table 4 The Experimental Parameter of PerformanceEstimation
首先,在不同隱層節(jié)點(diǎn)數(shù)的對比實(shí)驗(yàn)中,如圖2(a)所示,樣本的訓(xùn)練時(shí)間隨著隱層節(jié)點(diǎn)數(shù)的增加而增加.ELM的隱層節(jié)點(diǎn)數(shù)的增加,會使得H隱層輸出矩陣的變大,那么S-OSELM和PELM下的中間結(jié)果增大,同時(shí)也增加了數(shù)據(jù)在集群中間的傳輸時(shí)間.S-OSELM算法是基于Storm流式處理框架,PELM算法是基于MapReduce批量處理框架.Storm是直接在內(nèi)存中計(jì)算和傳遞數(shù)據(jù),而Hadoop是使用HDFS進(jìn)行磁盤讀寫,因此,S-OSELM在處理時(shí)延上要比PELM算法快.圖2(b)表示不同隱層節(jié)點(diǎn)數(shù)下集群運(yùn)行的加速比.在相同隱層節(jié)點(diǎn)數(shù)下,S-OSELM算法的并行系統(tǒng)的加速比優(yōu)于PELM算法的加速比.理論上,并行系統(tǒng)的加速比是線性增加.但在實(shí)際應(yīng)用中,隨著隱層節(jié)點(diǎn)數(shù)增加,節(jié)點(diǎn)間的網(wǎng)絡(luò)傳輸消耗也不斷增加,即理想的線性加速比是非常難以達(dá)到的.
另外,在不同學(xué)習(xí)樣本量的對比實(shí)驗(yàn)中,由圖3(a)得知,隨學(xué)習(xí)樣本量的增加,實(shí)驗(yàn)運(yùn)行時(shí)間也相應(yīng)地增加.S-OSELM通過分布式消息隊(duì)列將樣本數(shù)據(jù)分發(fā)到各個(gè)Storm集群節(jié)點(diǎn),數(shù)據(jù)在內(nèi)存中快速計(jì)算并返回最后的運(yùn)算結(jié)果再進(jìn)行磁盤存儲.然而,PELM算法中Map和Reduce的任務(wù)都是在磁盤上進(jìn)行讀寫.如圖3(a)所示,隨著數(shù)據(jù)量越大,S-OSELM算法優(yōu)勢越明顯.圖3(b)中,相同學(xué)習(xí)樣本量的S-OSELM算法下系統(tǒng)加速比優(yōu)于PELM算法下系統(tǒng)的加速比.
最后,圖4(a)(b)分別表示不同工作節(jié)點(diǎn)數(shù)下的2種算法的運(yùn)行時(shí)間和加速比.隨著工作節(jié)點(diǎn)數(shù)的增加,2種算法運(yùn)行時(shí)間減少,系統(tǒng)并行性能增加,同時(shí)也增加集群節(jié)點(diǎn)之間傳輸成本,因此加速比也越小于理論值.由圖4的實(shí)驗(yàn)結(jié)果表明,S-OSELM算法運(yùn)行效率和系統(tǒng)加速比優(yōu)于PELM算法.

Fig. 3 The experimental results of different volume of learning samples圖3 不同學(xué)習(xí)樣本量的實(shí)驗(yàn)結(jié)果

Fig. 4 The experimental results of different number of working nodes圖4 不同工作節(jié)點(diǎn)數(shù)的實(shí)驗(yàn)結(jié)果
綜上所述,S-OSELM算法具有速度快、可擴(kuò)展性好的特點(diǎn),它是應(yīng)對大規(guī)模數(shù)據(jù)在線學(xué)習(xí)的一個(gè)有效工具,具有廣泛實(shí)際應(yīng)用前景.
本文提出了一種基于在線序列極限學(xué)習(xí)機(jī)和Storm云平臺結(jié)合處理大規(guī)模氣象數(shù)據(jù)的方法,該方法能實(shí)時(shí)在線對氣象數(shù)據(jù)進(jìn)行分析預(yù)測,并具有較高的準(zhǔn)確率以及并行性能.該方法在大多數(shù)流數(shù)據(jù)的實(shí)際應(yīng)用場景具有重要的參考價(jià)值,例如在視頻流中關(guān)鍵幀的抽取、實(shí)時(shí)股票走向預(yù)測、實(shí)時(shí)分析用戶狀態(tài)并為用戶個(gè)性化推薦等等.今后的工作是將該模型應(yīng)用智能交通,實(shí)時(shí)感知道路狀態(tài),并分析預(yù)測流量情況,以便有效進(jìn)行指揮和調(diào)度.
[1] Zhao Qiangli. The research on ensemble pruning and its application in on-line machine learning[D]. Changsha: National University of Defense Technology, 2010 (in Chinese)(趙強(qiáng)利. 基于選擇性集成的在線機(jī)器學(xué)習(xí)關(guān)鍵技術(shù)研究[D]. 長沙: 國防科學(xué)技術(shù)大學(xué), 2010)
[2] Wang Aiping, Wan Guowei, Cheng Zhiquan. Incremental learning extremely random forest classifier for online learning[J]. Journal of Software, 2011, 22(9): 2059-2074 (in Chinese)(王愛平, 萬國偉, 程志全. 支持在線學(xué)習(xí)的增量式極端隨機(jī)森林分類器[J]. 軟件學(xué)報(bào), 2011, 22(9): 2059-2074)
[3] Osowski S, Garanty K. Forecasting of the daily meteorology-cal pollution using wavelets and support vector machine[J]. Engineering Applications of Artificial Intelligence, 2007, 20(6): 745-755
[4] Behranga M A, Assareha E. The potential of different artificial neural network (ANN) techniques in daily global solar radiation modeling based on meteorological data[J]. Solar Energy, 2010, 84(8): 1468-1480
[5] Bilgili M, Sahin B, Yasar A. Application of artificial neural networks for the wind speed prediction of target station using reference stations data[J]. Renewable Energy, 2007, 32(14): 2350-2360
[6] Jin Long, Jin Jian, Yao Cai. A short-term climate prediction model based on a modular fuzzy neural network[J]. Advances in Atmospheric Sciences, 2005, 22(3): 428-435
[7] Zhang H, Su Jiang. Naive bayes for optimal ranking[J]. Journal of Experimental & TheoreticalArtificial Intelligence, 2008, 20(2): 79-93
[8] Jiang Wenrui, Wang Yuying, Hao Xiaoqi, et al. Application of decision tree in temperature prediction[J]. Computer Applications and Software, 2012, 29(8): 141-144) (in Chinese)(姜文瑞, 王玉英, 郝小琪, 等. 決策樹方法在氣溫預(yù)測中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2012, 29(8): 141-144)
[9] Wu Jiansheng, Long Jin, Liu Mingzhe. Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm[J]. Neurocomputing, 2015, 148(2): 136-142
[10] KavithaRani B, Govardhan A. Effective features and hybrid classifier for rainfall prediction[J]. International Journal of Computational Intelligence Systems, 2014, 7(5): 937-951
[11] Huang Guangbin, Zhu Qinyu, Siew C K. Extreme learning machine: A new learning scheme of feedforward neural networks[C] //Proc of the IEEE Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 2004: 985-990
[12] He Qing, Shang Tianfeng, Zhuang Fuzhen, et al. Parallel extreme learning machine for regression based on MapReduce[J]. Neurocomputing, 2013, 102(2): 52-58
[13] Liang Nanying, Huang Guangbin, Saratchandran P, et al. AS fast and accurate on-line sequential learning algorithm for feedforward networks[J]. IEEE Trans on Neural Networks, 2006, 17(6): 1411-1423
[14] Bottou L. Large-scale machine learning with stochastic gradient descent[C] //Proc of COMPSTAT’2010. Paris: Physica-Verlag HD, 2010: 177-186
[15] Rodgers J, Nicewander W. Thirteen ways to look at the correlation coefficient[J]. The American Statistician, 1988, 42(1): 59-66
[16] Yang Ying, Webb G I. Weighted proportionalk-interval discretization for naive bayes classifiers[C] //Advances in Knowledge Discovery and Data Mining. Berlin: Springer, 2009: 501-512
AMeteorologicalPredicationModelBasedonStormandOnlineSequentialExtremeLearningMachine
Ouyang Jianquan1,2, Zhou Yong1, and Tang Huanrong1,2
1(CollegeofInformationEngineering,XiangtanUniversity,Xiangtan,Hunan411105)2(KeyLaboratoryofIntelligenceComputingandInformationProcessing(XiangtanUniversity),MinistryofEducation,Xiangtan,Hunan411105)
In order to improve the accuracy of meteorological forecasting, deal with frequent local meteorological disasters in real time, and have higher efficiency of dealing with massive data, this paper proposes a meteorological forecasting model using the Storm-based online sequential extreme learning machine. The model firstly initializes multiple online extreme learning machine. When new batches of data arrive, the model continually studies the new data samples based on the training results, and introduces the stochastic gradient descent method and the error weight adjustment method to give the error feedback for new prediction results and then update the error weight parameters in real time, and finally to improve prediction accuracy. In addition, the Storm flow processing framework is adopted to improve the proposed model in the aspect of parallelism in order to enhance the ability of dealing with massive high-dimensional data. The experimental results show that compared with the Hadoop-based parallel extreme learning machine (PELM), the proposed model has higher prediction accuracy and more excellent parallelism.
Storm; extreme learning machine; meteorological predication; online sequence; machine learning

Ouyang Jianquan, born in 1973. Professor, PhD supervisor, visiting scholar in the Department of Computer Science, University of Georgia, USA. Member of CCF. His main research interests include machine learning and multimedia analysis and retrieval.

Zhou Yong, born in 1990. Master. Student member of CCF. His main research interests include machine learning and data mining.

Tang Huanrong, born in 1976. Associate professor. Member of CCF. Her main research interests include multi-objective evolutionary computation, information security and video image analysis.
2017-03-20;
:2017-06-19
國家自然科學(xué)基金項(xiàng)目(61672495);湖南省教育廳重點(diǎn)項(xiàng)目(16A208) This work was supported by the National Natural Science Foundation of China (61672495) and the Key Projects of Hunan Provincial Department of Education (16A208).
TP391