東北電力大學信息工程學院 付學良 楊 洋
吉林省吉林市供電公司 李純子
近年來,混沌理論以及非線性預測方法的發(fā)展為環(huán)境風險事件預警研究提供了新的思路。支持向量機是在統(tǒng)計學習理論基礎上發(fā)展起來的一種新的分類和回歸工具,它是針對結構風險最小化理論提出的,泛化能力強,較好地解決了高維數(shù)、小樣本、非線性等實際問題,已經(jīng)應用于許多領域,成功用于回歸時間序列預測,分類等領域。其技術遵循結構風險最小化原則,預測性能優(yōu)于神經(jīng)網(wǎng)絡。目前,大氣污染物濃度預測方法多是傳統(tǒng)統(tǒng)計模型,難以模擬復雜大氣濃度變化。李軍采用核函數(shù)為RBF神經(jīng)網(wǎng)絡對混沌序列進行預測;劉瑞平根據(jù)RBF神經(jīng)網(wǎng)絡預測混沌時間序列;羅贇賽將支持向量機理論應用于網(wǎng)絡流量預測中,神經(jīng)網(wǎng)絡較傳統(tǒng)模型能得到較好的預測結果,但其結構過于復雜且難于選擇,收斂速度慢,容易陷入局部極值,預測精度低,且估計參數(shù)相對于較少的數(shù)據(jù)樣本,導致所得到的神經(jīng)網(wǎng)絡模型相對于數(shù)據(jù)產(chǎn)出過擬合,即泛化能力不夠。
本文仿真實驗研究結果表明大氣污染濃度存在混沌特性,混沌模型中相空間重構方法以及統(tǒng)計學習理論的支持向量機,可以將非線性序列映射到高維空間中去,此時高維空間數(shù)據(jù)便具有線性性質(zhì),并在這個空間進行線性回歸。
研究表明一個混沌系統(tǒng)產(chǎn)生的軌跡經(jīng)過一定時期變化后,最終會做一種有規(guī)律的運動。系統(tǒng)任一分量的演化都是由其他分量決定的,因此,可以從任一分量的時間序列中恢復原來系統(tǒng)的規(guī)律。Packard等建議用原始系統(tǒng)中的某變量延遲坐標來重構相空間,Takens證明可以找到一個合適的嵌入維m,若延時坐標的維數(shù)m≥2d+1,d是動力系統(tǒng)的維數(shù),則可以從這個嵌入空間把軌跡有規(guī)律的恢復出來,這就是相空間重構理論。
根據(jù)相空間重構理論,嵌入維數(shù)d和時間延遲τ的選取至關重要,研究表明如果τ太大,會使簡單軌道變得復雜且會減少有效的數(shù)據(jù)點數(shù),τ太小,將不能展示系統(tǒng)的動力特征,同樣d如果太小,動力系統(tǒng)的吸引子無法被嵌入空間包容,動力學特性無法展現(xiàn);d如果太大,不僅增加計算工作量,可能會增大預測誤差,而且會減少可用數(shù)據(jù)長度。
目前,延時τ的選擇方法主要有自相關法、平均位移法、去偏復自相關法、互信息法等。本文采用序列相關法中自相關函數(shù)法大氣污染濃度序列的自相關系數(shù)。
求取嵌入維數(shù)的方法主要有關聯(lián)指數(shù)飽和法、假近鄰法、Cao方法等,本文選用Cao方法對m進行選取。定義:


其中,E(d)是a(i,d)的平均值。

Cao發(fā)現(xiàn),當d比某一個d0大時,E1(d)停止變化,于是do+1便給出了序列的最小嵌入維。同時Cao還定義E2(d)用于區(qū)分確定性混沌信號和隨機信號,若隨機信號E2(d)對任何d為1,對于混沌信號E2(d)將不會始終為1。
得到了延時τ和嵌入維數(shù)m以后可以計算Lyapunov指數(shù),通過Lyapunov指數(shù)可以檢驗大氣污染濃度的時間序列是否存在混沌現(xiàn)象,正的Lyapunov指數(shù)意味著混沌,即λ>0;當λ<0,系統(tǒng)具有穩(wěn)定不動點;當λ=0,系統(tǒng)具有周期性。其計算方法主要有Jacobin法、Wolf法和小數(shù)據(jù)量法。由于本文數(shù)據(jù)量小,涉及可變參數(shù)少,故采用由Sato等改進小數(shù)據(jù)量法進行計算,估計表達式為:

其中k是常數(shù),dj( k)是基本軌道上第j對最鄰近點對經(jīng)過i個離散時間步長后的距離,Δt為樣本周期,M為重構相空點的個數(shù)。
混沌—支持向量機回歸預測模型主要是基于混沌和支持向量機這兩個理論,根據(jù)具體的大氣污染具體參數(shù)的屬性,建立具體模型,具體如圖1所示。
對于給定的污染濃度時間序列x1,x2,…,xN-1,xN,采用相空間重構法,將其轉換成維數(shù)m,延時為τ的新數(shù)據(jù)空間,即:

其中n∈[(m-1)τ,N],Y( n)為重構后的相點。利用重構后的狀態(tài)矢量對大氣污染濃度進行預測,可以構造映射(回歸估計函數(shù))?:使得:

設當前時刻為n,訓練數(shù)據(jù)數(shù)量為N,則訓練數(shù)據(jù)可以表示為:

根據(jù)已知樣本序列確定訓練數(shù)據(jù),應用支持向量機回歸進行訓練求得最佳模型?;對未來時刻的預測值,以其重構相空間中前(m-1)τ變量作為輸入,應用訓練得到的支持向量機模型進行預報。
(1)構建有效的預測因子。由于大氣污染物濃度(y)主要受污染源的源強和氣象因子的影響,故考慮將前一天的SO2濃度(x1)、凈輻射量(x2)、總云量(x3)、日均濕度(x4)、日照時數(shù)(x5)、日均氣壓(x6)、總輻射量(x7)、平均風速(x8)、日均溫度(x9)共9個因子作為預選預測因子。
(2)選擇核函數(shù)及參數(shù)值。常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基函數(shù)(RBF)核函數(shù)和sigmoid核函數(shù)。
(3)用訓練樣本訓練具有優(yōu)化參數(shù)的混沌-支持向量機預測模型,獲得支持向量,確定混沌-支持向量機的結構。
(4)用訓練過的混沌-支持向量預測器對測試樣本預測。
本文主要采用二氧化硫濃度作為仿真實驗的基礎數(shù)據(jù),大氣中跟二氧化硫相關參數(shù)由吉林市環(huán)境檢測站提供。
本文主要采用的開發(fā)軟件是臺灣大學林智仁教授等開發(fā)的Libsvm軟件,此軟件主要是基于MATLAB,其特點主要是簡單、快捷、易于使用。是一款較好的應用與回歸預測和模式識別的軟件。

表2 兩種預測模型性能比較

圖1 混沌—支持向量機模型建立步驟

圖2 采集到的原始數(shù)據(jù)

圖3 7月9日、10日SO2實際值與預測值濃度對比圖
本文采用吉林市從2011年7月1日到2011年7月10日共10天每天SO2平均濃度作為原始數(shù)據(jù),得到10*24=240個數(shù)據(jù);用前8天的192個數(shù)據(jù)作為已知數(shù)據(jù)來進行模型訓練;后2天的48數(shù)據(jù)作為預測數(shù)據(jù)來檢測模型的預測結果精確性。
采用自相關函數(shù)法得到前8天SO2,濃度序列延時為3,利用小數(shù)據(jù)量法得到Lyapunov指數(shù)為λ=0.167,利用Cao方法得到嵌入維數(shù)為10>0,說明該濃度時間序列具有混沌特性,利用相空間重構得到216個訓練樣本,下一步用支持向量機回歸對得到樣本進行訓練。采集到的基礎數(shù)據(jù)如圖2所示。
支持向量機回歸模型在訓練時有較少的可調(diào)參數(shù),即不敏感系數(shù)ε、寬度系數(shù)ζ和懲罰因子C。對以上三者取值并進行組合訓練,選擇誤差最小一組參數(shù)為最佳,若結果不理想,重新設定以上數(shù)據(jù)進行訓練。最后確定ζ=0.7ε=0.001。由交叉實驗選取懲罰因子C=1000,核函數(shù)g=0.001,訓練誤差e=0.0001。利用訓練好的模型對數(shù)據(jù)進行預測,其實際值和預測值對比效果如圖3所示。
目前發(fā)展最快的預測模型是神經(jīng)網(wǎng)絡回歸模型,因此用支持向量機回歸預測值與BP神經(jīng)網(wǎng)絡評估樣本進行對比,采用平均相對誤差(MAPE)和均方誤差(MSE)評價SVM模型的預測性能。具體公式如下所示:

將得到的48小時數(shù)據(jù)每8小時取一次平均值,比較兩個模型的預測效果。如表2所示。
本文研究了大氣污染濃度的時間序列并證明其混沌特性,利用支持向量機回歸理論對大氣污染濃度進行預測。根據(jù)相空間重構理論,通過相空間重構將SO2濃度序列映射到高維特征向量空間形成相點構造訓練樣本,解決了樣本確定的問題。再根據(jù)訓練樣本對使用支持向量機回歸理論構造預測模型,建立了混沌-支持向量機大氣污染濃度預測模型,對大氣污染物SO2濃度進行預測。研究結果表明混沌-支持向量機回歸模型能夠有效地預測大氣污染濃度,與BP神經(jīng)網(wǎng)絡方法相比具有更好穩(wěn)定性和預測精度,更適合于大氣污染濃度預測。
[1]白鵬,張喜斌.支持向量機理論及其工程應用實例[M].西安:西安電子科技大學出版社,2008:41-55.
[2]金龍.人工神經(jīng)網(wǎng)絡技術發(fā)展及其在大氣科學領域的應用[J].氣象技術,2004,32(6):12-13.
[3]史志才.網(wǎng)絡風險評估方法研究[J].計算機應用,2008,11.
[4]劉瑞平,沈福民.混沌時間序列預測與目標檢測[J].雷達科學與技術,2006,3(6):327-331.
[5]羅贇賽.混沌—支持向量機回歸在流量預測中的應用研究[J].計算機科學,2009,7.
[6]李目,何怡剛.混度時間序列的混合遺傳神經(jīng)網(wǎng)絡預測方法[J].系統(tǒng)仿真學報,2008,11.
[7]梁新榮.支持向量機在混沌系統(tǒng)預測中的應用[J].計算機學報,2009,9.
[8]黃佳聰.智能算法及其在環(huán)境預警中的應用[J].環(huán)境監(jiān)控與預警,2010,6.
[9]于國榮,夏自強.混沌時間序列支持向量機模型及其在徑流預測中的應用[J].水科學進展,2008(1):117-119.
[10]呂金虎,陸軍安,陳士華.混沌時間序列分析及應用[J].系統(tǒng)仿真學報,2002.
[11]劉杰,黃亞樓.基于BP神經(jīng)網(wǎng)絡的非線性網(wǎng)絡流量預測[J].計算機應用,2007,27(7):1770-1772.
[12]陳俏,曹根牛.支持向量機應用于大氣污染物濃度預測[J].計算機技術與發(fā)展,2010,5.