基于智能集成粒子群算法的時間序列數據挖掘研究
張健
(三江學院計算機科學與工程學院, 南京210012)
摘要:針對單一算法在處理復雜時間序列數據時存在缺陷以致無法挖掘全部信息的問題,提出了智能集成架構,給出了四種集成結構,并分析了它們的適用情況。針對一類隨機噪聲干擾的時間序列數據,采用并聯嵌套建模結構,提出嵌套雙種群粒子群算法的自回歸滑動平均(ARMA)模型,用于挖掘數據中的隨機性趨勢;提出基于概率密度控制(PDF)的最小二乘支持向量機(LSSVM),用于挖掘數據中的確定性趨勢,兩種模型并聯補集成實現對數據信息的充分挖掘。通過一組實驗驗證了所提方法的效果。
關鍵詞:時間序列;支持向量機;智能集成;自回歸滑動平均
文章編號:1673-1549(2015)04-0027-06
DOI:10.11863/j.suse.2015.04.06
收稿日期:2015-06-04
作者簡介:張健(1975-),男,江蘇淮安人,實驗師,碩士,主要從事計算機應用方面的研究,(E-mail)zhang1jian086@126.com
中圖分類號:TP399
文獻標志碼:A
引言
隨著信息時代的到來,大數據分析已成為各個領域愈來愈重視與依賴的技術手段。其中,時間序列數據廣泛存在于農業、金融、制造業等各個領域。時間序列挖掘是從大量的時間序列數據中提取數據中隱含的規律與知識, 通過對時間序列數據進行挖掘分析,能夠掌握事物的發展規律,從而對其未來趨勢進行預測。
時間序列建模與預測方法一般分為傳統方法與智能方法兩類。傳統方法包括線性回歸分析[1-3]、非線性回歸分析[4-6]、自回歸滑動平均(ARMA)建模[7-9]、偏最小二乘法[10]、灰色預測[11-13]等。
智能方法采用專家系統[14]、模糊規則[15]、神經網絡[16-17]、支持向量機[18-20]等智能技術實現預測建模。專家系統建模借鑒專家經驗知識實現對生產過程的描述,具有非常好的解釋性,然而其知識獲取存在瓶頸,學習能力差。模糊邏輯與專家系統類似,也是根據專家經驗知識實現對生產過程的描述,區別在于它采用模糊推理方法能夠很好地處理不確定信息。基于模糊規則的建模技術同樣受限于所獲取的知識,并且具有模型精度不高的問題。
人工神經網絡與支持向量機是兩種具有代表性的基于數據的機器學習技術。當樣本量足夠大時,人工神經網絡能夠以任意精度逼近工業對象的非線性特性,因此被廣泛應用于預測建模問題中。然而,人工神經網絡的建模精度依賴于學習樣本并且模型訓練容易陷入局部最優。支持向量機技術建立在統計學習理論基礎之上,它能夠依靠有限的樣本信息,基于結構風險最小化理論,在模型復雜性和模型學習能力之間尋求最佳折衷,因此具有優良的泛化能力。需要指出的是,人工神經網絡與支持向量機技術雖然具有出色的非線性逼近能力,但是它們與傳統建模方法一樣,建立的都是黑箱模型,其模型精度依賴于所獲取的樣本信息。
對于復雜的預測問題,采用一種建模方法往往無法達到預測精度,因此需要集成多種建模技術,吸收各方建模優勢,從而達到精確預測目的。智能集成建模是將兩種或兩種以上的建模方法,按一定的方式集成后實現對復雜工業過程建模,其中至少一種為智能建模方法。比如,文獻[21]集成粗糙集理論與支持向量機從而建立粗支持向量機模型,實現對時間序列預測;文獻[20]針對時間序列數據非線性、冗余特征,集成支持向量機技術與粒子群優化算法實現預測;文獻[22]針對數據存在高度的非線性、耦合性和多因素的影響,采用集成遺傳算法與最小二乘支持向量機的預測建模方法,從而提高了預測精度;文獻[23]提出了一種神經網絡和灰色預測相結合的稅收預測新方法,與單一方法相比,該方法具有更高的精度。
本文提出了智能集成架構,給出了四種智能集成結構并分析了它們的適用情況。針對一類隨機噪聲干擾的時間序列數據,采用并聯嵌套建模結構,提出嵌套雙種群粒子群算法的自回歸滑動平均模型,用于挖掘數據中的隨機性趨勢;提出基于概率密度控制的最小二乘支持向量機,用于挖掘數據中的確定性趨勢,兩種模型并聯補集成實現對數據信息的充分挖掘。通過一組實驗驗證了所提方法的效果。
1智能集成架構
智能集成是將兩種或兩種以上的模式挖掘方法,按一定的方式集成后實現對復雜數據規律或模式挖掘,其中至少一種為智能建模方法。智能集成模式挖掘方法的形式與結構主要有四種。
(1) 并聯補集成結構。并聯補集成結構包括兩個子模型,兩個模型沒有主次之分,且相互之間互為補充。該結構中的兩個子模型通常由兩種建模方法得到,單一建模方法能夠挖掘時間序列數據中的部分信息以獲知對應規律,但由于方法所限,無法獲知數據中的全部信息,因此依靠兩種建模方法互為補充以充分挖掘數據中隱含的規律或模式。
疊加形式分為相加與相乘兩種。并聯疊加集成結構如圖1與圖2所示。圖中,X1為模型1的輸入,Y1為模型1的輸出,Y1=f1(X1)。X2為模型2的輸入,δ為模型2的輸出,δ=f2(X2)。圖1中,Y=Y0+δ;圖2中,Y=δY0。

圖1 相加形式的并聯補結構

圖2 相乘形式的并聯補結構
(2) 加權疊加集成結構。加權疊加集成結構由多個子模型加權后疊加構成,其中每個子模型對應的權重大小決定了它在集成模型中所起的作用。該結構中的多個子模型通常由多種建模方法得到,單一建模方法能夠挖掘時間序列數據中的部分信息以獲知對應規律,但由于方法所限,無法獲知數據中的全部信息,因此依靠多種建模方法互為補充以充分挖掘數據中隱含的規律或模式。

圖3 加權并集成結構
(3) 串聯集成結構。串聯集成結構包括兩個甚至更多個子模型,除了第一個和最后一個模型,每一個模型都是前面一個模型的輸出,同時也是后一個模型的輸入。非線性動態系統通常采用這種形式,比如,采用神經網絡反映系統靜態時的非線性特性,采用NARMX(具有外生變量的非線性自回歸滑動平均)表征動態特性。串聯集成結構如圖4所示。

圖4 串聯集成結構
(4) 模型嵌套集成結構。嵌套集成結構包括至少兩個子模型,其中一個稱為基模型,用來對工業過程的主體結構進行建模,其它子模型則嵌套在基模型中,用來對基模型中的未知參數建模,如圖5所示。比如將蟻群算法[1-2]、粒子群優化算法[3-5]、遺傳算法[6-7]等仿生算法應用到系統辨識中,用來實現模型中的參數估計。

圖5 模型嵌套集成
2嵌套雙種群粒子群算法的ARMA模型
ARMA時間序列模型理論非常完善,對于一個平穩、零均值的時間序列,如果采取合適的階次與系數,它能保證擬合出的模型預報殘差為零均值噪聲。
本文提出雙種群粒子群優化算法(cPSO),其中一個子群執行自適應網格粒子搜索,以保持種群的多樣性,提高算法的全局搜索能力;另外一個子群按照快速收縮粒子群算法搜索,具有非常出色的收斂性能。采用cPSO算法優化確定ARMA模型的階次與系數以最小化模型預報殘差。
算法步驟為:
第一步:采用單位根檢驗法(ADF)對時間序列數據進行平穩性檢驗,如果序列為零均值平穩序列則直接用于ARMA模型建模,否則需要對時間序列數據進行平穩化處理。
第二步:設置模型階次與系數優化準則為模型預報的均方根誤差最小化。
第三步:采用cPSO算法擬合ARMA模型系數與階次。cPSO算法原理如圖6所示,其過程為:

圖6 cPSO算法流程
(1) 劃分網格
將每一維決策變量平均分成gp段。
(2) 劃分子種群
將整個種群分為兩個子群,即發散PSO搜索子群(簡稱網格子群)與收縮PSO子群(簡稱PSO子群),兩個子種群的粒子個數分別為Popz與Pops。
(3) 種群初始化

(4) 向導調整
根據優化準則即模型預報誤差均方根最小化評估每個粒子,得到feval(pxq),q=1,...,Popz+Pops,并按照式(1)~式(2)調整PSO子群的個體向導與全局向導
(1)
(2)
(5) 發散參數調整
根據gbest所在格子(這里稱為向導網格)的位置調整每個網格粒子的搜索范圍。調整后使所有發散PSO粒子的搜索范圍都包括向導網格區間,如圖7所示。為了表述簡單,假設將每一維決策變量范圍分成3段,兩維空間,因此總共分割成9個網格,其中gbest位于第5個網格內。在調整前粒子1的搜索范圍為網格1,調整后粒子1的搜索范圍變為網格1、2、4、5構成的空間。同樣,在調整前粒子2的搜索范圍為網格2,調整后粒子2的搜索范圍變為網格2、5構成的空間。

圖7 網格調整實例
(6) 發散PSO子群位置更新
發散PSO子群的位置pxq(q=1,…,Popz)按照式(3)進行更新
(3)

(7) PSO子群位置更新
收縮PSO子群的位置pxq(q=Popz+1,…,Popz+Pops)按照式(4)進行更新

(4)

第四步:驗證所建立的時間序列ARMA模型。
3基于PDF的LSSVM
本文在前人研究的基礎上,提出一種新LSSVM模型參數選擇準則。通過該準則,可以使得LSSVM模型的殘差PDF向給定的高斯分布逼近[24],從而實現對數據分析與預測的泛化性與精度提高的目的。其算法原理[24]為:
假設回歸問題的一組樣本數據集為D={(x1,y1),…,(xj,yj),…,(xl,yl)},xj∈Rn,yj∈R,并且存在一個非線性函數:
f(x)=[ω,φ(x)]+b
(5)
其中,ω∈Rni表示權向量,b表示偏置項,[·,·]表示點乘,φ(x):Rn→Rm表示輸入空間向高維特征空間(維數不受限制)的非線性映射。
通過LSSVM,優化問題可以轉化或描述為:
s.t.yj=[ω,φ(xj)]+b+ζjj=1,...,l
(6)
其中,ζj∈R和C分別用來表示殘差和懲罰系數。
對Lagrangian函數進行建立,并依據KKT(Karush-Kuhn-Tucker)條件,得到
(7)
消除ω,ζ后,得到線性方程
(8)

Ωjk=[φ(xj)T,φ(xk)]=K(xj,xk)
,k=1,2, ..., l
(9)
核函數取高斯徑向基函數
(10)
則,待求 LSSVM 回歸模型為:
(11)
其中,求解式(8)可獲得αj與b的值。
在前面的模型構建過程中,C和σ是可調的,它們的值一旦確定,就得到了最小二乘支持向量機的具體模型。
通過文獻[20]中用到的標準網格搜索算法求取LSSVM模型的參數。
殘差ξ為
(12)
進一步可以寫成如下函數形成
ξ=Π(x,y,C,σ)
(13)
以γξ表示ξ的概率密度分布,γξ為C和σ的函數,即γξ(x,y,C,σ)。可以通過調整C和σ的數值使γξ接近目標高斯分布。
以γtarget表示目標高斯分布的概率密度函數:
(14)
定義參數選擇準則
(15)
4實驗研究
針對隨機噪聲干擾的時間序列數據,本文采用并聯嵌套建模結構,利用子模型嵌套cPSO的ARMA模型挖掘數據中的隨機性趨勢;利用基于PDF的LSSVM挖掘數據中的確定性趨勢,兩種模型并聯補集成實現對數據信息的充分挖掘。


圖8 PDF-LSSVM與ARMA-LSSVM模型對 訓練結果與樣本數據的擬合程度對比

圖9 PDF-LSSVM與ARMA-LSSVM模型預報結果與測試數據擬合程度對比

圖10 PDF-LSSVM與ARMA-LSSVM模型訓練殘差

圖11 PDF-LSSVM與ARMA-LSSVM模型預報殘差

圖12 PDF-LSSVM與ARMA-LSSVM訓練模型殘差的自相關分析

圖13 PDF-LSSVM與ARMA-LSSVM預報殘差的自相關分析
圖8~圖11的對比結果表明,雖然兩種模型訓練的結果都能對訓練樣本數據進行擬合,兩種模型訓練精度都能滿足要求,但是,與單純的PDF-LSSVM模型相比,ARMA-LSSVM的訓練精度、預報精度、泛化性更高,ARMA-LSSVM更具有實用價值。
圖12和圖13中,PDF-LSSVM模型的訓練殘差與預報殘差均不為白噪聲,即PDF-LSSVM建模型沒能提取出建模對象的全部信息,造成模型精度不高、泛化性差等問題。與之相比,ARMA-LSSVM模型的訓練殘差與預報殘差近似為白噪聲,因此其模型結果具有更高精度與應用價值。
參 考 文 獻:
[1]孫翔,王景成.基于回歸模型的城市長期水量預測.微型電腦應用,2010,26(11):7-9.
[2]才讓加.化學數據的一元線性回歸分析.青海師范大學學報:自然科學版,2005(2):13-15.
[3]姚偉.稅收組合預測仿真研究.計算機仿真,2012,29(10):374-377.
[4]葉宗裕.非線性回歸模型參數估計方法研究——以C-D生產函數為例.統計與信息論壇,2010,25(1):41-45.
[5]張金旺,劉紅,華琳,等.非線性回歸模型擬合生存資料分析.數理醫藥學雜志,2009,22(6):641-642.
[6]Ratkowsky D A.Nonlinear Regression Modeling:a unified practical approach.New York:Marcel Dekker Inc.,1983.
[7]張新波.時間序列模型在稅收預測中的應用.湖南稅務高等專科學校學報,2010,23(4):30-32.
[8]林錦朗.時間序列模型在海關稅收預測中的應用.統計與咨詢,2009(1):26-27.
[9]王時繪,周健.時間序列數學模型在稅收分析中的應用.科技廣場,2011(7):150-154.
[10]張伏生,汪鴻,韓悌,等.基于偏最小二乘回歸分析的短期負荷預測.電網技術,2003,27(3):36-40.
[11]孫智勇,劉星.稅收增長預測的灰色理論模型研究.重慶大學學報:社會科學版,2010,16(3):41-45.
[12]郭曉君,李大治,褚海鷗,等.基于GM(1,1)改進模型的“兩稅”稅收預測研究.統計與決策,2014(4):34-36.
[13]王敏.稅收收入預測方法的優選與應用.稅務研究,2009(10):35-38.
[14]Walczak B,Massart D L.Dealing with missing data: Part II.Chemometrics and Intelligent Laboratory Systems,2001,58(1):29-42.
[15]Schafer J L,Graham J W.Missing data:Our view of the state of the art[J].Psychological Methods,2002,7(2):147-177.
[16]Chen J,Bandoni A,Romagnoli J A.Outlier detection in process plant data.Computers and Chemical Engineering,1998,22(4-5):641-646.
[17]趙慧,甘仲惟,肖明.多變量統計數據中異常值檢驗方法的探討.華中師范大學學報:自然科學版,2003,37(2):133-137.
[18]Victoria J H,Jim A.A survey of outlier detection methodologies.Artificial Intelligence Review,2004,22(2):85-126.
[19]成忠.PLSR用于化學化工建模的幾個關鍵問題的研究.杭州:浙江大學,2005.
[20]張玉,尹騰飛.支持向量機在稅收預測中的應用研究.計算機仿真,2011,28(9):357-360.
[21]劉碧森,姚宇.粗SVM理論及其在稅收預測中的應用.儀器儀表學報,2005,26(8):1530-1531.
[22]侯利強,楊善林,陳志強,等.基于遺傳優化偏最小二乘支持向量機的稅收預測研究.科技管理研究,2014,34(11):197-200.
[23]肖蘇,熊焱.基于灰度統計和神經網絡的物流業稅收預測模型.物流技術,2013,32(12):131-134.
[24]傅俊,朱莉.基于殘差控制的最小二乘支持向量機建模方法.計算機工程與應用(待發表).
Research on Time Series Data Mining Based on
Intelligent Integrated Particle Swarm Optimization Algorithm
ZHANGJian
(College of Computer Science and Engineering, Sanjiang University, Nanjing 210012, China)
Abstract:An intelligent integrated architecture is proposed to address the problem that a single algorithm has the defect that can't dig all information in dealing with complex time series data. Four kinds of integration architecture have been given and their applications have been analyzed. Aiming at the time series data of a class of random noise interference, a series nested modeling structure is adopted, and the autoregressive moving average model of multiple double-population particle swarm optimization algorithm is proposed to dig the randomness trend in data. Meanwhile, The least squares support vector machine (LSSVM) based on probability density functions control (PDF) is proposed to dig the certainty trend in data, the parallel compensation of two models realizes the full excavation of data information. Through a set of experiments, the effect of proposed method is verified.
Key words: time series; Support Vector Machine (SVM); intelligent integrated; ARMA