田宗浩,顧國華,王 鵬,王常青
(陸軍軍官學院,合肥 230031)
1993年,Song和Chissom[1-3]首次提出了基于模糊集理論的時間序列預測模型,即模糊時間序列(Fuzzy Time Series,FTS)。為了提升FTS模型的預測精度,研究者們經過二十多年對FTS的不斷探索,一些新的算法和思想逐漸應用到模型中[4-6],其相應的理論和應用不斷完善。在FTS模型的預測過程中,不同因素對預測結果的影響不一樣,為此引入權重因子對模型進行改進[7-9]。2005年,Yu[10]提出利用模糊邏輯關系矩陣中模糊邏輯關系出現的頻率建立權重模型;2006年Cheng[11,12]引入趨勢權重的概念建立模糊時間序列模型對臺灣股指進行預測,并取得較好的預測效果;2012年邱望仁[13]指出傳統加權模型計算出觀測值對每個模糊集的隸屬度后,僅考慮了最大隸屬度所對應的模糊狀態,并沒有充分利用觀測樣本隸屬于各個模糊狀態的隸屬度,這樣的處理方式顯然會丟失掉一些有用的信息。為此,文獻[13]依據樣本數據對每個模糊子集的隸屬度,設定要考慮的隸屬度個數,對Chen和Lee加權模型進行改進,進一步提高了模型的預測精度。
邱望仁[13]首次提出了廣義模糊時間序列模型的概念,并給出了廣義模糊時間序列模型的定義。不同之處在于,廣義模型不僅充分考慮觀測樣本隸屬于各個模糊集的隸屬度,而且還以此建立了不同層次的模糊邏輯關系,并把要考慮的隸屬度值作為預測值模型的權重,很大程度上提高了模型的可解釋性和預測精度。2016年王慶林[14]建立了基于GA算法的廣義模糊時間序列預測模型,并且對旅游需求進行了預測,預測結果顯著提高。通過分析發現,文獻[13]和文獻[14]中要考慮隸屬度的個數是人為主觀確定的,當考慮的隸屬度個數一定時,如果樣本數據對模糊集的隸屬度太小,那么它們的引入不僅會增加模型的復雜度,而且會降低預測精度。為此,本文結合模糊集理論中λ-強截集[15,16]的性質,依據觀測值對模糊集的隸屬度大小來確定要考慮的隸屬度個數,改進文獻[13]和文獻[14]提出的廣義模糊時間序列模型,并通過Alabama大學22年的入學人數對改進的模型進行驗證分析。
定義1[15]:假設X為一個普通的非空集合,其模糊子集A定義為A={(x,μA(x))|x∈X} ,其中μA(x)表示x對A的隸屬度,μA(x)∈[0,1],映射A(·)或者μA(·)|X→[0,1],x?μA(x)稱為模糊集A的隸屬函數。
定義2[16]:假設U(X)為X上模糊集合的全體,則A∈U(X),對?λ∈[0,1],記(A)λ=Aλ={x|μA(x)≥λ}為A的λ截集,Aλˉ={x|μA(x)>λ}為A的λ強截集,稱λ為閾值或者置信水平。
定義3[13]:實數集R的一個子集Y(t),(t=1,2,…)表示論域,在論域Y(t)上定義n個模糊集Ai(i=1,2,…,n),fAi(t)是定義在模糊集Ai上的隸屬函數,F(t)是fAi(t)的集合,則F(t)就定義為論域Y(t)上的一個模糊時間序列。
定義4[13]:假設狀態F(t+1)由F(t)轉移得到,則F(t+1)的一階模型可以表示為F(t+1)=F(t)?R(t,t+1),其中R(t,t+1)表示模糊邏輯關系矩陣,模糊邏輯關系矩陣的建立可以參考文獻[10-13]。
定義 5[14]:設是時間序列Y(t)上t時刻的觀測值xt對應的模糊狀態,F(t+1)=是時間序列Y(t)上t+1時刻的觀測值xt+1對應的模糊狀態,fAi(xt)和fAj(xt+1)分別為觀測值xt和xt+1對模糊集Ai和Aj的隸屬度,則F(t+1)和F(t)之間的模糊關系可以表示為稱之為廣義的模糊邏輯關系,其中和分別稱為廣義模糊邏輯關系的前件和后件。
傳統FTS預測模型在利用t時刻的樣本數據對下一時刻的值進行預測時,僅僅利用了t時刻的樣本數據對各個模糊集隸屬度中最大的模糊狀態,而將其他隸屬度所對應的模糊狀態忽略掉,這樣的處理方式顯然會丟失掉一些有用的信息。而文獻[13]和文獻[14]建立的廣義模糊時間序列模型中,模糊邏輯關系依據要考慮的隸屬度個數而定。通過對文獻[13]和文獻[14]中廣義模糊邏輯關系的分析,要考慮隸屬度的個數K由人為主觀的確定,對于這樣的廣義模糊關系而言,當K=1時,廣義的模糊時間序列就退化成只考慮最大隸屬度的模糊時間序列;當K的值過大時,不僅會增加模型的計算復雜度,而且也會引入一些多余的信息,反而得不到理想的預測結果。雖然邱望仁和王慶林也為模型做了相應的簡化處理,只考慮了模糊邏輯關系FLR( )
l,1,1≤l≤K,即t時刻第l位隸屬度對應的模糊狀態與t+1時刻最大隸屬度對應模糊狀態之間的關系,但是當樣本數據第l位的隸屬度很小時,其對應的模糊狀態對下一時刻的影響也會微乎其微,過多考慮反而會增加模型的復雜度、降低預測精度。為此,本文結合模糊集理論中λ強截集的性質,通過設定合理的閾值λ,篩選出對預測結果影響比較大的模糊狀態,增強了廣義模型的可解釋性。
首先設定一個合理的閾值λ,假設t時刻的樣本數據對每個模糊集的隸屬度為 (fA1(xt),fA2(xt),…,fAn(xt)),依據公式(1)以及定義2強截集的性質對其進行預處理,確定要考慮的模糊狀態:

由此得到t時刻要考慮的模糊狀態個數Kt以及相應模糊狀態對應的隸屬度,將其按從大到小的順序排列為,其中是排在l位的隸屬度,其對應的模糊狀態為Ati,由此得到t時刻需要考慮的模糊狀態;同理,t+1時刻要考慮模糊狀態的個數為Kt+1,其中是排在k位的隸屬度,其對應的模糊狀態為則將稱為t時刻到t+1時刻第l層模糊狀態與第k層模糊狀態之間的模糊邏輯關系,記為FLR(l,k),其中1≤l≤Kt,1≤k≤Kt+1,則這樣的廣義模糊邏輯關系組包含Kt×Kt+1個普通的模糊邏輯關系。
為了增強廣義模糊時間序列模型的可解釋性和提高模型的預測精度,本文以Chen和Lee模型的基本框架為基礎,利用λ強截集的性質以及廣義模糊邏輯關系的相關運算,合理地選取要考慮的模糊狀態,建立基于λ強截集的廣義模糊時間序列模型。
第一步:論域劃分及數據模糊化。
采用傳統模型等分論域劃分方法對樣本數據進行劃分,以便簡化本文建立模型的計算復雜度以及滿足下文對比分析的需要。假設U=[xmin-δ1,xmax+δ2] ,將論域U劃分成n個模糊子集U=(u1,u2,…,un),其中,d1=xmin-δ1,xmin和xmax分別為觀測樣本數據中的最小值和最大值,δ1和δ2分別為兩個合適的正數。
用式(2)計算觀測樣本數據對每個模糊子集的隸屬度,從而確定樣本數據對應的模糊概念。

其中,x(t)為t時刻的觀測樣本數據,mi為第i個模糊子區間的中間值,l為等分論域區間間隔長度。
第二步:確定要考慮的隸屬度個數,并做歸一化處理。
針對第一步中數據模糊化的結果,計算得到樣本數據對每個模糊子集的隸屬度向量(fA1(x(t)),fA2(x(t)),…,fAn(x(t))),設定合理的閾值λ,依據公式(1)確定t時刻要考慮的隸屬度個數Kt以及其對應的模糊概念,引入公式(3)對預處理后的隸屬度向量標準化,為預測確定權重:

其中,n為劃分模糊概念個數,x(t)為t時刻觀測樣本數據。
第三步:依據訓練數據的先后建立模糊邏輯關系及關系矩陣。
這一步是本方法的關鍵所在,根據第二步可以分別確定出t時刻要考慮的隸屬度個數Kt以及其對應的模糊概念Ait;同理可以得出t+1時刻需要考慮的隸屬度個數Kt+1和對應的模糊概念,由此可以得到t和t+1時刻之間Kt×Kt+1個模糊邏輯關系。根據各個時刻所確定的隸屬度個數Kt,t=1,2,…,利用公式(4)確定需要建立模糊邏輯關系矩陣的個數K:

為了簡化模型的計算復雜度,本文只考慮模糊邏輯關系FLR(k,1),1≤k≤Kt,即,假設(x(t))和(x(t+1) )分別為t和t+1時刻觀測值x(t)和x(t+1)對模糊子集的隸屬度向量中第k大的隸屬度和第一大隸屬度值,其對應的模糊子集分別為和,則為對應的第k層模糊邏輯關系,按照時間先后順序建立第k層模糊邏輯關系集合。依據得到的模糊邏輯關系集合,可以得到K個模糊邏輯關系矩陣Rk,1≤k≤K,相應的關系矩陣建立方法和Chen、Lee模型相同。
第四步:建立預測模型。
依據t時刻要考慮的最大隸屬度的個數Kt以及第k大隸屬度對應的模糊狀態Ai,并利用第三步建立的關系矩陣Rk,依次得到第k個最大隸屬度對應的預測值Fvalk(t+1):

這樣就可以得到Kt個預測值,利用公式(3)歸一化后的隸屬度向量作為第k個最大隸屬度對應的預測值Fvalk(t+1)的權重值,為此可以得到t+1時刻的預測值為:

第五步:預測效果評估。
為了評價本文建立的λ強截集的廣義FTS模型的優劣,通常采用誤差形式來分析預測結果。但是單一的誤差分析形式可能由于誤差算法自身所存在的缺陷導致評價結果不可靠或者不正確,為此,本文采用均方誤差MSE和泰爾不等系數TIC來衡量模型的預測精度[17]。

其中,x(t)為樣本數據,Fval(t)為其對應的預測值。
利用Alabama大學22年的入學人數為實驗數據對本文模型的可行性進行驗證(數據來源于文獻[13])。首先設置合理的閾值λ,然后利用文中廣義模糊邏輯關系建立的方法得到廣義模糊邏輯關系矩陣,最后將本文提出的方法與傳統的加權模型和廣義模型的預測結果進行對比分析,評價本文所建立模型的優劣。
為了對比分析的需要,依舊采用Song提出的7等分論域劃分方法,對應的語義解釋為:“極少”、“很少”、“少”、“正常”、“多”、“很多”和“較多”,利用式(2)對觀測樣本數據模糊化,各個樣本隸屬于每個模糊子集的隸屬度見表1。

表1 樣本數據模糊化隸屬度
設定合理的閾值λ,依據表1實驗數據對每個模糊子集的隸屬度獲得每個時刻需要考慮的模糊狀態。為了簡化計算過程和說明問題的方便,本文考慮λ分別為0,0.35,0.5,0.7四種情況下各個時刻對應的模糊狀態并且按照隸屬度大小排列(見表2):

表2 λ分別為0,0.35,0.5,0.7時各個時刻需要考慮的模糊狀態
以λ=0.35為例,可以確定需要建立3層模糊關系,依據上文建立廣義的模糊邏輯關系的步驟可得:
(1)第1層模糊關系

(2)第2層模糊關系

(3)第3層模糊關系

依據上述模糊關系,分別應用Chen和Lee兩種模糊邏輯關系矩陣的建立方法,得到本文建立廣義模型的模糊關系矩陣為:
(1)Chen模糊關系矩陣

(2)Lee模糊關系矩陣

結合樣本數據隸屬于各個模糊子集的隸屬度(表1)以及設置的閾值λ,利用式(1)和式(4)對隸屬度表進行預處理和歸一化,并將歸一化后樣本數據的隸屬度向量作為預測值的權重。參照Chen和Lee建立模型的預測規則,分別求出t時刻第k大隸屬度對應模糊子集對下一時刻的預測值Fvalk(t+1),然后采用式(7)求解出模型的最終預測結果。下面以Chen建立的模型為例求解預測值,例如:λ=0.35,1972年的觀測樣本數據對各個模糊子集的隸屬度向量為 (0.9685,0.5315,0.0315,0,0,0,0),觀測值對應的模糊集為A1和A2,歸一化后的隸屬度向量為(0.6457,0.3543,0,0,0,0,0),最大隸屬度對應的模糊子集為A1,其預測主要用到的模糊關系對應于RC(1)的第一行,此時的預測值Fval1(1973)為14000;次大隸屬度對應的模糊子集為A2,用到的主要模糊關系為RC(2)的第二行,此時的預測值Fval2(1973)為14500,則1973年的最終預測值為0.6457×14000+0.3543×14500=14177。類似的可以得到其他各年的預測結果,Lee模型的預測過程也與此類似,表3為邱望仁提出的加權模型和廣義模糊時間序列模型與本文λ=0.35時廣義模糊時間序列模型分別在Chen和Lee加權模型上應用的預測結果,最后兩行分別為對應模型的均方誤差和泰爾不等系數;表4為改進模型在考慮不同λ時的預測精度變化情況。

表3 λ=0.35時廣義模型與其他模型的預測結果

表4 λ=0,0.35,0.5,0.7情況下預測精度表
由表3可以分析出本文建立的基于λ截集的廣義模糊時間序列模型在λ=0.35時得到的結果的均方誤差和泰爾不等系數都比對應的文獻[13]中的加權模型和廣義模糊時間序列模型要低,這說明了本文改進模型的可行性和可靠性;表4列出了本文改進模型在考慮不同λ時的預測精度變化情況,當λ取值很小時,廣義模型考慮的隸屬度個數會很多,但是有用的信息一般是有限的,過多的信息反而降低模型的預測精度;當λ取值很大時,考慮的隸屬度個數會減少,為此會丟失掉一些有用的信息,模型的預測精度依舊不會很高。因此,根據樣本數據的分布結構特征和實際應用的意義,合理地選取閾值λ的值對模型的預測精度至關重要。
本文通過分析傳統的加權以及廣義模糊時間序列模型的建模過程,指出傳統模型對隸屬度的處理以及模糊邏輯關系矩陣的建立存在缺陷,為此本文重新定義所要考慮隸屬度對應的模糊關系和預測所需的模糊邏輯關系矩陣,建立基于λ強截集的廣義模糊時間序列模型。利用均方誤差MSE和泰爾不等系數TIC對比分析本文提出模型和傳統加權模型和廣義模型的預測精度以及不同λ取值情況下模型預測精度的變化情況,驗證了本文建立模型的可行性和有效性。但是本文建立的模型僅僅考慮了等間隔論域劃分情況,不能充分考慮數據的結構特征,為此,在非等間隔論域劃分情況下本文模型的效用依舊值得深入探究,另外,閾值λ的選取也是未來研究的重點。
參考文獻:
[1]Song Q,Chissom B S.Fuzzy Time Series and Its Models[J].Fuzzy Sets Syst,1993,(54).
[2]Song Q,Chissom B S.Forecasting Enrollments With Fuzzy Time Se?ries-Part I[J].Fuzzy Sets Syst,1993,(54).
[3]Song Q,Chissom B S.Forecasting Enrollments With Fuzzy Time Se?ries-Part II[J].Fuzzy Sets Syst,1993,(52).
[4]邱望仁,劉曉東.基于AFS拓撲和FCM的模糊聚類分析[J].模糊系統與數學,2010,22(4).
[5]張志強.基于模糊邏輯關系組的時間序列模型改進[J].應用數學學報,2015,38(4).
[6]劉齊林,曾玲,曾祥艷.基于支持向量機的區間模糊數時間序列預測[J].數學的實踐與認識,2015,45(22).
[7]李學森,王本德,凌賢長,周惠成.權重趨勢系數模糊優選法在供水評價中的應用[J].哈爾濱理工學院學報,2009,41(6).
[8]劉曉娟,方建安.綜合權重的模糊時間序列的電力負荷預測方法[J].華東電力,2012,40(4).
[9]何曉慶,蔡娜.基于模糊自適應變權重的經濟時間序列組合預測模型研究[J].理論探討,2013,27(1).
[10]Yu H K.Weighted Fuzzy Time Series Model for TAIEX Forecasting[J].Physica A,2005,(349).
[11]Cheng C H,Chen Y S,Wu Y L.Forecasting Innovation Diffusion of products Using Trend Weighted Fuzzy Time Series Model[J].Ex?pert System With Applications,2009,(36).
[12]Cheng C H,Chen T L,Chiang C H.Trend-weighted Fuzzy Time Se?ries Model for TAIEX Forecasting[J].ICONIP,2006,(4234).
[13]邱望仁.模糊時間序列模型理論及應用研究[M].天津:天津大學出版社,2013.
[14]王慶林,楊志輝.基于GA的廣義模糊時間序列建模及其在旅游需求預測中的應用[J].江西科學,2015,33(5).
[15]Zadeh L A.Fuzzy Sets[J].Information and Control,1965,8(3).
[16]劉林等.應用模糊數學[M].西安:陜西科學技術出版社,2008.
[17]周春楠,黃少濱等.基于譜聚類的高階模糊時序自適應預測方法[J].通信學報,2016,2(37).