王 鵬,田宗浩
(陸軍炮兵防空兵學院 基礎部,安徽 合肥 230031)
模糊時間序列[1~5](Fuzzy Time Series, FTS)在含糊、不確定信息處理中廣泛應用,并且具有良好的魯棒性和泛化性。近年來,廣義模糊時間序列預測模型被提出[6~9],其充分考慮樣本數據對模糊集的隸屬情況,把要考慮的隸屬度值作為預測模型的權重,建立不同層次的模糊邏輯關系,提高了模型的可解釋性和預測精度。但是,通過對廣義模型的深入研究發現,只利用隸屬度函數描述樣本數據對模糊集的隸屬情況,在數據模糊化過程中不能形象地反應信息的含糊、不確定性。隨著人們對問題認識的不斷深入,樣本數據對模糊集的隸屬情況會表現出一定的猶豫程度,如何更好的表達樣本數據對模糊集的隸屬狀態成為一個研究的熱點問題。
Zadeh教授提出的直覺模糊集[10](Intuitionistic Fuzzy Set, IFS)是模糊集理論的擴展和補充,通過增加一個非隸屬度參數來描述事物“非此非彼”的模糊特性。直覺模糊集的數學描述更加符合事物的模糊本質,為處理不確定信息提供了新的研究思路。但是,如何確定IFS的隸屬度和非隸屬度函數呈現很大的復雜性,如何將樣本數據直覺模糊化和描述樣本數據對模糊集的隸屬情況成為模型改進的一個瓶頸問題。為此,本文結合文獻直覺模糊化的方法以及采用記分函數來描述樣本數據對模糊集的隸屬情況的思想,建立基于直覺模糊化的廣義模糊時間序列模型,并通過仿真實驗對模型的有效性和可行性進行驗證。
為建立模型需要,本節給出了IFS和FTS的相關定義:
定義1[10]Atanassov對直覺模糊集進行如下定義:A={
A為有限論域X上的直覺模糊集,如果A為正規直覺模糊集, 其滿足下面三條性質:
(1)0≤μA(x)≤1,0≤γA(x)≤1;
(2)0≤μA(x)+γA(x)≤1,0≤πA(x)≤1;
(3)μA(x)+γA(x)+πA(x)=1。
定義2實數集R的一個子集Y(t),(t=1,2,…)表示論域,在論域Y(t)上定義n個模糊集Ai(i=1,2,…,n),其隸屬函數為fAi(t),F(t)是fAi(t)的集合,則F(t)就定義為論域Y(t)上的一個模糊時間序列。
定義3假設狀態F(t+1)由F(t)轉移得到,則F(t+1)的一階模型可以表示為F(t+1)=F(t)R(t,t+1),則稱R(t,t+1)為F(t+1)和F(t)之間的模糊邏輯關系[13,14]。
根據上述FTS以及模糊邏輯關系的定義,廣義模型中兩個觀測值之間的模糊邏輯關系可以描述為:
設論域U被劃分為k個模糊子區間U={u1,u2,…,uk},相應的模糊集可以表示為A1,A2,…,Ak。則時刻觀測樣本數據xt對每個模糊集的隸屬度可以表示為:
同理,t+1時刻觀測樣本數據xt+1的模糊狀態表示為:


通過分析建立的k2個模糊邏輯關系,有些對模型的預測結果影響微乎其微,過多的考慮反而會引入一些冗余信息、增加模型的計算復雜度。為此,結合唯物辯證法中“突出主要矛盾”的思想給出定義4的特殊形式。

FTS的關鍵是挖掘歷史數據內部的模糊變化和不確定特性,掌握序列數據隨時間的變化規律,提高預測精度.IFS的“非此非彼”性,以及實際狀態變換的不確定性。因此,本文從數據直覺模糊化以及記分函數的選取入手,以文獻[6~8]建立的廣義模糊時間序列模型為基礎,構建基于直覺模糊化的模糊時間序列預測模型。
筆者為簡化建立模型的計算復雜度,采用等分論域劃分方法對數據進行處理。假設U為論域,xmax和xmin分別為觀測樣本的最大值和最小值,則
U=[xmax-σ1,xmax+σ2]
(1)
其中,σ1和σ2為合適的正整數。
結合數據的實際含義,用自然語言能夠表述的方法對論域U進行模糊劃分,其相應的模糊概念為Ai。由于人認知的模糊性,對論域的劃分不能夠太細,因此設定劃分的子區間個數為k,則子區間長度l為:
(2)
其中:D為論域范圍。
由此得論域劃分的結果為:
(3)
其中:u1=u2=…=uk=l,d1=xmin-σ1,dk+1=xmax+σ2,mi為第i個模糊子區間的中間值。
現實中給出的樣本數據大多為實數集,為此需要對樣本數據進行直覺模糊化處理以滿足建模的需要,本文通過在隸屬度和非隸屬度函數中增加猶豫度因子δ來描述樣本數據對模糊集的不確定性,如式(4)所示:
(4)
其中,xt為樣本數據;l為等分論域區間間隔;mi為對應子區間的中間值;δ為猶豫度因子,表示數據隸屬集合的不確定程度。結合定義2,可以證明式(4)為正規直覺模糊集。當δ=0時,πi=0,直覺模糊化就退化為普通模糊化。
在傳統的數據模糊化過程中利用最大隸屬度原則來確定樣本數據所對應的模糊集,而在直覺模糊化過程中引入了非隸屬度函數,并用直覺指數來描述數據的中立狀態,極大地擴展了模糊集的表達能力,但是也就如何根據直覺模糊化的結果確定樣本數據所對應的模糊集增加了難度。在一般的直覺模糊變換中采用最多的為“ ∨(取大)-∧(取小)”運算,其特點是突出主要因素,忽略一些次要信息,也正是其丟失了一些信息,從而影響了模型的預測精度,使問題偏離實際。為此,本文在如何評判數據的隸屬問題時引入記分函數的概念,綜合考慮直覺模糊集中支持、反對以及中立三者之間的關系,使評判結果更加合理。
文獻[15~17]給出了大量有關記分函數的研究成果,其中李凡在文獻[17]中給出了記分函數的一般形式,其它記分函數均為式(3)的特例。
L(Ai)=θ1μAi+θ2γAi+θ3πAi
(5)
理論上講,式(5)充分考慮了直覺模糊集中支持、反對以及中立三個方面的信息,是很好的結果,但θ1,θ2,θ3三個系數的確定是一個難點,也制約了記分函數一般形式的推廣應用。為了解決記分函數參數難以確定的問題,文獻[15]給出了記分函數的特殊形式,并得到大量專家學者的認同。為此本文也擬采用式(6)為記分函數。
(6)
其中,式(6)的含義為:在直覺指數描述的中立狀態中,支持和反對的程度處于均衡狀態,該方法簡單方便,易于處理,為問題的解決提供了新的思路。當πAi=0時,記分函數就退化隸屬度函數。
利用公式4將數據直覺模糊化,結合公式6得到觀測樣本數據對每個模糊子集的記分函數值向量(LA1(t),LA2(t),…,LAk(t)),以此描述對各個模糊集的隸屬程度。將觀測樣本對每個模糊集的記分函數值按照從大到小的順序的排序。設定要考慮的最高記分函數值個數為p,Lp(t)為記分函數值向量中的第p高的記分函數值,引入式(7)對記分函數值向量標準化:
(7)
標準化后的記分函數值向量不僅包括最高記分函數值所對應的位置信息,還包括其它要考慮記分函數值的位置信息,這樣對觀測樣本的初始信息的利用率較高。
根據標準化的記分函數值向量,利用公式(8)對記分函數值向量進行歸一化,為預測確定權重。
(8)
其中,k為劃分模糊概念個數,α為模糊參數,α∈(0,+∞)。
根據要考慮的最高記分函數值的個數以及第p個最高記分函數值對應的模糊概念Ai,利用3.3節建立的關系矩陣R(p),分別得到第p個最高記分函數值對應的預測值Fvalp(t+1)
(9)
其中,R(p)為第p大隸屬度對應的模糊邏輯關系矩陣。
利用得到P個預測值,結合式(8)歸一化后的記分函數值向量作為第P個最高記分函數值Fvalp(t+1)對應的預測值的權重值,為此可以得到最終的預測值為:
(10)

為了說明模型的有效性,利用均方誤差RMSE和平均百分比相對誤差MAPE來衡量模型的預測精度:
(11)
(12)
其中,xt為樣本數據,Fval(t)為其對應的預測值。
為驗證本文建立模型的有效性和科學性,遵照上文建立模型的過程,利用典型的Alabama大學22年的入學人數為實驗數據,分別以Chen和Lee模型模糊邏輯關系矩陣建立的方法,與普通模糊化的廣義模型進行對比分析。
依據3.1節均等論域劃分方法,將樣本數據劃分為7個模糊子區間,以1000為區間長度,則每個子區間為:u1=[13000,14000],…,u7=[19000,20000]。
由于Alabama大學22年的入學人數為實數集,而模型要求樣本集為直覺模糊集,應用式(4)對樣本數據直覺模糊化,當δ=0.2時,直覺模糊化結果如下所示:
通過噴嘴性能曲線(圖2)和實際噴嘴霧化實驗效果(圖3)可以確定新噴嘴在霧化性能方面、噴射扇形角度和噴嘴流量線性比舊噴嘴優異。

依據樣本數據的直覺模糊化結果,結合式(6)記分函數得到樣本數據對各個模糊集的記分函數值,結果詳見表1。

表1 樣本數據的記分函數值
為與普通模糊化廣義模糊時間序列模型對比分析的需要,假設p=2,α=1,依據表1中樣本數據對各個模糊集的記分函數值,可以得到兩個廣義模糊邏輯關系組FLR(1,1)和FLR(2,1):
(1)FLR(1,1)
A1→A1,A1→A1,A1→A2,A2→A3,A3→A3,A3→A3,A3→A3,A3→A4,A4→A4,A4→A4,A4→A3
A3→A3,A3→A3,A3→A3,A3→A3,A3→A4,A4→A6,A6→A6,A6→A7,A7→A7,A7→A6
(2)FLR(2,1)
A2→A3,A2→A3,,A2→A3,A2→A3,A4→A4,A5→A6,A5→A6,A7→A7,A6→A7,A6→A6
依據上述最高記分函數值以及次高記分函數值對應的模糊邏輯關系集合FLR(1,1)和FLR(2,1),分別應用Chen和Lee三種模糊邏輯關系矩陣的確定方法,得到相應的模糊關系矩陣為:
結合樣本數據隸屬于各個模糊子集的記分函數值(表1)以及設置的需要考慮的記分函數值個數p,分別利用式(7)和(8)對記分函數值進行標準化和歸一化,并將歸一化后樣本數據的記分函數值向量作為預測值的權重。參照Chen和Lee提出的預測規則,利用式(9)分別求出第p大記分函數值對應模糊子集對下一時刻的預測值Fvalp(t+1),然后采用式(10)求解出模型的最終預測結果。下面以Chen模型為例求解預測值,例如:1971年的樣本數據對各個模糊集的記分函數值向量為(0.7220,0.3220,0,0,0,0,0),觀測值對應的模糊集為A1和A2,歸一化后的記分函數值向量為(0.6916,0.3084,0,0,0,0,0),最高記分函數值對應的模糊子集為A1,其預測主要用到的模糊關系對應于RC(1)的第一行,此時的預測值Fval1(1972)為14000;次高記分函數值對應的模糊子集為A2,用到的主要模糊關系為RC(2)的第二行,此時的預測值Fval2(1972)為14500,則1972年的最終預測值為0.6916×14000+0.3084×14500=14500=14154。類似的可以得到其它各年以及Lee模型的預測結果,表2為普通模糊化廣義模型在p=2,α=1時預測結果和本文直覺模糊化廣義模型分別在Chen和Lee模型上應用的預測結果,最后兩行分別為對應模型的均方誤差和平均百分比誤差。

表2 p=2,α=1廣義模型預測結果對比
其中,Model1為p=2,α=1時普通模糊化的廣義Chen模型;Model2為p=2,α=1時普通模糊化的廣義Lee模型;Model3為p=2,α=1時直覺模糊化的廣義Chen模型;Model4為p=2,α=1時直覺模糊化的廣義Lee模型。
糊集的隸屬情況,其對應預測結果的精度得到提升。另外,圖1中模型3和4的預測結果曲線更貼近真實值,尤其是1987年到1989年的預測精度更有了顯著提升,進一步驗證了本文建立的直覺模糊化的廣義模型的有效性和可行性。
為研究猶豫度因子對樣本數據直覺模糊化的影響,表3和表4給出了不同猶豫度的情況下Chen和Lee模型的預測精度變化情況。

圖1 p=2,α=1時四種廣義模型預測結果對比

表3 不同猶豫度情況下Chen廣義模型預測精度表

表4 不同猶豫度情況下Lee廣義模型預測精度表

圖2 不同猶豫度情況下模型預測精度變化曲線
對表3和4分析可知,猶豫度因子的選取影響著模型的預測精度,當δ=0.2時,本文模型取得最好的預測結果, 直覺模糊化的廣義模型的可行性和有效性得到驗證。
但是通過圖1分析發現,每年的預測結果精度提高并不是很明顯,這是由于式(6)記分函數在猶豫度所表達的中立狀態中,支持和反對的程度均衡引起的。顯然,當樣本數據越接近中間值時,樣本數據對相應模糊集的隸屬情況越明確,支持程度越高;相反,反對的程度越高。為此,合理的確定樣本數據對各個狀態的記分函數影響著模型的預測精度,能夠更加客觀地描述樣本數據“非此非彼”的模糊狀態。
文章分析了傳統FTS的局限性,引入直覺模糊集對FTS進行擴展。通過樣本數據直覺模糊化,加深了對數據模糊性的認識,較好的反映了數據“非此非彼”的不確定性本質;更加細膩的描述了模糊現象的本質。最后通過實例驗證和對比分析,驗證了本文所建立的模型有較好的預測性能。但是,文中也分析了本文建立模型存在的不足,指出猶豫度因子的選取影響著模型的預測精度。另外,本文用記分函數來描述樣本數據對模糊集的隸屬情況,如何合理的確定記分函數也是影響模型預測結果重要因素,這也將是今后研究的重點。