汪 洋,陳海燕,彭艷兵
(1.武漢郵電科學研究院 通信與信息系統,湖北 武漢430074;2.烽火通信科技股份有限公司 南京研發部,江蘇 南京210019)
模糊時間序列模型在論域定義上的研究
汪 洋1,2,陳海燕1,2,彭艷兵1,2
(1.武漢郵電科學研究院 通信與信息系統,湖北 武漢430074;2.烽火通信科技股份有限公司 南京研發部,江蘇 南京210019)
文中基于模糊時間序列模型,提出了如何定義論域的方法。預測人員在不斷地應用模糊時間序列模型進行預測的同時,也對此模型進行了不同方面的改進,但是大部分主要包括兩個方面:一是論域劃分,而是模糊關系表示。在論域劃分上面,現有的研究都是簡單的向上和向下取整的方法,沒有意識到論域區間的定義也會影響到預測的結果的原因,所以本文研究了新的定義論域區間的方法,本文新的方法中提出論域區間的定義和當前類別的數據分布有關,這樣充分考慮了樣本數據的分布情況,提高了論域間隔的準確度和可解釋性。最后,本文應用阿拉巴馬州大學的預測結果和最新的論域劃分方法進行了比較,結果表明了此方法的有效性。
模糊時間序列;論域區間定義;數據分布;論域劃分
預測問題已經是這個時代研究的重點,做好市場調研,分析消費者的習慣性行為,預測消費者的消費傾向從而進行針對性的推銷使企業獲利。模糊時間序列模型應用到各行各業,包括股票預測[1-2]、溫度預測[3]、氣候預測[4]、環境污水預測[5]等,預測的模型有很多,經典時間序列預測模型可以處理很多的預測問題,但是也有局限性,它依賴大量的歷史數據,不能有效的預測歷史數據是語言值、不完整或是不確定的問題。1965年美國自動化控制專家Zadeh教授提出了模糊理論和模糊邏輯的概念,并初步建立了處理帶有不確定的、模糊的語義問題的模型[6];1994年,Song、Chrisom運用Zadeh教授的理論,建立針對模糊時間序列預測的模型[7-8],為模糊時間序列預測理論奠定了基礎。其預測框架由4個步驟組成:1)定義論域和進行論域的模糊劃分;2)將歷史數據模糊化;3)建立模糊邏輯關系;4)去模糊化后預測。從預測步驟出發,研究人員主要集中在如何劃分論域,如何建立模糊關系,如何去模糊化上面,卻忽視了論域定義的重要性。在提出聚類算法之前,學者們在定義整個論域的時候基本上采用的簡單的向上向下取整的方法。2008-2011年之間,研究此模型的課題組,提出了聚類算法[9-11],即首先將樣本數據進行分類,然后再定義每類數據的論域。無論是將將樣本數據分類還是沒有將樣本數據分類,學者的都沒有意識到定義論域的重要性,只是將樣本數據的最小值向下取整,樣本數據的最大值向上取整。文中研究了定義論域的方法,不再是簡單的取整,而是利用分類后的數據的集中程度來定義論域。
1.1 模糊時間序列的定義
定義1.1[12](模糊集)設U為給定論域,將論域劃分為n個子區間,即U={u1,u2,…,un},則定義在論域U中的模糊集合A表示為:

其中,fAi(·)是模糊集合Ai的隸屬函數,fAi(·):U→[0,1],uk是模糊集合Ai的一個因素。fAi(uk)是uz對模糊集合Ai的隸屬度,fAi(uk)∈[0,1],k=1,2,…,n。
定義1.2[13](模糊時間序列)對任一固定的t=(…,1,2,3,…),設Y(t)?R,即為實數域的子集,Y(t)上定義著一組模糊集 fi(t)(i=1,2…),且 F(t)={f1,f2(t),…},則我們稱F(t)為定義在Y(t)上的模糊時間序列。
定義1.3[13](模糊關系)假設定義R(t,t-1)為F(t-1)到F(t)的模糊關系,滿足F(t)=F(t-1)°R(t,t-1),則可以用模糊邏輯關系F(t-1)→F(t)表示,F(t-1),F(t)都是模糊集,“°”表示合成運算,關系R定義在F(t)上的一階模糊關系。
定義1.4[13](左件、右件)假設F(t-1)=Ai,F(t)=Aj,則在兩個連續的觀測值F(t)和F(t-1)可以用一階模糊邏輯關系表示,記為Ai→Aj,稱Ai為模糊關系的左件,Aj為模糊關系的右件。
1.2 模糊時間序列模型建模和預測步驟
1)根據樣本數據和隸屬度函數定義論域并進行區間的劃分;
2)根據樣本數據先后的觀測值模糊化;
3)建立模糊邏輯關系;
4)將觀測值模糊化并預測。
1.3 模型評估參數
使用相對誤差、平均誤差、均方誤差3個指標對方法進行評估。為預測值,yi為真實值,殘差為ei=。
1)相對誤差:記號為Δ,

2)平均誤差:記號為ME,

3)均方誤差:記號為MSE,

2.1 定于論域方法的闡述
在論域劃分上,研究學者的研究重點只是在如何劃分論域,而忽視了如何定義論域。1993年,Song和Chissom提出的模糊時間序列模型中,定義論域的方法就是整個樣本的最小值的向下取整和最大值的向上取整。2006年,Huarng[15]提出了基于比率的論域劃分方法,定義初始值的方法為:initial=a·b′×102,b′=b-1,其中a,b是0到9的任意數字,z可以是任意正整數、負整數或零,論域由初值開始,間隔通過比率進行增長。到后來的模型研究中,基本上都是基于最原始的定義方法,即簡單的向下和向上取整的方法,所以本文研究論域定義的方法具有一定的實際意義。下面介紹本文定義論域的方法。
文中采用的預測模型是基于曲和陳的模型,采用的是多尺度論域劃分方法,與其他方法不同之處在于本文先計算每個類別的比率,再來定義論域。假設類別1通過多尺度比率算法計算的比率為ratio,則此類別的論域定義為:

其中,Dmin為類別1中樣本數據的最小值,Dmax為類別1中樣本數據的最大值。
2.2 新方法的驗證-大學注冊人數的預測
模糊時間序列模型的研究學者們是基于阿拉巴馬州大學1971-1992年的注冊人數的進行預測,本文也是采用此作為預測樣本,與前人的預測結果進行比較,表1是阿拉巴馬州大學的實際注冊人數以及每年的變化值。
2.3 預測步驟
模型的預測步驟為:
1)論域區間定義;
2)劃分論域;
3)定義模糊集,樣本數據模糊化;
4)建立模糊邏輯關系和模糊邏輯關系組;
5)添加啟發式知識,建立啟發式模糊邏輯關系組;
6)去模糊化并預測。
步驟1:論域區間定義。
步驟1.1:表1中記錄了阿拉巴馬州大學22年的注冊人數,將這些數據從小到大排序,得到的樣本數據為:

步驟1.2:利用FCM算法將樣本數據分成X1,X2,X33類,分成的結果如下:

步驟1.3計算X1,X2,X33類數據的比率。利用公式(5):

分別計算X1,X2,X33類數據的相鄰數據的相對誤差,然后在計算平均誤差,結果為:
ratio1=0.0307,ratio2=0.0109,ratio3=0.0161.
步驟1.4定義論域區間。
X1,X2,X33類數據的最大值和最小值分別記為:.從分類的結果可以知道D1min=13055,D1max=13867,D2min=14696,D2max=16919,D3min= 18150,D3max=19377。
利用公式(6)和(7)確定3類數據的論域區間,

故X1的論域區間是:

X2的論域區間是

X3的論域區間是

將步驟1.3計算的ratio1,ratio2,ratio3代入上面的公式,得到:
X1的論域區間是[12855,14080];X2的論域區間是[14616,17011];X3的論域區間是[18004,19533]。
步驟2:劃分論域。按照曲和陳的多尺度方法進行劃分論域。
X1的初始值為12855,記為xinitial=12855。
當j≥1時,xj=(1+ratio)j×xinitial,uj=[xj-1,xj],最后得到23個間隔:
u1=[12855,13250],u2=[13250,13657], …,u23= [19501,19533]
步驟3:定義模糊集,并將樣本數據模糊化。
根據步驟2中得到的23個間隔,使用三角隸屬函數,定義23個模糊集如下所示:

步驟3.2:根據模糊化的規則,將樣本數據模糊化,表2是樣本數據模糊化的結果。
步驟4:根據定義1.3,模糊關系的定義,建立模糊邏輯關系和模糊邏輯關系組。
步驟5:引入啟發式知識,建立啟發式模糊邏輯關系組。
步驟6:去模糊化并預測。按照平均值去模糊化的規則。
2.4 預測結果比較
1)相對誤差
圖1將本文提出的論域定義方法與曲和陳的方法進行了比較,從相對誤差的對比圖可以看出,本文提出的方法的相對誤差小,在相對誤差比較大的地方,曲和陳的方法相對誤差更大。采用本文定義論域的方法,除了個別的誤差比較大之外,其它的相對誤差基本在0.00%~1.00%之間,說明本文提出的定義論域方法的有效性。
2)評估參數-均方誤差
利用公式(3)計算本文的預測的均方誤差,與曲和陳的方法進行對比,表5為對比的結果。文中方法的均方誤差明顯低于曲和陳的方法。

表1 阿拉巴馬州大學1971-1992年的注冊人數

表2 數據模糊化結果

表3 模糊邏輯關系表

表4 模糊邏輯關系組

圖1 相對誤差比較圖

表5 均方誤差比較
文中針對模糊時間序列模型的預測步驟,基于前人的研究提出了定義論域的方法,此方法解決了前人對論域的重要性的忽視的問題,不再是簡單的向上向下取整,而是和數據分類后的分布情況有關,本文中對此方法進行了驗證,并且和多尺度比率進行了比較,無論在平均誤差還是在均方誤差上,本文提出定義論域的方法在預測的準確度上明顯高于多尺度比率算法。
參考文獻:
[1]藺玉佩,楊一文.基于模糊時間序列模型的股票市場預測[J].統計與決策,2010(8):34-37.
[2]邱望仁.模糊時間序列模型及其股指趨勢分析中的應用研究[D].遼寧:大連理工大學,2012.
[3]余文利,方建文,廖建平.一種新的基于模糊C均值算法的模糊時間序列確定性預測模型[J].計算機工程與科學,2010,32(7):112-116.
[4]王永弟.模糊時間序列模型在短期氣候預測中的應用[J].南京信息工程大學學報,2012,4(4):316-320.
[5]倪明,肖辭源.模糊時間序列預測模型研究及其在污水處理上的應用[D].南充:西南石油大學,2012.
[6]Zadeh L A.Fuzzy sets[J].Information and Control,1965(8):338-353.
[7]Q.Song,B.SChrisom.Forecasting enrollments with fuzzy time series.Part I[J].Fuzzy Sets and System,1993,54(1):1-10.
[8]Q.Song,B.SChrisom.Forecasting enrollments with fuzzy time series.Part II[J].Fuzzy Sets and System, 1994,62(1):1-8.
[9]Cheng C H,Cheng G W,Wang J W.Multi-attribute fuzzy time series method based on fuzzy clustering [J].Expert Systems with Applications,2008,34(2):1235-1242.
[10]Li S T,Cheng Y C,Lin S Y.A FCM-based deterministic forecasting model for fuzzy time series[J]. Computers and Mathematics with Applications,2008,56:3052-3063.
[11]Li S T,Cheng Y C.An enhanced deterministic fuzzy time series forecasting model[J].Cybernetics and Systems,2009,40(3):211-235.
[12]楊綸標,高英儀,凌衛新.模糊數學原理及應用[M].廣州:華南理工大學出版社,2013.
[13]邱望仁,劉曉東.模糊時間序列模型研究綜述[J].模糊系統與數學,2014,28(3):173-181.
[14]陳剛,曲宏巍.模糊時間序列模型相關理論的研究[D].遼寧:大連海事大學,2012.
[15]Huarng K H.Ratio-based Lengths of Intervals to Improve Fuzzy Time Series forecasting[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2006,36(2):328-340.
A research on the definition of discourse of fuzzy time series models
WANG Yang1,2,CHEN Hai-yan1,2,PENG Yan-bing1,2
(1.Wuhan Research Institute of Posts and Telecommunications,Communication and Information System,Wuhan 430074,China;2.FiberHome Communication Technology Co.Ltd.,Nanjing Researchand Development Department,Nanjing 210019,China)
This paper puts forward how to define the discourse on fuzzy time series models.Although forecasters have applied the model and improved it at the same time,the most research included two aspects:one is the division of discourse,the other one is fuzzy logic relationship.On the definition of discourse,due to the existing research on the definition of discourse is only simply rounded up and down,unaware of the importance of the definition of discourse can also affect the result of prediction,so this thesis puts forward a new method about the definition of discourse.In this new method,the definition of discourse is related to the data distribution of current category.Because the distribution of the sample data is considered,so the accuracy of intervals is improved.Finally,in order to prove the effectiveness of the proposed method,this paper predicts the enrollment Alabama,and the result of experiments show that this method has good prediction effect.
fuzzy time series model;definition of discourse;data distribution;partition of discourse
TN911.1
:A
:1674-6236(2017)02-0009-05
2016-01-09稿件編號:201601051
江蘇省科技支撐計劃項目(2015BAK20B05)
汪洋(1978—),男,江蘇南京人,碩士,工程師。研究方向:計算機網絡。