任淑紅+李武選

摘 要:目的:尋找最優(yōu)的數(shù)據(jù)擬合方法;方法:以數(shù)據(jù)為基礎(chǔ),分別用統(tǒng)計方法中的趨勢法、分段法、AID法(Automatic Interaction Detection)進行擬合,通過比較擬合值與實際值,并計算各方法的均方誤差,分析上述3種方法的擬合精度;結(jié)果:分段法所擬合的數(shù)據(jù)誤差最小,擬合精度最高;結(jié)論:對于收集的可靠數(shù)據(jù)進行擬合時,須采用多個適用的擬合方法分別擬合,并進行比較后選擇一個模型顯著,精度高的作為最終決策模型,效果會更好。
關(guān)鍵詞:擬合方法比較;趨勢法;分段法;AID法;應(yīng)用條件;擬合精度
中圖分類號: C37 文獻標(biāo)識碼: A 文章編號: 1673-1069(2017)04-122-2
1 概述
擬合方法是統(tǒng)計預(yù)測的前提,擬合模型建立的不好,何談預(yù)測效果?鑒于近30年來的各種規(guī)劃涉及的預(yù)測方法應(yīng)有盡有,但這些預(yù)測存在的一個嚴(yán)重問題是相差幾百萬、幾千萬都絲毫沒有影響到“規(guī)劃”的所謂科學(xué)性、合理性,這正是做課題人員的統(tǒng)計預(yù)測知識缺乏,而導(dǎo)致規(guī)劃中預(yù)測結(jié)果的“寬范圍”特殊性,使的規(guī)劃檢查執(zhí)行進度時出現(xiàn)預(yù)測結(jié)果與后期實際結(jié)果相差得經(jīng)過很長的時間才有可能,甚至永遠(yuǎn)不可能實現(xiàn)的困境。這里基于數(shù)據(jù)本身的特征進行擬合效果比較,進而達到擬合效果高精度實現(xiàn)。關(guān)于數(shù)據(jù)本身的規(guī)律大體上表現(xiàn)為兩大類,一類是橫截面數(shù)據(jù)的擬合,這一類大多涉及到多元回歸問題,更多的是對所建模型利用樣本區(qū)間以外的影響因素數(shù)據(jù)進行預(yù)測;另一類是時間序列數(shù)據(jù)的預(yù)測,更注重于趨勢預(yù)測。本文主要研究時間序列數(shù)據(jù)的擬合問題。
在時間序列預(yù)測中,當(dāng)序列存在明顯的趨勢成分時,需要使用趨勢預(yù)測法[1]進行預(yù)測。然而有時候單一形式曲線的預(yù)測效果并不是很好。對此,李武選通過對旅游外匯收入數(shù)據(jù)采用分段擬合技術(shù)[2]建立模型進行預(yù)測,取得比單一形式曲線更好的擬合精度;方開泰使用AID法[3]將數(shù)據(jù)分區(qū)間進行擬合,發(fā)現(xiàn)AID法在有異常數(shù)據(jù)的預(yù)測中比單一形式曲線有更好的效果。錢曉莉[4]將AID法應(yīng)用于通過企業(yè)的廣告費用預(yù)測銷售收入的實例中,指出該法適宜于對含有特異值的樣本進行預(yù)測。本文通過對某地的有關(guān)預(yù)報數(shù)據(jù)進行實證分析,用這3種擬合方法進行擬合,并比較三者的擬合效果。
2 研究方法及其應(yīng)用條件
2.1 趨勢擬合法
在趨勢擬合法中主要有線性趨勢和非線性趨勢兩種方法。線性趨勢是指研究現(xiàn)象隨著時間的推移而呈現(xiàn)出穩(wěn)定增長或下降的線性變化規(guī)律,其線性擬合方程為yt=b1+b1t,其中待定系數(shù)和可根據(jù)最小二乘法求解。當(dāng)所要研究現(xiàn)象呈現(xiàn)出某種非線性趨勢,則需要擬合適當(dāng)?shù)内厔萸€。這種方法應(yīng)用要求時間序列數(shù)據(jù)本身具有明顯的趨勢特征,如線性或者非線性特征。
2.2 分段擬合法
分段擬合法根據(jù)所要研究對象隨時間的推移呈現(xiàn)出不同類型的趨勢變化將其分段,針對每段進行擬合,最后整合出整體數(shù)據(jù)的擬合情況。此法應(yīng)用條件是數(shù)據(jù)自然的規(guī)律要具有線性及非線性或者拐點等特征。
2.3 AID擬合法
AID擬合法是將有序樣本數(shù)據(jù)合理分類,劃分各類的原則是最優(yōu)分割原則,最后根據(jù)要擬合的值所屬類的平均值作為其擬合值。該法的應(yīng)用條件是數(shù)據(jù)本身應(yīng)具有明顯的波動聚集特征。
3 實證分析
3.1 數(shù)據(jù)來源
本文研究方法使用的實際數(shù)據(jù)(見表1):
該數(shù)據(jù)具有適用于上述3種擬合方法的基本要求,可以使用上述方法建立擬合模型并可以進行擬合。
3.2 趨勢擬合法
用SPSS20.0軟件中11 種常用的趨勢曲線進行擬合,依據(jù)最大作為選擇標(biāo)準(zhǔn),可得較滿意S曲線擬合。
結(jié)果說明:以上兩個p值均小于0.05,表明模型中變量之間的關(guān)系在統(tǒng)計意義上是顯著的;統(tǒng)計量F=10.120,Sig=0.011<0.05,表明S曲線模型整體上是統(tǒng)計顯著的,即模型可用。
3.3 分段擬合法
通過對數(shù)據(jù)做散點圖可看出將該時間序列分為三段較好,第一段包括前四個時間序列數(shù)據(jù),第二段包括接下來的中間的三個數(shù)據(jù),第三段包括剩下的四個數(shù)據(jù),然后針對每段建立模型進行擬合。在對每段進行擬合時,通過SPSS20.0軟件中11 種常用的趨勢曲線進行擬合,根據(jù)擬合優(yōu)度系數(shù)最大以及模型中系數(shù)與模型整體的統(tǒng)計顯著性選擇最優(yōu)的擬合模型。
結(jié)果說明:以上三個模型,對系數(shù)的t檢驗以及對整個模型的F檢驗結(jié)果都是統(tǒng)計顯著的,故模型均是合理的,可以用來擬合。
3.4 AID擬合法
先將該時間序列數(shù)據(jù)分類。最優(yōu)分割原則是使組內(nèi)離差平方和達到極小,并且每次分類時都將一組數(shù)據(jù)只分成兩類。由總離差平方和=組內(nèi)離差平方和+組間離差平方和可知,要使組內(nèi)離差平方和極小化,則要使組間離差平方和極大化。計算可得總體均值=6.91。組間平方和QA=n1(·1-)2+n2(·2-)2,其中nj為第j(j=1,2)類包含的數(shù)據(jù)的個數(shù),·j為第j(j=1,2)類的均值。分別以t=1,2…10為分割點計算QA,得QA在以t=4為分割點時最大,故將t=4作為分割點,把數(shù)據(jù)分成兩類{y1~y4},{y5~y11}。相對于全部數(shù)據(jù)的個數(shù)來說,第二類包含的數(shù)據(jù)仍較多,故將第二類{y5~y11}繼續(xù)分類,重復(fù)上述步驟,得以t=7作為分割點,將{y5~y11}分為{y5~y7},{y8~y11}。因此,最終將該數(shù)據(jù)分為三類,分別是{y1~y4},{y5~y7},{y8~y11}。t也相應(yīng)地分成三個區(qū)間:[1,4], [5,7], [8,11] ,每一類的平均值分別為2.3, 14.5, 5.8。然后進行擬合,根據(jù)將要擬合的值所屬類的平均值作為其最終擬合值。
3.5 3種擬合方法的比較
在比較擬合精度時,可選取的評價指標(biāo)有均方誤差、絕對誤差、相對誤差等,本文采用均方誤差來評價擬合方法的優(yōu)劣。根據(jù)MSE=(yt-t)2/n,通過計算可得:趨勢擬合法的均方誤差;分段擬合法的均方誤差;AID擬合法的均方誤差。
比較均方誤差的大小,可看出分段法的效果最好,AID法次之,最后是趨勢法;從個性離差值上比較來看,分段擬合也同樣有最好的預(yù)測效果;同時,通過3種方法殘差個值的絕對值大小比較,也可得到相同的結(jié)論。
4 結(jié)論
預(yù)測的基礎(chǔ)是基于樣本數(shù)據(jù)的擬合模型最優(yōu),本文研究的結(jié)論是對于本預(yù)報數(shù)據(jù)而言,基于上述3種方法擬合模型的結(jié)果,分段法是將時間序列數(shù)據(jù)分段進行擬合,可以更好地根據(jù)每段的變化趨勢擬合曲線,使每段的擬合值誤差減小,進而提高整體的擬合效果;AID法是將時間序列數(shù)據(jù)按最優(yōu)分割原則分類,將相近的樣本數(shù)據(jù)分到了一類,對于有異常數(shù)據(jù)的樣本擬合能達到更好的效果。
在實踐中,我們可以用AID法中的最優(yōu)分割原則將時間序列數(shù)據(jù)分類,并將該分類結(jié)果作為分段法的分段依據(jù),然后在每一段內(nèi)使用趨勢法進行擬合,以達到更好的擬合效果。
另外,還可以用加權(quán)組合的方法來擬合,通過賦予上述3種擬合方法合理的權(quán)重,然后對3組擬合值進行加權(quán)組合得到新的擬合值。
參 考 文 獻
[1] 賈俊平,何曉群,金勇進.統(tǒng)計學(xué)[M].北京:中國人民大學(xué)出版社,2009:374-392.
[2] 李武選,王小建,李源,等基于30年入境旅游外匯收入的最佳建模與預(yù)測[J].統(tǒng)計與信息論壇,2009,24(4):21-26.
[3] 方開泰.實用多元統(tǒng)計分析[M].上海:華東師范大學(xué)出版社,1989:246-252.
[4] 錢曉莉.AID法在回歸分析中的應(yīng)用[J].統(tǒng)計科學(xué)與實踐,1999(9):16-17.
[5] 沈世偉,佴磊,徐燕.準(zhǔn)等時距QGM(1,1)模型分段預(yù)測法及其在草炭土路基沉降預(yù)測中的應(yīng)用[J].吉林大學(xué)學(xué)報,2011,41(4):1099-1103.