房玄驊 王藝寧 劉夕


摘要:為提高成分數據時序預測準確性,提出一種以二階預測有效性作標準的多種數據處理方法的組合預測。選擇成分數據的多種數據轉化方法,將有約束時序用對數比,中心對數,超球面變換方法轉換成無約束時序后,利用ARIMA—ANN模型對轉換后無約束時序預測,對結果做反變換,恢復為成分數據得單項預測結果。最后對得到的單項預測結果進行基于二階預測有效度的加權幾何平均組合,得到相對最優的組合預測結果。
Abstract: In order to improve the accuracy of time series prediction of component data, a combined prediction of multiple data processing methods based on second-order prediction validity is proposed. Selecting a variety of data transformation methods for component data,after the constrained time series is transformed into the unconstrained time series by the logarithmic ratio, the central logarithm and the hypersphere transformation method, the ARIMA-ANN model is used to predict the unconstrained time series after the transformation, and the result is inversely transformed to restore the component data to a single prediction. result Finally, the weighted geometric mean combination based on the second-order prediction validity is obtained for the obtained single prediction result, and the relatively optimal combined prediction result is obtained.
關鍵詞:成分數據;組合預測;預測有效度;對數比變換;中心對數變換;超球面變換
Key words: component data;combined prediction;prediction validity;log-ratio transformation;central logarithmic transformation;hypersphere transformation
中圖分類號:O221.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)21-0192-03
0? 引言
作為一種廣泛運用的數據類型,成分數據有非常重要的作用,往往是整體的一部分,各個成分總為正,定和為1或其他常數[1]。其中一個成分增加,其余成分必減少,這意味著原始成分之間關系的標準統計分析結果會受到虛假效應的影響,所以對于成分數據的處理需嚴格控制。1986年,Aitchison提出對數變換方法,即基于對數變換將數據轉化為無約束的普通數據,在預測后經過反變換得最終預測。之后又出現了幾種對數轉化的成分數據處理方法,如中心對數變換,對數比變換。此后王惠文又提出球坐標變換的新方法[3],這幾種方法被廣泛的使用在各個領域的成分數據預測和分析中[4,5,6]。
上述研究中基本只考慮單種模型的使用,而忽略單種模型可能不適合所有數據的可能情況。組合預測方法如文獻[7,8]等研究中,通過幾種模型的組合,使組合預測的方法能適用于大部分情況,起碼相對于單項方法是非劣的。本文基于已有研究,提出基于二階誤差有效度的多種成分數據處理方法單項預測結果的組合預測,以求得到一個更有普適性的精確模型。即在時間序列里,用三種成分數據處理方法對成分數據進行轉化,用ARIMA-ANN模型擬合結果再反變換為成分數據?;陬A測有效度,對三組預測值進行加權幾何平均得到組合預測值。最后運用實例數據實驗,比較驗證該方法的合理性和有效性。
1? 預備知識
首先,成分數據指任意非負的P元向量 式中T為時間,i表第i個成分, 表成分i第T時刻的值。對每個成分單獨擬合,相當于把維度看為P,導致一系列不符合要求的預測。而三種數據變換方法先將其轉化為無約束的普通時序,對其擬合后再經過反變換,得到成分數據的預測值,且滿足定和約束。
1.1 中心對數變換
在預測之后對其進行反變換,得到最終預測結果。
1.2 對數比變換
類似于上一種變換,先對原始序列中的前P-1個成分做變換得[4]:
對預測后數據反變換得到各成分最終預測。
1.3 球坐標變換
基于將笛卡爾坐標,將數據變換到超球面的坐標軸上。由于定和約束,使得球半徑為一個固定的數值如1。其變換過程中,先對原始序列中的所有 做開方變換[3],即 ,再將此數據轉化為超球面坐標數據,由上式可知,半徑R=1。映射方程如下[3]:
通過反變換,可得最終預測值。
1.4 ARIMA—ANN預測模型
在本研究中對轉換后數據建立ARIMA模型。它的計算步驟可在參考文獻[7]中找到。此模型可以很好地對時間序列中的線性部分給出解釋,但是卻無法對時間序列的非線性部分給出很好的解釋,于是我們通過人工神經網絡(ANN)的方法來對時間序列ARIMA模型擬合后得到的殘差做非線性的擬合。
我們認為某時刻的預測殘差與該時刻原始值及其前K-1項有關,以這K個值作為輸入,殘差作為輸出,使用ANN進行擬合。兩種方法的擬合值的和作為最終的預測結果,這樣就既考慮了線性的部分,又包含了非線性的部分。
2? 基于預測有效度的幾何平均組合預測模型
定義2.1[8] 若 ,其中wj為指數加權向量且有 成立,則稱函數是n維加權幾何平均算子。
給與第i個方法一定的權重li,第i種方法得到的T時刻的成分j的預測值為 。那么最終的預測值 。對每個成分的預測值,根據重要性即權重,可給出成分數據T時刻預測精度定義。
定義 以 作為第i種方法T時刻成分j的相對預測誤差時,將 作為成分數據的第i種方法在T時刻的相對預測誤差。則 為成分數據的第i種單項預測方法在時刻T的預測精度。
其余的過程與普通時序數據相同,我們稱 為第i種單項預測方法在時刻T的一階預測有效度,同樣的我們稱
為第i種單項預測方法在時刻T的二階預測有效度[8]。以組合預測結果 作為一種預測結果,計算其對應的二階預測有效度,找到使得二階預測有效度最大的一組權重li。即:
3? 模型實例求解分析
本文參考國泰安數據,選取五大汽車生產企業中的一汽大眾企業每月生產客車,貨車,半掛牽引車生產量比例2016年1月到12月份的數據,具體的數據情況如表1所示。
先利用成分數據的三種數據處理方法對原始數據進行轉換。三種方法分別將數據轉化為3維,2維,2維的數據且該數據不受約束,再用ARIMA先對轉化后數據擬合,擬合結果與真實值相比較得到殘差。對殘差利用類似滑動窗的思想,選用了前2期的真實值作為影響殘差的輸入項,殘差作為輸出項,選用ANN進行擬合,并選用兩層神經網絡進行擬合,將兩者的擬合結果進行相加得到最終預測值。對得到的三種方法的數據集進行預測之后,進行反變換為成分數據,得到最終預測如表2所示。
在這認為成分的重要性是相同的,即有w1=w2=w3=1/3,且第i種方法在T時刻的離散概率分布 ,即各點服從均勻分布。計算三種方法各個數據轉化方法的二階預測有效度為0.8766,0.8402,0.9026。此結果也可看出,球坐標變換方法無論在一階還是二階預測有效度上都是優于前兩種方法的。對比真實值,方法3的一階和二階預測有效度都比方法1和方法2要高。對三種預測結果進行組合,給與相應的權重,組合得到的最終預測值 。以此求得相應的和,基于預測有效度最大原則,基于(4)式作優化問題。
lingo求得最優權重為:l1=0,l2=0.0361,l3=0.9639,此時二階預測有效度為0.9088,可知球坐標變換方法對最終組合預測結果的影響較大。對單項方法,可以發現組合預測結果較為準確。因為組合預測方法權重在可能的取值中就包含了單項方法的結果,因此我們可以斷定的是該組合起碼是非劣的,該方法往往比單項數據轉換方法具有更優秀的預測結果的。
參考文獻:
[1]Reyment R A. The statistical analysis of compositional data[J]. Chemometrics & Intelligent Laboratory Systems, 1988, 3(4):254-256.
[2]Piepel D, Gregory F. The Statistical Analysis of Compositional Data[J]. Technometrics, 1988, 30(1):120-121.
[3]王惠文,劉強.成分數據預測模型及其在中國產業結構趨勢分析中的應用[J].管理評論,2002(5):27-29.
[4]Egozcue J J, Pawlowskyglahn V, Mateufigueras G. Isometric Logratio Transformations for Compositional Data Analysis[J]. Mathematical Geology, 2003, 35(3):279-300.
[5]寧自軍.成分數據的預測方法與應用[J].統計與決策, 2001(6):6-7.
[6]Bracci P, Bull S, Grynpas M D. Analysis of compositional bone density data using log ratio transformations[J]. Biometrics, 1998, 54(1):337-349.
[7]劉勇.ARIMA模型在我國能源消費預測中的應用[J].經濟經緯,2007,26(5):11-13.
[8]陳華友.基于預測有效度的組合預測模型研究[J].預測,2001,20(3):72-73.