
摘 要:本文通過分析經濟預測中數據缺失的種類,根據實際預測中遇到的情況,總結了經濟預測中缺失數據的處理方法,并提出一種較有效的數據填補方法Knowledge Miner預測填補數據法,并通過實例驗證了該方法的有效性。
關鍵詞:經濟預測 數據缺失 填補方法
一、序言
定量經濟預測,需要對經濟活動中的數量關系進行計算、比較和分析,才能使錯綜復雜的經濟現象,以其簡明精確的數學模型表達出來,從而揭示有關對象之間的內在聯系和最優數據關系,消除人們在管理和決策上的某些直覺性和隨意性,使現代管理建立在對客觀對象進行科學分析和精確計算的基礎之上,有效地發揮現代管理方法在管理現代經濟中的作用,達到提高經濟效益的目的。然而在實際的預測中,由于受到現實的局限性,歷史數據會因為這樣或那樣的原因導致缺失,為了提高預測的滿意性,采取有效措施將缺失數據補齊是必不可少的。
二、經濟預測中數據缺失
經濟預測是在有關的宏、微觀經濟學理論指導下,以經濟發展的歷史和現狀為出發點,以調查研究和統計資料為依據,以科學的定性分析判斷和嚴謹定理計算為手段,對預測對象有關經濟活動的發展演變規律通過預測模型進行分析和解釋,從而對預測對象的未來發展演變程度預先做出科學的推測。
國內外很多學者都對缺失數據的處理提出了自己獨到的見解,來挽救有缺失的調查數據,以保證研究工作順利進行[1],鑒于經濟預測自身的特點,其缺失數據的補齊具有相應的特性,主要有以下幾種方法。
(1)推斷法
統計數據中極有可能某些數據是在長期的存放過程中,字跡模糊丟失,比如社會消費品零售總額這個這個指標2003年12月同比增長率有數據,而絕對值丟失,這是可以利用2003年11月份的數據乘以同比增長率然后得到2003年12月份的數據,同理比如工業增加值這個指標如果缺失數據,可以找到對應的第一、第二、第三產業增加值,將三個已知數據值加總,便可以得到。這種填補方法更加貼合經濟理論,保證了填補的正確性。但是也有局限性,如果2003年11月份的數據也缺失,或者2003年12月的同比增長率同樣丟失,則該方法實效。
(2)刪除法
最簡單的缺失數據處理方法,即在預測過程中,不考慮缺失的數據,直接使用現有的數據進行預測。
(3)取平均數法
根據上下兩個月的數據取其平均數,填充于缺失數據處,然后進行預測。這種方法通常是缺少某一個月度、季度或者年度的數據時,比如成都市社會消費品零售總額這個指標,缺少2005年1月份的數據,則可以使用2005年2月份和2004年12月份的數據的平均數將其作為2005年1月份數據的替補。
(4)取等差數列法
這種方法與平均數法有些對應,其適用的范圍恰恰是缺少連續的兩個或兩個以上的數據。比如外貿進出口總額(海關數)指標2005年6、7、8月份的數據均缺失,則可以根據5月份的數據14.8(單位:億美元)和9月份的數據31.9(單位:億美元)采用等差數列的的方法,將6、7、8月分的數據分別補充為19.075,23.35,27.625(單位:億美元)(注:因為考慮到外貿進出口額的數據是逐漸遞增的,所以等差數列排序是由六月份遞增到八月份)。
三、Knowledge Miner預測填補數據法
經濟預測數據的填補目的是為了提高經濟預測的滿意度,所以本文采取的檢驗標準是采用填補后的完整數據進行預測所達到的滿意程度。而經濟預測指標之間往往存在某種內在聯系,Knowledge Miner是一種自組織建模和預測的工具,用其進行確實數據的填補效果較好,且在進行預測時不需要采用其他軟件,方便實用。為了排除這種聯系帶來的干擾,采用自回歸預測模型所使用的專用預測工具Knowledge Miner來進行檢驗比較。本文使用社會消費品零售總額指標的數據作為例子進行比較幾種不同的填補方法后進行預測數據的精確率,見表
表、數據缺失填補方法精確率比較
由表可見,使用Knowledge Miner預測填補數據法進行預測的誤差率明顯小于其他幾種方法,從實際上證明了該方法的有效性。
四、結束語
經濟預測具有其自身的特點,其缺失數據的具有相應的特性,所以在進行缺失數據的補齊時,需要考慮其特定的含義,進行缺失數據補齊時,也不僅僅局限于某些數據填補方法,本文提出的Knowledge Miner預測填補數據法就是根據在實際經濟預測中的遇到的實際情況而提出的填補方法,經驗證,該方法有效,且優于其他許多方法,此外,值得指出的是,由于數據缺失的原因不同,數據缺失的特征也不盡相同,所以采用多種數據填補方法相結合的措施也是很有意義的。且預測效果會更佳。
參考文獻:
[1]Rubin D.Inference and missing data[J].Biometrika,1976,63(3):581-592.
[2]Bello AL.Imputation techniques in regression analysis:Looking closely at their
implementation[J].Computational Statistics and Data Analysis,1995,20:45-57.
[3]岳勇,田考聰.數據缺失及其填補方法綜述.預防醫學情報2005;21(6):683-685.