摘要:文章針對四川民用汽車保有量原始數據較少的特點,應用GMDH方法建立預測模型對其進行了預測分析,并通過與傳統的回歸和人工神經網絡模型預測結果的比較說明GMDH方法是汽車保有量等復雜經濟系統變量小樣本預測的一條有效途徑。
關鍵詞:GMDH方法;民用汽車保有量;預測;復雜經濟系
GMDH方法(Group Method of Data Handling數據分組處理方法)是由烏克蘭科學院A·C·Ivakhnenko院士在1967年提出的一種自組織歸納建模技術,20世紀70年代Bar-ron提出的多項式網絡訓練算法(NETTR)和80年代Elder提出的多項式網絡綜合算法(ASPN)及進一步發展了這一方法。到了20世紀90年代,德國學者J·A·Mueller和軟件專家L·Frank在軟件Knowledge Miner中具體實現了目前他們提出的最新理論和算法,使GMDH從理論、方法和應用諸方面上了一個新的平臺。經過三十多年的發展,GMDH以其在復雜系統小樣本數據建模、預測等方面的優異表現已成為人們進行經濟系統復雜性研究的強有力工具。本文使用GMDH方法建立四川省民用汽車保有量的預測模型,有效的克服傳統方法的不足,取得了較為滿意的預測效果。
一、GMDH方法簡介
1.基本思想。GMDH方法的基礎是建立在人類生存歷史中最古老的、最富有成效的試探法則——選擇學說之上的。生物的遺傳在不斷地受到外界的制約并與周圍的環境協調的過程中,物種逐步地發生變化。在大批量進行育種的過程中,為了得到新的一代,每一次大批量淘汰的過程都應該篩選出具有某些最好特性的,但還需要繼續改進的那些生物,并利用這些生物繼續育種。經過一些階段選擇以后,就可以培育出理想的物種。GMDH方法研究復雜的經濟系統時假設所有關于研究對象的重要變量間相互關聯的信息(即關于系統結構和行為的信息)都包含在變量的觀察數據樣本中,因而建模的目的就是要從數據樣本中挖掘出這些信息,模型的建立并不要求建模者根據理論系統分析途徑來更深刻地論述研究對象的規則,而主要根據影響因素的樣本數據及建模者感興趣的輸出變量,在計算機上采用人機對話方式產生大量的競爭模型,用恰當的選擇準則選擇一部分“最有希望”的模型,再利用這些模型產生大批新的競爭模型。利用這樣的方式將模型的結構從簡單到復雜逐步改進,最后選擇出最優的復雜模型來,它將生物神經元方法、歸納法和Godel的數理邏輯方法有機地結合起來,特別是對于有噪聲的小數據樣本,它通過建立非物理模型,能給出較準確的擬合與過程預測。總體來說GMDH方法有兩個基本思想:(1)以黑箱方法為主要方法分析輸入輸出關系;(2)用基本函數的網絡互聯來表達復雜函數。它從參考函數構成的初始模型(函數)集合出發,按一定的法則產生新的中間候選模型(遺傳、變異),再經過篩選(選擇),重復這樣一個遺傳、變異、選擇和進化的過程,使中間候選模型的復雜度不斷增加,直至得到最優復雜度模型。GMDH方法的特點是數據分組和貫穿于整個建模過程中的內、外準則的運用。它將觀測樣本數據分為訓練集(Training Set)和測試集(Testing Set):在訓練集上利用內準則建立中間待選模型,在測試集上利用外準則進行中間候選模型的選留。當外準則達到最小時,相應的模型即為最優復雜度模型。這個模型表達了輸入輸出變量之間的相互關系。
2.算法步驟。

(3)從具有外補充性質的選擇準則中選出一個(或若干個)作為目標函數(體系),或稱為外準則(體系);
(4)產生第一層中間模型。第一層中間模型們由自組織過程自適應產生,且因所含變量個數、函數結構而彼此不同,同時在訓練集A上估計參數;
(5)對第一層中間模型進行篩選。根據外準則,在檢測集B上對第一層中間模型進行篩選,選出的中間模型作為網絡第二層的輸入變量;
(6)形成最優復雜度模型網絡結構。重復4、5兩步,可依次產生第二、第三…層中間模型,最終形成可用于分析的顯式最優復雜度模型。
二、建立四川省民用汽車保有量預測模型
1.影響因素分析。影響民用汽車保有量的因素是眾多,包括人口、經濟、政策、環境等因素,但是有的因素無法量化,有的因素數據雖然可以量化但不好搜集,本文從四川省統計年鑒公布的1989年至2004年的數據人手,通過相關分析得到對四川民用汽車保有量影響最大的8個指標:人口數、工業總產值、GDP、人均GDP、全社會固定資產投資、社會消費品零售總額、城鎮居民人均可支配收入、城鎮居民人均消費支出。可以看出這些指標主要都是人口和經濟發展指標,這是有它內在合理性的:人口增多,人們的出行量就會增多,對民用汽車(特別是客車)的需求就會越大,因而,必然導致保有量的增長以滿足需求;經濟是交通的源需求,任何一個地區民用汽車保有量都與這些經濟發展息息相關,并受其制約。

3.結果分析。
(1)從模型變量可以看出當期四川民用汽車的保有量主要受到上一期的社會消費品零售總額和城鎮居民人均消費支出的影響,這說明目前四川民用汽車保有量的增加主要受到的消費因素的影響,根據相關統計數據四川省近幾年社會消費品零售總額和城鎮居民人均消費支出的增長率分別保持在10%和6%左右,而隨著經濟進一步發展,人民收入的提高、消費信貸市場成熟和完善,再加上國家鼓勵消費政策,預計未來幾年四川省的社會消費品零售總額和城鎮居民人均消費支出仍將保持這種快速增長,這必然引起四川民用汽車保有量的迅速增加。
(2)用建立的模型預測2003年-2004年的四川民用汽車擁有量,相對誤差絕對值小于1.3%(表1),預測效果較好。為了進一步進行比較,使用經濟預測中常用的線形回歸和人工神經網絡方法進行預測,結果相對誤差絕對值明顯高于GMDH模型。之所以產生這種結果,主要是因為是本文用于預測的樣本數較少只有14組樣本,而線形回歸和BP人工神經網絡模型用于預測時一般需要較大的樣本數才能保證預測的精度,而GMDH方法對數據樣本量要求較低,在小樣本的情況下仍能保持較高的精度,這說明GMDH方法比其它兩種方法更適合于汽車保有量這類樣本數較少的經濟系統變量的預測。
(3)按照國際慣例,人均GDP超過l000美元就可進入汽車私人消費的快速增長期。進人2004年四川省人均GDP達到8113元(約合1009美元)而使用建立的GMDH模型對民用汽車保用量進行預測,得到2005年~2007年的民用汽車保有量分別達到144.53萬輛、161.28萬輛、186.16萬輛,增幅均超過12%,這說明未來幾年四川省民用汽車保有量將會高速的增長,正好印證了國際慣例的觀點。為適應這種增長,四川省的未來的幾年中必須加快道路、停車場等交通基礎設施的建設,并大力發展汽車制造業及相關的維修保養等行業,并加大汽油等能源的儲備,以保證社會的全面和諧發展。
三、結語
GMDH方法具有能客觀、自動地選擇出對研究對象有重要影響因素和進行準確的預測的功能。本文應用GMDH方法建立了四川省民用汽車保有量的預測模型,有效的克服了傳統預測方法小樣本預測時的不足,得到較好的預測效果,說明GMDH方法是汽車保有量等樣本數較少的復雜經濟系統變量預測的有效途徑。
參考文獻:
1.Madala H R,Ivakhnenko A G.Inductive learn—ing algorithms for complex systems modeling.BocaRaton,London,Tokyo:CRC Press Inc,1994:1-3.
2.賀昌政等,自組織數據挖掘理論與經濟系統的復雜性研究.系統I程理論與實踐,2001,21(12):1-2.
3.賀昌政.自組織數據挖掘與經濟預測,北京:科學出版社,2005:15-32,
基金項目:本文獲國家自然科學基金項目資助。項目名稱:GMDH網絡及在經濟的復雜性中的應用研究。項目負責人:賀昌政。項目批準號:70271073。
作者簡介:賀昌政,四川大學工商管理學院教授,博士生導師;朱兵、肖進,四川大學工商管理學院研究生。
收稿日期:2006—04—22。
