【摘 要】區域物流量的預測是區域物流規劃以及經濟發展的重要前提。對區域物流量影響較大的因素有很多,從中選擇重要且相互獨立的變量來建立回歸方程比較困難。因此,本文以武漢市區域物流量預測為實例,采用逐步回歸分析法建立模型,將影響程度大的變量依次納入模型中,大大地提高了模型的運算效率。
【關鍵詞】逐步回歸分析法;區域物流量;物流量預測
本文根據武漢區域物流量與相關的區域經濟影響因素指標之間存在線性相關的特點,選擇了線性回歸分析法進行預測分析,具體應用了逐步回歸方法建立回歸模型,通過對模型的檢驗實現對模型優化,為武漢區域物流業發展決策提供了一個更確切的依據。
一、多元逐步回歸算法的原理
回歸分析方法就是在大量實驗觀測數據的基礎上,找出這些變量之間的內部規律性,從而定量地建立一個變量和另外多個變量之間的統計關系的數學表達式。回歸分析也就是研究一個變量與其他變量間關系的一種統計方法。逐步回歸算法是針對多元回歸算法的缺點提出來的。多元回歸模型的過程是首先將實際問題所提取的全部變量引入到方程,然后再根據變量的顯著性檢驗把方程中不重要的變量逐一剔除,建立新的方程。這樣建立的多元回歸模型有如下缺點:首先,在實際問題中,要提取合適的變量來建立回歸方程本身不是一件很容易的事情,因為實際變量間可能存在高度的相互依賴性,這樣會給回歸系數的估計帶來不合理的解釋;其次,變量一次性引入方程,易導致計算量增大,運算效率降低,精度不夠等問題。為了得到一個穩健的、可靠的回歸模型,這就需要給出一種方法,使得能從影響y的因素中自動根據某種準則將對y貢獻大的變量xi引入方程,不重要的變量從方程中剔除,最終在觀測數據的基礎上建立最優的回歸方程。
逐步回歸算法的形成思路:逐步回歸算法根據各自變量的重要性,每一步選擇一個重要的變量進入回歸方程。第一步是在所有可供選擇的變量中挑選出一個變量,使它組成的一元回歸方程比其它變量有更大的回歸平方和;第二步是在剩余的自變量中選擇這樣一個變量,它與已選入方程的變量所組成的二元回歸方程有更大的回歸平方和。如此繼續下去,假設已經進行到l-1步,那第l步是在未選的變量中選出這樣一個變量,它與選入回歸方程的組成l元回歸方程,比其它余下的任何一個變量組成的元回歸方程有更大的回歸平方和。逐步回歸不僅考慮到按貢獻大小逐一挑選重要變量,而且還考慮到較早選入回歸方程的某些變量,有可能隨著之后一些變量的選入而失去原有的重要性,這樣的變量也應當及時地從回歸方程中剔除,是回歸方程中始終只留下重要的變量。
二、武漢市區域物流量的預測
1.武漢市物流發展的基本現狀。武漢市是湖北省的省會,位于中國的中部,交通便利、四通八達,是中部崛起、帶動西部發展的重點城市。在“十一五”期間,武漢區域物流發展勢頭強勁,由起步階段向快速發展階段過渡,逐步成為服務業的重要支柱,為該市區域經濟的發展做出了重要貢獻。隨著經濟的快速增長,武漢物流產業總體發展水平和質量不斷提高。2010年全市社會物流總額達到14861.12億元,年均增長24%,是2005年的2.29倍;物流業實現增加值582.53億元,年均增長17.74%,占GDP的10.2%,占第三產業增加值的20%。根據武漢統計年鑒,從2006年到2011年貨物運輸量從2.05億噸增加到4.18億噸,年均增長19.8%;貨物運輸周轉量從1435.2億噸公里增加到2644.18億噸公里,年均增長16.8 %。武漢市區域物流已初具規模,為“十二五”期間物流業的發展和建設全國重要物流中心奠定了堅實的基礎。從上面的數據可以看出,在最近幾年內,武漢市物流業的發展取得了較好的成績,但由于大多數物流企業小、散、弱的現象普遍存在,物流綜合信息平臺構建不完善,資源聚集能力弱,運輸服務水平低,使得物流業的總體經營水平不高,物流標準化的進程推行緩慢,物流相關的統計難以實施,這給區域物流量的預測以及區域物流的規劃帶來了挑戰。在物流業快速發展的今天,各省和各地區加大了對物流業的投資,由于對物流需求預測不夠準確,不免會產生投資過剩的現象,進而造成資源的浪費和區域經濟的受損。為了使武漢市區域物流業與區域經濟平穩快速地發展,使物流的實際供應與實際需求相適應,對武漢市區域物流量做好精確的預測顯得至關重要。
2.預測指標體系的確定。對區域物流量的預測我們可以直接統計歷年區域的物流量,根據歷年數據的規律,利用時間數列法建立模型進行預測。但由于我國物流業起步比較晚,對物流量的統計還沒有完整的歷史數據,現在我們只能采用間接的方法:通過對影響物流量的相關因素進行分析,找出對物流量影響較大的因素指標,收集和整理相關因素指標歷年的數據,利用數學的方法建立模型進行預測。預測指標的選擇要遵循強相關性的原則、指標間相互獨立性的原則、全面性和可操作性原則。由于物流需求是經濟發展的一種派生需求,經濟的增長拉動了物流業的發展,增加了物流業的需求,同時,物流業是經濟發展的基礎,現代物流業的新形態進一步促進了經濟的發展。這種相互密切的關系說明了區域物流量的大小與區域經濟具有極大的相關性,又由于我國各地區對經濟相關指標數據的統計比較齊全,收集起來較為容易,因此,本文從經濟角度來預測區域物流量的大小。影響區域物流量大小的經濟因素包括區域經濟的發展水平、區域經濟結構、人們的消費水平和對物流產業的投資等等。通過文培娜、張廣福等的區域經濟對區域物流的影響的研究,結合武漢區域輻射性發展的特點,在遵循預測指標選擇原則的基礎上,最后確定武漢市區域物流量的預測指標體系為:區域生產總值x1、第一產業產值x2、第二產業產值寫x3、第三產業產值x4、社會消費品零售總額x5、物流固定資產的投資x6。由于物流業起步晚,目前沒有對物流量的統計數據,又因為武漢的物流量主要是由運輸帶來的,這里就用貨物運輸量作為應變量y來代替物流量進行分析。表1是數據的收集。
表1 各指標歷年的數據統計
來源:歷年《武漢統計年鑒》。
3.武漢市區域物流量預測模型的建立。一是回歸模型的建立。為了大致地分析y與x1,x2,…,x6的關系,先利用表1的數據分別做出y對xi(i=1,2,…,6)的散點圖(圖略)。由散點圖可知,隨著xi(i=1,2,…,6)的增加,y的值有比較明顯的線性增長趨勢,則y與xi(i=1,2,…,6)的關系都可以用一元線性回歸模型:y=β0+β1xi+ε(1),來擬合(其中ε是隨機誤差)。因此,y與影響因素x1,x2,…,x6的關系可以通過建立多元線性回歸模型來表示,建立模型如下:y=β0+β1x1 +β2x2+…β6x6+ε。這樣建立模型是將影響因素x1,x2,…,x6一次性地引入到回歸方程中,然后再通過模型檢驗來進行一步步優化,將不重要的變量依次刪除。由于影響因素變量偏多,這不免會造成計算量過大、運算效率偏低,然而逐步回歸法就可以克服這種缺點。二是逐步回歸分析法的利用。前面介紹了逐步回歸法的思路,這里我們直接應用逐步回歸法來建立回歸模型,將自變量按照重要的程度依次引入到建立的模型中,保證模型中的只留下對y影響較大的變量。第一步:在影響因素x1,x2,…,x6中選擇一個最重要的變量引入模型中,建立一元線性回歸模型。在置信水平α=0.05的前提下,分別將x1,x2,…,x6引入到一元線性模型(1)中,在MATLAB中求得每個參數估計的檢驗值t值和F值,以及回歸方程的決定系數R2(R是相關系數)、F統計量值和SR回歸平方和,如表2所示:
表2 一元線性模型的檢驗數據
模型的檢驗:線性回歸模型的檢驗包括回歸方程擬合度的檢驗——R2檢驗、回歸方程顯著性的檢驗——F檢驗、回歸系數的顯著性檢驗——t檢驗,如果是一元線性回歸方程,t檢驗與F檢驗是等效的。首先,R2檢驗。判定系數R2是回歸方程擬合程度的評價指標,R2越大,模型擬合程度越高;R2越小,模型對樣本的擬合程度越差。R■=■=I-■(S■=S■+S■),式中,ST是總的離差平方和,S■=■(yi-■)■;SR是回歸平方和,S■=■(■i-■)■;Se是剩余殘差平方和,S■=■(yi-■i)■。yi為因變量的實際觀測值,■是其樣本均差,■i是因變量的理論回歸值。本模型中,引入變量x5時R2最大,則可判斷該模型的擬合程度最高,回歸方程與樣本數據擬合得最好。其次,F檢驗。F檢驗是回歸方程的顯著性檢驗,是根據總離差平方和的分解來構造檢驗統計量,用方差分析的方法進行F檢驗。F=■~F(k,n-k-1),因此,對于給定的顯著性水平α,若F>Fα(k,n-k-1)(n是樣本容量,k是自變量的個數),則回歸方程顯著。在模型(1)中,顯著性水平α=0.05,即在置信水平為95%的前提下,Fα(k,n-k-1)=F0.05(1,13)=4.67,當分別把變量x1,x2,…,x6引入時,F的值均大于臨界值4.67,則將這些變量引入時,模型(1)均能通過F檢驗。最后,t檢驗。t檢驗是回歸系數的顯著性檢驗,雖然上面用F檢驗判定了整個回歸方程可用,但整個方程檢驗合格并不意味著方程包含的各個自變量xi(i=1,2,…,6)分別都對因變量y有解釋作用,因此,利用t檢驗對回歸方程中各回歸系數的顯著性進行檢驗。t■=■>t■(n-k-1)(雙側t檢驗),在給定顯著性水平的前提下,若回歸系數估計值■i對應的t值的絕對值小于臨界值ta/2時,該可判斷系數■i=0,則說明自變量xi對應變量y的線性影響程度不大,xi應從模型中剔除,反之,則應保留在模型中。由于模型(1)是一元回歸模型,則t檢驗與檢驗等效,可直接判斷自變量的引入組成的模型均通過t檢驗。綜上所述,將變量x1,x2,…,x6分別引入模型(1)時,一元線性模型均能通過檢驗,但由于引入x5時,R2和F的值最大,說明變量x5對應變量y的影響最大,模型最為顯著,因此,x5作為最重要的一個變量引入回歸模型中。第二步:建立二元線性回歸模型如下:y=β0+β1x5+β2xi(2),在剩余的變量x1,x2,x3,x4 ,x5,x6中選擇一個重要的變量進入模型(2)中,使得回歸模型得到進一步優化,在通過檢驗的前提下模型的擬合度最高。分別引入剩余變量,在MATLAB中求得每個參數估計的檢驗值t值和F值,以及回歸方程的決定系數R2(R是相關系數)、F統計量值和SR回歸平方和,如表3所示:
表3 二元線性回歸模型的檢驗數據
根據逐步回歸法的思想,這一步要引入的變量要使回歸方程的回歸平方和增大,且增加值為最大。觀察表3可知,x2、x3、x6所對應的SR和R2相等,且為最大,因此,x2、x3、x6均滿足引入的要求。下面分別將x2、x3、x6引入模型(2),利用第一步中介紹的線性回歸模型檢驗方法依次檢驗。首先計算出模型(2)的F檢驗和t檢驗的臨界值:Fα(k,n-k-1)=F0.05(2,12)=3.89,t■(n-k-1)=t■(12)=2.1788。由表3的計算結果可知:引入變量x2時,R2=0.973接近于1,表明該模型擬合程度很好,回歸方程
■=■■■■x■+■■x■能較好地擬合樣本數據;F= 218.154遠大于臨界值2.1788,說明該模型顯著較高,通過F檢驗;t■=2.865
>t■(12)=2.1788, t■= 0.676<2.1788,系數估計值■■沒有通過t檢驗,則應接受假設■■=0,■■所對應的變量x2應從模型中刪除。因此,變量x2的引入失敗。同樣分別引入x3和x6,均能通過R2檢驗和F檢驗,但不能通過t檢驗,因為這兩個變量的系數估計值■■所對應的t值都遠小于臨界值,同理可得,x3和x6變量的引入也失敗。逐步回歸分析在這一步結束,模型最終只引入了變量x5。綜上所述,通過逐步回歸分析方法,僅運行了兩步就使模型得到了最終優化的結果,由此可見,這比直接建立多元線性回歸模型,再將不重要的變量一步步刪除的方法效率要高很多。通過逐步回歸分析,武漢市區域物流預測的最終模型為:y=β0+β1x5+ε,■■、■■是利用最小二乘法的原理進行參數估計的,在MATLAB中直接運用regress命令求得:
■■=4789.343、■■=13.049,回歸方程■=4789.343+13.049x5。
4.預測。上述建立的模型說明武漢市區域物流量受社會消費品零售總額的影響較大,其他的影響因素由于因素間共線性和對應變量影響不夠顯著等原因被排除。隨著零售總額的增長,武漢市區域物流量成線性增長的趨勢,這針對實際情況肯定存在誤差。把表1的數據輸入到預測回歸模型,得出圖7示的各年份貨物運輸量的實際值、預測值以及它們間離差的對比圖,其中2000年的離差最大,可能是當年的經濟出現了非平穩增長或統計數據有偏差。但是圖1中的回歸線圖與實際值擬合趨勢大體相同。
圖1 武漢市貨物運輸量預測值與實際值的擬合圖
將武漢市2011年的經濟指標輸入,預測結果為42901.91,而2011年貨物運輸量的實際值為41804.45,誤差為1097.46。從結果上看雖然存在一定的誤差,但仍然具有一定的預測精度和可信度。因此,可以利用該預測方法對武漢市未來幾年的區域物流量進行預測,為物流規劃和投資的決策作依據。
三、總結
利用逐步回歸方法對武漢市區域物流量的大小進行預測,重點是提高了模型建立的效率,大大地縮短了運算時間。對于影響因素繁多,且因素間重要性不明顯的預測對象,逐步回歸法的優勢會顯現得更明顯。最后,通過預測分析發現武漢市區域的物流需求仍存在一個較高的增長,企業和政府需針對預測的需求量合理地加大投資,有效地配置社會資源。
參 考 文 獻
[1]張廣福.物流業與區域經濟的關聯性分析[J].鐵路采購與采購.2011(5):51~52
[2]文培娜.區域物流需求與區域經濟的關聯性分析[J].研究與探討.2009(12):21~22
[3]郭科,龔灝.多元統計方法及其應用[M].成都:電子科技大學出版社,2003
[4]李金海.多元回歸分析在預測中的應用[J].河北工業大學學報.1996(3):57~61
[5]胡荷芬.應用逐次回歸分析預測居民銀行存款[J].上海師范大學學報.2000(6):47~52