摘要:目前回歸函數中普遍存在的泛化能力得不到保證的缺點,結合統計學習理論的研究成果,建立了基于最小一乘準則的最優回歸模型(LaOR模型)。與以往回歸模型相比較,新模型綜合考慮了回歸誤差和置信范圍,可望有效地降低回歸模型的期望風險。上海市將LaOR應用到物流需求的短期預測中,取得了可以接受的預測效果。
關鍵詞:最小一乘準則;統計學習理論;多元回歸;物流預測
中圖分類號:F259.21 文獻標識碼:A
Regional Logistics Demand Forecasting Based on LaOR Model
TANG Jun, XIAO Jian-hua
(School of Economics and Management, Southewest Jiaotong University, ChengDu, 610031, China)
Abstract:
Aimming at the disadvantages of weak generalization ability that exists in most of the current regression functions, combining with the research achievement of statistic learning theory, the paper proposes the optimal regress model based on least-absolute criteria, or LaOR model. Compared with other regress models, LaOR model has taken regress error and confidence interval into account synthetically.LaOR model can reduce the expected risk of regress model effectively.The logistics demand short-term forecasting of Shanghai is used as an example to examine the validity of the LaOR model.
Key words: least-absolute criteria; statistic learning theory; multiple regression; logistics forecasting
一、引 言
最小一乘準則的早期研究比最小二乘準則的出現要早將近40年。只不過由于最小一乘準則屬于不可微問題,因而與最小二乘準則相比,計算難度要大得多,從而導致對該問題的研究較為緩慢[1]。然而盡管最小二乘準則的理論較為完善,也已經在一些回歸問題中得到了較滿意的效果,但該方法存在的兩點不足也是極其明顯的。
首先,當樣本數據較少,且存在異常點時,采用最小二乘準則所得的回歸模型對未知樣本的預測精度會相當的低。究其原因,這是因為,與常規數據相比,異常數據的偏差要大得多,其平方值相對更大,為了壓低平方和,回歸模型就不得不“遷就”這些點,最終增加了異常點對回歸模型的影響,從而導致回歸模型的失真[2]。其次,最小二乘準則應用效果好的前提假設是回歸模型中的隨機誤差服從正態分布。但這個假設并不總能得到滿足,特別是在某些數量經濟的問題中,服從的是一種尾部占更大比重的分布,理論已經證明,在這些情況下,最小一乘準則的統計性能優于最小二乘準則[3]。
以預測應用為例,回歸建模的目的是通過對已知數據樣本的回歸學習,建立與實際盡可能相接近的數學模型,最終實現對未來時間的預測。由此可見,衡量一個回歸模型優劣的標準是泛化能力的強弱,或者說是期望風險的大小。不幸的是,由V.Vapnik等人提出的統計學習理論指出[4]:經驗風險最小并不能保證期望風險最小,最終也不能保證回歸函數的泛化能力。
上面的討論充分說明,現有回歸模型中的參數估計方法存在不足。針對這些不足,筆者將結合統計學習理論的研究成果,提出基于最小一乘準則的最優回歸模型(optimal regress model based on least-absolute criteria, 簡稱為LaOR模型)。
區域物流需求預測是區域物流系統規劃、物流資源合理配置過程中的重要環節,同時它也為政府制定物流產業發展政策、物流基礎設施建設提供了必要的決策依據和支持。與國家宏觀物流需求相比,區域物流需求預測存在自身的特點,主要表現為兩個方面,一是物流需求量與影響物流需求的各項指標存在高度的非線性;二是物流需求量存在更大的波動性。指標數據高度的非線性和波動性使得區域物流的需求預測成為一項復雜的研究課題。
國內外學者針對物流需求建立了較多的預測模型,如貨物需求預測時空多項概率模型[5]、基于時間序列的非線性航空服務需求模型[6]、貨運量預測的逐步線性回歸方法[7]、投入產出和空間價格相結合的物流需求分析模型[8]等?,F有模型中的絕大多數是利用物流需求的歷史數據本身來進行預測,而不是利用經濟數據來對物流需求進行預測。由此必然導致預測結果的精度難以得到保證。
筆者試圖采用LaOR模型,以區域經濟發展指標作為輸入,建立區域經濟需求預測模型。
二、LaOR模型
(一)最小一乘準則
以多元線性回歸為例,考慮給定的n個學習樣本:
不難發現,式(4)中積累的是誤差平方和,這樣也就放大了各樣本點與回歸函數誤差的相對大小。一旦樣本數據之間存在異常點,為了減少誤差和,必然會導致回歸函數向異常點靠攏。為了減小異常樣本點的干擾,一種自然的想法就是用誤差的絕對值代替誤差的平方,即:
此即所謂的最小一乘準則。
(二)核方法下的最小一乘準則
式(4),(5)的共同點是:它們積累的是現有樣本點的誤差(或誤差平方),此即所謂的經驗風險,整個學習原則也就被稱為經驗風險最小化。然而,回歸建模的目標是使期望風險最小,在最小一乘準則下,即有:
式(6)中的聯合概率密度分部函數F(x,y)為某未知函數。根據統計學習理論的研究成果鑒定,為使R(f)趨于最小,必須同時考慮經驗風險和置信范圍,此即結構風險最小化。
結合Smola等人的研究成果[9],在最小一乘準則下,以結構風險最小化為優化目標,回歸函數式(2)中的參數應滿足:
式(8)中ξi,ξ*i是各學習樣本在最小一乘準則下的擬合誤差。參數C用于折中考慮經驗風險和置信范圍。
定義Langrange函數
此即基于最小一乘準則的最優回歸模型(LaOR模型)。之所以將該模型寇以最優,是因為該模型在建模過程中綜合考慮了模型的擬合誤差和置信范圍,從而保證了泛化能力。
由式(14)可將參數αi,α*i解出。實際上,根據KKT聽見,只有一部分αi,α*i不等于0,與之對應的學習樣本稱之為支持向量。
進一步,由式(11)有:
三、算例分析
(一)數據采集與指標選取
根據對上海市物流需求發展的定性分析,并本著可操作性原則,選取用于物流需求預測的經濟指標為:第一產業產值、第二產業產值、第三產業產值、區域零售總額、區域外貿總額、人均消費水平等[11]。由于受到統計數據可獲得性的限制,在對上海市物流需求進行預測時只選取“貨物運輸量”作為物流需求規模指標。數據收集如表1所示[12,13,14]。表中符號含義如下:X1第一產業產值(億元);X2第二產業產值(億元);X3第三產業產值(億元);X4區域零售總額(億元);X5區域外貿總額(億美元);X6居民消費水平(元);y貨物運輸量(萬噸)。
對表1中數據預處理后,經過相關分析,如表2所示,表明第t年物流需求增長的短期預測與如下4個指標密切相關:第二產業(t-1)、第三產業(t-1)、居民消費水平(t-1)以及貨物運輸量(t-1)。
(二)算法有效性分析
為了說明LaOR模型的有效性,首先將數據分為訓練樣本和測試樣本,訓練樣本以1979-1998年的指標數據作為輸入,1980-1999年的貨物運輸量數據作為輸出,用來建立LaOR模型;測試樣本以1999~2003年的指標數據作為輸入,2000-2004年的貨物運輸量數據作為輸出,采用式(14)所示的LaOR模型進行測試,并令C =8,采用MATLAB7.0軟件實現上述算法。所得結果如圖1和表3所示。圖1中實線為各年度的貨物運輸量實際值,“*”對應相關年份的LaOR模型預測值。
(三)結果分析
考慮到實際物流系統的復雜性,由LaOR模型得到的預測結果還是較為理想的。將本方法應用到上海市2005年貨物運輸量預測中,預測2005年增長率為4.13%,2005年貨物運輸量值為65 588萬噸。
四、結論
以基于最小一乘準則的最優回歸原理為主要算法,結合物流系統規劃理論,建立了基于LaOR的區域物流需求短期預測模型,所得結果較為理想。LaOR模型應用到區域物流需求的預測中,還是一個全新的研究內容,但其表現出來的優越性還是很明顯的。但也有很多問題有待于更進一步的深入,其中既有LaOR本身研究的問題,也有如何結合物流需求與經濟發展特點的問題。相信,隨著研究的繼續,這些問題將逐步得到解決。
參考文獻:
[1] 謝開貴, 宋乾坤, 周家啟. 最小一乘線性回歸模型研究[J]. 系統仿真學報. 2002,14(2):99-102
[2] 董建, 謝開貴. 基于最小一乘準則的非線性回歸模型研究[J]. 重慶師范學院學報(自然科學版). 2001,18(4):71-74
[3] 陳希孺.最小一乘線性回歸[J].數理統計與管理,1989,8(5):48-55.
[4] VAPNIK V. The Nature of Statistical Learning Theory [M].New York: Springer-Verlag,1995.
[5] Rodrigo A, Hani S. Forecasting freight transportation demand with the space-time multinomial probity model [J]. Transportation Research Part B 34. 2000: 403-418.
[6] Bahram A, Arjun C, Kambiz R. The demand for US air transport service: a chaos and nonlinearity investigation [J]. Transportation Research Part E 37, 2001:337-353
[7] Fite J, Taylor G, Usher J, Roberts J. Forecasting freight demand using economic indices [J]. International Journal of Physical Distribution Logistics Management, 2001, 31(4):299.
[8] 過秀成, 謝實海, 胡斌. 區域物流需求分析模型及其算法[J]. 東南大學學報(自然科學版). 2001,31(3):1-5.
[9] Smola A J, Scholkopf B. A Turtorial on Support Vector Regression[R]. NeuroCOLT TR NC-TR-982030. Royal Holloway College, University of London, UK, 1998.
[10] Gunn S. Support Vector Machines for Classification and Regression[R].University of Southamptom. 1998.
[11] 后銳, 張畢西. 基于MLP神經網絡的區域物流需求預測方法及其應用[J]. 系統工程理論與實踐. 2005, 25(12):43-47.
[12] 中國統計信息網[EB/OL]. http://www.stats.gov.cn.
[13] 國務院發展研究中心. 中國地區發展數據手冊(1978-1989)[M].北京:中國財政經濟出版社. 1992.
[14] 國家統計局. 中國統計摘要[M].北京:中國統計出版社,2005.
(責任編輯:石樹文)
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文?!?/p>