駱世廣,葉 賽,胡 蓉
(廣東金融學院1.應用數學系;2.廣東金融學院計算機科學與技術系,廣東廣州510521)
隨著經濟一體化步伐的加大,區域物流系統規劃、管理等面臨著更大的挑戰。高效的物流系統規劃依賴于準確的區域物流量預測。傳統的區域物流量預測方法有移動平均預測法[1]、回歸分析預測法、時間序列分析法等。這些方法大都首先假定一個模型,然后用已有的數據進行數據分析。由于假設的模型受眾多因素的影響,往往一定程度上不能刻畫真實的模型,甚至有些模型為了處理方便,進行了一些線性的假設,這些因素都會導致預測的效果較差。針對物流量不穩定、波動性較大的特點,不少學者[2-4]將灰色預測法與馬爾柯夫模型結合起來用來預測區域物流量,從而推出未來物流量的一個區間及相應的概率;這些方法對影響物流量的因素考慮欠充分,而且結果受主觀性影響過多。隨著機器學習、人工智能等計算機科學的發展,近年來,人們提出用神經網絡[5-7]、支持向量機[8-10]等來預測區域物流量。
BP神經網絡直接從觀測數據出發,簡單有效,易于實現,獲得了廣泛的應用。由于神經網絡的設計是否成功與設計者的相關經驗與足夠的先驗知識密切相關,因此缺乏通用性。對它的改進的研究又遇到了一些重要的困難,譬如如何確定網絡結構問題、過學習與欠學習問題、陷入局部極值問題等。唐偉鴻[8]提出基于時間序列的支持向量機模型,對公路貨運量與客運量進行預測。他們的預測是直接基于歷年的貨運量與客運量數據,對歷史物流量的直接依賴過大。眾所周知,一個區域的物流量與該區域的人口,經濟發展,基建投入等有很大的關系,單純地根據歷年物流量去推測未來的物流量顯得過于直觀。龐明寶[9-10]等人考慮到物流量與一個地區的總人口、GDP、消費品零售額、工業生產總值、農業生產總值有直接的聯系,因此以這些因素作為因子,用非線性支持向量回歸和偏最小二乘支持向量機來預測貨運量。一方面,隨著近年來經濟規模、經濟發展軌跡的轉變,固定資產投資對貨運量也有直接的影響關系,不考慮這個因素,會使得預測結果有所偏差;另外一方面,貨運量只說明一個區域一段時間的貨物運輸總量,即使知道了總量,而不考慮運輸距離,物流系統規劃仍然無法高效運行,因此,單純的用貨運量作為因變量進行預測分析,使得模型過于簡化。
首先自適應迭代支持向量機用于對廣州市物流量進行預測分析,考慮因素為廣州市總人口、GDP、消費品零售額、工業總產值、農業總產值、固定資產投資額等6個因素。然后在此基礎上,用多輸出支持向量機,對廣州市貨運量、貨物周轉量、吞吐量進行預測分析。
1992—1995 年,在統計學習理論的VC維理論和結構風險最小化(SRM)準則的基礎上,Vapnik等人[11]提出了一種新的機器學習算法-支持向量機(Support VectorMachine,SVM)方法。由于其堅實的理論基礎,良好的泛化性能,簡潔的數學形式,直觀的幾何解釋等特點,它在許多實際問題的應用中取得了成功。目前,SVM已成功地應用于手寫體識別、人臉識別、圖像處理、三維物體識別、金融分析等問題。
為了提高SVM的求解效率,Suykens等[12]創造性地把標準SVM的線性不等式約束轉化成了線性等式約束,從而使得SVM的求解問題等價于一組線性方程組的求解。這種回歸方法被稱為最小二乘支持向量機回歸(least squares supportvectormachine,LSSVM)。模型如下。

其相應的拉格朗日函數為

其中:αk是拉格朗日乘子,對應于αk≠0的拉格朗日乘子稱為支持向量。經過數學處理,可以寫成下列線性方程組的形式

結合Mercer條件可知

本文中,x i代表的是第i個輸入樣本,是一個6維變量,分別代表廣州市總人口,GDP,消費品零售額,工業總產值、農業總產值、固定資產投資額6個因素。yi代表的是第i個輸入樣本的目標值,即廣州市物流量。
LSSVM僅僅使用增量學習,工作集中的元素數將會變得很大,這將引起訓練和測試的困難,從而逆學習將是必須的。基于增量學習和逆學習策略,楊曉偉等人[13]給出自適應迭代算法(Adaptive and Iterative Support VectorMachine Regression,AISVR)。出發點是:在給定的樣本集中,應該存在一個支持向量集的近似集,它覆蓋了樣本集的大部分信息。通過對LSSVM算法的重新設計,使得機器能夠自動并且高效地找到這個集合,然后利用這個集合構造學習機。
區域物流量受當時經濟環境、生態環境等的波動影響比較大,為了減少類似1998金融危機、2008南方雪災這種危機對物流量預測的干擾,AISVR算法被用來做單輸出情形下的預測。AISVR不僅能夠完成大樣本回歸問題,而且能夠降低不正常數據帶來的影響。
多輸出支持向量機回歸(Multi-Output Support Vector Regression,MOSVR)[14]算法是針對模型的輸出變量y是一個向量(即y∈Rk,k>1)而提出一種新的SVM回歸算法。它主要是對單輸出函數回歸算法中的損失函數進行了改進,用定義在超球上的損失函數代替了定義在超立方體上的損失函數,將一般支持向量機回歸模型中的損失函數

改為

式(8)定義的損失函數優勢在于它能將輸入變量各分量的擬合誤差綜合考慮進來,使目標函數與各分量的誤差都有關,從而達到整體優化的目的。另一方面這樣定義的損失函數可弱化噪聲數據對結果的影響,提高算法的抗噪性能。這一特點尤其適合區域物流量預測這類非線性多因素復雜系統。MOSVR主要模型如下。
對于M維輸入,N維輸出的函數擬合問題,假定給定的學習樣本集為

第j個輸出的函數模型為Gj:fj(xi,wj,bj)=wj?φ(xi)+bj,bj∈R。可以將函數表達為F(x)=φ(xi)TW+B,其中,φ(?)是高維空間的非線性映射,W=[w1,w2,∧,wN],B=[b1,b2,∧bN]。因此要解決多維回歸問題就是要對每一個輸出求出回歸量wj和bj(j=1,2,∧,N)。其目標函數如式(11)。

其中:xi的含義同上,yi是第i個輸入樣本的輸出值,是一個3維變量,分別代表廣州市貨運量、貨物周轉量、吞吐量。
實驗數據選自廣州市統計年鑒[15]1985—2007年間,共9個指標,分別是:總人口、GDP、消費品零售額、工業總產值、農業總產值、固定資產投資額、貨運量、貨物周轉量、貨物吞吐量。考慮到廣州作為一個外來人口較多的城市,人口流動性比較大,數據中選取的總人口為年度平均人口。另外,由于各個指標的單位的不一致,數量級別差別也較大,原始數據都被進行了歸一化,如表1。對于單輸出支持向量機回歸模型,建立如下模型

表1 廣州市1985—2007年間部分指標統計經歸一化隨機化后數據

總人口GDP消費品零售額工業總產值農業總產值固定資產投資額貨運量貨物周轉量貨物吞吐量0.386320-0.065098 0.046034-0.018277 0.595120 0.197020-0.157000 0.498280 0.041308 0.630720 0.808040 0.488960 0.897960 0.791830 0.379990 1.125000 0.814260 0.974040-0.682410-0.759520-0.520480-0.310580-0.646880-0.684530-0.640980-0.646350-0.764320-0.756350-1.017700-0.870690-0.798530-0.871680-0.745780-0.783260-0.742270-0.971420 0.640500 0.998400 0.846240 0.725200 1.196300 1.095200 1.141700 0.991650 1.068700-0.846680-0.670610-0.759520-0.738090-0.776180-0.736830-0.937060-0.831140-0.643490

其中:y代表貨運量;xi(i=1,2,…,6)分別代表總人口、GDP、消費品零售額、工業總產值、農業總產值、固定資產投資額6個因素。對于多輸出支持向量機回歸模型,模型設置為

其中:yi(i=1,2,3)分別代表貨運量、貨物周轉量、貨物吞吐量;xi(i=1,2,…,6)同上。
用VC++6.0編寫了相關程序,并在內存為512MB、CPU為1.8GHz的PC機上訓練并測試了上述數據。學習過程中把表1數據隨機打散,取18個進行訓練,5個進行測試。

表2 AISVR與MOSVR的結果比較
多輸出算法訓練的整體誤差為0.119 705,測試的整體誤差為0.370 778。
從表2可以看出,MOSVR取得了較好的預測效果。與AISVR相比,有效避免了過學習,并具有更高的預測精度和抗噪能力。尤其是針對個別的指標預測上。
通過多輸出支持向量機回歸模型,揭示了貨運量、貨物周轉量、貨物吞吐量與總人口、GDP、消費品零售額、工業總產值、農業總產值、固定資產投資額之間的關系。從而為準確的預測未來的物流量提供依據;如果能對總人口、GDP、消費品零售額、工業總產值、農業總產值、固定資產投資額這些量進行預測,從而可以得到物流量的一個預測值。
這樣做似乎是增加了問題的不確定性,實際上,上述9個指標都是受很多因素影響的,在一定程度上受隨機因素的影響,而這些隨機因素的影響任何算法都很難考慮完全,而將它們放在一起考慮總體性質時,卻會存在穩定性。未來的工作是,希望找到影響物流量的更多的因素,使用在線支持向量機進行學習預測,不斷的更新歷史值,以期獲得更加準確的預測結果。
[1] 楊榮英,張輝,苗張木.物流預測技術中的移動平均線方法[J].武漢理工大學學報:交通科學與工程版,2001,25(3):353-355.
[2] 王冠奎,董艷.基于灰色馬爾可夫模型的物流園區物流量預測研究[J].物流科技,2007(2):1-4
[3] 孫衛華,王成林,經維.邯鄲國際物流園區物流量預測[J].物流技術,2009,28(7):121-123
[4]吳玉朝,蔡啟明,李斌.基于灰色-馬爾柯夫模型的逆向物流量預測[J].物流科技,10(2008):19-22.
[5] 魏連雨,龐明寶.基于神經網絡的物流量預測[J].長安大學學報:自然科學版,2004,24(6):55-59
[6] 林連,林樺.改進的BP神經網絡在港口物流預測中的應用[J].交通信息與安全,2009,27(5):161-165.
[7] 楊峰,牛惠民,邵曉彤.基于GA-BP算法的模糊神經網絡模型在港口物流量預測中的應用[J].物流科技,12(2009):102-105.
[8] 唐偉鴻,李文鋒.基于時間序列的支持向量機在物流預測中的應用[J].物流科技,2005,28(3):8-11.
[9] 龐明寶,常振華,劉娟.基于非線性支持向量機區域物流量預測[J].物流科技,2007(9):20-23
[10] 龐明寶,謝玲,郝然,馬寧.基于偏最小二乘支持向量機回歸區域物流量預測[J].河北工業大學學報,2008,37(2):91-96.
[11] VAPNIKV.The Nature of Statistical Learning Theory[M].New York:Spring Verlag,1995.
[12] SUYKENS JA K,VANDWALLE J.Least squaressupportvectormachine classifiers[J].Neural Processing Letters,1999(9):293-300.
[13] 楊曉偉,駱世廣,余舒,等,基于支持向量機的大樣本回歸算法比較研究[J].計算機工程與應用,2006,42(6):36-38.
[14] 胡蓉.多輸出支持向量回歸算法[J].華東交通大學學報,2007,24(1):129-132.
[15] 廣州統計信息網,http://www.gzstats.gov.cn/.