高 青
安徽理工大學經濟與管理學院,安徽淮南,232001
基于遺傳算法優化支持向量機的物流需求預測研究
高 青
安徽理工大學經濟與管理學院,安徽淮南,232001
為提升物流需求預測的準確度,以建立物流需求指標為基礎,構建了一種遺傳算法(GA)優化支持向量機的物流需求預測模型(GA-SVM)。首先對物流數據進行歸一化處理,然后利用GA-SVM刻畫物流需求量與其影響因素間的非線性關系,并通過遺傳算法優化選擇SVM參數,選取1998-2014年安徽省物流數據對模型進行測試。結果表明,GA-SVM在很大程度上提高了物流需求預測的準確性,能夠精確地表征物流需求量的變化趨勢,其預測精度和相對誤差均優于對比模型,是一種較好的物流需求預測方法。
物流需求;支持向量機;遺傳算法
物流系統的規劃和設計必須立足于準確的物流需求預測,準確的物流需求預測可以幫助行業企業設計科學的物流系統,分配有限的資源,協調物流的供需關系,進而提高區域經濟發展水平[1]。國內外對物流需求預測方法的研究擁有很長的歷史,早期的預測方法主要有時間序列法、指數平滑法和回歸分析法等[2]。這幾種方法適合解決時間序列和線性數據,但對于具有非線性關系或高維的物流數據預測效果不理想。同時,此類方法主要是集中在對數據本身規律的回歸分析上,忽略了對物流需求量與其影響因素之間聯系的分析,存在嚴重的數據失真現象[3]。近年來,神經網絡在物流需求量的預測中被廣泛運用,雖然神經網絡能夠很好地模擬非線性系統,但仍存在局部最優和過度擬合等缺點,進而影響了預測的精確度。
支持向量機是建立在統計學習理論基礎上的統計學習方法,它有效地克服了神經網絡的缺點,很好地解決了非線性和高維數據,很大程度上避免維災難和過度學習等問題[4]。但和其他學習算法一樣,支持向量機訓練參數的選擇對模型預測效果有很大的影響[3]。因此,在實踐中,選擇契合的參數成為獲得較優模型的關鍵。
本文將遺傳算法與支持向量機相結合,提出了遺傳算法優選支持向量機參數的方法,得到最優的物流需求預測模型。以安徽省1998-2014年物流需求量作為試驗數據進行研究,結果表明,相比于粒子群優化支持向量機和普通支持向量機模型,GA-SVM模型的準確度最高,誤差最小,更有效地預測了物流需求量。
孫啟鵬等從下面幾個方面定量描述了物流需求量,主要包括物流和區域經濟發展的關系、物流作業內容以及物流本源需求規模的大小等[5]。黃虎認為,區域經濟整體水平和規模、區域經濟產業結構和產品結構、區域經濟的空間網絡布局、物流設施和服務、物流費用的變動、技術創新、區域地理位置等影響區域物流需求[6]。林榮天等選取GDP、區域零售總額、人均消費水平等指標,創立了系統的物流需求預測指標體系[7]。李雋波等采用GDP、產業結構比例、人口數量等指標,利用多元線性回歸模型預測了冷鏈物流需求量,取得了較準確的預測結果[8]。楊波等使用重慶空港物流園的相關數據,如空港貨物吞吐量、GDP、工業總產值、進出口總產值作為預測參數,采用組合預測方法,較準確地預測了2020年重慶空港物流園的物流需求量[9]。彭湖等運用主成分回歸分析方法,利用云南省2001-2013年物流數據,取得了較精確的預測結果,為云南省物流行業的發展提供了借鑒[10]。
總而言之,關于選擇預測對象和預測指標,學術界沒有建立統一的標準。總的來看,度量物流需求指標體系主要有實物量體系和價值量體系兩類。由于缺失必要的統計數據,在使用價值量體系時,只能憑借經驗預測物流需求量,所以本文在實物量體系中選擇貨運量來表示物流需求量。
從以往的研究來看,大多數學者認為,物流需求和區域物流影響因素存在著一定的函數聯系,因此,本文利用物流影響因素來預測物流需求,并且借鑒已有的研究成果,兼顧數據資料的易得性,選取以下指標作為區域物流影響因素指標:GDP,固定資產,第一、二、三產業產值,進出口貿易總額,居民消費水平,貨運量和貨物周轉量等
2.1 支持向量機
支持向量機(support vector machine,SVM)是基于統計學習理論中的VC維理論和結構風險最小化理論建立的統計學習方法[11]。支持向量機很好地解決了非線性和高維數據,很大程度上避免維災難和過度學習等問題[11]。支持向量機已經成為一種備受關注的分類技術,它具有堅實的統計學理論基礎,并廣泛地應用于手寫數字識別、文本分類和人臉圖像識別等。
f(x)=ωTΦ(x)+b
(1)
其中,ω 表示權值向量,b表示偏置量。
為了使支持向量機在訓練集上獲得推廣能力較好的模型,必須最小化經驗風險,同時最大限度地降低預測模型的復雜度,即對下面函數進行優化求解的過程:
(2)
(3)
引入拉格朗日函數來解決凸二次優化問題,即:

(4)

經過計算得到SVM預測模型為
(5)
常用的非線性核函數主要有線性核函數、BRF核函數等。本文選擇BRF核函數,其定義為:
(6)
支持向量機預測模型為:
(7)
由于本文的支持向量機采用BRF核函數,因此,參數σ、c對支持向量機模型的預測效果影響較大,為此,本文使用尋優能力較強的GA來優化SVM參數。
2.2 基于GA-SVM的物流需求預測流程
遺傳算法(genetic algorithm,GA)是由Holland及其學生以達爾文的進化論和孟德爾的遺傳學說為基礎建立的隨機搜索和優化算法[12]。大量研究表明,遺傳算法是一種全局尋優能力強的群智化算法,具有簡單、易于實現等特點。鑒于此,本文選擇GA優化SVM參數,提高預測模型的精度,具體的GA-SVM物流需求預測過程如圖1所示。

圖1 基于GA-SVM模型參數優化流程圖
2.3 預測模型對比模型與性能評價指標
為了衡量模型的預測性能,選擇網絡優化SVM和POS優化SVM(POS-SVM)模型作為對比,并使用均方根誤差RMSE、平均絕對誤差百分比MAPE和預測準確度AL來評價模型的擬合能力和泛化誤差,具體定義如下。
均方根誤差:
(8)
平均絕對誤差百分比:
(9)
預測準確度:
(10)

安徽省地處我國大陸東部,同經濟發達的長三角毗鄰,擁有發達的交通運輸網絡,具有連接南北、承東啟西的地理優勢。在中部發展戰略崛起的背景下,安徽省的經濟發展迎來了新契機,物流業作為促進經濟發展的重要動力也擁有巨大的發展潛力。為能平衡物流需求與供應,統籌規劃物流資源,對物流需求量進行準確的預測則顯得尤為重要。
3.1 數據來源與處理
選取安徽省1998-2014年相關數據,以運貨

表1 物流需求指標體系
續表1

年份社會消費品零售總額/(X6/萬元)進出口貿易總額/(X7/億美元)居民消費水平/(X8/元)貨物周轉量/(X9/萬噸)郵電業務量/(X10/萬元)1998924822322655723709179412573314.21999979139026489425239774992789178.4200010542618334689258810761170120139820011142819836199727391093210312245672002122871204181252988124986521434890200313312492594291331213557784176941020041503078672112137071450629822346662005176497539119713888156648022840149200620294001122486044411703005535580902007240373041592978527819889759446413020082965546420435296006584349425507520200935277844156352068296322004866248472010415151722427677823771536800300324420114900639631337821005584466179361614320125685555839325271097898315954405179220136481418845633751173411158962051339862014795703334927279129441350089155860055
注:數據來自《安徽省統計年鑒(1999-2015)》。
量衡量安徽省物流需求規模,并根據區域物流影響因素指標,建立物流需求指標體系(表1)。
為了提高支持向量機的數據處理速度和預測準確度,依據公式(11)對表1中的數據進行歸一化處理,歸一化后的數據如表2所示。
(11)


表2 歸一化后的物流需求指標體系
續表2

年份社會消費品零售總額/(X6/萬元)進出口貿易總額/(X7/億美元)居民消費水平/(X8/元)貨物周轉量/(X9/萬噸)郵電業務量/(X10/萬元)19980.0000.0000.0000.0000.00019990.0080.0080.0140.0050.04120000.0180.0230.0210.0130.11920010.0310.0290.0350.0140.12320020.0430.0410.0580.0260.16320030.0580.0780.0890.0350.22620040.0820.1050.1260.0420.31420050.1190.1460.1440.0520.42920060.1570.2120.1960.0620.56520070.2100.2910.2750.0850.73620080.2900.3870.3440.3910.93320090.3700.2840.4220.4291.14520100.4590.4680.5550.4960.46020110.5650.6180.7270.5980.57620120.6770.7880.8140.7080.65820130.7900.9230.8860.8140.86320141.0001.0001.0001.0001.000
3.2 預測結果分析
基于Matlab 7.0軟件,以1998-2010年的樣本數據作為訓練集,用于建模與參數優化,以2011-2014年的數據作為測試集,用于檢驗模型的泛化能力。
分別使用GA-SVM、POS-SVM、SVM模型對訓練集進行學習,各個模型對訓練集的預測結果如圖2所示。從圖2可以看出,在上述三個模型中,GA-SVM的預測值曲線與訓練集真實值的曲線基本一致,擬合結果最好,模型性能最優。
利用上面最優模型預測2011-2014年的物流需求量,得到如表3的所示物流需求量。分析表3可得,GA-SVM模型預測的結果相對誤差最小,與真實值最為接近。

圖2 三種模型對訓練集的預測結果對比
將表3的數據繪制成散點圖,如圖3所示,可以發現GA-SVM的預測值與測試集的真實值更趨于一致,同時結合表4的GA-SVM模型預測精度,得知其預測精度達到了0.99983。

圖3 三種模型對測試集的預測結果對比

表3 各模型對測試集的預測結果及相對誤差

表4 GA-SVM模型預測精度
根據上述分析可知,GA-SVM模型能夠精確地表征物流需求量的變化趨勢,具有很高的實用性,是一種較好的物流需求預測方法。
物流是連接社會再生產過程中生產與消費的橋梁,物流的發展與區域經濟的發展有十分密切關系,準確地預測物流需求,可以促進經濟的快速發展。本文利用安徽省1998-2014年的統計數據資料作實證分析對象,由于物流需求量的非線性、不確定性等特點以及SVM參數優化問題,提出了GA-SVM物流需求預測模型。結果表明,該模型預測準確性很高,推廣能力強,擁有較好的實用價值,在物流需求預測中有很好的運用前景。依據GA-SVM模型預測成果,可以描述安徽省物流需求量規律,為應對安徽省物流業的快速發展做好必要的準備。
[2]夏國恩.區域物流需求預測現狀和發展研究[J].中國物流與采購,2010(4):68-69
[3]孫煦,陸化普,吳娟.基于蟻群優化支持向量機模型的公路客運量預測[J].合肥工業大學學報:自然科學版,2012,35(1):124-129
[4]顧亞祥,丁世飛.支持向量機研究進展[J].計算機科學,2011,38(2):14-17
[5]孫啟鵬,丁海鷹.區域物流需求量預測理論及模型構建[J].物流技術,2004(10):27-30
[6]黃虎.區域物流需求預測模型研究[J].統計與決策,2008(17):62-64
[7]林榮天,陳聯誠,李紹靜,等.基于灰色神經網絡的區域物流需求預測[J].價值工程,2007(2):92-94
[8]李雋波,孫麗娜.基于多元線性回歸分析的冷鏈物流需求預測[J].安徽農業科學,2011,39(11):6519-6520,6523
[9]楊波,吳涵.基于組合預測模型的物流園區物流需求預測—以重慶空港物流園為例[J].數學的實踐與認識,2015,45(20):16-25
[10]彭湖,何民.基于主成分回歸的區域物流需求預測研究—以云南省為例[J].交通運輸研究,2015,1(3):60-64
[11]丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10
[12]吉根林.遺傳算法研究綜述[J].計算機應用與軟件,2004,21(2):69-73
(責任編輯:周博)
10.3969/j.issn.1673-2006.2016.12.009
2015-09-21
高青(1989-),安徽蚌埠人,在讀碩士研究生,主要研究方向:數據挖掘與風險決策研究。
TP391;F201
A
1673-2006(2016)12-0031-05