














摘 要:【目的】物流需求預測有助于調整物流資源的分配,對促進物流業發展具有重要意義。【方法】選取安徽省1995—2022年與物流需求相關的指標數據為原始樣本數據,用貨運量來表征物流需求。通過XGBoost特征選擇算法篩選出6個用于預測的指標。在此基礎上,使用3種方法分別構建模型,并對這些模型進行對比分析。最終,選擇精度最高的Adaboost回歸算法來預測安徽省短期物流需求。【結果】2023—2026年,安徽省的物流需求預測值分別為402 942.428萬t、369 877.222萬t、380 884.375萬t、382 319.5萬t。【結論】未來四年,安徽省物流的貨運量呈不穩定發展態勢。根據安徽省的區位優勢及疫情的全面開放,安徽省物流業表現出較大的發展潛力。
關鍵詞:Adaboost;特征選擇;物流需求預測;安徽省
中圖分類號:F259.27" " "文獻標志碼:A" " "文章編號:1003-5168(2024)02-0027-07
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.02.005
Research on Short-term Forecasting of Logistics Demand in Anhui Province Based on Adaboost Regression Algorithm
XUN Shoukui1,2,3" " GE Chengli1,2,3
(1.School of Economics and Management, Anhui University of Science and Technology, Huainan 232001,China; 2.Institute of Financial and Technology, Anhui University of Science and Technology, Huainan 232001,China; 3.Institute of Urbanization and Industrial Development, Anhui University of Science and Technology,Huainan 232001, China)
Abstract: [Purposes] Logistics demand forecasting is helpful to adjust the distribution of logistics resources and is of great significance to promote the development of logistics industry. [Methods] The index data related to logistics demand in Anhui Province from 1995 to 2022 were selected as the original sample data, and the freight volume was used to characterize the logistics demand. Six indicators forprediction were selected by XGBoost feature selection algorithm. On this basis, three methods are used to construct models respectively, and these models are compared and analyzed. Finally, the Adaboostregression algorithm with the highest accuracy is selected to predict the short-term logistics demand of Anhui Province. [Findings] From 2023 to 2026, the predicted values of logistics demand in Anhui Province were 4029.42428 million tons, 3698.77222 million tons, 3808.84375 million tons and 3823.195 million tons, respectively. [Conclusions] In the next four years, the freight volume of logistics in Anhui Province will show a fluctuating. Based on the geographical advantages of Anhui Province and the comprehensive loosening restrictions of the epidemic, the logistics industry in Anhui Province has shown a lot of development potential.
Keywords: Adaboost; feature selection; logistics demand forecast; Anhui province
0 引言
現代物流業與區域經濟相互促進、互為關聯。物流行業在支撐社會經濟發展的同時,也影響著國與國之間的競爭。《安徽省“十四五”物流業發展規劃》中明確提出,要大力發展供應鏈及民生物流,建設內外聯通的現代物流網絡,將安徽省打造成物流強省。本研究對安徽省短期的物流需求進行預測,將有助于安徽省調整區域物流的資源分配,優化相關產業結構,從而推動安徽省物流產業的高質量發展。
對國內外學者有關物流需求預測的研究進行梳理后可知,物流需求的預測方法大致可分為兩大類。一是較為傳統的預測模型,如線性回歸法等。Nuzzolo等[1]考慮到物流需求預測的影響因素和相關程序,采用一元非線性回歸模型對物流需求進行預測;牛思佳等[2]在分析北京大興機場航空物流發展現狀的基礎上,用熵權法及灰色預測法對機場航空物流的吞吐量進行對比預測;姜金德等[3]以貨運量來替代江蘇省物流需求,并運用主成分回歸預測模型對江蘇省未來5年的貨運量進行預測,但該模型易受一些不穩定因素的影響,僅適用于對中短期物流需求的預測;趙娜青[4]在我國1949—2013年的鐵路物流需求數據的基礎上,建立了ARIMA (0,1,1) 模型,對我國2014—2016年的鐵路物流需求進行了短期預測。傳統的預測模型易于實現,但預測的準確度不如機器學習算法。二是基于機器學習的預測方法。Moscoso-López等[5]分別使用人工神經網絡和支持向量回歸對阿爾赫西拉斯灣港口的滾裝貨運量進行預測,通過對預測結果進行對比,發現支持向量回歸更適合對該港口貨運量的預測;李敏杰等[6]使用4種預測模型分別對水產品冷鏈物流需求進行預測,并對預測結果進行對比,最終選擇預測誤差更小的RBF神經網絡模型;李國祥等[7]從影響因子、時間序列兩個層面出發,使用長短期記憶網絡來預測廣西的貨運量,結果顯示,該模型的穩定性高,且預測性能較好;夏偉懷等[8]在對影響鐵路冷藏運輸的因素進行特征篩選的基礎上,構建出隨機森林模型,與BP神經網絡、Adaboost、Bagging及未經特征篩選的隨機森林模型同時對鐵路冷藏運輸需求進行預測,并對預測結果進行對比分析。該類算法對大規模數據集物流需求預測的效果較好,但本研究使用的數據集規模較小,且不同算法對數據的敏感性存在差異,直接使用上述方法對物流需求進行預測,效果很難得到保證。Adaboost作為機器學習算法的一種,其在心臟病[9]、溫度預測[10]等領域中有著廣泛的運用,實證結果顯示,該算法的訓練速度快、預測精度高,但較少應用于物流需求預測領域。
基于此,本研究對3種具有代表性的模型(支持向量回歸、隨機森林回歸、Adaboost回歸)的預測精度進行對比分析,最終確定預測精度最高的模型,并用該模型對安徽省短期物流需求進行預測。同時,為了提高模型的訓練速度與泛化精度,在對3種模型進行對比分析前,利用XGBoost算法對與物流需求相關的指標進行特征選擇,從而確定預測指標。
1 物流需求影響因素的特征選擇
在對物流需求預測過程中,指標過多的話,會影響模型的運行速率和預測準確度。因此,在建模預測前,需要對指標特征進行篩選。XGBoost算法是特征選擇中常用的方法之一,其具有高效、靈活、可擴展等優點。因此,本研究使用XGBoost算法對特征進行篩選。
1.1 特征選擇方法
XGBoost算法是由Chen等[11]基于GBDT算法提出的一種梯度提升的非線性特征選擇方法。在XGBoost算法中,特征選擇主要基于特征的分裂增益。分裂增益是指通過使用某個特征對樣本進行分割,劃分后的子節點相對于劃分前的節點所獲得的平均損失減少量。XGBoost算法通過計算每個特征的分裂增益,并根據增益值來對特征進行排序,以確定其重要性,目標函數表示見式(1)。
式中:Gj、Hj分別為被分到第j個葉子節點的所有樣本的loss的一階、二階導數值之和;wj為第j個葉子節點的預測值(權重);T為葉子節點數;λ和γ為自定義的正則項參數。
1.2 數據獲取與預處理
由于影響物流需求的因素較多,參考相關文獻[12-15],并結合物流業與經濟的關聯性及數據的可獲取性,本研究選取與安徽省(1995—2022年)物流需求相關的原始指標(共35個),所有數據均來自國家統計局公布的信息。由于目前對物流需求的研究尚未形成統一的量化指標,本研究根據以往的研究成果,選擇貨運量作為目標變量,剩余34個指標作為自變量,并對原始指標進行數據預處理,使用Python語言來讀取安徽省貨運量的數據集,用K鄰近算法對少量的缺失值進行填充,對各個自變量的字段進行標準化處理。
1.3 特征選擇與指標確定
在進行特征選擇前,要剔除方差為0的特征,計算結果顯示,沒有方差為0的特征,因此,待篩選指標共有34個。將所有待篩選變量代入到XGBoost模型中,對特征的重要性進行排序,可避免篩選出對模型無用及冗余的特征。使用Python中的plot_importance方法,可直接得到特征的重要性排序。考慮到特征與貨運量之間的重要程度,并結合特征重要性排序結果,本研究選取前6個變量作為顯著變量,特征重要性排序的結果如圖1所示。
由圖1可知,鐵路運輸業就業人數、水運客運量等前6個指標是影響貨運量的最主要指標,結合目標變量(貨運量),確定的最終變量選擇結果見表1。
2 不同模型預測效果對比與最佳模型選擇
當預測指標確定后,需要構建出適當的預測模型,并對數據進行擬合,以期得到最優的預測效果。有很多模型可用于對物流需求的預測,但這些模型各有優劣。因此,本研究選擇支持向量回歸、隨機森林回歸、Adaboost回歸這3種具有代表性的模型,通過對這3種模型的預測效果進行對比,最終確定可用于預測安徽省短期物流需求的最優模型。
2.1 3種物流需求預測模型的原理
2.1.1 支持向量回歸。支持向量回歸(SVR)是支持向量機在回歸問題中的應用,其核心思想是讓所有樣本點盡可能靠近回歸曲面,甚至與曲面重合。支持向量回歸具有較出色的泛化能力和較高的預測精度,適用于處理線性和非線性數據,可解決高維問題,但因其計算復雜度較高、尋找超平面困難,不適合用來處理大型數據集。在支持向量回歸模型中,目標函數優化問題的表示見式(2)。
式中:ω、b為兩個待定參數;C為懲罰系數;L為損失函數;[f(xi)]為預測值;[yi]為真實值。
2.1.2 隨機森林回歸。隨機森林回歸是機器學習中的一個集成學習算法,通過集成多個弱學習器,得到一個預測效果更好的集成學習器。隨機森林回歸以回歸樹為基本單元,采用Bagging算法的思想,即每次有放回地從訓練集中取出多個訓練樣本,從而組成新的訓練集。利用訓練集訓練得到多個子模型,再將子模型預測結果的平均值作為集成學習器的預測結果。隨機森林回歸的優勢在于可同時處理分類和數值特征,且不易出現過度擬合的情況,但其也存在算法較為復雜、計算成本較高的不足。隨機森林回歸的子模型為CART回歸樹,其最優問題的表示見式(3)。
式中:j為最優切分變量;s為切分點;R為被劃分的輸入空間;[C1]、[C2]分別為[R1]、[R2]對應的輸出值;[yi]為真實值。
2.1.3 Adaboost回歸。Adaboost回歸是一種集成學習算法,但采用的是Boosting集成策略,即各個弱學習器都需要進行串行化訓練,最終得到一個強學習器。在串行化訓練過程中,前置學習器的誤差大小會影響到后置學習器樣本的權重。實際上,該算法是對弱學習器性能的提升,即通過不斷訓練、更新樣本誤差,并改變權重,從而提高模型的預測精度。Adaboost回歸具有精度高、訓練速度快、能充分考慮每個學習器權重等優點。其具體流程如下。
輸入樣本集為T={(x1,y1),(x2,y2),...,(xm,ym)}, 弱學習器算法為G(x), 弱學習器迭代次數為K,輸出最終的強學習器為f(x)。初始化樣本集權重為[D1=w11,w12,...,w1m,w1i=1/m,i=1,2,...,m]。
①使用具有權重[Dk]的樣本集來訓練數據,得到弱學習器[Gk(x)],其中,[k=1,2,...,K]。
②計算訓練集上的最大誤差,見式(4)。
③計算每個樣本的相對誤差,這里使用的是平方誤差,見式(5)。
④計算當前學習器的回歸誤差率,見式(6)。
⑤計算當前學習器的權重(系數),見式(7)。
⑥更新樣本的權重D,第k+1個弱學習器的樣本集權重系數見式(8)。
式中:[Zk]為規范化因子,其表示見式(9)。
⑦最終得到的集成學習器的表示見式(10)。
式中:Gk*(x)為所有ln (1/αk),k=1,2,...,K的中位數值對應序號k?所對應的弱學習器。
2.2 不同模型預測值與真實值的對比
在建立模型前,需要對數據集進行劃分。本研究使用的數據集類型為時間序列數據,共有27條。由于傳統的隨機劃分方式會使模型丟失重要的時序信息,從而導致測試集的精度降低。因此,本研究使用時間序列數據中常用的間隔劃分法,即以6年為一個周期,前五年的數據為訓練集,第六年的數據為測試集,最終得到的訓練集數據共23條、測試集數據共4條。為實現外推預測,在擬合數據時采用滑動窗口進行匹配,即根據需要來外推年份,從而完成對訓練集的指標和預測值的錯位匹配。
在將數據集劃分完畢后,先滑動1格窗口,依次使用支持向量回歸、隨機森林回歸、Adaboost回歸這3種模型對數據進行擬合。其中,支持向量回歸的核參數為線性核函數,隨機森林回歸的子學習器個數為10個,Adaboost回歸的默認學習器為回歸樹,個數為10個。在使用上述3種模型完成訓練后,對訓練集和測試集進行預測,通過不同模型分別計算出安徽省1996—2022年的物流需求預測值,并與真實值進行對比,結果見表2。
為了能更直觀地展現這3種模型的預測效果,通過Python軟件畫出這3種模型預測值與真實值的對比折線,如圖2所示。
由表2和圖2可知,在對安徽省2001年以前的貨運量預測結果中,上述3種算法都具有較好的擬合效果,訓練集偏差相對較小,測試集偏差也在可接受范圍內。但隨著時間的推移,2009年以后,支持向量回歸和隨機森林回歸預測結果的偏差均逐漸增大,如2013年的安徽省貨運量真實值為396 391萬" t,而支持向量回歸和隨機森林回歸模型的預測值分別為327 345萬" t和348 763萬" t,測試集偏差分別為17.4%和12.0%,但隨機森林回歸的泛化能力略優于支持向量回歸;2019年安徽省的貨運量真實值為368 248萬" t,而支持向量回歸和隨機森林回歸的預測值分別為425 458萬" t和357 600萬" t,支持向量回歸的測試集偏差為15.5%,隨機森林回歸的表現相對較好,測試集偏差為2.9%。在上述年份中,Adaboost回歸的擬合效果仍然較穩定,2013年安徽省貨運量的預測結果為364 567萬" t,2019年安徽省貨運量的預測結果為390 253萬" t,測試集平均偏差為7%,預測值始終在真實值附近輕微波動,Adaboost回歸在訓練集和測試集上都保持著相當高的準確度。
2.3 誤差值對比及最佳模型選擇
為了使預測結果更貼近真實值,應選擇誤差最小的模型進行預測。對上述3種模型的擬合結果進行評估,評估指標包括平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)。3種模型的誤差對比見表3。
由表3可知:從平均絕對誤差(MAE)來看,Adaboost回歸為16 446.166萬 t,是這3種模型中泛化能力最強的模型;從均方根誤差(RMSE)來看,Adaboost回歸為20 191.390,同樣低于其他兩個模型,預測效果最好;從平均絕對百分比誤差(MAPE)看,Adaboost回歸為0.071,較其他兩種模型的泛化能力有所提升。
綜合來看,Adaboost回歸模型在該數據集上的預測效果要優于其他兩種模型,因此,本研究選擇Adaboost回歸算法對安徽省物流貨運量進行預測。
3 基于Adaboost回歸算法的安徽省短期物流需求預測
3.1 安徽省短期物流需求預測
使用滑動窗口劃分法來建立多個年份的Adaboost回歸預測模型,利用2022年的貨運量數據進行外推預測,最終得到安徽省2023—2026年的物流需求預測結果。安徽省貨運量趨勢如圖3所示。2023—2026年安徽省物流貨運量預測值分別為402 942.428萬 t、369 877.222萬 t、380 884.375萬" t、382 319.5萬" t。
3.2 安徽省物流需求歷史變化及短期趨勢分析
3.2.1 安徽省物流需求歷史變化分析。由圖3可知,安徽省物流需求歷史變化分析如下:2000—2014年,安徽省的貨運量呈快速上升趨勢。這是因為“十一五”規劃、“十二五”規劃中明確指出優先發展交通運輸業的重要性,強調建設便捷、通暢、高效、安全的綜合運輸體系。此外,物流行業國家標準的頒布也促進了物流行業現代化轉型升級;2015年,安徽省貨運量大幅度下降,這是因為貨物運輸結構的調整、煤炭運輸量的下降及水運市場、公路貨運市場的低迷,導致運輸需求持續下滑;2016年以后,安徽省貨運量發展呈波動性變化,但相較于2015年貨運量,整體呈上升趨勢。這種貨運發展的不穩定原因有安徽省公路貨運市場的活力相對不足、航空運輸業規模擴張放緩及貨物周轉量增速減緩。
3.2.2 安徽省短期物流需求趨勢分析。由圖3可知,安徽省短期物流需求趨勢預測分析如下:2023年安徽省貨運量呈緩慢上升趨勢,貨運量預測值為402 942.428萬" t;2024年安徽省貨運量呈下降趨勢,貨運量預測值為369 877.222萬" t;2024—2026年安徽省貨運量呈上升趨勢,2026年安徽省貨運量將達382 319.5萬" t。總體來看,今后四年,安徽省物流貨運量整體呈不穩定發展態勢。
從發展來看,安徽省是唯一的長三角一體化發展和中部崛起兩大國家戰略均有覆蓋的省份,是促進長三角區域和中部區域發展的重要交會省份,安徽省的社會經濟與物流業的高質量發展對長三角地區,乃至全國的發展都具有重要作用。隨著疫情防控的全面開放,安徽省的交通、旅游、國內外貿易等都會迎來復蘇,為安徽省物流業的發展提供了良好的機遇。
4 結語
本研究基于1995—2022年安徽省物流業的相關數據,使用KNN算法來填充缺失值,并運用XGBoost算法進行特征選擇,從而確定6個對貨運量影響顯著的預測指標。在模型構建方面,分別使用傳統的貨運量預測模型支持向量回歸、集成學習模型隨機森林回歸、Adaboost回歸進行建模,并對這3種模型在測試集上的平均絕對誤差、均方根誤差和平均絕對百分比誤差大小進行評價。針對本研究使用的數據和方法,結合模型評價結果,得出Adaboost回歸模型的預測效果最好。在確定好預測模型后,利用滑動窗口思想,建立多個Adaboost外推預測模型,對安徽省2023—2026年的貨運量進行預測,得到對應年份的安徽省物流需求預測值,由此可知,未來四年安徽省物流需求呈不穩定發展趨勢。對物流需求進行預測,有助于安徽省把握物流發展的速度與規模,從而制定出科學的區域經濟、區域產業與物流業整體發展規劃。
物流需求預測一直是相關領域研究的熱點問題,由于安徽省物流業發展較慢,導致研究所需的數據集較小,從而使預測模型的選取較為局限,研究所選用的模型僅適用于對安徽省短期物流需求的預測。在后續研究中,可嘗試選取更多與物流需求相關的指標,并運用組合預測模型進行對比試驗,在保證模型預測精度的前提下,盡可能對物流需求進行長期預測。
參考文獻:
[1]NUZZOLO A,COMI A.City logistics planning:demand modelling requirements for direct effect forecasting[J].Procedia-Social and Behavioral Sciences,2014(1):239-250.
[2]牛思佳,劉崇獻.北京大興機場航空物流需求預測研究[J].價格月刊,2020(10):59-67.
[3]姜金德,周海花.基于區域經濟指標的區域物流需求PCR預測研究:以江蘇省為例[J].濟南大學學報(社會科學版),2021(4):124-132,159-160.
[4]趙娜青.基于ARIMA模型的鐵路貨運量預測[J].智庫時代,2019(22):187,190.
[5]MOSCOSO-LóPEZ A J,TURIAS I J T,COME M J,et al.Short-term forecast-ing of intermodal freight using ANNs and SVR:case of the port of algeciras bay[J].Tran-sportation Research Procedia,2016,18:108-114.
[6]李敏杰,王健.基于RBF神經網絡的水產品冷鏈物流需求預測研究[J].中國農業資源與區劃,2020(6):100-109.
[7]李國祥,馬文斌,夏國恩.基于深度學習的物流需求預測模型研究[J].系統科學學報,2021(2):85-89.
[8]夏偉懷,劉嘉莉,馮芬玲.基于隨機森林的鐵路冷藏運輸需求預測[J].鐵道科學與工程學報,2022(4):909-916.
[9]譚朋柳,徐光勇,張露玉,等.基于卷積神經網絡和Adaboost的心臟病預測模型[J].計算機應用,2023(S1):19-25.
[10]王坤,劉小杰,劉二浩,等.基于AdaBoost算法的爐芯溫度預測模型[J].鋼鐵研究學報,2020(5):363-369.
[11]CHEN T Q,GUESTRIN C.XGBoost:A scalable tree boosting system[C]//ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining,2016:785-794.
[12]曾煜,朱志浩.基于RBF神經網絡的區域物流需求預測[J].綜合運輸,2020(6):90-93.
[13]于蕾.基于遺傳神經網絡的城市區域圈物流需求預測:以合肥都市圈為例[J].黔南民族師范學院學報,2019(4):64-69.
[14]鄧熠.基于BP神經網絡的福州都市圈物流需求預測[J].物流工程與管理,2022(8): 29-31.
[15]劉炯.基于多元線性回歸的物流需求預測分析:以安徽省為例[J].四川文理學院學報,2022(2):51-58.