王向前, 吳東隆, 鄭健彤
(1.安徽理工大學 經濟與管理學院,安徽 淮南 232001; 2.天津理工大學 管理學院,天津 300384)
隨著我國“一帶一路”戰略的實施推進,推動了我國經濟貿易的快速發展,同時帶來了港口貨運量的與日俱增,對港口的建設和運營管理提出了新的考驗,為提高港口的運轉效率和增強港口的競爭力,準確的預測港口吞吐量對于港口建設,運營和發展起到重要的作用。目前用于吞吐量預測的方法較多,主要有時間序列預測方法[1]、神經網絡預測方法[2]和支持向量回歸預測方法[3]等,神經網絡預測方法具有較強的非線性映射能力且擁有較強的適應能力,但需要大量的數據,訓練時間較長。時間序列預測方法對于線性數據具有較強的處理能力,挖掘其中存在的規律來預測未來數據,但需求樣本數據多且對于非線性數據擬合效果較差;支持向量回歸預測方法對非線性小樣本數據擬合效果好,但對于大樣本處理能力差。
由于港口貨物吞吐量受到多重因素的影響,因此在相關文獻研究的基礎上[4~14]提出多因素時間序列預測方法與支持向量回歸預測方法相結合的ARIMAX-SVR組合模型[15~17],組合模型將兩種模型的優點相結合,同時又彌補了兩種模型的缺點;通過文獻研究發現在同類研究中考慮多因素影響的港口吞吐量ARIMAX模型尚未有過,具備一定的先進性。通過選取天津港貨物吞吐量1999~2018年的相關數據進行實證分析來檢驗模型的準確性,旨在為港口貨物吞吐量預測提供新的方法,提高預測精度,為港口建設,運營和發展提供支撐,提高天津港的運轉效率和競爭力。
Pearson相關系數是用來反映兩個變量線性相關程度的統計量,Pearson相關系數的定義如下:

(1)

自回歸移動平均(ARMA)模型是自回歸模型和移動平均模型的結合,定義如下:
(2)
其中:yt為當前序列值,μ為常數項,p為階數,γi為自相關系數,q為階數,δi為偏相關系數,εt為殘差項。
差分自回歸移動平均(ARIMA)模型與ARMA模型的區別是ARIMA模型需要對時間序列進行d階差分使我們得到平穩的時間序列。建模過程如圖1所示:
ARIMAX模型構造前必須滿足響應序列yt和輸入變量x1t,x2t,…,xnt為平穩序列,若不是平穩序列則需采用差分使時間序列變平穩,然后再構造響應變量與輸入變量之間的模型。
(3)
其中:Θi(B)為第i個輸入變量的自回歸系數多項式,φi(B)為第i個輸入變量的移動平均系數多項式,li為第i個輸入變量的滯后階數,εt為殘差序列,Θi為殘差序列的自回歸系數多項式,φi為殘差序列的移動平均回歸系數多項式,at為零均值白噪聲序列。建模步驟如下:
第一步:對輸入變量x1t,x2t,…,xnt進行平穩性檢驗,如不平穩則進行d階差分使其平穩;
第二步:對d階差分平穩的輸入變量x1t,x2t,…,xnt構建ARMA模型并檢驗殘差序列εt是否為白噪聲序列;
第三步:利用建立的輸入變量ARMA模型擬合ARIMAX模型和殘差序列at。
支持向量機回歸(SVR)是一種非線性回歸模型,為了很好地處理非線性時間序列,需要對非線性時間序列進行分類,將時間序列從線性不可分的低維空間映射到線性可分的高維空間,首先為將時間序列映射到高維空間引入核函數,本文采用高斯核函數:
(4)
相比其他核函數而言,高斯核函數參數選擇容易。通過十折交叉驗證確定最優的核參數(懲罰因子C和容忍因子σ)。
貨物吞吐量是多重因素共同作用的結果,所以在分析時應將影響因素考慮進去,影響貨物吞吐量的因素較多,主要將其劃分為兩大類,第一類為港口自身條件因素,其中包括貨運量,貨物周轉量,萬噸級泊位數,倉庫總面積,裝卸機械臺數和水運從業人數六個影響因素;第二類為經濟腹地影響因素,包括人均生產總值,進出口貿易總額,城鎮居民人均消費支出,農村居民人均消費支出,社會消費品零售總額和交通固定資產投資六個影響因素。
選取1999~2018年度天津港相關數據(港口自身條件、經濟腹地因素)進行分析,數據均來源于國家統計年鑒和中國港口年鑒。由于2019年中國港口統計年鑒尚未公布,所以天津港2018年萬噸級泊位數,倉庫總面積,裝卸機械臺數和水運從業人數影響因素數據暫時缺失,為了保證預測結果的精度,在模型建立前選用BP神經網絡法對缺失數據進行補插,設定網絡迭代次數為5000次,期望誤差為1e-8,學習速率為0.01,隱含層神經元個數為6;利用Matlab分析軟件在分別經過204,179,572,409次訓練達到期望誤差后輸出缺失數據。訓練過程如圖2所示,誤差如圖3所示。
對數據進行Pearson相關系數分析得到表1,由此可知除去貨運量,貨物周轉量和水運從業人員外;萬噸級泊位數,倉庫總面積,裝卸機械臺數GDP,進出口貿易總額,城鎮居民人均消費支出,農村居民人均消費支出,社會消費品零售總額,交通固定資產投資9個影響因素相關系數均通過顯著性檢驗,貨運量與這9個影響因素的相關性分別為0.954,0.850,0.971,0.953,0.967,0.921,0.890,0.922,0.743。此處認定相關性大于0.9屬于強相關,由此篩選出萬噸級泊位數x1,裝卸機械臺數x2,GDPx3,進出口貿易總額x4,城鎮居民人均消費支出x5,社會消費品零售總額x66個關鍵影響因素。

表1 Pearson相關性分析
(1)平穩性檢驗
首先畫出天津港貨物吞吐量的時序圖,從圖4可以直觀看出曲線在長時期內呈現出持續上升趨勢;再通過ADF單位根檢驗得到當P值小于顯著性水平0.05時拒絕原假設,認為原始時間序列穩定,P=0.99>0.05,不拒絕原假設,認為時間序列不穩定。對時間序列進行三階差分,從圖5可以初步認為時間序列平穩,再進行ADF單位根檢驗P=0.01<0.05,拒絕原假設,三階差分后的時間序列平穩。
(2)模型定階
從自相關圖和偏相關圖(圖6)中可以看出在滯后一階后自相關縮小至零且過程不是一個突然地過程,而是一個漸變的過程,認為自相關1階拖尾;偏相關也并不是一個突然的過程,認為偏相關1階拖尾。從上述分析可以選擇模型ARIMA(1,3,1),AIC=320.78。建立模型:
yt=-0.6607yt-1-0.8746εt-1+εt,Var(εt)
=0,5514586
(3)模型檢驗
利用LB檢驗對殘差序列進行檢驗,殘差序列P=0.5553>0.05,認為殘差序列為白噪聲序列;畫出殘差的QQ圖(圖7)可以判斷圖中殘差基本落在線上,符合正態性假設;ARIMA(1,3,1)模型擬合效果好,可用作預測。
(4)模型預測
利用ARIMA(1,3,1)模型對原始時間序列做預測,預測2019~2023未來五年的天津港貨物吞吐量數據,預測相對誤差為4.55%,結果如表2所示。
(1)平穩性檢驗
擬合ARIMAX模型要求響應變量和輸入變量均為平穩序列,從2.3分析中可以得到響應變量yt的相關數據;對所需的6個輸入變量重復2.3步驟得到6個輸入變量均為非平穩序列,進行三階差分后經ADF檢驗x3=0.3502,x4=0.0853,x6=0.1579均大于0.05,但從得到的時序圖來看基本平穩(圖8),在觀測值較少的情況下顯著性水平α可適當放寬[17],所以此處認定x3,x4,x6是平穩序列。
(2)模型定階
由2.2分析結果可知,如果要建立響應變量和輸入變量的線性回歸分析模型,自變量的個數會很多,它們之間又具有高度相關性,這可能會導致參數估計遇到很大問題,所以我們采用轉移函數結構來避免上述問題的發生。
此處直接使用R語言中auto.arima函數對差分后的輸入變量進行定階,3x1的擬合模型為ARMA(1,0),AIC=117.18;3x2的擬合模型為ARMA(0,2),AIC=244.93;3x3的擬合模型為ARMA(0,0),AIC=353.25;3x4的擬合模型為ARMA(2,0),AIC=295.07;3x5的擬合模型為ARMA(0,0),AIC=264.45;3x6的擬合模型為ARMA(0,0),AIC=302.07;對殘差序列進行LB檢驗,P值(0.4308,0.9549,0.1598,0.9944,0.1545,0.1642)均顯著大于α=0.05,這表明模型擬合效果好。
對萬噸級泊位數取差分后建立擬合模型如下:
3x1t=-0.6326x1t-1+εt,Var(εt)=44.9
對裝卸機械臺數取差分后建立擬合模型如下:
3x2t=-1.4602εt-1+0.6111εt-2+εt,Var(εt)=64683
對腹地進出口貿易總額差分后建立擬合模型如下:
3x4t=-0.8476x4t-1-0.5289x4t-2+εt,Var(εt)=1359302
(3)模型擬合
根據上述分析得到的輸入變量模型,采用R語言TSA包中的arimax函數來擬合ARIMAX模型,擬合的ARIMAX模型AIC=264.99,LB檢驗殘差序列P=0.5737>0.05,這說明ARIMAX擬合效果好且該模型要明顯優于不考慮影響因素的ARIMA模型。擬合模型如下:
(4)模型預測
使用上述建立的ARIMAX模型對原始時間序列進行擬合并預測2019~2023未來五年的天津港貨物吞吐量數據,該模型的相對誤差為1.09%,預測效果要明顯優于ARIMA模型,結果見表2。
建立的ARIMAX模型對于時間序列的線性關系具有較強的處理能力,而貨物吞吐量具有隨機性和時變性的特點,為提高模型預測的精度,對ARIMAX模型得到的殘差序列運用對非線性數據處理能力較強的SVR模型進行擬合,尋求高精度的模型,降低預測誤差。預測步驟如圖9所示:
采用高斯核函數作為SVR對殘差訓練的回歸模型,為進一步降低擬合誤差,提高預測模型的精度,需要尋找最優的懲罰因子C和容忍因子σ,C和σ控制SVR模型的擬合誤差,C越大擬合誤差越小,但會導致訓練時間過長,σ值越小擬合誤差越小,但σ值太小會導致過擬合。采用十折交叉驗證方法搜尋最優參數,在經過63次迭代后得到最優參數,如圖10所示。
顏色越深表明得到的擬合誤差越小,即在C=32和σ=1時模型擬合效果最優。將十折交叉驗證法得到的最優參數C,σ帶入到修正模型中得到平均相對誤差為0.43%,結果如圖11所示,通過對比分析(表2)可得經過SVR模型修正后的ARIMAX模型精度更高。

表2 天津港貨物吞吐量預測結果
為適應經濟發展形式,以天津港為例,在建立ARIMA模型的基礎上運用Pearson相關性分析篩選出的6個對吞吐量影響較大的因素作為輸入變量,構建了ARIMAX預測模型對天津港貨物吞吐量進行預測,為保障預測結果的有效性,尋求更高精度的預測模型,降低預測誤差,引入SVR模型對ARIMAX模型進行修正,建立了ARIMAX-SVR組合模型進行預測。
從實證分析結果來看,ARIMAX-SVR組合模型精度為0.43%, ARIMAX和ARIMA精度分別為1.09%和4.55%,這說明組合模型預測效果更好,更加適用于貨物吞吐量的預測,通過該模型對未來港口貨物吞吐量進行預測,能夠較好的為港口的未來建設,經營和業務的發展提供重要借鑒意義。由于類似對模型的研究相對較少,所以該模型相較于其他同類研究具有一定的先進性。