劉笑佟,任 爽
(北京交通大學 計算機與信息技術學院,北京 100044)
鐵路貨運需求是全社會貨運需求的重要組成部分,是衡量鐵路貨運發展的重要指標,是度量鐵路在運輸行業競爭力的關鍵核心要素,對貨運需求及其發展趨向的精確預測與把握,是投資鐵路建設的基礎[1],也是鐵路企業對鐵路制定發展規劃的重要依據。因此不斷探索鐵路貨運需求預測的新思想、新方法,科學合理地預測鐵路貨運需求顯得尤為重要。
當前國內外學者采用不同的方法對鐵路貨運進行需求預測。張誠等基于粗糙集理論建立鐵路貨運需求預測知識庫,提高鐵路貨運量預測可靠性[2];K.V.Rudakov等[3]從時間序列角度出發,根據向量自回歸、直方圖等非參數預測建立短期貨運量運輸模型;Yang Y等[4]運用四種不同的回歸方法對鐵路貨運量進行預測,結果顯示改進的偏最小二乘回歸效果最佳;崔乃丹等[5]應用改進的GM(1,1)模型預測鐵路貨運量,相對于直接應用灰色GM(1,1)模型,其結果精度更高;Sun Y[6]等克服傳統預測方法局限性,設計了四種具有較高預測精度的人工網絡預測模型,以廣義回歸網絡模型最佳;Li X[7]等建立支持向量機和NARX神經網絡組合預測模型得到較好的預測結果;袁勝強等[8]通過馬爾科夫鏈改進灰色Verhulst模型,提高灰色Verhulst模型的預測精度。
既有的研究工作主要針對鐵路貨運量進行預測,但是由于鐵路貨運系統具有復雜性、動態性和不確定性[9],其單一值形式很難真正反應鐵路貨運的需求[10],而貨運需求才是鐵路制定發展規劃的重要依據。為了合理掌握貨運需求的變化范圍,針對系統中的不確定性因素,采用相應的數學工具對其進行描述。不確定理論與概率論都是用來解決不確定性,但有本質區別。概率論是以歷史數據參考統計規律的前提下,進行大量重復獨立試驗或觀察呈現出固有的統計規律得到數值,這限制了方法的使用范圍。而不確定理論是在缺乏歷史數據,無法通過估計的概率分布得到長期積累的頻率,在系統帶有不確定的情況下,借助信度建模來解決不確定性。
目前,我國學者將不確定理論運用到預測領域的多個方向。李曉娜[11]運用不確定理論構建基于對稱三角不確定集的需水量預測模型,分析城市缺水形勢;陳重[12]等應用不確定理論建立基于模糊阻抗函數的路網分配模型對交通流預測;徐春霞[13]等將德爾菲法和不確定理論結合得到預測GDP的新方法。通過對基于不確定理論的預測模型的檢驗,模型都有較高的精確度。為準確掌握貨運需求的變化范圍,采用不確定理論來解決鐵路貨運系統的不確定性。
因此面對鐵路貨運需求的復雜變化,本文通過定性梳理鐵路貨運需求的相關社會指標,采用Pearson相關分析定量計算鐵路貨運需求與指標間的相關系數,從而確定七個關鍵影響因素;然后結合不確定理論構建不確定多元線性回歸模型,利用中國統計局年鑒數據,對鐵路貨運需求進行預測,結合信度算得貨運需求預測值,并與其他方法的預測結果進行精度對比。
鐵路貨運需求是由于人民生活和社會生產需要等而產生的鐵路運輸需求量,與相關社會指標有著密切的關系,因受經濟等諸多社會指標影響,有其自身的波動區間范圍,即貨運需求產生的實際貨運量,受到較多不確定因素的影響,同時由于經濟環境、公路貨運、水路貨運以及民航貨運等影響,鐵路貨運需求也存在一定的不確定性。
要建立鐵路貨運需求的多元線性回歸預測模型,必然要考慮到鐵路貨運需求的影響因素[14]。根據相關文獻的分析總結,定性分析貨運需求的影響因素,主要從宏觀經濟、市場供需、物流環境、鐵路供給4個一級指標來進行構建貨運需求預測指標。宏觀經濟方面包括國家財政總收入、國內生產總值、第二產業生產總值、人口數量、居民消費水平5個二級指標,市場供需方面包括全國原油產量、全國原煤產量、全國鋼鐵產量、全國糧食產量4個二級指標,物流環境方面包括公路貨運量、水路貨運量、民航貨運量3個二級指標,鐵路供給方面包括鐵路運營里程1個二級指標,共13個可量化的相關社會指標。
從理論上來說,一般模型的影響因素越多,預測結果會更加精確,但實際預測過程中如果影響因素過多,預測模型可能過于復雜而不能得到有效的結論,無法解決實際問題[15],所以在篩選影響因素時,要盡可能選擇合理的影響因素數量,并使影響因素具有代表性。因此僅僅通過初步構建的指標體系進行貨運需求預測致使結果可靠性過低,有必要衡量各個相關社會指標對于鐵路貨運需求的影響程度,通過Pearson相關性分析定量篩選得到更具有針對性、更與研究對象聯系密切的影響因素,構建鐵路貨運的需求影響因素指標體系。
Pearson相關性分析本質上是統計學方法中用來度量兩個變量之間的相互關系,取值范圍介于-1和+1之間,在學術研究中被普遍應用于衡量兩個變量之間的相關強度。
(1)數據標準化處理


第j年鐵路貨運需求無量綱化值為
第i相關社會指標無量綱化值為
(2)相關系數計算
第i相關社會指標與鐵路貨運需求的Pearson相關系數為

通過Pearson相關系數計算,采用2004~2016年的中國統計年鑒數據,得到每個相關社會指標與鐵路貨運需求的相關系數。因為鐵路貨運需求沒有準確的歷史數據,是以歷史貨運量代替貨運需求進行相關系數計算,計算結果詳細見表1。

表1 相關系數
相關系數的數值越大表明相關社會指標對于鐵路貨運需求影響程度越強[16],通常當相關系數大于0.6時表明具有較高關聯。由表1所示,通過分析選擇相關系數大于0.75的相關社會指標作為關鍵影響因素,即選取第二產業生產總值、全國原油產量、全國原煤產量、全國鋼鐵產量、全國糧食產量、公路貨運量、民航貨運量7個指標作為自變量來預測鐵路貨運需求。
于2007年創立的不確定理論通過刻畫信度處理不確定問題,已經廣泛應用于不確定規劃[17]、交通運輸[18,19]、工程調度、投資組合[20]、金融[21]、生產計劃等領域。本節簡要給出其公理體系和一些概念性質。
設Γ是一個非空集合,集合L是由Γ的子集構成的一個σ代數,L中的每個元素Λ被稱為事件,為每個事件Λ賦值M{Λ}用來表示事件Λ發生的信度。為確保M{Λ}具有一定數學性質,提出以下不確定理論公理[22,23]:
公理1(規范性公理)對于論域集Γ,有M{Γ}=1;
公理2(對偶性公理)對于任意事件Λ∈L,有M{Λ}+ M{Λc}=1;

滿足規范性、對偶性以及次可列可加性的集函數M為Γ上的不確定測度,此時稱三元組 (Γ,L,M)為一個不確定空間。

定義1[Liu] 不確定變量ξ的不確定分布Φ定義為Φ(x)=M{ξ≤x} ,其中,x為任意實數。
定義2[Liu] 不確定變量ξ稱為線性不確定變量,當其具有線性不確定分布
記為L(a,b),其中a和b為實數,且a

圖1 線性不確定分布
定理1[Liu] 假設ξ1和ξ2為獨立的線性不確定變量L(a1,b1)和L(a2,b2),那么ξ1+ξ2也為線性的不確定變量L(a1+a2,b1+b2),即L(a1,b1)+L(a2,b2)=L(a1+a2,b1+b2);線性不確定變量L(a,b)和k>0的乘積也是線性不確定變量L(ka,kb),即kL(a,b)=L(ka,kb)。
設鐵路貨運需求yj與關鍵影響因素的關系為
yj=A1xj1+A2xj2+A3xj3+A4xj4+
A5xj5+A6xj6+A7xj7
(1)
式中:xj1為第二產業生產總值;xj2為全國原油產量;xj3為全國原煤產量;xj4為全國鋼鐵產量;xj5為全國糧食產量;xj6為公路貨運量;xj7為民航貨運量;A1~A7分別為與xj1~xj7對應的回歸系數。
上述式(1)的確定型回歸分析是利用歷史鐵路貨運量和各因素數據來確定回歸系數Ai(1≤i≤7)。而鐵路貨運需求沒有準確的歷史數據,需要通過不確定變量表示描述。

(2)
記為L(ai,bi),ai (3) 模型的求解主要在于參數a1,…,a7以及b1,…,b7的確定,為求解模型引入不確定幅度以及綜合不確定幅度。 定義3不確定幅度f是不確定系數的變化范圍距離,即f=b-a,其中b,a是不確定變量的上界與下界,即為不確定系數的上界與下界。 (4) 同時,模型要滿足3個約束條件: (1)設有預先給定的信度H(0≤H≤1),對于任意一組自變量yj以及因變量(xj1,xj2,…,xj7)而言,則有 (5) (2)根據不確定變量的定義,其相關參數要滿足以下條件 ai (6) (7) 根據以上不確定多元線性回歸求解的中心思想,將不確定多元線性回歸模型轉化為在滿足一定約束條件下,以預測系數的綜合不確定幅度最小化為目標的線性規劃問題。則不確定多元線性回歸模型為 (8) 為驗證上述模型和方法,采用中國統計局的統計年鑒2004~2016年的全國鐵路貨運量以及關鍵影響因素數值作為樣本集,其中選取2004~2014年的數據作為原始數據訓練模型,2015年、2016年數據作為預測驗證數據。2004~2016年,全國鐵路貨運量與關鍵影響因素數據見表2。 表2 2004~2016年的全國統計數據 采用上述表2中2004~2014年數據,鐵路貨運量為因變量,其他7個關鍵影響因素為自變量,構造確定型多元線性回歸方程,通過回歸分析,得到多元線性回歸方程: yj=-0.259xj1-5.515xj2+1.480xj3-0.173xj4 +3.014xj5-0.002xj6+167.497xj7 (9) 進而通過計算,不確定多元線性回歸模型的不確定幅度權重見表3。 表3 不確定幅度權重 由于外界因素復雜變化,專家需要根據影響指標變化以及鐵路貨運變化等條件綜合判斷所預測數值的信度取值。通過考慮鐵路貨運需求歷史數據以及相關因素數據的發展趨勢來看,如果鐵路貨運量的處于一直上升趨勢,則對于預測數據的可取的較高信度。在2004~2011年鐵路貨運量整體上呈上升趨勢,在2011~2014年呈下降趨勢,其他運輸方式爭搶貨源,同時大宗貨運的運輸量部分減少對于鐵路貨運需求產生影響,則利用往年數據訓練的模型預測的未來貨運需求信度不可能取得1,根據專家對于整體形式的認識來判斷信度的取值。 則通過綜合分析判斷,對于鐵路2004~2014運輸需求預測值的信度取值為0.95,即 而鐵路2015年、2016年運輸需求預測值的信度取值為0.6,即 為了更好地說明預測模型的精度,引用以下評價指標: 將預測結果與多元線性回歸模型、BP模型以及實際值進行對比,如圖2所示。 圖2 模型預測結果比較 對不確定線性回歸、多元線性回歸以及BP模型進行預測結果精度對比分析,其評價指標如表4以及圖3所示。 表4 評價指標值比較 圖3 模型預測值與實際值相對誤差比較 從圖2可以看出,使用2004~2014年原始數據訓練的三種模型,對于2004~2014的預測值與實際值相比擬合度都很高,但是對于2015、2016兩年,多元線性回歸以及BP模型的貨運量預測值與實際值之間誤差較大。從表4和圖3可以看出,這兩種模型的貨運量預測值與實際值的相對誤差都達到10%以上,而且誤差波動較大,因為這兩種模型只能根據歷史總體趨勢實現預測,不能很好應對鐵路貨運需求的不確定性和動態性。 而不確定多元線性回歸對于2015、2016兩年的預測誤差都能控制在4%之內,最大絕對相對誤差為6.01%,其相對誤差平方和均方根在三個模型中達到最低,為3.03%,比多元線性回歸模型的預測精確度高2.2%,比BP模型精確度高1.7%。則說明不確定多元線性回歸能很好的應對鐵路貨運量的不確定性,不僅貨運量的實際值包含在貨運需求區間內,而且通過判斷信度的取值計算預測值,與實際值的趨勢趨于一致,整體預測效果比較穩定,預測相對誤差波動比較穩定,泛化能力比較強,預測的精確性高。 本文以全國鐵路貨運需求為例,通過定性分析與Pearson相關性定量分析結合選取第二產業生產總值、全國原油產量、全國原煤產量、全國鋼鐵產量、全國糧食產量、公路貨運量、民航貨運量作為關鍵影響因素,建立鐵路貨運需求與關鍵影響因素之間的不確定多元線性回歸模型,并進行預測,得到貨運需求預測區間。結合信度,將該模型預測結果與其他模型的預測結果進行誤差比較,結果證明不確定多元線性回歸模型有更高的可靠性與精確度,可以很好的應對鐵路貨運需求的動態性[24]。 當然,在貨運需求預測方面還有許多地方要繼續研究,存在不足。比如影響因素還需要通過研究進一步擴展;優化基于不確定理論的鐵路貨運需求預測模型的結果區間,使預測結果更加精確。

2.3 模型求解




3 應用實例
3.1 數據來源

3.2 權重計算

3.3 模型計算與結果比較




4 結論