劉擁華, 段瑞坤, 段莉珍,, 申科, 秦雅琴
(1.昆明理工大學交通工程學院, 昆明 650504; 2.云南省交通科學研究院, 昆明 650011)
近年來,受疫情和經濟下滑的影響。一些原本在高速公路上通行的車輛(尤其是收費較高的貨運車輛)為了降低出行成本,轉而選擇普通公路進行出行。不僅給普通公路造成交通擁堵,還造成普通公路管理維護壓力過大,也導致了一些地區的高速公路資源存在嚴重浪費的現象[1]。面對如此困境,2016年由交通部提出的高速公路差異化收費政策將是解決此困境最有效的手段[2]。差異化收費主要是通過經濟杠桿作用,調整貨車司機的出行時間和路徑選擇。以起到改善路網流通質量、提高物流運輸效率和降低物流運輸成本的作用[3]。目前,常見的差異化收費方式主要有分路段、分時段、分方向、分支付方式和分車型等多種方式。
既有研究已對高速公路差異化收費政策下的合理收費費率和差異化收費政策下貨車司機出行路徑選擇進行了探討。Cheng等[4]研究了考慮交通流動態演化過程,提出了最小最大后悔模型來解決擁堵狀態下不平衡交通流的動態費率。王林等[5]根據湖北省目前的分車型收費情況,提出了一種有效降低出行成本,同時確保高速公路運營企業能夠獲得一定利潤的分路段分車型的差異化收費模式。Politis等[6]分析了高速公路與平行公路之間選擇行為特征,從中發現出行時間會對貨車司機的出行決策產生重大影響。孔德學等[7]將多項Logit模型、巢式Logit與潛在類別模型相結合,刻畫出了出行方式之間的相關性與貨車司機出行選擇的偏好性。
既有研究多關注如何合理有效地確定差異化收費政策下高速公路的收費費率和差異化收費政策下貨車從高速公路轉向平行公路或者從平行公路轉向高速公路的車輛比例。較少關注差異化收費政策對貨車司機出行路徑選擇的影響程度。此外,現有的研究多是基于傳統的統計模型分析差異化收費對貨車司機路徑選擇行為的影響,其模型結果僅給出差異化收費變量與貨車司機出行路徑選擇之間的統計顯著性。無法量化各個屬性變量對貨車司機出行路徑選擇的影響程度[8-9]。因此,有必要構建目前正處于如火如荼的機器學習模型來量化捕捉差異化收費變量對貨車司機出行路徑選擇的影響程度,從而為差異化收費政策的有效實施提供有效的理論依據[10]。
對銀昆高速(G85)昭通至水富段實行分路段差異化收費方式,其具體措施是在該路段原費率的基礎上進行打折活動。為了確定分路段差異化收費條件下,貨車司機出行路徑選擇的影響因素,對銀昆高速(G85)昭通至水富段及麻水線與昭麻二級路等相關道路上展開問卷意向調查。在調查過程中發現銀昆高速(G85)的平行路段麻水線與昭麻二級路在不同的地點道路條件存在較大的差異。為了得到更加真實反映差異化收費條件下,貨車司機的出行意向選擇。分別在昭通南站、靖安站、大關站、岔河站與廟口站展開問卷調查。本次調查分別在每個站點發放問卷132份,發放問卷合計660份,有效問卷636份,問卷有效率為96.36%[11-12]。有效問卷統計性描述如表1所示。

表1 問卷統計描述信息Table 1 Statistical description of questionnaire
從貨車駕駛員出行選擇行為產生的內在動力和外生環境出發,車貨屬性特征和出行特征作為內在因素影響其出行選擇行為,而分路段差異化收費政策則作為貨車駕駛員出行選擇行為的外部因素,因此將解釋變量分為分路段差異化收費變量和非分路段差異化收費變量兩類,共同納入研究的范疇。其中,車貨屬性特征和出行特征指標依據現有的分路段差異化收費條件下貨車出行行為研究選取[1,7,10],分路段差異化收費的描述指標則選取優惠折扣、收費費率、出行費用、出行距離和是否關注差異化收費政策這五項指標,其變量描述性統計結果如表2所示。
由于影響因素的單位和數量級等存在較大的差異,傳統的統計模型很難估計出分路段差異化收費變量對被解釋變量的影響程度[13]。現構建隨機森林(random forest,RF)模型來分析分路段差異化收費對貨車司機路徑選擇行為的影響程度。RF是在Bagging集成的基礎上,進一步在決策樹的訓練過程中引入隨機變量。RF模型在特征變量重要度選擇方面具有高精度、高效率等特點[14]。以及能反向評估各個輸入參數對目標值的相對重要性,對于各變量之間的多重共線性具有一定的包容性。同時,RF模型對噪聲數據和不平衡數據具有很好的預測效果。十分符合本研究數據類型和模型構建的思想。

表2 變量描述表Table 2 Variable description table
隨機森林是由多棵決策樹{h(X,θk),k=1,2,3,…}組成的集成算法,其中h()為聯合熵;X、θk為隨機變量,決定了訓練集的隨機抽取和候選分裂屬性的隨機選擇。隨機森林算法的具體過程如圖1所示[14-15]。
(1)將原始數據集按照8∶2的比例劃分成為訓練數據集和測試數據集。

圖1 隨機森林構建過程Fig.1 Random forest construction process
(2)從劃分好的訓練數據集中隨機選取N個訓練數據集樣本,得到一個自助訓練集L[14]。
(3)用L作為訓練數據,建立決策樹T。然后針對每個分析節點,在M個特征屬性中隨機選取m個特征屬性,作為候選分裂的屬性。根據Gini指數,在m個特征或屬性變量中選取一種加以拆分。然后重復以上步驟,直到樹可以對所有測試數據作出正確劃分[14]。
以銀昆高速(G85)昭通至水富段及麻水線與昭麻二級路問卷調查數據為基礎進行實證分析。分路段差異化收費條件下,貨車司機選擇高速公路進行出行的意向在模型中體現為肯定類別的發生概率,當概率越接近1時,分路段差異化收費條件下,貨車司機選擇高速公路出行的意愿越強烈[15]。
模型超參數的選取會極大地影響模型的預測效果。在現有的研究中,模型超參數的選取主要依賴于經驗[15-16],這可能會影響模型的整體效果。為了得到更加準確的預測結果,采用網格搜索法對所有超參數組合進行交叉驗證,并以錯誤率為判斷依據[17]。對RF模型的樹的數量和最大特征值這兩個超參數進行優化。調參過程如圖2所示。從圖2中可以看出最佳超參數取值為樹的數量191、最大特征值2。
本文討論的對象為分路段差異化收費條件下貨車司機出行路徑選擇意愿,為二分類變量,RF模型在python中的Scikit-learn庫中求解。模型的整體結果如表3所示。

圖2 超參數調整過程Fig.2 Super parameter adjustment process

表3 模型整體結果Table 3 Overall results of the mode
從相對重要度的角度來看,優惠折扣是影響貨車司機出行路徑選擇的重要因素,其貢獻程度為38.56%,其次是出行費用和出行距離,其貢獻程度分別為13.55%和10.06%,這表明大多數貨車司機在出行路徑選擇時,首要考慮其經濟性和時效性。出行時段和車貨總重的相對重要度相近,在5%~7.1%之間,這表明出行時段和車貨總重對貨車司機出行路徑的選擇會產生較為重要的影響。其次是車輛類型(3.45%)、不走高速公路的原因(3.14%)、收費費率(2.89%)和是否關注差異化收費政策(2.85%)。
通過調用RF模型中的部分函數依賴PDP (partial dependence plot)方法,來探討解釋變量與貨車司機出行路徑選擇之間的關系。
3.3.1 出行費用
從圖3可以看出,出行費用與貨車司機出行路徑選擇之間存在著明顯的閾值效應,當出行費用大于200元時,貨車司機選擇高速公路出行的概率明顯降低;當出行費用在0~600元時,出行費用對貨車司機出行路徑選擇影響較為明顯,而當出行費用達到600元以上時,出行費用對貨車司機出行路徑選擇影響不明顯。
3.3.2 出行距離
從圖4可以看出,出行距離與貨車司機出行路徑選擇之間存在明顯的閾值效應,當出行距離大于200 km時,貨車司機選擇高速公路出行的概率明顯降低;當出行距離在0~160 km時,出行距離對貨車司機出行路徑選擇影響較為明顯,而當出行距離達到160 km以上時,出行距離對貨車司機出行路徑選擇影響不明顯。

圖3 出行費用與貨車司機出行路徑選擇的關系Fig.3 The relationship between travel cost and truck driver’s travel route choice

圖4 出行距離與貨車司機出行路徑選擇的關系Fig.4 The relationship between travel distance and truck driver’s travel route choice
3.3.3 優惠折扣
從圖5可以看出,優惠折扣與貨車司機出行路徑選擇之間存在明顯的閾值效應,當優惠折扣為5~6折,貨車司機選擇高速公路進行出行的概率高達89.3%和81.6%,而當優惠折扣為8折和9折時,貨車司機選擇高速公路出行的概率僅為35.5%和22.6%。該分析結果與整體效應分析的結果相一致,優惠折扣對貨車司機出行路徑選擇會產生較大。

圖5 優惠折扣與貨車司機出行路徑選擇的關系Fig.5 The relationship between preferential discount and travel route choice of truck drivers
為得到最準確預測貨車司機出行路徑選擇的方法,選擇目前最為常用的隨機森林法(RF)、迭代算法(AdaBoost)、梯度提升迭代決策樹(gradient boosting decision tree,GBDT)和傳統Logit模型,通過使用相同的訓練數據集和測試數據集來訓練這些模型并評估其性能。
AdaBoost在處理分類問題時,首先會給不同的樣本附上一個不同的權重,被分錯樣本的權重在Boosting過程中會被放大,因此新得到的模型會更加關注這些被分錯的樣本。而被分正確的樣本的權重在Boosting過程中會變小。接下來AdaBoost算法會將新得到的權重輸入新的模型中進行訓練,從而得到基模型。最后AdaBoost將這些基模型組合起來,并根據錯誤率賦予不同的權重集合成新模型[18]。
GBDT算法與AdaBoost算法不同,GBDT算法會在加權的基礎上定義一個損失函數,并對損失和機器學習所得到的函數進行求導,新生成的模型都是沿著基模型負梯度方向進行優化,直到找到最優的模型。
NL模型是一種統計回歸分析模型,它會給出每個選項的選擇概率,作為所有選項的效用函數。本文中采用最大似然法來對模型進行估計。
為了更加科學地進行模型性能比較,使用精確率(precision)、召回率(recall)和AUC(area under curve)值對模型的性能進行比較。基于混淆矩陣計算這3個性能度量指標[19]。
(1)混淆矩陣。混淆矩陣是機器學習模型的原始基礎之一,也是推導后續一系列評估指標的基礎。其具體的混淆矩陣如表4所示[18]。

表4 混淆矩陣Table 4 Confusion matrix
(2)精確率。根據混淆矩陣,很容易計算出精確率。計算公式為

(1)
(3)召回率。根據混淆矩陣,計算公式為

(2)
(4)AUC指標。在坐標軸中繪制的ROC(receiver operating characteristic)曲線依賴FPR、TPR這兩個指標,其計算公式為

(3)

(4)
將FPR值作為橫坐標,TPR值作為縱坐標,可得到一個二維坐標系。將機器學習模型得到的FPR值與TPR值映射到這個二維坐標系中,用一條曲線將其連接起來便得到了ROC曲線,而AUC值則是ROC曲線與橫坐標圍成的面積[19]。
圖6所示為RF模型、AdaBoost模型、GBDT模型和傳統Logit模型的性能對比結果圖,可以觀察到RF模型的精確率(precision)、召回率(recall)、AUC值高于AdaBoost模型、GBDT模型和傳統Logit模型。

圖6 模型性能對比結果圖Fig.6 Comparison results of model performance
因此,本文構建的分路段差異化收費條件下貨車出行路徑選擇的RF模型具有較高的可靠性。
(1)以銀昆高速(G85)昭通至水富段及麻水線與昭麻二級路問卷調查數據為基礎,對分路段差異化收費條件下,貨車司機出行路徑選擇進行建模,模型整體結果表明,所構建的RF模型具有較高的預測精度,同時非線性模型也能夠很好的捕捉分路段差異化收費條件下,貨車司機選擇高速公路出行的變化趨勢。
(2)相對重要度方面,優惠折扣是影響貨車司機出行路徑選擇最重要的因素(38.56%),其次是出行費用(13.55%),出行距離(10.06%)以及出行時段(7.08%)對貨車司機出行路徑選擇的影響也較為顯著。
(3)邊際效應分析表明,當出行費用大于200元時,貨車司機選擇高速公路進行出行的概率將明顯降低;當出行距離在0~160 km時,貨車司機選擇高速公路進行出行的概率波動較大;當優惠折扣大于7折,貨車司機選擇高速公路進行出行的概率將明顯提升。
(4)模型性能對比結果表明。本文所構建的分路段差異化收費條件下貨車司機出行路徑選擇的RF模型的分類準確率優于AdaBoost模型、GBDT模型和傳統Logit模型。