陳建雄, 徐延軍,2
(1.上海船舶運(yùn)輸科學(xué)研究所有限公司, 上海 200135;2.中遠(yuǎn)海運(yùn)科技股份有限公司, 上海 200135)
近年來,收費(fèi)系統(tǒng)在我國高速公路運(yùn)營管理系統(tǒng)中的應(yīng)用不斷增多,電子不停車收費(fèi)(Electronic Toll Collection,ETC)技術(shù)在汽車上的普及率不斷提高。高速公路收費(fèi)站出入口作為交通路網(wǎng)的敏感點(diǎn),經(jīng)常出現(xiàn)擁堵現(xiàn)象,特別是在節(jié)假日期間,承受著巨大的車流壓力。與此同時(shí),收費(fèi)站出入口會產(chǎn)生大量交易數(shù)據(jù),其中包含詳細(xì)的車輛信息,相比通過傳感器得到的數(shù)據(jù),這些數(shù)據(jù)更加準(zhǔn)確可靠,且獲取的成本較低,如何高效合理地利用這些數(shù)據(jù)已成為研究的熱點(diǎn)。目前國內(nèi)外學(xué)者已針對收費(fèi)站交通流量、通行能力等內(nèi)容開展諸多研究。KOMADA等[1]證明了ETC和人工半自動(dòng)收費(fèi)(Manual Toll Collection,MTC)2類收費(fèi)車道的基本圖與對應(yīng)車輛的密度和比例有很強(qiáng)的相關(guān)性;孫德強(qiáng)[2]基于收費(fèi)數(shù)據(jù),從不同的時(shí)間維度(周、日、時(shí))分析了高速公路的交通流特征,對收費(fèi)人員排班模型進(jìn)行了優(yōu)化。本文主要對收費(fèi)站出入口交通流量進(jìn)行研究,通過現(xiàn)有的數(shù)據(jù)挖掘和分析方法挖掘這些數(shù)據(jù)中隱藏的可靠信息,如相關(guān)性、周期性等;同時(shí),對收費(fèi)站出入口交通流量進(jìn)行預(yù)測,幫助出行者規(guī)劃出行時(shí)間和路線,分散出入口的交通壓力,為交通管理者的管理決策提供參考。
本文以寧夏自治區(qū)銀川南收費(fèi)站2021年的收費(fèi)數(shù)據(jù)為研究對象進(jìn)行分析。收費(fèi)系統(tǒng)一般以1個(gè)工班日為單位統(tǒng)計(jì)收費(fèi)站入口和出口全年的車流量,共有365條記錄,每條記錄中都包含時(shí)間、入口車流量和出口車流量等信息。
圖像觀測法的原理是直接繪制散點(diǎn)圖,其優(yōu)點(diǎn)是形象直觀,不足是缺少對相關(guān)參數(shù)的數(shù)據(jù)化度量。本文將收費(fèi)站入口交通流量x作為自變量,將收費(fèi)站出口交通流量y作為因變量,得到出入口交通流量散點(diǎn)圖見圖1。從圖1中可看出,收費(fèi)站出入口交通流量之間存在明顯的正相關(guān)性,但對二者之間的相關(guān)度和相關(guān)可信度沒有數(shù)據(jù)化的度量。

圖1 出入口交通流量散點(diǎn)圖
科學(xué)計(jì)算法的原理是通過具體的數(shù)學(xué)計(jì)算方式揭示各變量之間的相關(guān)性[3],通過該方法可得到以下2個(gè)重要指標(biāo):
1) 皮爾森(Pearson)相關(guān)系數(shù)r,可準(zhǔn)確地反映變量之間的相關(guān)程度,其值為[-1,1];
2) 顯著性水平p,用來衡量變量之間的關(guān)系,具體指不相關(guān)的概率,若相關(guān)系數(shù)為1,則p=0。

圖2 出入口交通流量皮爾森相關(guān)系數(shù)
在統(tǒng)計(jì)學(xué)中,一般當(dāng)p>0.05時(shí),數(shù)據(jù)之間的差異無顯著意義,這種結(jié)果可能是某種偶然因素導(dǎo)致的,不具有統(tǒng)計(jì)學(xué)意義[4]。
r的計(jì)算公式為
(1)

通過計(jì)算得到出入口交通流量皮爾森相關(guān)系數(shù)見圖2。從圖2中可看出,出入口交通流量之間的皮爾森相關(guān)系數(shù)為0.84。
通過T檢驗(yàn)得到p=5.66×10-97,遠(yuǎn)小于0.05,說明收費(fèi)站出入口交通流量之間確實(shí)存在關(guān)系。一般用r的取值范圍判斷變量間的相關(guān)程度[5],收費(fèi)站出入口交通流量之間的關(guān)系見表1。

表1 收費(fèi)站出入口交通流量之間的關(guān)系
綜上所述,通過采用圖像觀測法和科學(xué)計(jì)算法進(jìn)行驗(yàn)證,可知銀川南收費(fèi)站出入口交通流量之間存在著明顯的正相關(guān)關(guān)系。
根據(jù)全年365 d的收費(fèi)站出入口交通流量數(shù)據(jù)得到出入口交通流量變化圖見圖3。選擇具有明顯規(guī)律性的部分作放大處理,觀察其變化是否存在規(guī)律。由圖3可知,出入口交通流量的變化存在周期性,周期為3~7 d。

a) 出口交通流量變化及部分放大圖

b) 入口交通流量變化及部分放大圖
將時(shí)序數(shù)據(jù)轉(zhuǎn)換為三角函數(shù)的線性組合,得到的各展開項(xiàng)的系數(shù)就是傅里葉系數(shù)。傅里葉系數(shù)越大,表明其對應(yīng)的正弦波的周期越有可能是這份數(shù)據(jù)的周期。通過傅里葉變換得到傅里葉系數(shù)中最大的前10個(gè)值和對應(yīng)的周期,分別對應(yīng)出口交通流量數(shù)據(jù)和入口交通流量數(shù)據(jù),見表2和表3。

表2 出口交通流量對應(yīng)的傅里葉系數(shù)和可能的周期

表3 入口交通流量對應(yīng)的傅里葉系數(shù)和可能的周期
為保證得到的周期性結(jié)果可靠、準(zhǔn)確,需對上文得到的可能的周期進(jìn)行自相關(guān)系數(shù)計(jì)算。自相關(guān)系數(shù)的計(jì)算公式為
(2)

通過計(jì)算得到出入口交通流量可能的周期對應(yīng)的自相關(guān)系數(shù),見表4和表5。由表4和表5可知:出口交通流量的周期為7 d、3 d和14 d時(shí)自相關(guān)程度較高,入口交通流量的周期為7 d、3 d和11 d時(shí)自相關(guān)程度較高。結(jié)合自相關(guān)系數(shù)的絕對值越大,相關(guān)程度越高,越有可能是交通流量周期的性質(zhì),得出銀川南收費(fèi)站出入口交通流量周期均為7 d(1周),以周為單位呈現(xiàn)出重復(fù)性,這主要是受1周內(nèi)的工作日和休息日的影響,特別是在周五和周日易出現(xiàn)出行高峰。
采用隨機(jī)森林方式對原始數(shù)據(jù)進(jìn)行預(yù)處理之后,得到收費(fèi)站出入口交通流量的完整數(shù)據(jù),基于此對未來出入口7 d內(nèi)的交通流量進(jìn)行預(yù)測,采用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型[6]。在模型中加入一個(gè)判斷信息是否有用的“處理器”,稱為記憶單元(Memory Cell),其結(jié)構(gòu)見圖4。
由于工作時(shí)間比較統(tǒng)一,相同收費(fèi)站的出入口交通流量表現(xiàn)出周期性的通暢、擁擠等現(xiàn)象,周期為1周。

表5 入口交通流量的自相關(guān)系數(shù)和可能的周期

圖4 LSTM網(wǎng)絡(luò)模型記憶單元結(jié)構(gòu)
例如,本周五的交通模式一般與上周五的交通模式相似,而與周末的交通模式差別較大,需將該現(xiàn)象添加到LSTM網(wǎng)絡(luò)模型中[7],以提升模型的預(yù)測精度。LSTM網(wǎng)絡(luò)模型在處理時(shí)間序列數(shù)據(jù)時(shí),隨著數(shù)據(jù)長度的增加,周期性的影響會逐漸減弱,因此需對預(yù)測目標(biāo)的相同時(shí)間進(jìn)行建模(即周一對周一);同時(shí),收費(fèi)站出入口交通流量數(shù)據(jù)并非呈現(xiàn)嚴(yán)格的周期性,易受交通突發(fā)事件、交通擁堵和疫情防控等因素的影響,即出入口交通流量并非嚴(yán)格以7 d為周期變化,因此需通過注意力機(jī)制[7]解決該問題。
采用Z-score標(biāo)準(zhǔn)化方法對填補(bǔ)好的完整數(shù)據(jù)進(jìn)行歸一化處理,使其符合標(biāo)準(zhǔn)正態(tài)分布,計(jì)算公式為
(3)
對數(shù)據(jù)集進(jìn)行劃分:將數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集;將另外20%的數(shù)據(jù)作為測試集。創(chuàng)建LSTM網(wǎng)絡(luò)模型,采用前28 d的交通流量預(yù)測未來7 d的交通流量,訓(xùn)練過程見圖5。
在訓(xùn)練階段,使收費(fèi)站出入口的實(shí)際交通流量與預(yù)測交通流量的偏差最小[8],模型的損失函數(shù)為
(4)



圖6 LSTM網(wǎng)絡(luò)模型預(yù)測值與實(shí)際值對比(出口)
1) 平均絕對誤差EMA,其表達(dá)式為
(5)
2) 均方根誤差ERMS,其表達(dá)式為
(6)
3) 對稱平均絕對百分比誤差ESMAP,其表達(dá)式為
(7)
4) 決定系數(shù)R2,其表達(dá)式為
(8)
式(5)~式(8)中:EMA的取值范圍為[0,+∞),其值越大,說明模型的預(yù)測誤差越大;ERMS的取值范圍為[0,+∞),其值越小,說明模型的預(yù)測精度越高;ESMAP的取值范圍為[0,+∞),其值為0表示模型為完美模型,其值大于100%表示模型為劣質(zhì)模型[10];一般而言,當(dāng)R2>0.4時(shí),可認(rèn)定模型的擬合效果較好。
出口交通流量評估結(jié)果見表6。由表6可知:R2在訓(xùn)練集和測試集中均大于0.4,說明模型的擬合效果較好;EMA和ERMS相對較低,預(yù)測結(jié)果與真實(shí)值比較吻合[10];ESMAP在訓(xùn)練集和測試集中均小于0.400 0,表明模型在收費(fèi)站出口交通流量預(yù)測中效果良好。

表6 出口交通流量評估結(jié)果
按以上處理和訓(xùn)練步驟對入口交通流量進(jìn)行預(yù)測分析,同時(shí)利用以上指標(biāo)對模型進(jìn)行評估分析。通過LSTM網(wǎng)絡(luò)模型對入口交通流量進(jìn)行預(yù)測,入口交通流量評估結(jié)果見表7,預(yù)測值與實(shí)際值對比見圖7。由表7和圖7可知:在訓(xùn)練集和測試集中,R2均大于0.4,說明模型的擬合效果較好;EMA、ERMS和ESMAP等3個(gè)指標(biāo)的值均處于理想狀態(tài),表明模型在收費(fèi)站入口交通流量預(yù)測中效果良好,誤差在可接受范圍內(nèi)。

表7 入口交通流量評估結(jié)果
為進(jìn)一步驗(yàn)證預(yù)測模型的可靠性,增加跨年度數(shù)據(jù)進(jìn)行交通流量預(yù)測。仍以銀川南收費(fèi)站的收費(fèi)數(shù)據(jù)為研究對象,按以上研究思路和方法對2020年3月1日至2021年6月1日的收費(fèi)站出入口交通流進(jìn)行預(yù)測,得到損失函數(shù)值變化曲線見圖8。由圖8可知,損失函數(shù)值在訓(xùn)練次數(shù)約為8次時(shí)達(dá)到低點(diǎn),并一直保持收斂狀態(tài),誤差較小且穩(wěn)定。同樣采用上述4個(gè)指標(biāo)對模型的預(yù)測效果進(jìn)行評價(jià),結(jié)果見表8。通過對比可知,4個(gè)評價(jià)指標(biāo)的值均在合理范圍內(nèi),未出現(xiàn)異常值,基于跨年度數(shù)據(jù)的模型依然表現(xiàn)出良好的預(yù)測性能。綜上,將周期性現(xiàn)象融入LSTM網(wǎng)絡(luò)模型中,對未來7 d內(nèi)的收費(fèi)站出入口交通流量進(jìn)行預(yù)測,不論是針對全年數(shù)據(jù)還是跨年度數(shù)據(jù),模型的預(yù)測效果都良好,可準(zhǔn)確預(yù)測未來7 d的交通流量。

圖7 LSTM網(wǎng)絡(luò)模型預(yù)測值與實(shí)際值對比(入口)

圖8 損失函數(shù)值變化曲線

表8 基于整年數(shù)據(jù)與跨年度數(shù)據(jù)的LSTM網(wǎng)絡(luò)模型出入口交通流量預(yù)測效果對比
本文以寧夏回族自治區(qū)銀川南收費(fèi)站的收費(fèi)數(shù)據(jù)為研究對象,對收費(fèi)站出入口交通流量進(jìn)行相關(guān)性分析、周期性分析和預(yù)測,主要得到以下結(jié)論:
1) 收費(fèi)站出入口交通流量的Pearson相關(guān)系數(shù)為0.84,具有極強(qiáng)的相關(guān)性,出入口交通流量相互影響;
2) 收費(fèi)站出口交通流量的變化周期為7 d,入口交通流量的變化周期為7 d,主要受上下班高峰時(shí)段的影響;
3) 融合交通流量的周期性特征建立LSTM網(wǎng)絡(luò)模型預(yù)測出入口交通流量,基于整年數(shù)據(jù)和跨年度數(shù)據(jù),通過EMA、ESMAP、ERMS和R2等4個(gè)指標(biāo)評價(jià)該模型的有效性,結(jié)果表明其能取得良好的預(yù)測效果。