武可心
(西安交通工程學院, 交通運輸學院, 陜西, 西安 710300)
公交線路的周轉(zhuǎn)時間對公交運行網(wǎng)絡的管理效率具有重要影響,直接影響公交線路的服務質(zhì)量和乘客搭乘體驗。周轉(zhuǎn)時間是指公交車輛運行整條公交線路所需時間,主要包括車輛上行時間、下行時間和站點停靠時間。若能夠?qū)痪€路的周轉(zhuǎn)時間進行準確預測,則可為公交智能調(diào)度提供關鍵參考數(shù)據(jù),對提升公交網(wǎng)絡智能管理水平具有重要意義[1-2]。
目前,公交線路周轉(zhuǎn)時間的預測模型主要包括回歸模型、支持向量機模型、時間序列模型、神經(jīng)網(wǎng)絡模型等。張麗莉等[3]采用RBF神經(jīng)網(wǎng)絡預測公交行駛周期,并對預測誤差進行實時修正。周敏等[4]將廣義回歸模型應用于公交運行周期預測,將影響公交線路運行的多種因素融入預測模型。胡華等[5]結合BP神經(jīng)網(wǎng)絡和指數(shù)平滑方法,預測公交停靠時間和路段運行時間。影響公交運行時間周期的因素眾多,且不同因素之間存在交錯影響的關系,導致預測模型的輸入因素關系復雜,使得模型輸出的預測精度偏低。BP神經(jīng)網(wǎng)絡具有任意復雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力:從結構上講,BP網(wǎng)絡包含輸入層、隱藏層和輸出層;從本質(zhì)上講,BP算法就是以網(wǎng)絡誤差平方為目標函數(shù)、采用梯度下降法來計算目標函數(shù)的最小值。BP神經(jīng)網(wǎng)絡具有很強的非線性映射能力和柔性的網(wǎng)絡結構,是在工程中應用最為廣泛的神經(jīng)網(wǎng)絡之一,但同時其也存在學習速度慢,容易陷入局部極小值等問題。
為提升模型的預測精度和實用性,本文將公交運行過程中產(chǎn)生的GPS數(shù)據(jù)作為研究對象,將短時間內(nèi)變動較小的影響因素作為常量考慮,例如路線長度、停靠站臺布局等,重點研究時變因素對運行周期的影響,例如日期、天氣、節(jié)假日等動態(tài)因素。首先通過運行周期的分布特征分析,提取影響運行周期的關鍵影響因素,然后將關鍵影響因素作為輸入,利用改進型卷積神經(jīng)網(wǎng)絡對公交運行數(shù)據(jù)進行訓練,以獲取更為準確的預測模型。
利用公交車配置的GPS設備,獲取公交車運行的GPS數(shù)據(jù),主要包含了車輛運行的時間、位置、速度、駕駛方向等動態(tài)數(shù)據(jù)。將公交車GPS數(shù)據(jù)作為研究對象,利用有序樣本聚類方法對公交運行時間進行劃分,然后對公交運行時間周期進行分布特征分析。在不同的時間段內(nèi)公交運行時間周期是不同的,通過大量的運行數(shù)據(jù)統(tǒng)計,重點分析不同時間窗內(nèi)公交運行時間周期的分布情況,從而提煉出影響公交運行時間周期的關鍵因素。圖1為某路公交2個月的運行時間周期統(tǒng)計結果,通過運行周期分布曲線圖可看出,運行時間周期隨全日工作時間呈現(xiàn)出一致性的規(guī)律變化,在單個時間窗口內(nèi),運行時間周期呈現(xiàn)一定的噪聲波動,波動規(guī)律趨近于正態(tài)分布。單個時間窗口內(nèi)運行時間周期的近似正態(tài)分布圖[6]如圖2所示。

圖2 單時間窗內(nèi)運行時間周期分布圖
對于單條公交線路,線路距離、站臺數(shù)量可看作不變量,影響公交運行時間周期的動態(tài)因素主要為天氣、客流量、節(jié)假日、氣候等,而動態(tài)影響因素之間相互關聯(lián),呈現(xiàn)出復雜的非線性特性,由上述統(tǒng)計曲線可知,單個時間窗口內(nèi)運行時間周期呈現(xiàn)正態(tài)分布特性[7]。根據(jù)公交周轉(zhuǎn)時間分布特征,將影響運行時間周期的主要動態(tài)因素進行統(tǒng)計,并將主要影響因素作為輸入量,利用改進型卷積神經(jīng)網(wǎng)絡對樣本數(shù)據(jù)進行訓練,經(jīng)過反復學習迭代,獲取公交運行時間周期預測模型。
卷積神經(jīng)網(wǎng)絡的多隱層有利于提取數(shù)據(jù)特征,但過度增加網(wǎng)絡卷積層數(shù)量,將會降低卷積神經(jīng)網(wǎng)絡的運行效率,導致網(wǎng)絡性能下降。對卷積神經(jīng)網(wǎng)絡的改進主要分為2個方面,一方面是適量提升卷積層數(shù)量,另一方面是適當修改卷積核的尺寸。本文選取9種典型卷積神經(jīng)網(wǎng)絡結構分別進行性能測試,測試統(tǒng)計結果[8-10]如表1所示。

表1 多種典型卷積神經(jīng)網(wǎng)絡結構測試結果
由表1可知,在卷積核尺寸一樣的條件下,卷積層數(shù)目為3時卷積神經(jīng)網(wǎng)絡的預測準確率最高。另外,在卷積層數(shù)目相同的條件下,卷積核尺寸為3×3時,卷積神經(jīng)網(wǎng)絡的預測準確率最高。為保證卷積神經(jīng)網(wǎng)絡具備較高的準確率,并避免網(wǎng)絡規(guī)模過大,網(wǎng)絡結構的卷積層選為3層,卷積核尺寸選為3×3。
通過網(wǎng)絡結構的優(yōu)化,雖能夠提高卷積神經(jīng)網(wǎng)絡的性能,但同時造成了過擬合問題。過擬合主要是由于卷積神經(jīng)網(wǎng)絡的連接層參數(shù)是按照訓練樣本的識別結果進行更新的,若訓練樣本的分類不夠成熟,則會導致測試數(shù)據(jù)無法獲得準確的預測結果。采用Dropout技術對訓練過程中的參數(shù)按照一定的概率進行隨機拋棄,從而提升神經(jīng)網(wǎng)絡的泛化性能。Dropout技術主要是在訓練過程中將每層的神經(jīng)元按照一定比例進行隨機剔除,從而保證每層網(wǎng)絡的輸入數(shù)量和輸出數(shù)量相同[11-12]。未加入Dropout技術的網(wǎng)絡訓練過程可表示為
(1)
加入Dropout技術的網(wǎng)絡訓練過程表示為
(2)
式(2)中,l表示隱含層索引序號,z表示輸入向量,y表示輸出量,w表示每層的加權系數(shù),f表示激活函數(shù),p表示預測前每個單元參數(shù)的預乘系數(shù)。
卷積作用主要是對數(shù)據(jù)特征進行提取,提取數(shù)據(jù)特征越精細,獲得的預測結果越精準。在卷積神經(jīng)網(wǎng)絡中,通過卷積層和池化層可交替生成數(shù)據(jù)通道。在數(shù)據(jù)訓練過程中,若僅采用單一的數(shù)據(jù)通道和網(wǎng)絡結構,易導致數(shù)據(jù)的特征提取不充分。針對公交運行時間周期和影響因素數(shù)據(jù)的特點,提出一種雙數(shù)據(jù)通道方法,采用2條不同的通道,分別對不同的特征進行卷積運算,利用2條通道的級聯(lián)運算獲得最終的網(wǎng)絡數(shù)據(jù)結果。主要過程包括利用Dropout技術獲取降維數(shù)據(jù),然后將降維數(shù)據(jù)通過2個通道進行運行,第一個通道采用3×3的卷積核,數(shù)據(jù)進行卷積運算后,另一個通道在第一個通道的基礎上進行殘差運算。最后對2個通道進行級聯(lián)操作,獲得1個新特征圖。殘差運算網(wǎng)絡的短接映射關系[13]可表示為
(3)
式(3)中,x表示輸入元素,F()表示殘差擬合函數(shù)。
采用雙通道級聯(lián)方式,通過兩路卷積神經(jīng)網(wǎng)絡進行級聯(lián)運算,其中一路包含了殘差運算模塊,并對兩路不同特征數(shù)據(jù)進行組合,獲取最終的輸出。
設定訓練樣本為(xi,yi),樣本數(shù)量為m,輸入向量的維度為n+1,卷積神經(jīng)網(wǎng)絡的輸出類數(shù)量為k,卷積神經(jīng)網(wǎng)絡的輸出可表示為
(4)
式(4)中,θj表示卷積神經(jīng)網(wǎng)絡的第j個參數(shù)。
代價函數(shù)J(θ)可表示為
(5)
式(5)中,p表示輸出結果的概率分布,1{·}表示指示函數(shù),λ表示正化系數(shù)。
卷積神經(jīng)網(wǎng)絡每次進行迭代運算后,參數(shù)的更新表達式可表示為
(6)
式(6)中,α代表學習速率系數(shù)。
基于改進型卷積神經(jīng)網(wǎng)絡的公交運行周期預測模型的框架圖[14]如圖3所示,從整個模型結構可知,該模型主要由輸入層、隱含層、輸出層構成,并分為了模型訓練和模型預測2個數(shù)據(jù)傳輸通道,并將影響公交運行周期的主要因素數(shù)據(jù)作為輸入,通過輸入層的全連接處理,并經(jīng)過隱含層卷積運算后,再經(jīng)過輸出層的全連接網(wǎng)絡將隱含層的輸出映射到最終輸出結果,實現(xiàn)公交運行數(shù)據(jù)的特征提取和分類,從而完成對公交運行周期的預測。

圖3 基于改進型卷積神經(jīng)網(wǎng)絡的公交運行周期預測模型
以某公交線路運行數(shù)據(jù)為研究對象,整條公交線路的下行站點為37個,上行站點為38個,全日車輛運行時間區(qū)間為6:00-21:00。首先利用有序樣本聚類方法對運行時段進行分類,在損失函數(shù)達到最小值時,獲得14個長度不等的時間窗口。由于單個時間窗口內(nèi)運行時間周期整體呈現(xiàn)正態(tài)分布特性,數(shù)據(jù)分布特性的統(tǒng)計需要盡量多的統(tǒng)計數(shù)據(jù),若時間區(qū)間段劃分過多,則獲取的數(shù)據(jù)量數(shù)目過少,導致統(tǒng)計特性易受噪聲影響,數(shù)據(jù)特征被噪聲淹沒,且過多的區(qū)間段劃分隔斷數(shù)據(jù)間的相關性和增加運算量;而過少的時間區(qū)間段劃分,不利于凸顯不同運行區(qū)間內(nèi)公交運行特征的差異。根據(jù)在一天中公交運行的整體分布經(jīng)驗,可將14個時間窗口劃分為5個區(qū)間段,分別為早低峰、早高峰、平峰、晚高峰、晚低峰,時間窗劃分情況如表2所示。

表2 時間窗口劃分
將影響公交運行時間周期的主要動態(tài)影響因素作為卷積神經(jīng)網(wǎng)絡的輸入,主要包括時間窗、節(jié)假日、天氣、季節(jié)、星期,網(wǎng)絡輸出結果為公交運行周期的預測結果。共選取600組數(shù)據(jù)作為樣本,將其隨機分為2組:第一組為訓練樣本,共300組數(shù)據(jù);另外一組為測試樣本,共300組數(shù)據(jù)。
改進型卷積神經(jīng)網(wǎng)絡采取雙隱含卷積層結構,輸入層共有6個輸入量,分別對應時段、天氣、節(jié)假日、星期、季節(jié)、運行周期等6個因素。第一個隱含卷積層節(jié)點為9個,第二個卷積層節(jié)點數(shù)為7個,輸出層節(jié)點數(shù)為1個,經(jīng)過卷積層的信息傳遞和節(jié)點調(diào)整,進行反復的訓練迭代。卷積神經(jīng)網(wǎng)絡輸出精度的評價指標采用絕對百分比誤差,表達式為
(7)
式(7)中,t1表示公交運行時間周期的預測值,t2表示公交運行時間周期的的實際值。
為了對比算法的預測精度,將BP神經(jīng)網(wǎng)絡與本文算法進行對比:2種算法的預測值與實際值的對比結果如圖4所示,BP神經(jīng)網(wǎng)絡的平均預測精度為16.7%;本文改進型卷積神經(jīng)網(wǎng)絡的樣本預測誤差統(tǒng)計如圖5所示,本文改進型卷積神經(jīng)網(wǎng)絡的平均預測精度為5.2%,預測精度得到明顯提升。實驗結果驗證了改進型算法的預測精度和有效性。

圖4 2種算法的預測值對比結果

圖5 改進型卷積神經(jīng)網(wǎng)絡的樣本預測誤差統(tǒng)計
為了提升公交線路運行效率,針對公交運行時間周期預測問題,本文提出了一種基于改進型卷積神經(jīng)網(wǎng)絡的預測模型。將影響公交運行周期的關鍵動態(tài)因素作為輸入,分析影響因素的非線性分布特征,將運行時間按照時間窗口進行劃分。從卷積層數(shù)量和卷積核尺寸2個方面對卷積神經(jīng)網(wǎng)絡進行改進,并建立2條級聯(lián)的數(shù)據(jù)運算通道,構成改進型卷積神經(jīng)網(wǎng)絡模型,實現(xiàn)對公交運行時間周期的有效準確預測,實驗結果驗證了該預測模型的可行性。