王召月 袁紹欣
(長安大學信息工程學院 陜西 西安 710064)
隨著城市交通擁堵的日益嚴重,出行者不僅關心出行時間,也關心行程時間可變性。雖然二者都與出行成本有關,但對于前者,出行者關心如何節省,而對于后者,出行者則關注它的可預測性以降低可變性帶來的風險[1-2],這是因為不穩定的行程時間會迫使出行者預留出更多的時間以求準時到達目的地[2]。私家車和出租車是兩種重要的出行方式,對它們的行程時間可變性進行度量,可提升對這兩種出行方式可靠程度的認識,最終有利于城市出行者進行出行方式選擇決策和交通管理者制定相應的管理政策[3-5]。
對私家車和出租車的行程時間可變性進行度量,需要相同路段、相同時間段兩類車的行程時間數據,這有助于通過對比研究從這兩類共享相同車道的出行方式中發現它們在行程時間可變性方面的差異。當前能滿足這方面數據要求的主要是城市自動車牌識別(Automatic Number Plate Recognition,ANPR)數據。自動車牌識別系統實現了對車輛闖紅燈和超速等違規行為的檢測[6]。該系統在城市重要的道路卡口安裝攝像頭,識別車輛經過卡口時的車牌號碼、通過時刻以及速度等信息。通過上下游兩個卡口的信息就可獲得車輛通過兩個卡口間路段的行程時間和平均速度等數據[7]。與具有路網覆蓋能力廣但采集精度低的GPS數據[8]相比,ANPR數據具有采樣精度高、數據量大且可通過車牌信息區分車型的優點,已是城市車輛道路行程時間估計的一個重要數據源。
值得注意的是,并不是所有的ANPR數據都適合于研究私家車和出租車的行程時間可變性,這是因為ANPR系統采集到的一些行程時間觀測數據并不能反映特定時空下大概率出現的通常交通狀況[9-10]。如:在兩卡口間車輛因各種原因的臨時停靠(停車、購物、裝卸/卸載等);空載出租車以低速緩行尋客;私家車司機因對路況環境不熟悉而緩行;惡劣天氣、交通意外和紅綠燈故障等罕見事件發生時,多數車輛在個別時段整體緩行等。與通常交通狀況相比,這些小概率發生的交通事件會導致少數私家車和出租車在個別時段具有較長的行程時間。與此相對的是,也存在比通常交通狀況較短的行程時間情況,如個別日期個別時段,經常擁堵的路段異常通暢,個別車輛以較短的時間通過該路段而未遇到紅燈等。較快和較慢的兩種觀測數據稱為異常數據,與有效數據相比,在分布上具有右向尾部以及比例少的特點[10]。雖然它們是真實數據,但發生概率低,對于多變的私家車和出租車道路行程時間,大概率發生的通常情況才具有參考價值。因而對私家車和出租車的行程時間可變性進行度量必須排除這類異常數據的干擾。
對行程時間可變性的研究方法主要包括為兩種類型。其中一種方法基于平均值-標準差,其中平均值代表出行的平均成本,而標準差代表從出發地到目的地的穩定程度[11]。對行程時間可變性的表征就可表達為以標準差結合平均值為自變量的出行費用函數,這種方法因其簡單而應用廣泛,但缺乏對行程時間可變性表達更為豐富的分布形狀的描述[12];第二種方法是基于百分位點的行程時間可變性度量[1]。如用90百分位值和10百分位值的差值除以50百分位值((T90-T10)/T50)來度量行程時間分布的寬度,用90百分位值和50百分位值的差值除以50百分位值和10百分位值的差值(即(T90-T10)/(T50-T10))來度量行程時間分布的偏斜度[10],然而這種方法對行程時間分布形狀描述仍較為粗略。
很多研究者都注意到對行程時間可變性度量需要更細致地描述行程時間不規則的分布形狀,同時也不能忽略異常數據對分布形狀的影響。Emam等[13]比較了各種分布:對數正態分布、伽馬分布、威布爾分布和指數分布,得出了對數正態分布對行程時間分布具有較好的擬合效果的結論。然而受到交通需求、交通事故和駕駛行為特性等一系列波動因素影響,城市道路車輛行程時間通常具有多種交通狀態,在分布形狀上則反映為用單峰分布很難進行準確描述的偏斜、多峰等不規則特征[14]。Skabardonis[15]等指出傳統的數值統計指標很難準確地描述行程時間的可變性和交通控制之間的內在聯系,而對行程時間密度分布不規則形狀的準確描述可解決這一問題。為此,Guo等[16]提出了使用混合分布模型描述行程時間數據中觀察到的多峰分布模式,用兩個對數正態分布混合模型來證明其在擬合多峰行程時間分布方面優于傳統的單峰分布。Park等[17]指出當行程時間數據的經驗分布呈現出多峰或偏斜性時,行程時間分布往往是多分布疊加的結果,并證明了雙分布疊加或三分布疊加混合模型用來擬合行程時間分布的合理性。Frühwirth-Schnatter[18]也指出有限混合模型(Finite Mixture Model,FMM)在擬合包含兩個或者更多子群體的數據分布時具有很大的靈活性和便利性。Kazagli等[19]采用兩個對數正態分布混合模型分析了近10個月的自動車輛識別(Automatic Vehicle Identification,AVI)數據,將數據聚類為有停車行為和無停車行為兩種,并將有停車行為的數據視作異常數據予以濾除。
當前在行程時間可變性研究方面的已有成果尚存在的問題是:研究大多使用固定數量分布的有限混合模型來擬合行程時間樣本數據的分布形狀,并沒有確定合適的分布數K來表示因行程時間可變性而出現的單峰、雙峰、多峰以及偏斜等多種分布形態;此外,沒有考慮到異常數據分布對行程時間分布形態上的影響。
根據車輛通過起始卡口的時間戳,將采集的ANPR數據以30分鐘為間隔,劃分為48組樣本,通過離散化的48組數據樣本度量一天內不同時間段的行程時間可變性。針對每個數據樣本設定一個行程時間經驗閾值π(一般為高峰期間車輛通過路段的平均行程時間的2至3倍),以確保各組樣本能包含所有的有效數據和一定量的異常數據,而行程時間大于π的觀測點數據將從48個樣本數據中濾除。
FMM是模擬數據同質性和異質性的一個概率化的、半參數模型[20],可用于對潛在類和感興趣變量的相應分布進行建模統計。模型假設群體由K個未知的子群體(分量)組成,每個子群體具有不同的概率分布密度,但具有相同的已知參數族[21]。所提模型選擇對數正態分布作為子群體的分布。運用基于對數正態分布的K分支有限混合模型(以下簡稱K-FMM)擬合各組觀測數據的分布:
(1)

采用EM算法[19]對模型參數φ進行估計。該算法通過多步迭代,使似然值收斂至最優值。算法在以下兩個步驟之間進行迭代:
(1) E步驟:根據參數初始值或上一次迭代所得參數值來計算出變量的后驗概率:
(2)
式中:后驗概率Iik表示在第t次迭代后,各樣本中的第i個數據屬于第k個子群體的概率。
(2) M步驟:基于E步驟中的后驗概率,估計新的分布參數。

(3)
(4)
(5)

根據E步驟中的Iik可判斷觀測數據屬于哪個群體,從而將數據樣本聚類為K個種群。
樣本數據特征是進行建模的基礎。分布上的右向長尾特點表明相對于有效行程時間觀測,異常數據具有較長的平均行程時間。因此,具有最大行程時間均值μK的對數正態分支fK是表示異常數據分布特征的最佳選擇。異常數據分布的密度函數可表示為:
(6)

(7)
μK=max(μ1,μ2,…,μk) ?k∈(2,3,…,L)
(8)
混合密度分布fV(yi|φV)代表有效數據的分布特征,由其他K-1個密度分支組成,這也體現了有效行程時間觀測分布的多種群特點。
(9)

因此,式(1)又可寫為:
f(yi|φ)=fV(yi|φV)+fK(yi|φK)
(10)
這表明基于對數正態分布的K-FMM可將行程時間數據分布聚類為K個密度分布,并獲得相對應的數據子群體,且可分為具有不同特征的有效數據與異常數據兩類。
fV(yi|φV) 與fK(yi|φK) 在區間(0,π)內存在至少一個交叉點,設交叉點X具有最大橫坐標值Tx,則區間(0,π)分為(0,Tx)和(Tx,π)兩部分。

(11)

(12)
根據上述介紹,可將算法的具體實現步驟描述為:
Step1根據車輛通過起始卡口的時間戳,以30分鐘為間隔,將采集數據劃分為48組樣本。
Step2設置K=2、ε=0.02。
Step3利用基于對數正態分布的K-FMM,通過EM算法將各組樣本數據聚類為K個子群體并獲得相對應的密度分布。
Step4將同時滿足約束條件式(7)和式(8)的密度分支標識為異常數據分布的分支fK(yi|φK)。
Step5混合密度分布fV(yi|φV)滿足式(12),該K值即為最佳分離值,設置K′=K-1,執行Step6;否則K=K+1,執行Step3。
Step6得到K=O個密度分支及相應數據的子群體,過濾識別出的異常數據,將獲得的有效數據分布重新擬合為K′個密度分支。
Step7輸出有效數據平均值和標準差等相關指標。
實驗在包含混合模型軟件包MIXMOD(實現EM算法)的MATLAB環境下實現。
陜西省西安市的不同地點安裝了自動車牌識別攝像頭,以捕獲違章車輛并提供交通計數。實驗選取西安市咸寧路和友誼路自西向東方向的兩個站點間的ANPR數據為研究對象,如圖1所示。

圖1 研究所選咸寧路段和友誼路段
ANPR數據包含如下信息:
(1) 站號、經度和緯度:可以計算任意兩個卡口之間的距離。實驗選用咸寧路段長度為2.2公里,友誼路段長度為1.8公里。
(2) 車牌號碼和車牌顏色:根據車牌的顏色可以區分公共汽車(黃色)、私家車(藍色)和出租車(藍色),并利用交通管理局的車牌號碼區分出租車與私家車。
(3) 日期和拍照時刻:當車輛經過卡口識別時,在每個卡口記錄車輛捕獲日期和拍照時刻。據此信息可以計算每輛車在任意兩個卡口之間的行程時間。
選用2014年3月1日至2014年3月30日在兩路段上采集的出租車與私家車樣本觀測數據進行實驗研究。
圖2為咸寧路段和友誼路段出租車和私家車在6:00至20:00期間的行程時間觀測結果(π=4 200 s)。其中,橫坐標表示車輛經過起始卡口被攝像頭捕獲的時刻,縱坐標表示車輛經過起點、終點兩個卡口間路段的時間差,即行程時間。圖中,觀測數據可明顯地分為兩個部分:比較密集的有效數據區和較分散的異常數據區。其中異常數據所占比例較小,且普遍高于有效數據。兩數據區域間的界限比較模糊并且隨時間動態變化,采用固定閾值無法對兩類數據進行有效區分。

(a) 友誼路私家車觀測點

(b) 友誼路出租車觀測點

(c) 咸寧路私家車觀測點

(d) 咸寧路出租車觀測點
圖2友誼路段和咸寧路段行程時間觀測數據


(a) 過濾異常數據前(K=2)

(b) 過濾異常數據前(K=3)

(c) 過濾異常數據后(K′=2)圖3 咸寧路段出租車8:00 - 8:30樣本數據密度直方圖與分布擬合結果
圖4展示了友誼路段與咸寧路段出租車與私家車樣本數據中的異常數據與有效數據的聚類識別結果,以及異常數據的存在對平均行程時間的影響。可以觀測到:兩種出行方式的樣本數據中存在行程時間較長和較短的兩種異常數據;去除異常數據后,樣本數據平均值明顯低于未去除前樣本數據平均值,這表明雖然異常數據的比例較小,但是對行程時間平均值影響顯著,也意味對于行程時間可變性的準確度量而言,必須進行異常數據識別。

(a) 友誼路私家車數據

(b) 友誼路出租車數據

(c) 咸寧路私家車數據

(d) 咸寧路出租車數據圖4 樣本數據中異常數據識別及異常數據對平均行程時間的影響
圖5對比了有效行程時間數據提取前后,咸寧路各時間段內出租車與私家車的行程時間均值。在去除異常數據后,大部分時間段內,出租車的平均行程時間都小于私家車。在7:30 - 9:00和17:30 - 19:00擁堵高峰期內,出租車與私家車的平均行程時間有顯著差異。而未去除異常數據,則觀察不到該現象。這表明異常數據的存在會對行程時間可變性的統計指標產生很大的影響甚至會導致出行決策的失誤。通過設備獲得的原始ANPR數據不能直接用于行程時間可變性的量化,它會對數據統計指標的精確性產生干擾進而影響出行方式決策。

圖5 咸寧路段私家車和出租車各時間段樣本平均行程時間對比
圖6展示了友誼路段和咸寧路段8:00-8:30的私家車樣本數據在進行異常數據識別過濾后,對有效數據分布重新進行擬合的結果。與圖6(b)相比,圖6(a)缺少了具有較長平均行程時間的分支f3,這表明在該時間段,咸寧路和友誼路具有不同的交通狀態,很明顯,咸寧路更加擁擠。
通過比較圖6(b)與圖3(c),可了解共享車道上的私家車與出租車在同時間段內的行程時間可變性的差異。圖6(b)具有平均行程時間明顯較高的分支f3的,這表明該時間段內存在明顯的交通擁堵現象,這種情況下,私家車無法有效避免。而在圖3(c)中,分支f3的缺失表明:雖然出租車和私家車行駛在同一車道上,但出租車司機配備了相關通信器材并且比私家車車主有更多的經驗、更加精通路況。即便在交通擁堵時期,出租車司機也可以通過繞路等方式有效避開。這也很好地解釋了圖5中,去除異常數據后, 7:30 - 9:00和17:30 - 19:00擁堵高峰期內,出租車平均行程時間明顯小于私家車的情況。

(a) 友誼路私家車數據

(b) 咸寧路私家車數據圖6 8:00 - 8:30選用路段私家車數據密度直方圖及有效數據密度分布
行程時間可變性導致行程時間觀測數據在分布上呈現多峰、偏斜等多種分布形態。采用固定數量的子分布不能準確擬合行程時間數據分布。此外,利用自動車牌識別系統采集的數據對行程時間可變性進行度量時,樣本數據包含一定數量不能代表正常交通狀況的異常數據,會對行程時間數據的分布形態產生影響。為識別異常數據并對有效數據分布進行準確擬合,研究工作的主要貢獻為:
(1) 根據異常數據的右向長尾和比例較少的特征,利用對數正態分布有限混合模型對兩類數據進行建模。給出了對有效數據與異常數據實現最佳分離的分布數K值的確定算法,解決了因行程時間可變性引起的有效數據與異常數據無固定閾值區分的問題。同時,通過動態確定分支數K值,準確描述了有效行程時間數據的分布上的多峰、偏斜等多種分布形態。實驗證明了異常數據的存在會對行程時間變性的統計指標產生干擾甚至導致出行者對出行決策的誤判。因此,必須進行異常數據的識別過濾。
(2) 通過對同一路段上出租車與私家車的行程時間可變性進行對比研究,發現兩類出行方式雖共享同一車道,但具有不同的行駛特性。與私家車駕駛者相比,出租車司機可以有效避免交通擁堵的情況,這是由于出租車配備了相關通信器材,同時司機具有更多經驗,從而更加靈活。