王小可 陳泱霖 王 婭 張 棟
(大連理工大學建設工程學部,大連 116024)
有序、高效的運營是現代化常規公共交通系統應具備的主要特征之一。然而大量的實測數據顯示,公交線路上普遍存在著車輛偏離調度聚集行駛以及在站點處密集到達的聚簇現象。公交車輛聚簇是指在同一條線路上運行的公交車輛在行駛一定距離和時間后,至少有兩輛及以上的公交車輛在視線范圍內共同運行或者同時進站,是城市常規公共交通服務中常見的異常運行狀態。公交車輛聚簇影響了乘客的出行體驗,造成了運力的浪費,也容易給人帶來城市管理無序混亂的印象,因此引起了交通工程領域學者的長期廣泛關注。
Arnold Barnett在1973年的研究表明,公交車輛聚簇是由于某種原因導致的車輛滯后于時刻表的運營而使得車輛承載了更多的乘客,因而帶來了更長的駐站時間并最終形成負反饋,進而提出可以通過增加松弛時間的方法來改善這一現象[1]。然而Daganzo教授的研究表明,單純引入松弛時間并不一定能完全控制車輛聚簇現象,故提出了基于公交車輛車頭時距判斷的公交車輛自我調節運行策略[2]。Turnquist[3],Levinson[4]和Ceder[5]等學者的研究表明,公交車輛運行過程中的駕駛員不當駕駛行為、社會交通擁堵、突發交通事件以及交叉口信號控制措施等諸多不確定因素都會導致車輛聚簇的發生。基于GPS技術的車輛定位數據極大地方便了公交車輛聚簇現象的研究。Wei Feng等人[6]分析了美國波特蘭市半年時間的公交運行數據,揭示了某一具體時間和狀況下可能引發公交車輛聚簇的因素。Luis Moreira-Matias等人[7]提出了基于公交車輛歷史和實時運行數據的車頭時距分布的概率預測方法。石琴等人[8]采用基于元胞自動機的方法模擬了站臺泊位數和乘客到達規律對于公交車輛到達分布的影響。Chen Guojun等人[9]通過建立兩種不同的線性回歸模型,發現當聚簇發生時,后車進入車站的時間平均要增加4.2-6.2s。杜若基于速度-道路擁擠度模型建立了公交車輛聚簇的預測方法,并通過對磁力模型的改進闡述了車輛聚簇產生的數學原理[10]。
綜合上述研究不難發現,目前關于公交車輛聚簇的研究認為,公交車輛聚簇的成因是外部運行環境的不確定性,而解決方案則聚焦于對于車頭時距的控制上。實際情況中,由于無法有效控制天氣等外部影響因素,也無法給予常規公交車輛絕對優先的路權,更無法強制調節乘客的乘降行為,因此公交車輛聚簇現象的最終解決還是有賴于實際運行過程中靈活調度措施的實施,因此,有充分的必要對公交車輛是否將要出現聚簇現象做出預判,以支持下游系統人工或者自動做出車輛調度決策。
本研究采用了由青島市公交集團提供的322路公交車于2015年8月3日至2015年8月9日的車載GPS、發車班次以及乘客刷卡記錄數據,其中GPS數據包含車輛編號、站點名稱以及車輛在各站的到達駛離時間,見表1;發車班次數據包含各班次的發車時間,見表2;乘客刷卡記錄包括刷卡時間和扣費金額等信息,見表3。
表1 青島322路公交車GPS數據(部分)
表2 青島322路公交車班次數據(部分)
表3 青島322路公交車乘客刷卡記錄數據(部分)
為了提高預測的準確度,需要對數據進行清洗。其主要工作為刪除GPS數據中公交到離站時間的錯誤數據、補充缺失數據,并對最終數據質量進行確認。
首先,根據公交車輛到離站數據,我們可以計算出每班公交車在每兩個站點之間的行程時間。
數據刪除操作主要基于對最小行程時間的估計確定行程時間的下界,再根據數據分布形態分時段、分站點確定行程時間的上界。當數據中兩站間行程時間不在設定的上下界之間時,認為兩站中后一站的到達駛離時間為異常值,將其刪除,見表4。
表4 異常值識別(部分)
將錯誤數據刪除后,對各個站點之間所有班次的行程時間進行檢索,當某兩站點之間某班次行程時間缺失時,利用相鄰班次在同一區間行程時間的均值進行補充,見表5。并在現有班次到站時間的基礎上,逐項相加推出缺失站點的到站時間。
表5 行程時間缺失值補充(部分)
補全數據缺失值后,進一步識別出補全后數據不合邏輯的部分,如同一班次公交到達下游站點的時間早于上游站點等錯誤,然后再次利用上下站點取平均值等方法,對錯誤數據進行覆蓋處理,最終確認得到符合邏輯的數據集,見表6。
表6 數據清洗結果(部分)
本研究的思路為:利用上游若干站點的運行特征數據預測所關心的下游站點是否會發生聚簇現象。因此,研究主要致力于解決以下三個問題:
(1)聚簇現象如何通過數據表征。換言之,當數據呈現何種狀態時,可以等價于實際生活中的聚簇現象。
(2)利用哪個上游站點進行預測時,預測效果最好。
(3)采用上游站點的哪些運行特征可以有效預測下游站點的聚簇現象。
通過查閱相關文獻,結合實地調查情況,對于任意兩個班次,若下游站點的車頭時距小于等于首站車頭時距的1/2,則可認為發生聚簇;反之則不發生聚簇:
2.2.1 準備工作
研究團隊認為,車輛聚簇特征的構建需要考慮兩個因素:一是上游站點與下游站點的車頭時距關聯性要足夠強,也就是相關系數要足夠大;二是用于預測的上游站點不能與其相距過遠。綜合以上兩個因素,建立綜合指標,將兩個因素結合起來考慮。
首先,通過區間歸一化公式,對于第i站,選定[i-4,i-2]為區間,利用式(2)計算歸一化指標:
式中,rij為歸一化指標;i為被預測站序號;j為預測站序號。
然后,求出每兩個站點車頭時距的相關系數,設預測站為j站,被預測站為i站,對于第i站和第j站之間的相關系數,記為corij。
最后,綜合以上兩個指標,得出綜合指標p:
2.2.2 特征構建
計算對于被預測站i而言,綜合指標p最大的預測站為j,本次建立車頭時距預測模型所提取的特征有:
(1)第j站的車頭時距數據:是用于預測的最基礎數據。
(2)第j站的前三站行程時間方差數據:可以用于表征第j站的道路交通擁堵水平和車頭時距波動情況。
(3)發車間隔:部分已有研究表明聚簇與發車間隔相關,因此也作為特征向量進行測試。
2.2.3 特征篩選
以聚簇發生與否對上述三個特征進行假設檢驗,以完成特征篩選。
t檢驗的結果表明,在0.05的顯著性水平上,可以認為兩類場景下在當前站點前一班次的車頭時距有顯著差異,且兩種類型數據的均值差異達到了400s以上,得出結論:聚簇時的車頭時距遠小于非聚簇時的車頭時距。
對于第j站的前三站行程時間方差數據同樣進行假設檢驗,根據t檢驗結果發現,在0.05的顯著性水平上,可以認為在聚簇和非聚簇車輛的前三站行程時間方差有顯著差異。根據計算得到的均值差異,可以發現聚簇車輛的前三站行程時間方差更大,這也說明了聚簇車輛在前幾站的行駛過程中不穩定性更強。
而對發車間隔的t檢驗結果表明, 聚簇和非聚簇時段的車頭時距沒有顯著差異。因此,選擇“本站前序班次車頭時距”和“上游三站車頭時距方差”作為選中的特征。
以班次作為橫坐標,站點作為縱坐標畫圖,將每一站點的聚簇班次在圖中標出,從而得到直觀的聚簇表現,如附圖所示。其中,深藍色點代表每班次所有聚簇站點,淺藍色點代表每班次首個聚簇站點。
附圖 2015年8月4日-7日青島市322路公交車輛軌跡及聚簇時空分布圖
聚簇點的數量遠遠小于非聚簇點,造成的樣本不均衡會影響預測精度。研究中采用過采樣法、欠采樣法以及綜合采樣法重構數據集。過采樣法是通過對占比少的數據隨機重復以擴大其比例,從而實現數據平衡;欠采樣法則通過刪除占比多的數據來實現數據平衡;綜合采樣法結合前兩種方式,可以自行定義數據集大小和兩類數據的比例。
采用Logistic回歸模型,將三個重構數據集分為訓練集和測試集,使用R語言對訓練集數據建立Logistic回歸模型后,利用測試集數據評價預測準確度。評價指標有三個:TPR(True Positive Rate)即聚簇站中預測正確概率;FPR(False Positive Rate)即非聚簇站中預測錯誤概率;Accuracy即總體預測準確率。三種重構方法參數標定與預測效果見表7。
表7 參數標定結果
綜合比對三種采樣方法,可以發現欠采樣法和綜合采樣法的總體預測精度較高,但聚簇站中預測正確概率很低,這會導致一半左右的車輛聚簇現象無法預測。因此,我們綜合考慮,選擇過采樣法作為最終數據采樣方法。
本研究針對當前公交車輛聚簇預測研究中的不足,從數據驅動的角度出發,提出了基于特征工程的常規公交車輛聚簇行為預測思路,并結合青島市322路公交車實際運行數據完成了理論模型驗證,結果表明,基于“本站的車頭時距”以及“上游三個站點的車頭時距方差”兩個特征的Logistic回歸模型可以較好地預測公交車輛聚簇行為的發生。
對于公交公司而言,短期內,可以通過對車輛聚簇的預測提前預知車輛行駛變動情況,對運行和待運行的車輛進行實時調度,以緩解聚簇現象;長期來看,可以支持公交公司對聚簇點較多的線路進行分析調整,充分利用公交運力,提高服務質量。
(張棟為本文通訊作者)