詹啟亮 王 亮
(中機中聯(lián)工程有限公司,重慶 400039)
關鍵字:交通預測;交通流;交通量;數(shù)學模型
近年來,應用數(shù)學算法研究不斷地創(chuàng)新發(fā)展,可解決因車輛大幅度增長帶來的交通問題,為道路的使用者和交通管理部門提供重要信息,以便更好的做出決策,還有助于改善交通網(wǎng)絡規(guī)劃[2]。
為實現(xiàn)對交叉路口交通預測的準確性,必須使用多個數(shù)據(jù)源協(xié)同完成。從交通量數(shù)據(jù)源提取時間、日期、交通量、白天或黑夜、高峰與非高峰等,從交通事故數(shù)據(jù)源提取事故編碼,位置坐標、道路編碼、時間、事故類型、路面狀況、天氣情況等,從道路施工維護數(shù)據(jù)源提取位置坐標、工作類型等[4]。
列出以下主控參數(shù):
日期:交通流在不同日期表現(xiàn)不同
時間:不同時間段有不同的表征
是否工作日:周末周內(nèi)交通模式不同
是否交通峰值:決定交通流變化
晝夜:交通流量顯著變化點
事件距離:事件距離交叉路口的影響
包括三種算法:梯度提升回歸、隨機森林、極值梯度樹算法,以下為三種算法介紹:


F(x) 用來估計等式計算的平均誤差,對于每一個回歸樹,將輸入空間劃分為M個區(qū)域m1,m2,…mm,并對每一個區(qū)域,預測一個恒定值pm。

其中I=1,如果x?mi,則I=0,pikI是區(qū)域m1,m2,…mm,的預測值,通過應用更新數(shù)據(jù),回歸迭代每一次得到的數(shù)據(jù),以下等式描述了更新后的似然函數(shù)和回歸步長:

修改模型參數(shù),將mi,pik忽略,使得到的yik為每一個區(qū)域內(nèi)的最佳值:

該算法用分階段來構建模型,在數(shù)據(jù)每次更改時,通過最小化損失函數(shù)來更新模型,使用回歸手段來避免過度的擬合,使每一個模型使用0-1 的值控制結果輸出。

當ν 值很小時,獲得最佳收縮,可以減少每次迭代時的函數(shù)損失。

數(shù)學算法模型 日期 時間 是否工作日 是否峰值 是否晝夜 事件距離梯度提升回歸 0.3636 0.1340 0.1130 0.0137 0.0903 0.2854隨機森林 0.1310 0.0263 0.0412 0.0004 0.6272 0.1743極值梯度樹 0.3592 0.2078 0.1690 0.0227 0.0276 0.2137
該方法的程序為輸入n維向量(x),通過計算輸出n預測(y) 重新采樣以后,選擇隨機的數(shù)據(jù)點替換原有的數(shù)據(jù)信息,并標記未選擇的備用,利用所選擇的數(shù)據(jù)集構建成完全成長的樹系統(tǒng)而不進行修剪,在每一個節(jié)點拆分時,選擇隨機特征值中的最佳特征值進行拆分,直到不再有拆分為止。不斷進行重復,直到得到每個樹的輸出值,通過取平均值得到最終的輸出(y),

其中x是輸出樣本集,hj(x)是第j個樹的輸出值。
此算法是種可擴展的機器學習系統(tǒng),算法的運行速度比普通機器學習算法的速度快很多,可有效的并行處理數(shù)十億個數(shù)據(jù)。實際問題中常常出現(xiàn)數(shù)據(jù)的丟失,此算法對于丟失的數(shù)據(jù),算法將默認方向并添加到樹的每一個節(jié)點中,計算所處理數(shù)據(jù)集的最佳值。第二個功能是使用列快進行并行學習計算,以稱為塊的內(nèi)存單元進行壓縮列格式存儲數(shù)據(jù)。每列都根據(jù)特征值進行排序計算[3]。
從表中可以看出,事件距離占模型一總特征的28.54%,模型二占17.43%。模型三占21.37%,因模型二隨機性較大,所以參考價值較低。從表格中也可以發(fā)現(xiàn)模型中最不重要的特征參數(shù)是時間是否在高峰時段,模型一,模型二和模型三的結果分別為1.37%,0.004%和2.27%。與以往數(shù)據(jù)模型相比較,添加事件距離此特征參數(shù)可以提高在交叉路口附近交通量預測的準確性。
本文基于交通事故和道路工程在交叉路口影響交通模式的事實,提出了增加不同特征參數(shù)來預測交叉口交通量的新方法。結果表明提出增加事故發(fā)生地點距交叉路口的距離,能有效減少預測誤差。