摘 要:交通流預(yù)測(cè)是智能交通系統(tǒng)的熱門研究課題,如何構(gòu)建合適的預(yù)測(cè)模型并選擇合適的預(yù)測(cè)變量是交通流預(yù)測(cè)的關(guān)鍵。利用相關(guān)分析法來確定交通流預(yù)測(cè)變量,將選擇的預(yù)測(cè)變量輸入到非線性回歸支持向量機(jī),通過樣本訓(xùn)練進(jìn)行交通流預(yù)測(cè),最后通過交通實(shí)例分析來驗(yàn)證該方法的有效性。
關(guān)鍵詞:相關(guān)分析;支持向量機(jī);交通流預(yù)測(cè);智能交通
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)09-2676-03
Research on short time traffic flow forecasting method
GUO Mu,SUN Zhanquan,PAN Jingshan,XU Mei
(Shandong Computer Science Center, Jinan 250014, China)
Abstract:Traffic flow forecasting is a popular research topic of intelligent transportation systems. How to build suitable forecasting model and select suitable forecasting variable is a key problem.This paper took use of correlation analysis to select the close relate forecasting variables and input the variables to nonlinear regression SVM. The SVM was used to forecast traffic flow through training with history traffic flow data.Illustrated the method’s efficiency through analyzing the practical traffic data.
Key words:correlation analysis; support vector machine; traffic flow forecasting; intelligent transportation systems
0 引言
交通流預(yù)測(cè)在智能交通系統(tǒng)中一直是一個(gè)熱門的研究領(lǐng)域。由于正確的交通流預(yù)測(cè)是智能交通系統(tǒng)的實(shí)時(shí)交通信號(hào)控制、交通分配、路徑誘導(dǎo)、自動(dòng)導(dǎo)航、事故檢測(cè)等的前提[1],對(duì)交通流預(yù)測(cè)方法的研究具有非常重要的意義。交通控制和交通誘導(dǎo)系統(tǒng)都需要在作出控制(誘導(dǎo))變量決策的時(shí)刻t對(duì)下一決策時(shí)刻t+1乃至以后若干時(shí)刻的交通流量作出短期實(shí)時(shí)預(yù)測(cè)。一般認(rèn)為t到t+1之間的預(yù)測(cè)時(shí)間跨度不超過15 min(甚至小于5 min)的預(yù)測(cè)是短時(shí)交通預(yù)測(cè)[2]。目前,智能交通采集數(shù)據(jù)的檢測(cè)器通常利用的是線圈檢測(cè)器,采集的交通流參數(shù)主要有流量、時(shí)間占有率和速度。很多的智能交通服務(wù)都是基于這三個(gè)交通流參數(shù),因此對(duì)這三個(gè)參數(shù)的估計(jì)是交通流預(yù)測(cè)的主要內(nèi)容。
幾十年來,許多的專家和學(xué)者們致力于短時(shí)交通流預(yù)測(cè)的研究,已經(jīng)建立了一些交通流預(yù)測(cè)模型。常用的預(yù)測(cè)方法有平均值法、ARMA、線性回歸、非參數(shù)回歸、神經(jīng)網(wǎng)絡(luò)等[3,4],但這些模型的預(yù)測(cè)精度都不能達(dá)到令人們滿意的程度。支持向量機(jī)是20世紀(jì)90年代Vapnik等人提出的一種新的網(wǎng)絡(luò)模型[5,6],它建立在統(tǒng)計(jì)學(xué)習(xí)的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,較好地解決了小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問題,由于支持向量機(jī)的優(yōu)越特性而在各個(gè)領(lǐng)域得到廣泛的應(yīng)用。道路交通系統(tǒng)是一個(gè)有人參與的、時(shí)變的、復(fù)雜的非線性系統(tǒng),因此用非線性回歸支持向量機(jī)進(jìn)行交通流預(yù)測(cè)將是非常合適的。由于交通流預(yù)測(cè)需要實(shí)時(shí)處理,如果用于交通流預(yù)測(cè)的變量太多,不但會(huì)影響預(yù)測(cè)模型的實(shí)時(shí)性,而且會(huì)引入噪音,從而影響預(yù)測(cè)精度。如何確定用于交通流預(yù)測(cè)的變量顯得非常重要。以前的預(yù)測(cè)通常根據(jù)主觀來確定輸入變量的個(gè)數(shù),缺泛客觀依據(jù),本文利用相關(guān)分析來確定預(yù)測(cè)的輸入變量,將選擇的變量輸入到非線性回歸支持向量機(jī)進(jìn)行相應(yīng)交通流參數(shù)的預(yù)測(cè)。
1 相關(guān)系數(shù)法
相關(guān)系數(shù)是一個(gè)測(cè)量?jī)蓚€(gè)(或更多)隨機(jī)變量間統(tǒng)計(jì)相關(guān)的指標(biāo)。在兩個(gè)隨機(jī)變量X和Y式中的分子是X和Y的協(xié)方差,這是經(jīng)常出現(xiàn)在統(tǒng)計(jì)學(xué)中的一個(gè)公式。ρXY系數(shù)只能表達(dá)變量之間的線性相關(guān),應(yīng)用受到很大限制。
2 回歸支持向量機(jī)
對(duì)于非線性回歸支持向量機(jī),其基本思想是通過一個(gè)非線性映射Φ將數(shù)據(jù)x映射到高維特征空間(Hilbert空間),并在這個(gè)空間進(jìn)行線性回歸。這樣,在高維特征空間的線性回歸就對(duì)應(yīng)于低維輸入空間的非線性回歸。
其中:w和b定義在特征空間的線性分類器;ξi(i=1,2,…,n)為松弛變量;Φ(·)為映射函數(shù)。支持向量機(jī)盡量保證正樣本的輸出值大于+1,負(fù)樣本的輸出值小于-1,不滿足這個(gè)條件的樣本需加一個(gè)非零松弛變量ξi,這樣將給目標(biāo)函數(shù)增加一個(gè)懲罰項(xiàng)。問題優(yōu)化是為了保證解有最大邊緣,通過引入拉格朗日乘子,優(yōu)化問題可轉(zhuǎn)換成它的對(duì)偶形式:
在支持向量機(jī)的模型中,核函數(shù)的選取非常重要,核函數(shù)必須滿足Mercer條件。目前,已經(jīng)提出了很多的核函數(shù)形式,常用的有多項(xiàng)式函數(shù)k(xi,x)=[(x×xi)+1]q、徑向基(RBF)函數(shù)k(xi,x)=exp{-|x-xi|2/2σ2}、Sigmoid函數(shù)k(xi,x)=tanh(v(x×xi)+c)等。本文的所有支持向量機(jī)都采用RBF函數(shù)作為核函數(shù)。
3 預(yù)測(cè)誤差指標(biāo)
對(duì)應(yīng)預(yù)測(cè)結(jié)果的預(yù)測(cè)誤差評(píng)價(jià)目前有很多的評(píng)價(jià)指標(biāo),常用的評(píng)價(jià)指標(biāo)有以下三種:
a)平均絕對(duì)百分比誤差MAPE=ni=1|(i-yi)/yi|/n。
b)平均絕對(duì)誤差MAE=ni=1|i-yi|/n。
c)平均平方誤差MAE=ni=1(i-yi)2/n。
其中:n為測(cè)試樣本數(shù);為樣本預(yù)測(cè)值;yi為樣本測(cè)量值。本文以這三種預(yù)測(cè)誤差指標(biāo)作為評(píng)價(jià)指標(biāo)。
4 實(shí)例分析
以采集的2007年6月1日到2007年7月1日從13點(diǎn)到18點(diǎn)濟(jì)南市經(jīng)十路與山師東路交叉口交通流數(shù)據(jù)為研究對(duì)象,道路的分布情況如圖1所示。數(shù)據(jù)采集設(shè)備為線圈檢測(cè)器,采集的交通流參數(shù)主要為流量、車速、時(shí)間占用率三個(gè)參數(shù),數(shù)據(jù)采集的時(shí)間間隔是5 min。
以看出,每個(gè)交叉口都有四個(gè)位置安裝了線圈檢測(cè)器,分別用1、2、3、4標(biāo)出。這里分別對(duì)經(jīng)十路與山師東路交叉口的第二個(gè)位置所在車道的流量、速度和時(shí)間占有率參數(shù)進(jìn)行預(yù)測(cè)。用變量Y表示當(dāng)前時(shí)刻的預(yù)測(cè)參數(shù),Xi表示當(dāng)前時(shí)刻前i個(gè)采樣周期的參數(shù)變量,Hi表示前i天當(dāng)前時(shí)刻的歷史參數(shù)值。
4.1 相關(guān)分析
首先對(duì)采集的數(shù)據(jù)樣本進(jìn)行預(yù)處理,將缺少的交通流數(shù)據(jù)剔出。利用相關(guān)分析方法來確定進(jìn)行交通流預(yù)測(cè)的相關(guān)變量,本文不但考慮以采樣周期作為時(shí)間間隔的時(shí)間序列,而且考慮以天為周期的時(shí)間間隔的時(shí)間序列,用來確定進(jìn)行交通流預(yù)測(cè)所需的采樣間隔的周期數(shù)和天數(shù)。由于當(dāng)采樣間隔時(shí)間或歷史天數(shù)太長(zhǎng)在實(shí)際應(yīng)用中無太大意義,取當(dāng)前時(shí)刻前12個(gè)采樣周期和前12天當(dāng)前時(shí)間點(diǎn)歷史數(shù)據(jù)作為研究對(duì)象,通過計(jì)算與當(dāng)前時(shí)刻預(yù)測(cè)參數(shù)的相關(guān)系數(shù)選擇相關(guān)性最大的五個(gè)采樣時(shí)間間隔和五天的歷史數(shù)據(jù)作為預(yù)測(cè)變量。經(jīng)過計(jì)算,流量
4.2 采用支持向量機(jī)進(jìn)行預(yù)測(cè)
將當(dāng)前時(shí)刻前12個(gè)采樣周期和前12天當(dāng)前時(shí)間點(diǎn)歷史數(shù)據(jù)作為非線性支持向量機(jī)的輸入,將所有樣本數(shù)據(jù)的80%用來對(duì)支持向量機(jī)進(jìn)行訓(xùn)練,余下的20%對(duì)預(yù)測(cè)模型進(jìn)行測(cè)試。支持向量機(jī)的參數(shù)設(shè)置為c=10,σ=0.01,分別對(duì)交通流參數(shù)流量、速度和時(shí)間占有率進(jìn)行預(yù)測(cè),預(yù)測(cè)誤差指標(biāo)MAE、MAPE和MSE如表1~3所示。預(yù)測(cè)值與測(cè)量值如圖2~4表1 不同方法進(jìn)行交通流流量參數(shù)預(yù)測(cè)的預(yù)測(cè)誤差
誤差指標(biāo)
支持向量機(jī)相關(guān)系數(shù)選擇不選擇
平均值法多元線性回歸用
MAE16.191 717.241 527.103 317.488 7
MAPE0.075 30.078 40.1060.080 2
MSE422.703 3498.275 41 070.8558.385 3
表2 不同方法進(jìn)行交通流速度參數(shù)預(yù)測(cè)的預(yù)測(cè)誤差
誤差指標(biāo)
支持向量機(jī)相關(guān)系數(shù)選擇不選擇
平均值法多元線性回歸用
MAE2.886 83.054 53.657 83.098 2
MAPE0.078 10.084 10.101 20.085 1
MSE13.670 814.470 421.644 515.082 8
表3 不同方法進(jìn)行交通流時(shí)間占有率預(yù)測(cè)的預(yù)測(cè)誤差
誤差指標(biāo)
支持向量機(jī)相關(guān)系數(shù)選擇不選擇
平均值法多元線性回歸用
MAE5.215 35.306 96.298 65.167 0
MAPE0.129 20.129 50.156 10.131 0
MSE42.711 642.880 561.172 942.629 3
4.3 平均值法
根據(jù)當(dāng)前位置的時(shí)間序列數(shù)據(jù)的平均值進(jìn)行交通流預(yù)測(cè),這里采用當(dāng)前時(shí)間點(diǎn)前12個(gè)時(shí)間點(diǎn)進(jìn)行預(yù)測(cè),即Y=(X1+…X12)/12。
根據(jù)平均值法對(duì)交通流參數(shù)流量、速度和時(shí)間占有率分別進(jìn)行預(yù)測(cè),預(yù)測(cè)誤差指標(biāo)的MAE、MAPE和MSE分別如表1~3所示用平均值法;測(cè)試樣本的預(yù)測(cè)值與測(cè)量值分別如圖5所示。
4.4 用多元線性回歸分析
4.5 結(jié)果分析
從表1~3中利用相關(guān)分析選擇預(yù)測(cè)變量和不用相關(guān)分析選擇相關(guān)變量的支持向量機(jī)預(yù)測(cè)結(jié)果看,通過相關(guān)分析選擇預(yù)測(cè)變量不但可以減少支持向量機(jī)網(wǎng)絡(luò)的輸入變量個(gè)數(shù),提高網(wǎng)絡(luò)的訓(xùn)練和回歸速度,而且通過選擇可以剔出噪音,使預(yù)測(cè)精度有所提高。三個(gè)交通流參數(shù)的預(yù)測(cè)分析都呈現(xiàn)相同的結(jié)論。
通過支持向量機(jī)預(yù)測(cè)結(jié)果與目前常用的平均值法和多元線性回歸方法預(yù)測(cè)結(jié)果比較可以發(fā)現(xiàn),由于平均值法沒有利用太多的歷史數(shù)據(jù)信息,用平均值法進(jìn)行預(yù)測(cè)的精度最低;用多元線性回歸方法預(yù)測(cè)結(jié)果明顯好于平均值法,由于它利用歷史數(shù)據(jù)來確定回歸系數(shù),利用了歷史信息,預(yù)測(cè)精度有所提高。本文提出的用相關(guān)分析選擇、用支持向量機(jī)回歸的預(yù)測(cè)結(jié)果比多元線性回歸的預(yù)測(cè)精度要高。因?yàn)槎嘣€性回歸只能體現(xiàn)預(yù)測(cè)變量之間的線性關(guān)系,而支持向量機(jī)是一種非線性的回歸模型,因此具有更強(qiáng)的回歸建模能力。本文提出的方法進(jìn)行交通流預(yù)測(cè)是可行的。
5 結(jié)束語(yǔ)
于交通流數(shù)據(jù)具有高度的復(fù)雜性和非線性特性,如何提高交通流預(yù)測(cè)的精度一直是智能交通系統(tǒng)研究的重要課題。本文提出了用相關(guān)分析選擇預(yù)測(cè)變量,用支持向量機(jī)進(jìn)行交通流預(yù)測(cè)的方法,通過對(duì)濟(jì)南市實(shí)際交通數(shù)據(jù)的分析可以看出,用本文提出的預(yù)測(cè)方法預(yù)測(cè)的三個(gè)交通流參數(shù)比目前常用的一些交通流預(yù)測(cè)方法的預(yù)測(cè)精度有明顯提高。
參考文獻(xiàn):
[1] 楊兆生.基礎(chǔ)交通信息融合技術(shù)及其應(yīng)用[M].北京:中國(guó)鐵道出版社,2005.
[2]賀國(guó)光,李宇,馬壽峰.基于數(shù)學(xué)模型的短時(shí)交通流預(yù)測(cè)方法探討[J].系統(tǒng)工程理論與實(shí)踐,2000,20(12):51-56.
[3]LIU Binsheng,LI Yijun,YANG Haitao,et al.Research on forecasting model in short term traffic flow based on data mining technology[C]//Proc of the 6th International Conference on Intelligent Systems Design and Applications.Washington DC:IEEE Computer Society,2006:707712.
[4]劉靜,關(guān)偉.交通流預(yù)測(cè)方法綜述[J].公路交通科技,2004,21(3):82-85.
[5]CORTES C,VAPNIK V.Support vector networks[J].Machine Learning,1995,20(3):273-297.[6]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)技術(shù)出版社,2004.