梁秀霞 胡姍姍 李偉斌
(河北工業(yè)大學(xué)控制科學(xué)與工程學(xué)院,天津 300130)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,城市化、汽車化速度加快,交通擁擠、交通事故頻發(fā)、能源短缺等問題越來越突出[1]。智能交通系統(tǒng)(intelligent transportation system,ITS)被視為解決交通擁堵問題的重要手段[2]。它的廣泛應(yīng)用能夠幫助人們理性地選擇出行路線,能夠更有效地減少環(huán)境污染,避免交通擁擠,大大減少了出行時(shí)間。
道路交通系統(tǒng)是一個(gè)有人參與的、時(shí)變的、復(fù)雜的非線性大系統(tǒng),其顯著特點(diǎn)是具有高度的不確定性[3]。如果我們能準(zhǔn)確地預(yù)測出未來交通狀態(tài),就能防止交通阻塞和其他消極因素的影響。為此,本文首先研究了基于K近鄰的非參數(shù)回歸算法。同時(shí),為了進(jìn)一步提高算法預(yù)測的精度,從兩方面對(duì)原有的算法進(jìn)行了改進(jìn)。首先采用主成分分析方法選取狀態(tài)向量,不僅達(dá)到了降維的目的,而且體現(xiàn)了變量之間的綜合作用;然后增加閉環(huán)回路,使模式匹配過程增加預(yù)測誤差因素,使匹配過程更趨向合理。
為了研究交通流量Y的變化規(guī)律,通常尋找一種回歸表達(dá)式Y(jié)=f(x)+u,其中x為相關(guān)變量,u為隨機(jī)誤差項(xiàng)[4],但是要找到一個(gè)固定的f(x)不容易。在非參數(shù)估計(jì)中,不需要假定這個(gè)函數(shù)f(x)的形式,也不需要設(shè)定參數(shù)。非參數(shù)估計(jì)是一種數(shù)據(jù)驅(qū)動(dòng)的啟發(fā)式預(yù)測機(jī)制,通過搜索歷史數(shù)據(jù)庫中與當(dāng)前觀測值相似的數(shù)據(jù)來預(yù)測未來值,它的數(shù)學(xué)模型是從歷史數(shù)據(jù)中得到的。通常非參數(shù)估計(jì)可以劃分為三部分:歷史數(shù)據(jù)、搜索機(jī)制和預(yù)測函數(shù)[5]。
首先我們需要足夠的歷史數(shù)據(jù),歷史數(shù)據(jù)越多,越能完整地反應(yīng)交通狀況,越有利于準(zhǔn)確地預(yù)報(bào)。然后通過主成分分析得到的狀態(tài)向量和距離度量準(zhǔn)則,在歷史數(shù)據(jù)庫中進(jìn)行搜索,尋找K個(gè)近鄰與實(shí)時(shí)數(shù)據(jù)進(jìn)行匹配。最終帶入預(yù)測函數(shù)中,得到下一個(gè)時(shí)刻的交通流量預(yù)測值,同時(shí)考慮誤差來調(diào)節(jié)參數(shù)。
歷史數(shù)據(jù)庫也可稱為源范例庫,預(yù)測效果的好壞直接取決于歷史數(shù)據(jù)庫的完整性[6]。隨著交通信息采集技術(shù)的發(fā)展,信息采集范圍越來越廣,信息采集精度越來越高,使得獲取足夠高質(zhì)量的歷史數(shù)據(jù)成為可能。數(shù)據(jù)越完整,包含的交通流狀態(tài)越多,越能夠找到最接近的近鄰,得到的預(yù)測效果越好[7]。然而數(shù)據(jù)量過大不利于K近鄰尋找,且耗費(fèi)時(shí)間過長,所以要精簡冗余的數(shù)據(jù)。本文采用聚類算法,找到聚類中心和K個(gè)近鄰作為代表點(diǎn),提高了搜索速度。
在交通領(lǐng)域上,狀態(tài)向量是指與研究路段當(dāng)前時(shí)刻流量相關(guān)聯(lián)的影響因素組成的向量,影響流量的因素很多,如車輛速度、天氣情況、道路狀況、上下游的交通流量等都會(huì)影響本路段下一時(shí)刻流量。傳統(tǒng)的非參數(shù)回歸方法運(yùn)用相關(guān)系數(shù)法,由相關(guān)系數(shù)的大小從N個(gè)變量中選擇出幾個(gè)比較重要的因素。但是相關(guān)系數(shù)法得到的是單個(gè)變量與被測變量直接的相關(guān)系數(shù),而沒有考慮變量之間的組合關(guān)系,這是相關(guān)系數(shù)法最大的缺點(diǎn)。
本文將采用主成分分析法進(jìn)行狀態(tài)向量的選取,它體現(xiàn)了變量之間的綜合作用。對(duì)于短時(shí)流量預(yù)測,壓縮之后的因素就是各種影響流量因素的線性組合。本文采用社會(huì)科學(xué)統(tǒng)計(jì)軟件包(statistical package for the social sciences,SPSS)進(jìn)行主成分分析。
距離度量衡量了實(shí)時(shí)數(shù)據(jù)與樣本數(shù)據(jù)的匹配程度。這里采用加權(quán)的歐氏距離來度量,即實(shí)時(shí)數(shù)據(jù)狀態(tài)向量中各分量和歷史數(shù)據(jù)庫中對(duì)應(yīng)點(diǎn)差的平分和。由于數(shù)據(jù)進(jìn)行了主成分分析和聚類,所以這里的權(quán)值定義為各個(gè)主成分的貢獻(xiàn)率。
假設(shè)當(dāng)前欲匹配的模式向量為X=(V1,V2,…,VL),它與數(shù)據(jù)庫中點(diǎn) Pi=(V1i,V2i,…,VLi)的距離為d( X,P)i,采用加權(quán)的歐氏距離,計(jì)算公式如下。

K近鄰搜索是利用已經(jīng)建立好的狀態(tài)向量和相似性準(zhǔn)則,在歷史數(shù)據(jù)中找到與當(dāng)前變量值相匹配的K個(gè)最近鄰[8],將這K個(gè)數(shù)據(jù)代入預(yù)測函數(shù)中,可得到下一個(gè)時(shí)刻的預(yù)測值。
K值的選取一般取決于樣本數(shù)據(jù)庫,不同的數(shù)據(jù)庫K值不同。當(dāng)為特殊日期(如1月1日、5月1日等)時(shí),K=1最為合理,因?yàn)槎嘤嗟闹抵粫?huì)減弱交通流狀態(tài)本身的不確定性。由于樣本數(shù)據(jù)容量問題,在此省略對(duì)特殊日期的考慮。在其余時(shí)間里,通過選取不同的K值,得到預(yù)測平均絕對(duì)誤差,從而獲得最優(yōu)值。
由上述近鄰機(jī)制,在歷史數(shù)據(jù)中找到K個(gè)近鄰,實(shí)際數(shù)據(jù)與這K個(gè)近鄰的距離為di(i=1,…,K),那么下一時(shí)刻流量V(t+1)可采用帶權(quán)重的預(yù)測算法計(jì)算,如式(2)所示。

由于狀態(tài)向量中變量的不同系數(shù)影響了X與數(shù)據(jù)庫里各點(diǎn)的距離,因此本文增加一個(gè)反饋環(huán)節(jié),由誤差e和距離來調(diào)節(jié)狀態(tài)向量中變量的系數(shù)。調(diào)節(jié)公式如下。其中i表示第i個(gè)變量點(diǎn),al為數(shù)據(jù)向量中第l個(gè)變量的權(quán)值,l=1,2,…,L。

本文對(duì)單點(diǎn)交通流數(shù)據(jù)進(jìn)行分析,采用的交通流數(shù)據(jù)來自北京市某公路。以5 min為單位時(shí)間間隔輸出2009年4月6日到2009年4月26日每天該路段的交通流量。交通流量是道路交通狀況的最主要指標(biāo),因此,本文將預(yù)測下一時(shí)刻的交通流量,其中,前5472組數(shù)據(jù)用來訓(xùn)練,后289組數(shù)據(jù)用來測試。
2.2.1 狀態(tài)向量的選擇
與預(yù)測變量相關(guān)的變量有速度、流量和占有率,每個(gè)變量保存(t-2)~t個(gè)歷史數(shù)據(jù),變量個(gè)數(shù)為9個(gè)。運(yùn)用SPSS統(tǒng)計(jì)軟件得到各主成分的特征值貢獻(xiàn)率和累計(jì)貢獻(xiàn)率[9],如表1 所示。

表1 主成分分析結(jié)果Tab.1 Results of principal component analysis
由表1可知,第1個(gè)特征值貢獻(xiàn)率最高,從第3個(gè)特征值開始以后的取值都小于1。因此,選擇前兩個(gè)特征值。每個(gè)主成分所對(duì)應(yīng)的各變量系數(shù)如表2所示。

表2 主成分分析所對(duì)應(yīng)的各變量系數(shù)Tab.2 Corresponding variable coefficients of principal component analysis
2.2.2 K的選取
在狀態(tài)向量和預(yù)測算法都已經(jīng)確定的情況下,K值的選取對(duì)預(yù)測結(jié)果很重要,K值一般從1到15。逐漸增加K值,觀察K值對(duì)平均絕對(duì)誤差的影響,如圖1所示。

圖1 K值對(duì)預(yù)測精度的影響Fig.1 Influerence of the value of K on forcasting accuracy
從圖1可以看出,當(dāng)K值從1增加到5時(shí),預(yù)測精度大幅度增加;當(dāng)K值從5增加到9時(shí),預(yù)測精度逐漸降低;當(dāng)K繼續(xù)增加時(shí),誤差增大。因此,本文選K=9最為合適。
本文將K個(gè)近鄰值代入預(yù)測函數(shù)(2)中,得到下一時(shí)刻的預(yù)測流量,并采用Matlab進(jìn)行仿真[10],得到的仿真結(jié)果如圖2所示。

圖2 實(shí)際交通流量與預(yù)測流量比較Fig.2 Comparison of actual traffic flow and forecasting flow
試驗(yàn)結(jié)果的好壞可以由誤差指標(biāo)來衡量。誤差指標(biāo)包括平均絕對(duì)誤差(MAE)、平均相對(duì)誤差(MAPE)和均方誤差(MSE)。其計(jì)算公式分別為:


表3 兩種方法預(yù)測結(jié)果的誤差比較Tab.3 Comparison of the errors between forecasting results from two algorithms
非參數(shù)回歸方法是一種不依賴于先驗(yàn)經(jīng)驗(yàn)來歸納模型的方法,只要存在滿足要求的歷史數(shù)據(jù)庫,任何路況下都能夠進(jìn)行預(yù)測且誤差小。對(duì)于有異常路況出現(xiàn)的情況,該方法的優(yōu)勢(shì)更加明顯。
本文在傳統(tǒng)的非參數(shù)回歸算法的基礎(chǔ)上進(jìn)行了兩方面的改進(jìn),首先在基于聚類的歷史數(shù)據(jù)中運(yùn)用主成分分析方法得到狀態(tài)向量,提高了算法的速度和準(zhǔn)確性,然后采用增加反饋回路的方法使預(yù)測更加合理。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,當(dāng)數(shù)據(jù)量日益增多時(shí),如何更有效地提高算法的效率和準(zhǔn)確性變得更為重要。只有不斷地改進(jìn)算法,才能適應(yīng)交通的實(shí)時(shí)性和準(zhǔn)確性,最終廣泛應(yīng)用于交通誘導(dǎo)等方面。
[1]楊兆升.城市交通流誘導(dǎo)系統(tǒng)理論與模型[M].北京:人民交通出版社,2000.
[2]姜桂艷.道路交通狀態(tài)判別技術(shù)與應(yīng)用[M].北京:人民交通出版社,2004.
[3]張曉利,賀國光.考慮交通吸納點(diǎn)的非參數(shù)回歸組合型短時(shí)交通流預(yù)測方法[J].系統(tǒng)工程,2006,24(12):21 -26.
[4]張曉利,賀國光,陸化普.基于K鄰域非參數(shù)回歸短時(shí)交通流預(yù)測方法[J].系統(tǒng)工程學(xué)報(bào),2009,24(2):178 -183.
[5]張濤,陳先,謝美萍,等.基于K近鄰非參數(shù)回歸的短時(shí)交通流預(yù)測方法[J].系統(tǒng)工程理論與實(shí)踐,2010,30(2):376 -385.
[6]王曉原,吳磊,張開旺,等.非參數(shù)小波算法的交通流預(yù)測方法[J].系統(tǒng)工程,2005,23(10):44 -48.
[7]劉燕,章洵.組合預(yù)測模型在短時(shí)交通流預(yù)測中的應(yīng)用研究[J].物流管理,2010,23:15 -19.
[8]宮曉燕,湯淑明.基于非參數(shù)回歸的短時(shí)交通流量預(yù)測與事件檢測綜合算法[J].中國公路學(xué)報(bào),2003,16(1):82 -87.
[9]王璐.SPSS統(tǒng)計(jì)分析基礎(chǔ)應(yīng)用與實(shí)踐[M].北京:化學(xué)工業(yè)出版社,2010.
[10]謝中華.MATLAB統(tǒng)計(jì)分析與應(yīng)用:40個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.