非參數(shù)回歸算法在短時(shí)交通流預(yù)測中的應(yīng)用

2012-12-01 10:08:28梁秀霞胡姍姍李偉斌

自動(dòng)化儀表 2012年4期

梁秀霞胡姍姍李偉斌

(河北工業(yè)大學(xué)控制科學(xué)與工程學(xué)院，天津 300130)

0 引言

隨著社會(huì)經(jīng)濟(jì)的發(fā)展，城市化、汽車化速度加快，交通擁擠、交通事故頻發(fā)、能源短缺等問題越來越突出［1］。智能交通系統(tǒng)(intelligent transportation system，ITS)被視為解決交通擁堵問題的重要手段［2］。它的廣泛應(yīng)用能夠幫助人們理性地選擇出行路線，能夠更有效地減少環(huán)境污染，避免交通擁擠，大大減少了出行時(shí)間。

道路交通系統(tǒng)是一個(gè)有人參與的、時(shí)變的、復(fù)雜的非線性大系統(tǒng)，其顯著特點(diǎn)是具有高度的不確定性［3］。如果我們能準(zhǔn)確地預(yù)測出未來交通狀態(tài)，就能防止交通阻塞和其他消極因素的影響。為此，本文首先研究了基于K近鄰的非參數(shù)回歸算法。同時(shí)，為了進(jìn)一步提高算法預(yù)測的精度，從兩方面對(duì)原有的算法進(jìn)行了改進(jìn)。首先采用主成分分析方法選取狀態(tài)向量，不僅達(dá)到了降維的目的，而且體現(xiàn)了變量之間的綜合作用;然后增加閉環(huán)回路，使模式匹配過程增加預(yù)測誤差因素，使匹配過程更趨向合理。

1 算法

1.1 算法框架

為了研究交通流量Y的變化規(guī)律，通常尋找一種回歸表達(dá)式Y(jié)=f(x)+u，其中x為相關(guān)變量，u為隨機(jī)誤差項(xiàng)［4］，但是要找到一個(gè)固定的f(x)不容易。在非參數(shù)估計(jì)中，不需要假定這個(gè)函數(shù)f(x)的形式，也不需要設(shè)定參數(shù)。非參數(shù)估計(jì)是一種數(shù)據(jù)驅(qū)動(dòng)的啟發(fā)式預(yù)測機(jī)制，通過搜索歷史數(shù)據(jù)庫中與當(dāng)前觀測值相似的數(shù)據(jù)來預(yù)測未來值，它的數(shù)學(xué)模型是從歷史數(shù)據(jù)中得到的。通常非參數(shù)估計(jì)可以劃分為三部分:歷史數(shù)據(jù)、搜索機(jī)制和預(yù)測函數(shù)［5］。

首先我們需要足夠的歷史數(shù)據(jù)，歷史數(shù)據(jù)越多，越能完整地反應(yīng)交通狀況，越有利于準(zhǔn)確地預(yù)報(bào)。然后通過主成分分析得到的狀態(tài)向量和距離度量準(zhǔn)則，在歷史數(shù)據(jù)庫中進(jìn)行搜索，尋找K個(gè)近鄰與實(shí)時(shí)數(shù)據(jù)進(jìn)行匹配。最終帶入預(yù)測函數(shù)中，得到下一個(gè)時(shí)刻的交通流量預(yù)測值，同時(shí)考慮誤差來調(diào)節(jié)參數(shù)。

1.2 歷史數(shù)據(jù)庫的生成

歷史數(shù)據(jù)庫也可稱為源范例庫，預(yù)測效果的好壞直接取決于歷史數(shù)據(jù)庫的完整性［6］。隨著交通信息采集技術(shù)的發(fā)展，信息采集范圍越來越廣，信息采集精度越來越高，使得獲取足夠高質(zhì)量的歷史數(shù)據(jù)成為可能。數(shù)據(jù)越完整，包含的交通流狀態(tài)越多，越能夠找到最接近的近鄰，得到的預(yù)測效果越好［7］。然而數(shù)據(jù)量過大不利于K近鄰尋找，且耗費(fèi)時(shí)間過長，所以要精簡冗余的數(shù)據(jù)。本文采用聚類算法，找到聚類中心和K個(gè)近鄰作為代表點(diǎn)，提高了搜索速度。

1.3 狀態(tài)向量的定義與選擇

在交通領(lǐng)域上，狀態(tài)向量是指與研究路段當(dāng)前時(shí)刻流量相關(guān)聯(lián)的影響因素組成的向量，影響流量的因素很多，如車輛速度、天氣情況、道路狀況、上下游的交通流量等都會(huì)影響本路段下一時(shí)刻流量。傳統(tǒng)的非參數(shù)回歸方法運(yùn)用相關(guān)系數(shù)法，由相關(guān)系數(shù)的大小從N個(gè)變量中選擇出幾個(gè)比較重要的因素。但是相關(guān)系數(shù)法得到的是單個(gè)變量與被測變量直接的相關(guān)系數(shù)，而沒有考慮變量之間的組合關(guān)系，這是相關(guān)系數(shù)法最大的缺點(diǎn)。

本文將采用主成分分析法進(jìn)行狀態(tài)向量的選取，它體現(xiàn)了變量之間的綜合作用。對(duì)于短時(shí)流量預(yù)測，壓縮之后的因素就是各種影響流量因素的線性組合。本文采用社會(huì)科學(xué)統(tǒng)計(jì)軟件包(statistical package for the social sciences，SPSS)進(jìn)行主成分分析。

1.4 距離度量準(zhǔn)則

距離度量衡量了實(shí)時(shí)數(shù)據(jù)與樣本數(shù)據(jù)的匹配程度。這里采用加權(quán)的歐氏距離來度量，即實(shí)時(shí)數(shù)據(jù)狀態(tài)向量中各分量和歷史數(shù)據(jù)庫中對(duì)應(yīng)點(diǎn)差的平分和。由于數(shù)據(jù)進(jìn)行了主成分分析和聚類，所以這里的權(quán)值定義為各個(gè)主成分的貢獻(xiàn)率。

假設(shè)當(dāng)前欲匹配的模式向量為X=(V1，V2，…，VL)，它與數(shù)據(jù)庫中點(diǎn) Pi=(V1i，V2i，…，VLi)的距離為d( X，P)i，采用加權(quán)的歐氏距離，計(jì)算公式如下。

1.5 數(shù)據(jù)匹配—K近鄰法則

K近鄰搜索是利用已經(jīng)建立好的狀態(tài)向量和相似性準(zhǔn)則，在歷史數(shù)據(jù)中找到與當(dāng)前變量值相匹配的K個(gè)最近鄰［8］，將這K個(gè)數(shù)據(jù)代入預(yù)測函數(shù)中，可得到下一個(gè)時(shí)刻的預(yù)測值。

K值的選取一般取決于樣本數(shù)據(jù)庫，不同的數(shù)據(jù)庫K值不同。當(dāng)為特殊日期(如1月1日、5月1日等)時(shí)，K=1最為合理，因?yàn)槎嘤嗟闹抵粫?huì)減弱交通流狀態(tài)本身的不確定性。由于樣本數(shù)據(jù)容量問題，在此省略對(duì)特殊日期的考慮。在其余時(shí)間里，通過選取不同的K值，得到預(yù)測平均絕對(duì)誤差，從而獲得最優(yōu)值。

1.6 預(yù)測函數(shù)

由上述近鄰機(jī)制，在歷史數(shù)據(jù)中找到K個(gè)近鄰，實(shí)際數(shù)據(jù)與這K個(gè)近鄰的距離為di(i=1，…，K)，那么下一時(shí)刻流量V(t+1)可采用帶權(quán)重的預(yù)測算法計(jì)算，如式(2)所示。

1.7 閉環(huán)反饋機(jī)制

由于狀態(tài)向量中變量的不同系數(shù)影響了X與數(shù)據(jù)庫里各點(diǎn)的距離，因此本文增加一個(gè)反饋環(huán)節(jié)，由誤差e和距離來調(diào)節(jié)狀態(tài)向量中變量的系數(shù)。調(diào)節(jié)公式如下。其中i表示第i個(gè)變量點(diǎn)，al為數(shù)據(jù)向量中第l個(gè)變量的權(quán)值，l=1，2，…，L。

2 試驗(yàn)結(jié)果分析

2.1 數(shù)據(jù)來源

本文對(duì)單點(diǎn)交通流數(shù)據(jù)進(jìn)行分析，采用的交通流數(shù)據(jù)來自北京市某公路。以5 min為單位時(shí)間間隔輸出2009年4月6日到2009年4月26日每天該路段的交通流量。交通流量是道路交通狀況的最主要指標(biāo)，因此，本文將預(yù)測下一時(shí)刻的交通流量，其中，前5472組數(shù)據(jù)用來訓(xùn)練，后289組數(shù)據(jù)用來測試。

2.2 試驗(yàn)設(shè)計(jì)

2.2.1 狀態(tài)向量的選擇

與預(yù)測變量相關(guān)的變量有速度、流量和占有率，每個(gè)變量保存(t－2)～t個(gè)歷史數(shù)據(jù)，變量個(gè)數(shù)為9個(gè)。運(yùn)用SPSS統(tǒng)計(jì)軟件得到各主成分的特征值貢獻(xiàn)率和累計(jì)貢獻(xiàn)率［9］，如表1 所示。

表1 主成分分析結(jié)果Tab.1 Results of principal component analysis

由表1可知，第1個(gè)特征值貢獻(xiàn)率最高，從第3個(gè)特征值開始以后的取值都小于1。因此，選擇前兩個(gè)特征值。每個(gè)主成分所對(duì)應(yīng)的各變量系數(shù)如表2所示。

表2 主成分分析所對(duì)應(yīng)的各變量系數(shù)Tab.2 Corresponding variable coefficients of principal component analysis

2.2.2 K的選取

在狀態(tài)向量和預(yù)測算法都已經(jīng)確定的情況下，K值的選取對(duì)預(yù)測結(jié)果很重要，K值一般從1到15。逐漸增加K值，觀察K值對(duì)平均絕對(duì)誤差的影響，如圖1所示。

圖1 K值對(duì)預(yù)測精度的影響Fig.1 Influerence of the value of K on forcasting accuracy

從圖1可以看出，當(dāng)K值從1增加到5時(shí)，預(yù)測精度大幅度增加;當(dāng)K值從5增加到9時(shí)，預(yù)測精度逐漸降低;當(dāng)K繼續(xù)增加時(shí)，誤差增大。因此，本文選K=9最為合適。

2.3 預(yù)測結(jié)果

本文將K個(gè)近鄰值代入預(yù)測函數(shù)(2)中，得到下一時(shí)刻的預(yù)測流量，并采用Matlab進(jìn)行仿真［10］，得到的仿真結(jié)果如圖2所示。

圖2 實(shí)際交通流量與預(yù)測流量比較Fig.2 Comparison of actual traffic flow and forecasting flow

2.4 試驗(yàn)分析

試驗(yàn)結(jié)果的好壞可以由誤差指標(biāo)來衡量。誤差指標(biāo)包括平均絕對(duì)誤差(MAE)、平均相對(duì)誤差(MAPE)和均方誤差(MSE)。其計(jì)算公式分別為:

表3 兩種方法預(yù)測結(jié)果的誤差比較Tab.3 Comparison of the errors between forecasting results from two algorithms

3 結(jié)束語

非參數(shù)回歸方法是一種不依賴于先驗(yàn)經(jīng)驗(yàn)來歸納模型的方法，只要存在滿足要求的歷史數(shù)據(jù)庫，任何路況下都能夠進(jìn)行預(yù)測且誤差小。對(duì)于有異常路況出現(xiàn)的情況，該方法的優(yōu)勢(shì)更加明顯。

本文在傳統(tǒng)的非參數(shù)回歸算法的基礎(chǔ)上進(jìn)行了兩方面的改進(jìn)，首先在基于聚類的歷史數(shù)據(jù)中運(yùn)用主成分分析方法得到狀態(tài)向量，提高了算法的速度和準(zhǔn)確性，然后采用增加反饋回路的方法使預(yù)測更加合理。

隨著計(jì)算機(jī)技術(shù)的發(fā)展，當(dāng)數(shù)據(jù)量日益增多時(shí)，如何更有效地提高算法的效率和準(zhǔn)確性變得更為重要。只有不斷地改進(jìn)算法，才能適應(yīng)交通的實(shí)時(shí)性和準(zhǔn)確性，最終廣泛應(yīng)用于交通誘導(dǎo)等方面。

［1］楊兆升.城市交通流誘導(dǎo)系統(tǒng)理論與模型［M］.北京:人民交通出版社，2000.

［2］姜桂艷.道路交通狀態(tài)判別技術(shù)與應(yīng)用［M］.北京:人民交通出版社，2004.

［3］張曉利，賀國光.考慮交通吸納點(diǎn)的非參數(shù)回歸組合型短時(shí)交通流預(yù)測方法［J］.系統(tǒng)工程，2006，24(12):21 －26.

［4］張曉利，賀國光，陸化普.基于K鄰域非參數(shù)回歸短時(shí)交通流預(yù)測方法［J］.系統(tǒng)工程學(xué)報(bào)，2009，24(2):178 －183.

［5］張濤，陳先，謝美萍，等.基于K近鄰非參數(shù)回歸的短時(shí)交通流預(yù)測方法［J］.系統(tǒng)工程理論與實(shí)踐，2010，30(2):376 －385.

［6］王曉原，吳磊，張開旺，等.非參數(shù)小波算法的交通流預(yù)測方法［J］.系統(tǒng)工程，2005，23(10):44 －48.

［7］劉燕，章洵.組合預(yù)測模型在短時(shí)交通流預(yù)測中的應(yīng)用研究［J］.物流管理，2010，23:15 －19.

［8］宮曉燕，湯淑明.基于非參數(shù)回歸的短時(shí)交通流量預(yù)測與事件檢測綜合算法［J］.中國公路學(xué)報(bào)，2003，16(1):82 －87.

［9］王璐.SPSS統(tǒng)計(jì)分析基礎(chǔ)應(yīng)用與實(shí)踐［M］.北京:化學(xué)工業(yè)出版社，2010.

［10］謝中華.MATLAB統(tǒng)計(jì)分析與應(yīng)用:40個(gè)案例分析［M］.北京:北京航空航天大學(xué)出版社，2010.