王碩,谷遠利,李萌,陸文琦,張源
(北京交通大學城市交通復雜系統理論與技術教育部重點實驗室,北京 100044)
隨著信息和大數據技術的發展,基于智能交通系統(intelligent transport system, ITS)的道路交通管理和控制被廣泛運用于解決交通擁堵、緩解道路壓力等方面。其中,道路管控的可行性和高效性依賴于以交通流預測為基礎的交通狀況預測,而且精準的交通流預測對于實現主動交通管理等先進管控手段具有重要意義[1]。道路網短時交通流預測是在實測交通流數據的基礎上預測下一時段的交通流量,為提高短時交通流的預測效果,國內外交通行業研究者從構建模型的角度進行了大量的研究。從20世紀60年代開始,多種有效的交通流預測模型和算法涌現,比較常見的模型包括基于線性理論的模型如歷史平均模型(history average model, HAM)、卡爾曼濾波模型(Kalman filtering model, KFM)、滑動平均模型(moving average model, MAM)等,基于非線性理論的模型如小波分析模型(wavelet model, WM)和混沌理論模型(chaos theory model, CTM)等,以及基于智能理論的模型如神經網絡(neural network, NM)和支持向量機(support vector machine, SVM)等[2-5]。其中,混沌理論預測模型具有直接基于交通流時間序列數據內在的規律性進行分析預測,不必建立主觀模型從而避免人工干預的優點,神經網絡預測模型則具有不用求解具體的擬合函數以及可逼近任意非線性問題等顯著的優勢。但在進行神經網絡建模時,輸入向量的選擇多由研究者主觀分析得到,所以模型預測精確度受到人為干預。由于混沌理論模型和神經網絡模型各有所長,而組合預測模型能融合不同模型的優點,提高預測精確度[6],所以本文主要研究基于混沌理論和改進神經網絡的組合預測方法。
混沌理論最早由氣象學研究學者Lorenz提出并應用于大氣對流模型中,隨后不斷發展并應用于天文、醫學、能源、金融等行業的時間序列數據研究。Takens[7]提出了相空間重構方法來研究混沌時間序列,通過重構單一時間序列還原系統的混沌性,從而發現時間序列的隱含規律,開啟了混沌理論的定量研究。宗春光等[8]將混沌理論引入到交通流預測方法中,利用相空間重構的分析方法處理數據,并進行了線性回歸預測,證明了相空間重構在交通流預測中的有效性,但交通流數據具有明顯的非線性,線性方法無法準確描述其演變規律。
BP神經網絡作為一種誤差反向傳播的神經網絡,具有強大的非線性逼近能力,并具有優越的穩定性和容錯性,是目前應用最廣泛的人工神經網絡模型之一,但由于BP神經網絡采用梯度下降法訓練初始權值和閾值,具有收斂速度慢且易陷入局部最優解的缺陷[9]。
本文創新性地將混沌理論和改進BP神經網絡進行融合,構建組合預測模型。針對BP神經網絡自身的缺陷,利用思維進化算法(mind evolution algorithm,MEA)來優化BP神經網絡,MEA在傳統遺傳算法中“群體”和“進化”思想的基礎上,引入了“趨同”和“異化”操作,具有更強大的全局搜索能力且克服了傳統遺傳算法[10-11]結果不可知、早熟收斂的缺陷,能夠提升BP神經網絡的預測效果。為檢驗提出模型的預測精度,本文利用北京市二環路兩周工作日交通流數據進行了短時交通流預測,和單一模型預測結果進行誤差對比,證明了所提組合模型預測精度的優越性。
城市快速路交通系統是一個由人、車、路、環境共同作用、交叉影響的開放系統。駕駛人出行的規律性,使得交通流表現出一定規律性和穩定性,具體表現為交通流的時空特性。而隨著觀測尺度的縮短,交通流變化易受到駕駛人生理心理狀況、路況和環境等因素的影響,體現出較強的隨機性和波動性特征。交通流數據既具有規律性又具有隨機性,使其表現出混沌性的特點。
為了解交通流數據特性,選取北京市二環快速路上連續10個斷面交通流數據在兩周內的持續變化進行分析。數據由微波檢測器獲得,研究斷面位于阜成門橋北到鐘樓北橋之間。
1.1.1 相似性
隨機選取某一斷面兩周工作日數據,對數據進行平滑后,得到交通流隨時間變化的曲線,如圖1所示。整體來看,各工作日之間交通流量表現出強相似性,均表現出穩定階段、增長階段、早高峰階段和晚高峰階段,兩周之間也呈現出周相似性,故案例分析中可選擇連續兩周工作日交通流數據作為研究對象。

圖1 兩周工作日交通流量圖Fig.1 Traffic flow chart of consecutive two-week workdays
1.1.2 周期性
隨機選取某一斷面兩周工作日數據,進行快速傅里葉變換(fast Fourier transform ,FFT),得到時域圖和頻譜圖如圖2所示,其中時域圖橫軸為時間,縱軸為交通流量,頻譜圖橫軸為數據采樣頻率,縱軸為振幅。由時域圖可以看出交通流在時間上具有明顯的周期性,頻譜圖則將時域的信號轉變為頻域的信號,在頻率0.001 3到0.001 4處出現沖擊波,取倒數可得數列的周期P≈720,由于實驗數據采集間隔2 min,720為一天所采集的交通流數據量,故由頻譜分析得到交通流具有周期性且其周期為1 d。

圖2 交通流量時域圖和頻譜圖Fig.2 Time domain and spectrum charts of traffic flow
1.1.3 空間相關性
研究交通流空間相關性即分析斷面交通流之間的相關關系,找出相關度較高的幾個相鄰斷面作為接下來的研究對象,一方面可以簡化模型,避免輸入向量過于龐大造成模型復雜、速度慢等問題,另一方面能防止相關性較弱的斷面相互干擾,提高預測精度。
采用多元統計分析中的聚類分析方法來分析各個斷面交通流之間的相關關系,本文采用層次凝聚聚類(hierarchical agglomerative clustering ,HAC)方法進行聚類[12],該聚類算法的方法和評價標準是將每組數據作為一類,計算類別之間的歐式距離,合并兩個相似的類為一大類,重復該步驟直到所有組合并為一大類,利用HAC方法可以形成一個樹狀圖來表示聚類結果。
選取1.1.1交通流時間序列,按照層次聚類步驟進行聚類分析,對10個斷面交通流數據進行層次聚類得到聚類樹狀圖見圖3。

圖3 聚類樹狀圖Fig.3 Dendrogram of cluster
層次聚類方法得到的樹狀譜系圖表示相似程度,本文中交通流時間序列的相似度由歐式距離來計算,距離越小表示相似度越高。由圖3可得,在閾值25時斷面被分為6類,其中有4個編號為2052、2054、2055和2056的相鄰斷面被分為一類,可以視為該4個相鄰斷面相似度較高,既具有空間上的聯系,又具有反映該4個斷面所屬路段交通流變化特征的意義。故接下來的案例分析可選擇北京市二環路上這4個斷面交通流數據進行結合時空特征的交通流多斷面預測工作。
本文采用Lyapunov指數法來判定交通流數據的混沌性,Lyapunov指數大于0即判定系統為混沌。首先對時間序列數據進行相空間重構,延遲時間τ和嵌入維數d是進行相空間重構的重要參數。
1.2.1 時間延遲τ和嵌入維數d
τ表示將一維交通流數據展開到高維坐標系后,每個坐標軸的相位差,即重構后每個坐標點中相鄰兩維交通流數據分量之間的時間差為τ;嵌入維數d 是相空間重構后得到的維數,將時間序列數據擴展到d維坐標系中,即相空間重構后每個坐標點有d 維坐標分量。
在相空間重構中τ和d 的取值直接影響重構效果。如果τ的取值太小,重構后所有坐標軸幾乎是一致的,相空間軌跡無法展開;如果τ的取值太大,則相空間軌跡容易間斷且過于復雜。如果d的取值太小,無法展現出相空間軌跡的規律性;如果d 的取值太大,則會增大Lyapunov指數等的計算復雜度。目前τ和d 的選擇主要由數學方法計算得出,本文采用C-C關聯積分法同時確定出τ和d。
C-C算法由Kim等[13-14]于1999年首次提出,是一種能同時估算出延遲時間τ和嵌入窗寬τm的方法。設有長度為N的交通流時間序列xi={x1,x2,…,xN},C-C關聯積分法求解延遲時間τ和嵌入窗寬τm的步驟如下:
首先定義嵌入交通流時間序列的關聯積分:

其次定義關聯維數:

將交通流時間序列分成t個子序列,分別為:
{x1,x1+t,…,x1+(d-1)t},{x2,x2+t,…,x2+(d-1)t},…, {xi,xi+t,…,xi+(d-1)t},…,{xt,x2t,…,xdt}。
定義每個交通流子序列的統計量:
當N有限時,S(d,r,t)取零點值或對全部取值差別最小的值,選擇對應值分別最大和最小的半徑r,定義差值:
ΔS(d,t)=max{S(d,rj,t,N)}-min{S(d,ri,t,N)}(i≠j)。
ΔS(d,t)為半徑r的最大偏差,t為其最小值,時間延遲τ對應著第一個t,根據統計結論有以下公式:

1.2.2 小數量法判定混沌性
Lyapunov指數為定量描述混沌時間序列數據里兩個初始值相互分離速率的指標,一個混沌時間序列中存在著多個Lyapunov指數,最大值為最大Lyapunvo指數,是識別混沌特性的關鍵指標,只要最大Lyapunov指數大于0,系統就可以被判定為混沌[15]。
本文選取具有樣本需求量少、計算速度快等優點的小數量法[16]計算最大Lyapunov指數來進行混沌識別,小數量法算法首先根據延遲時間τ和嵌入維數m對時間序列進行相空間重構,然后尋找每個相點的最近鄰點,即:

通過每個點最近臨近點的平均發散率估計得最大Lyapunov指數,即

當λ<0時,系統是穩定的;當λ=0時,系統具有周期變化性;當λ>0時,系統具有混沌性。
BP神經網絡由Rumelhart等[17]于1986年首次提出,是一種誤差逆向傳播的多層前饋神經網絡,作為目前應用最廣泛的神經網絡模型之一,BPNN具有可塑性好、操作簡單和可任意逼近非線性映射的優點。其由輸入層、隱含層和輸出層組成,層與層神經元之間通過權值和閾值相互連接,層內神經元相互獨立,其預測功能通過對模型進行訓練實現。
MEA由孫承意等[18]于2000年首次提出,該算法是一種模擬人類思維進化過程的算法,其關鍵步驟在于“趨同”和“異化”,趨同即在進化過程中不斷向優勝者學習進而被優勝群體同化,異化則是優勝群體中的個體會自我改善,進而融入到更優勝群體中。在反復“趨同”和“異化”過程中,最終優勝劣汰,全局產生唯一優勝群體,即得到全局最優解。
結合BPNN可塑性好且操作簡單以及MEA全局搜索能力強的優點,本文采用MEA-BPNN算法來進行快速路交通流量的短時預測。MEA-BPNN算法步驟如下:
Step1:建立BP神經網絡模型,確定初始權值和閾值;
Step2:進行MEA初始設置,隨機產生P個個體,代表不同初始權值閾值的BP神經網絡模型,并將個體劃分到優勝子群體和臨時子群體里;
Step3:執行趨同操作,計算單個群體中的個體得分,定義最高分為優勝者并在局部公告板和全局公告板上顯示,更新產生新的子群體,重復趨同操作直到優勝者的得分不再增高,定義優勝者的得分為該子群體得分;
Step4:執行異化操作,子群體在全局范圍內進行競爭,淘汰并產生新的臨時子群體,重復趨同異化操作直到滿足迭代終止條件;
Step5:根據MEA編碼規則,解析出最優個體,得到最優權值和閾值;
Step6:將優化得到的權值和閾值作為BPNN參數,用重構交通流時間序列數據對BPNN進行預測。


圖4 MEA-BPNN算法流程圖Fig.4 Flow chart of MEA-BPNN algorithm
選擇在空間相關性上聚為一類的北京市二環路4個連續斷面作為研究對象,對其兩周工作日交通流數據,按照C-C算法步驟進行時間延遲τ和嵌入窗寬τm的計算,結果如圖5所示。

圖5 C-C算法結果圖Fig. 5 C-C algorithm result maps

τm=(d-1)τ。
則可用C-C方法同時確定延遲時間τ和嵌入維數d, 再根據小數量法計算最大Lyapunvo指數,得到如表1所示的各斷面相空間重構參數。

表1 重構參數表
4個斷面的最大Lyapunvo指數均大于0,即交通流時間序列數據具有混沌特性。求得延遲時間τ和嵌入維數d后,按照Cao[19]所提出的相空間重構方法,可以得到一個與原交通流時間序列等價的相空間,建立d維坐標系,相空間軌跡由d維坐標系中的點組成,每個點叫做相空間的一個相點,設為Vn,則:
式中,m為參與重構的時間序列維數,n代表相空間中第n個相點,τ也叫坐標延遲,代表重構后高維坐標系坐標軸之間的相位差,d為重構后所得相空間的維數。本文里m=4,代表4組來自于不同斷面的交通流量,τ和d分別代表重構交通流時間序列數據中兩相鄰維之間的時間步數和重構交通流時間序列數據的維數。

本文構建的MEA-BPNN模型具有20個輸入向量,4個輸出向量,可以實現4個斷面的同時預測,模型參數設置見表2。

表2 MEA-BPNN初始參數設置
利用MEA算法對BP神經網絡初始權值和閾值進行優化的過程中,對應的初代優勝子種群和初代臨時子種群的趨同過程如圖6所示。由圖6可知,經過幾次趨同操作后各子種群得分不再增加,種群已經成熟,其后進行異化操作,增加新的個體,循環直到得到最優個體,即得出了優化算法最優解,對應BPNN最優權值和閾值。

圖6 初始子種群趨同過程Fig. 6 Convergence process of the initial superior and temporary subpopulation
利用MEA優化得出的權值和閾值,改進BPNN模型后再利用前文中得出的數據訓練集進行訓練,BPNN同時輸出4個斷面的一日交通量預測值,預測效果見圖7,可直觀看出預測值和實際交通量趨勢一致,預測效果較好。
為了對比分析相空間重構和MEA-BPNN模型的有效性,本文對4個斷面的交通流量分別進行了無重構的MEA-BPNN模型預測以及重構、無重構的BPNN模型預測,用均方根誤差(rootmeansquareerror,RMSE)、平均絕對誤差(meanaverageerror,MAE)和平均絕對百分誤差(meanaveragepercentageerror,MAPE)3種誤差評價指標進行了模型精確度的評價,結果如表3所示。

表3 誤差對比
由表3可見,基于PR-BPNN模型的斷面平均誤差與基于傳統BPNN模型的斷面平均誤差相比,均方根誤差、平均絕對誤差和平均絕對百分誤差分別下降12.43%,6.46%和14.57%,證明了相空間重構處理交通流數據的有效性;基于MEA-BPNN模型的斷面平均誤差與基于傳統BPNN模型的斷面平均誤差相比,均方根誤差、平均絕對誤差和平均絕對百分誤差分別下降12.16%,12.83%和13.73%,證明了MEA在改進BPNN模型方面的有效性;基于PR-MEABPNN模型的斷面平均誤差與基于傳統BPNN模型的斷面平均誤差相比,均方根誤差、平均絕對誤差和平均絕對百分誤差分別下降31.11%,20.71%和37.28%,證明了組合預測模型同時具備相空間重構和思維進化算法改進BPNN模型的優越性,提高了交通流預測精度。
本文結合實測數據進行了交通流的時空特征和混沌分析,證明了交通流數據時間上具有相似性與周期性,空間上具有斷面相關性,且判定了其具有混沌特性。根據交通流的時空特性選定了預測的時段和路段,并根據混沌特性進行了相空間重構,優化了模型輸入。提出了MEA改進后的BPNN模型,并進行了相空間重構和改進BPNN模型融合的道路網多斷面的短時交通流預測,與未改進模型進行了誤差對比,證明了改進算法具有更高的預測精度,預測結果可為出行決策和交通管控提供更準確的參考。
本文在進行預測時,只考慮了交通流量時間序列本身的變化規律,進一步的工作中可考慮交通流三要素之間的相互影響,將其他交通要素如速度和占有率加入相空間重構,用多變量相空間重構的方法更全面地反映交通流變化規律。