周思吉, 錢真坤
1.四川文理學(xué)院 信息化建設(shè)與服務(wù)中心, 四川 達(dá)州 635000; 2.四川文理學(xué)院 后勤服務(wù)處, 四川 達(dá)州 635000
大數(shù)據(jù)時代下的智慧城市, 交通數(shù)據(jù)增長迅速, 給交通管理帶來很大壓力, 將傳感技術(shù)、 圖像、 控制技術(shù)等集成運(yùn)用到管理系統(tǒng)的智能交通系統(tǒng)(Intelligent Transportation System, ITS)應(yīng)運(yùn)而生[1-2]. 交通預(yù)測對于ITS、 交通管理部門和旅行者來說必不可少, 采用最先進(jìn)的機(jī)器學(xué)習(xí)算法對大流量數(shù)據(jù)集進(jìn)行研究, 設(shè)計(jì)可靠的駕駛員支持系統(tǒng), 可以避免致命事故的發(fā)生[3-4]. 在交通監(jiān)控等實(shí)時應(yīng)用中, 需要處理大量的數(shù)據(jù), 由于不同位置的非線性時間動態(tài)特性、 復(fù)雜的空間相關(guān)性和更廣泛的步長預(yù)測, 使交通預(yù)測成為一項(xiàng)具有挑戰(zhàn)性的任務(wù). 為了適應(yīng)這些情況, 需要高效的可視化和數(shù)據(jù)挖掘技術(shù)來預(yù)測和分析海量的交通大數(shù)據(jù)[5-6].
文獻(xiàn)[7]提出一種用于處理大傳感器數(shù)據(jù)的收斂模型, 該模型包括使用霧、 云和移動計(jì)算技術(shù)的3層, 在收斂模型框架內(nèi)實(shí)現(xiàn)了用于數(shù)據(jù)處理的多主體方法. 文獻(xiàn)[8]提出基于大數(shù)據(jù)技術(shù)的軟件定義網(wǎng)絡(luò)(Software Defined Network, SDN)流量監(jiān)控方法, 該方法使用計(jì)數(shù)器來收集和生成流量統(tǒng)計(jì)信息. 近幾年來, 深度學(xué)習(xí)吸引了許多研究者將其應(yīng)用到交通相關(guān)領(lǐng)域, 為了有利于道路信息的獲取, 利用深度學(xué)習(xí)算法對交通流模式進(jìn)行分層設(shè)計(jì), 提取有用信息. 文獻(xiàn)[9]提出一種長期短期記憶深度模型的交通預(yù)測方法, 能夠提取精確的潛在空間相關(guān)性, 提高預(yù)測精度. 文獻(xiàn)[10]提出一種改進(jìn)的深度置信網(wǎng)絡(luò)流量預(yù)測方法.
提高預(yù)測精度是交通流量預(yù)測需要解決的關(guān)鍵問題, 為了最大限度地提高預(yù)測精度和可擴(kuò)展性, 目前已有許多相關(guān)研究[11]. 文獻(xiàn)[12]提出一種利用大數(shù)據(jù)、 內(nèi)存計(jì)算、 深度學(xué)習(xí)和圖形處理單元(Graphics Processing Units, GPU)進(jìn)行智能流量預(yù)測算法, 對大規(guī)模、 快速、 實(shí)時的交通進(jìn)行預(yù)測. 文獻(xiàn)[13]提出一種用于城市快速道路交通狀態(tài)分類的機(jī)器學(xué)習(xí)方法, 該方法采用改進(jìn)的模糊C均值(Fuzzy C-Means, FCM)聚類算法對城市交通狀態(tài)進(jìn)行分類. 但該算法僅適用于城市高速公路的交通狀態(tài)分類, 未考慮交通碰撞對城市道路交通狀態(tài)產(chǎn)生的影響. 文獻(xiàn)[14]提出一種基于機(jī)器學(xué)習(xí)的城市交通事故安全黑點(diǎn)識別算法, 該算法采用基于最大分類區(qū)間的支持向量機(jī)對研究區(qū)域內(nèi)的復(fù)雜模型進(jìn)行訓(xùn)練和事故黑點(diǎn)優(yōu)化學(xué)習(xí), 并基于深層神經(jīng)網(wǎng)絡(luò)來識別和分析交通事故黑點(diǎn). 由于交通事故數(shù)據(jù)特征隨時間和空間的變化而變化, 難以確定造成黑點(diǎn)的原因, 黑點(diǎn)識別模型的訓(xùn)練將變得非常復(fù)雜.
為了進(jìn)行不同位置的非線性時間動態(tài)特性、 復(fù)雜的空間相關(guān)性和更廣泛的步長預(yù)測, 本文提出一種高精度基于深度學(xué)習(xí)的并行卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的流量大數(shù)據(jù)預(yù)測模型, 通過檢測目標(biāo)的存在性和其感興趣區(qū)域(Region Of Interest, ROI)的幾何屬性(位置和方向)來預(yù)測特定區(qū)域的交通狀況. 在該模型中保留交通信息, 并基于已有知識開發(fā)可視化, 通過不斷變化的交通狀況動畫設(shè)計(jì), 在特定的道路和時間可以分析收費(fèi)公路的交通行為, 通過將預(yù)測結(jié)果與實(shí)際交通數(shù)據(jù)進(jìn)行比較, 評價該方法的有效性. 實(shí)驗(yàn)結(jié)果表明, 本文提出的模型在準(zhǔn)確度方面優(yōu)于所對比的方法.
本文提出的模型首先對數(shù)據(jù)進(jìn)行收集和預(yù)處理以獲取有效的輸入數(shù)據(jù)集, 然后構(gòu)造和訓(xùn)練并行CNN模型, 最后對交通流量特征進(jìn)行預(yù)測. 本文提出的系統(tǒng)模型如圖1所示.

圖1 本文提出的系統(tǒng)模型
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的, 它作為圖像識別、 語音識別和計(jì)算機(jī)視覺的一部分, 避免了對圖像的復(fù)雜前期預(yù)處理, 在許多領(lǐng)域得到了廣泛的應(yīng)用. CNN的核心思想是通過局域感受卷積、 權(quán)共享和下采樣對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化, 減少神經(jīng)元個數(shù)和權(quán)值, 采用池化技術(shù)使特征具有位移、 縮放和扭曲不變性.
并行卷積神經(jīng)網(wǎng)絡(luò)是N級并行卷積層的獨(dú)立卷積網(wǎng)絡(luò), 其中每級卷積網(wǎng)絡(luò)設(shè)計(jì)為5層結(jié)構(gòu): 輸入層、 卷積層、 池化層、 完全連接層、 輸出層. 并行CNN能夠提取更多維度和有代表性的特征, 具有較強(qiáng)的流量識別能力. 本文將具有規(guī)則時間間隔的一維時間序列樣本和圖像視為時間一維、 位置一維的二維像素網(wǎng)格, CNN中的卷積核可以有效地提取數(shù)據(jù)中的特征, 使得CNN在處理網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)時非常強(qiáng)大. 池化層的引入不僅大大減少了模型訓(xùn)練過程中的參數(shù)數(shù)目, 而且保證了通過卷積層提取的特征得到有效保留. 基于CNN的流量預(yù)測框架如圖2所示.

圖2 基于CNN的流量預(yù)測框架
如何將流量數(shù)據(jù)組織起來作為深度學(xué)習(xí)網(wǎng)絡(luò)的有效輸入是一個重要的問題. 為了獲得高質(zhì)量的學(xué)習(xí)和預(yù)測結(jié)果, 需要對交通數(shù)據(jù)進(jìn)行有效的組織, 形成有效的輸入數(shù)據(jù)集. 輸入數(shù)據(jù)必須適合深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)和預(yù)測, 并有效且有意義地代表正在研究的問題. 本文將交通數(shù)據(jù)轉(zhuǎn)換為矩陣形式進(jìn)行處理, 使用時空交通流矩陣作為CNN的輸入進(jìn)行回歸預(yù)測. 根據(jù)時間和空間維度, 將不同位置采集的線圈數(shù)據(jù)視為時間一維、 位置一維的二維像素網(wǎng)格.
(1)
其中,Q為時間長度,P為空間長度. 構(gòu)造的交通數(shù)據(jù)矩陣作為CNN模型的輸入數(shù)據(jù), 預(yù)測路段的預(yù)測交通流量作為其輸出.
卷積層是CNN特有的最重要的計(jì)算層, 卷積層的計(jì)算過程由卷積核的卷積運(yùn)算完成. 卷積的函數(shù)設(shè)計(jì)為使用加權(quán)函數(shù)w和掃描函數(shù)x. 連續(xù)卷積運(yùn)算定義為:

(2)
在機(jī)器學(xué)習(xí)應(yīng)用中, 輸入數(shù)據(jù)是離散的、 多維的. 以二維圖像為例, 可以將二維離散變換定義為:

(3)
其中,j和k為二維圖像坐標(biāo),I(p,q)表示輸入矩陣,K(p,q)稱為內(nèi)核或特征映射. 如圖2所示, 卷積運(yùn)算使用特征映射來掃描圖像, 測量其相似度并輸出熱圖t(j,k), 突出顯示感興趣的區(qū)域. 如果在沒有監(jiān)督的情況下從圖像中提取特征圖, 那么熱圖t(j,k)會指示人臉的位置(除非沒有人臉).
池化層(也稱為下采樣)被視為是對社區(qū)響應(yīng)的總結(jié). 池化通過減少輸出大小來刪除未使用的信息, 從而減少計(jì)算成本并避免過擬合, 有助于使網(wǎng)絡(luò)對輸入的微小變化保持不變. 最大池化是最成功的池化操作之一, 它輸出矩形鄰域內(nèi)的最大值. 實(shí)踐中可以通過兩種不同的池化機(jī)制來執(zhí)行該操作: 最大或平均. 一維中最大和平均池化操作表示為:
(4)
(5)
其中,q表示濾波器大小,p是起始索引,nq是結(jié)束索引,ri是輸出向量.
卷積層和池化層輸出的數(shù)據(jù)包含輸入數(shù)據(jù)最終和最重要的特征. 在進(jìn)入完全連接層之前, 應(yīng)將其轉(zhuǎn)換為適合完全連接層處理的一維向量形式.
(6)
最后, 一維向量通過計(jì)算全連通層產(chǎn)生模型輸出.
為了探索交通, 選擇了3個不同的公路站進(jìn)行交通分析. 每個連接點(diǎn)都記錄了15~20 min之間的信息. 相關(guān)的信息集用來比較不同聚合類型每個站點(diǎn)的數(shù)據(jù). 備用信息集用于匯總季節(jié)性信息, 例如小時、 日、 月和年. 假設(shè)此時的主要道路交通會受到道路狀況的影響, 如維修、 事故、 交通堵塞和其他情況. 由于本文的研究涉及到探索卓越地理位置中道路的動態(tài)特性, 因此需要根據(jù)時間和位置考慮不同的交通條件. 并非所有道路同時處于相同的交通狀態(tài)或處于類似的狀況.
在時間(t+h), 用給定的測量值預(yù)測在時間t的交通流速度. 交通函數(shù)定義為:
(7)
為了對交通流數(shù)據(jù)進(jìn)行建模, 應(yīng)用以下公式得出預(yù)測因子x:
(8)
其中,n表示網(wǎng)絡(luò)中的位置數(shù)(環(huán)路檢測器),xi, t表示在時間t, 位置為i時橫截面交通流速度,VT表示矩陣轉(zhuǎn)換為列向量的向量化轉(zhuǎn)換. 選定的長度一致, 并且與幾個現(xiàn)有的運(yùn)輸走廊管理部署相對應(yīng). 這些層是用時間序列“過濾器”按如下方式計(jì)算的:
(9)

采用VGG(Visual Graphics Generator)網(wǎng)絡(luò)結(jié)果進(jìn)行訓(xùn)練和測試, 在訓(xùn)練的開始階段隨機(jī)初始化參數(shù). 訓(xùn)練過程分為前向傳播計(jì)算和反向傳播計(jì)算兩個階段. 前向傳播按下式進(jìn)行計(jì)算:
xi=ayi-1+b,yi=f(xi)
(10)
其中,xi為當(dāng)前層輸入,yi為當(dāng)前層輸出,a和b為上一層的權(quán)重和偏置,f(xi) 為激勵函數(shù). 采用具有快速計(jì)算和快速收斂特性的修正線性單元(Rectified linear unit,RELU)作為激勵函數(shù),RELU=max(0,y).
反向傳播的核心是計(jì)算損失函數(shù)值, 本文采用平方誤差函數(shù)作為損失函數(shù), 表示為:
(11)
其中,N為樣本數(shù)量,n為訓(xùn)練次數(shù),z為訓(xùn)練樣本的正確結(jié)果,o為網(wǎng)絡(luò)訓(xùn)練的輸出結(jié)果.
由于網(wǎng)絡(luò)模型的參數(shù)過多, 在訓(xùn)練過程中存儲的數(shù)據(jù)將影響訓(xùn)練和測試速度, 需要對參數(shù)進(jìn)行優(yōu)化. VGG網(wǎng)絡(luò)的訓(xùn)練參數(shù)主要產(chǎn)生于完全連接層, 為了減少VGG網(wǎng)絡(luò)的訓(xùn)練參數(shù), 去掉一層完全連接層, 保留原VGG網(wǎng)絡(luò)結(jié)構(gòu)不變, 以減少訓(xùn)練參數(shù).
為了在分布式環(huán)境中實(shí)現(xiàn)流量預(yù)測和可視化, 所有實(shí)驗(yàn)均在配置為Intel(R)Core(TM)i3-2350M CPU@2.30 GHz、 2300 MHz、 4 Core(s)的4個邏輯處理器(24 GB內(nèi)存)上, 采用Matlab 2014a神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn)了本文提出算法的模型. 在訓(xùn)練早期使用均方誤差來加速參數(shù)優(yōu)化, 更快地擬合高峰時段的流量高值數(shù)據(jù). 為了預(yù)測和可視化實(shí)例, 使用帶有流量數(shù)據(jù)集的P-CNN分類器.
為了將交通數(shù)據(jù)進(jìn)行預(yù)測和可視化, 本文從北京交通部門的分布式傳感器中收集交通數(shù)據(jù), 并將收集到的每個探測器站的數(shù)據(jù)以15 min間隔進(jìn)行聚合. 為了驗(yàn)證結(jié)果, 首先使用2019年的半年數(shù)據(jù), 將2019年1月1日至2019年4月30日的交通數(shù)據(jù)視為訓(xùn)練集, 2019年4月1日至2019年6月30日的交通數(shù)據(jù)視為驗(yàn)證集, 2019年5月1日至2019年6月30日的流量數(shù)據(jù)視為測試集. 在訓(xùn)練期間將模型應(yīng)用于測試集之前, 首先將驗(yàn)證集用作防止過度擬合的指標(biāo), 然后備份訓(xùn)練. 為了驗(yàn)證該方法, 本文使用一些用于數(shù)據(jù)收集、 存儲、 數(shù)據(jù)操作以及數(shù)據(jù)質(zhì)量和性能因素的策略. 數(shù)據(jù)集中的特性包括起點(diǎn)、 終點(diǎn)、 時間戳、 可見性、 壓力等級、 速度和區(qū)域. 生成的數(shù)據(jù)集隨機(jī)用于培訓(xùn)、 測試和驗(yàn)證. 表1說明了包含特征數(shù)、 類別數(shù)和實(shí)例數(shù)的流量數(shù)據(jù).

表1 數(shù)據(jù)集描述
模型的精確度主要通過模型預(yù)測數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的誤差來反映, 為了評價本文提出模型的分類性能, 采用分類中常用的3種指標(biāo)進(jìn)行估計(jì): 平均絕對誤差(Mean Absolute Error,MAE)、 平均相對誤差(Mean Relative Error,MRE)和均方根誤差(Root Mean Square Error,RMSE).MAE能夠更好地反映預(yù)測值誤差的實(shí)際情況,MRE能夠反映模型所得結(jié)果的絕對誤差與預(yù)測值之間的百分比, 較好地體現(xiàn)了模型的可信度,RMSE用來衡量觀測值同實(shí)際值間的偏差.
(12)
(13)
(14)
其中,qk是預(yù)測流量,pk為實(shí)時流量,m為測試數(shù)據(jù)的樣本數(shù)量.
表2至表4給出了K-最鄰(K Nearest Neighbor, KNN)、 帶漂移檢測的快速增量模型樹(Fast Incremental Model Trees, FIMT)、 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和本文所提模型的MAE,MRE和RMSE.

表2 不同模型的MAE性能指標(biāo)

表3 不同模型的MRE性能指標(biāo)

表4 不同模型的RMSE性能指標(biāo)
由表2至表4可以看出, 在短期預(yù)測方面, 與KNN,F(xiàn)IMT,CNN相比, 本文所提模型在MAE,MRE和RMSE方面優(yōu)于所對比的模型. 這是因?yàn)楸疚哪P蛯⒕哂幸?guī)則時間間隔的一維時間序列樣本和圖像視為時間一維、 位置一維的二維像素網(wǎng)格, 通過學(xué)習(xí)這些特征來對某路段的交通流量進(jìn)行預(yù)測, 可以有效地編碼交通流量預(yù)測中的時間相關(guān)性, 在短期預(yù)測期間取得了較好的預(yù)測結(jié)果.
在使用不同性能指標(biāo)計(jì)算平均錯誤率后, 使用不同模型對每日、 每周、 每月和每年高速公路數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確度如圖3所示. 由圖3可以看出, 在長期預(yù)測方面, 本文模型比其他現(xiàn)有模型具有更好的精度. 這是因?yàn)楸疚氖褂貌⑿蠧NN對交通流量進(jìn)行預(yù)測, 在預(yù)測過程中添加了檢測目標(biāo)的存在性和感興趣區(qū)域的幾何屬性(位置和方向), 同時探索卓越地理位置中道路的動態(tài)特性, 根據(jù)時間和位置考慮不同的交通條件設(shè)置了預(yù)測因子, 并應(yīng)用預(yù)測因子對交通流數(shù)據(jù)進(jìn)行建模, 進(jìn)一步提升了特定區(qū)域交通狀況的預(yù)測精度.

圖3 各模型的準(zhǔn)確度
本文提出一種高精度基于深度學(xué)習(xí)的并行卷積神經(jīng)網(wǎng)絡(luò)的交通流量大數(shù)據(jù)預(yù)測模型, 以高效數(shù)據(jù)挖掘技術(shù)來預(yù)測和分析海量交通大數(shù)據(jù). 該模型首先對數(shù)據(jù)進(jìn)行收集和預(yù)處理, 將交通流數(shù)據(jù)轉(zhuǎn)化為二維圖像來構(gòu)建并行CNN, 通過學(xué)習(xí)這些特征來對某路段的交通流量進(jìn)行預(yù)測. 引入預(yù)測因子對交通流數(shù)據(jù)進(jìn)行建模并預(yù)測實(shí)驗(yàn), 本文所提模型的流量數(shù)據(jù)預(yù)測性能均優(yōu)于所對比的方法. 未來的工作是研究基于深度學(xué)習(xí)的交通信號燈長度優(yōu)化, 探討城市交通信號燈對交通的影響, 并使所有用戶能夠根據(jù)交通流量預(yù)測監(jiān)測空氣質(zhì)量.