于志青
(河南警察學(xué)院交通管理工程系,河南 鄭州 450046)
交通事故的風(fēng)險受多種因素影響。在道路系統(tǒng)性風(fēng)險方面,如長期存在不安全因素(事故多發(fā)等)、反復(fù)或周期性出現(xiàn)高風(fēng)險報警、持續(xù)處于高風(fēng)險狀態(tài)等;在動態(tài)偶發(fā)性風(fēng)險方面,如異常天氣、速度波動、危險駕駛行為、大車比例過高、流量過大等風(fēng)險。
交通事故的防控思路從事故事后分析轉(zhuǎn)向多源數(shù)據(jù)融合分析、由事故隱患點段分析到安全風(fēng)險研判,實現(xiàn)主動、系統(tǒng)、精準(zhǔn)的預(yù)防。常用的風(fēng)險研判模型包括積分模型、綜合評價模型、深度學(xué)習(xí)類模型等,如卷積神經(jīng)網(wǎng)絡(luò)模型、隨機(jī)森林神經(jīng)網(wǎng)絡(luò)模型等,屬于深度學(xué)習(xí)模型,也是多元異構(gòu)數(shù)據(jù)融合技術(shù)。為了充分利用多源數(shù)據(jù)的特征,提高交通事故風(fēng)險預(yù)測精度,有學(xué)者對常用的深度學(xué)習(xí)模型進(jìn)行優(yōu)化,程慧玲將卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出卷積隨機(jī)森林神經(jīng)網(wǎng)絡(luò)預(yù)測模型[1];包杰將卷積神經(jīng)網(wǎng)絡(luò)與長短時記憶神經(jīng)網(wǎng)絡(luò)結(jié)合,提出卷積長短時記憶神經(jīng)網(wǎng)絡(luò)預(yù)測模型[2];王慶榮等利用時空圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測[3]。
本文利用常用的深度學(xué)習(xí)算法,構(gòu)建卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法,給出基于該算法的道路交通事故風(fēng)險預(yù)測模型,采用互聯(lián)網(wǎng)上公開的英國UK Car Accident 2005-2015 年交通事故數(shù)據(jù)進(jìn)行實驗,以獲得誘發(fā)道路交通事故的重要因素。
主要介紹文章用到的三種深度學(xué)習(xí)算法:卷積神經(jīng)網(wǎng)絡(luò)算法、隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法、長短期記憶神經(jīng)網(wǎng)絡(luò)算法[7-11]。
卷積神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成單元為神經(jīng)元,神經(jīng)元有三個基本要素構(gòu)成①一組連結(jié),②求和單元,③激活函數(shù)。另外還有設(shè)置的閾值,表達(dá)如下:
其中,x1,x2,…,xp為輸入信號,輸入信號與神經(jīng)元k的連接權(quán)重用符號wk1,wk2,…,wkp表示,bk為偏置,激活函數(shù)用φ表示,神經(jīng)元輸出用yk表示。
其計算過程用上一時刻的隱藏狀態(tài)輸出ht?1和當(dāng)前時刻輸入xt,計算當(dāng)前時刻t的隱藏狀態(tài)輸出ht,公式如下:
其中,w是輸入權(quán)重矩陣,u是狀態(tài)轉(zhuǎn)移權(quán)重矩陣,b表示偏置,σ,tanh為激活函數(shù),*代表矩陣運算。
該算法是集成學(xué)習(xí)算法,既可以用于分類,也可以用于回歸,是對多個決策樹以相互獨立的方式進(jìn)行訓(xùn)練,在得到結(jié)果時,對于分類問題用投票原則,所有決策樹結(jié)果中哪一類出現(xiàn)的最多,認(rèn)為是分類結(jié)果。ID3,C4.5和CART是構(gòu)建隨機(jī)森林常用的基本方法。隨機(jī)森林分類效果的評判標(biāo)準(zhǔn)。
樣本的Gini系數(shù)為:
其中,pi代表類別在樣本集S中出現(xiàn)的概率。
用Gini值作為隨機(jī)森林分類效果的評判標(biāo)準(zhǔn):
特征xj在節(jié)點m點Gini值為Gjm=Gm?Gl?Gr其中,Gm是節(jié)點m的Gini值。Gl,Gr分別表示當(dāng)前節(jié)點左子節(jié)點、右子節(jié)點的Gini值。xj在決策樹之中有節(jié)點集合M,xj在決策樹之中Gini值為:
在隨機(jī)森林中有n棵樹,則xj的Gini值為:
最后還可以做歸一化處理。
Gini值越小,說明數(shù)據(jù)集的純度越高。
將卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林神經(jīng)網(wǎng)絡(luò)結(jié)合,構(gòu)建卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)為:基于卷積神經(jīng)網(wǎng)絡(luò),在特征提取時,根據(jù)提取對象特性,分別采用卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)作為特征提取器,卷積神經(jīng)網(wǎng)絡(luò)的多層全連接與分類器由隨機(jī)森林神經(jīng)網(wǎng)絡(luò)取代。結(jié)構(gòu)圖如圖1所示。

圖1 卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
首先篩選出對交通狀態(tài)影響較大的20類因素(見表1分類變量)。將這20類變量劃分為I、II類變量。

表1 變量分類表
I類變量主要指在研究周期內(nèi)僅在空間上變化、但是不隨時間變化,這類變量通常采集周期較長,故在研究周期內(nèi)可視為時間常量。II類變量在研究周期內(nèi)僅隨時間變化但不隨空間變化,具有周期性和時間依賴性。
對表1 選取的20 個變量可根據(jù)時間、空間的變化進(jìn)行分類。
I 類變量:道路類型、地形條件、道路線型、道路橫斷面位置、路面情況、路口路段、道路物理隔離、路側(cè)防護(hù)設(shè)施、事故形態(tài)、交通控制方式等。
II類變量:事故時間、天氣條件、能見度條件、照明條件、肇事機(jī)動車行駛狀態(tài)、肇事機(jī)動車安全狀態(tài)、肇事機(jī)動車、肇事人年齡、肇事機(jī)動車駕駛?cè)笋{齡、事故原因等。
I 類變量用卷積神經(jīng)網(wǎng)絡(luò)提取特征。II 類變量用長短時記憶神經(jīng)網(wǎng)絡(luò)提取特征。兩類變量特征提取后,經(jīng)隨機(jī)森林神經(jīng)網(wǎng)絡(luò)分類預(yù)測,輸出預(yù)測值。
卷積長短期記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法的道路交通事故風(fēng)險預(yù)測模型的輸出值在0 到1 之間。若輸出值越接近0,表明該情況下發(fā)生交通事故的風(fēng)險越低,反之極有可能發(fā)生交通事故。
基于卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)交通事故風(fēng)險預(yù)測模型,采用公開的英國UK Car Accident 2005-2015 年交通事故數(shù)據(jù),結(jié)合某省2019-2020 年道路交通事故數(shù)據(jù)統(tǒng)計指標(biāo),以及參考資料[4-6],篩選出誘發(fā)交通事故的20個因素變量,其數(shù)據(jù)經(jīng)處理后作為卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)提取特征的輸入數(shù)據(jù),其分類及賦值如表1所示。
⑴I類變量
經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的2 層處理,即1 層卷積層、采樣層,2層卷積層、采用層,輸出
對于公式⑴,需要在各層更新權(quán)重和偏置,卷積層的權(quán)重和偏置更新方式為:
設(shè)J 為目標(biāo)函數(shù),則
其中,wl為權(quán)重,bl為偏置。
yl=φ(ul),其中l(wèi)代表網(wǎng)絡(luò)的第l層。
將ul、yl表達(dá)式代入式⑽、式⑾得:
其中,φ'(ul)表示激活函數(shù)的導(dǎo)數(shù)。
其中,?為Hadamard乘積。
這里取l=2,激活函數(shù)為Relu函數(shù),表達(dá)式為:
目標(biāo)函數(shù)J為:
其中,yi為樣本網(wǎng)絡(luò)輸出值,ti為樣本值,也稱為均方差損失函數(shù)。
⑵II類變量
構(gòu)建2 層長短時記憶神經(jīng)網(wǎng)絡(luò),提取II 類變量特征,輸出為,對權(quán)值和偏置更新過程,重點討論隱藏狀態(tài)的權(quán)值更新,其他狀態(tài)的權(quán)值和偏置更新可作相應(yīng)的推導(dǎo)[8],因為隱藏狀態(tài)的權(quán)值與梯度消失爆炸直接相關(guān),也就是式⑵中的u,其他變量及函數(shù)如式⑶~式⑺。根據(jù)文獻(xiàn)[9],有
其中,L為目標(biāo)函數(shù),在這里取L均方差損失函數(shù)。在t=2時,有
經(jīng)過兩種特征提取算法得到特征值,經(jīng)過融合計算,其輸出值為:
利用CART 構(gòu)建決策樹,與套袋法結(jié)合構(gòu)建隨機(jī)森林,用Gini(公式⑻)作為評判標(biāo)準(zhǔn),其構(gòu)建過程如下:
⑴在樣本集合N中有放回的每次取1 個樣本,共抽取N1次,用N1個樣本訓(xùn)練生成一個決策樹。
⑵若每個樣本有M個特征,在構(gòu)建決策樹時,只從這M個特征中選取m個特征,在分類問題時,可取m為預(yù)測特征總數(shù)的平方根。
⑶構(gòu)建CART決策樹,以m為基礎(chǔ)。
⑷采用套袋法進(jìn)行隨機(jī)抽取并投票輸出。
關(guān)于隨機(jī)森林中決策樹的數(shù)量及隨機(jī)森林內(nèi)部各子樹隨機(jī)選擇屬性的個數(shù),隨機(jī)森林軟件包中均有相應(yīng)設(shè)置。
采用隨機(jī)森林網(wǎng)絡(luò)算法,對融合后特征值y(t式⑾)重塑成適合作為隨機(jī)森林算法分類器輸入的大小,構(gòu)成其分類器。最終輸出值為一個概率值,越接近1,說明此種情況發(fā)生交通事故的概率越大,越接近0,說明此種情況發(fā)生交通事故的概率越小。
搭建適合TensorFlow2框架keras運行的軟硬件環(huán)境,選用PyCharm 開發(fā)平臺,采用Python3.5開發(fā)語言,利用英國UK Car Accident 2005-2015 年交通事故數(shù)據(jù),并作相應(yīng)的處理,作為實驗訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),分別為70%,30%,得到誘發(fā)交通事故的顯著因素為:行駛時段、行駛地理位置、道路形狀、行駛速度、物理設(shè)施完備程度等。
卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)預(yù)測交通事故,因?qū)τ绊懡煌ㄊ鹿实淖兞繀^(qū)分了時空特性,因此,該算法對變量的特征提取比用單一的卷積神經(jīng)網(wǎng)絡(luò)提取變量特征更加全面,可準(zhǔn)確捕獲時間和空間兩個維度的變量特征,減少了特征損失度。在分類預(yù)測時沒有采用卷積神經(jīng)網(wǎng)絡(luò)的分類和連接層進(jìn)行輸出,而是采用隨機(jī)森林網(wǎng)絡(luò)進(jìn)行分類預(yù)測,在隨機(jī)森林網(wǎng)絡(luò)輸入時,對提取的特征進(jìn)行融合計算,比用卷積神經(jīng)網(wǎng)絡(luò)分類預(yù)測有更高的精度。
道路交通事故風(fēng)險預(yù)測數(shù)據(jù)是道路交通科學(xué)管理決策的重要參考依據(jù),誘發(fā)道路交通事故的因素有多種,這些因素有的具有時間特性,有的具有空間特性,有的具有時間空間特性,如何利用深度學(xué)習(xí)算法較全面提取這些誘因的特征并進(jìn)行預(yù)測,是道路交通安全領(lǐng)域研究的課題。本文提出卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法模型,對誘發(fā)道路交通事故的因素,根據(jù)其時間特性、空間特性,分別采用卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)算法進(jìn)行特征提取,充分考慮因素變量的特征,使特征提取更全面、更貼近實際。利用隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法進(jìn)行預(yù)測,充分發(fā)揮了其準(zhǔn)確性高、在測試集上表現(xiàn)良好、抗噪聲能力強、非線性分類模型等優(yōu)點。利用英國UK Car Accident 2005-2015 年交通事故數(shù)據(jù),結(jié)合某省2019-2020 年道路交通事故數(shù)據(jù)的統(tǒng)計指標(biāo),選擇20個具有時間性或空間性可能誘發(fā)交通事故的因素進(jìn)行特征提取并預(yù)測,得到誘發(fā)交通事故的主要因素。進(jìn)一步的研究,還可以對卷積長短時記憶隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法模型評估,以及與其他深度學(xué)習(xí)算法模型在預(yù)測道路交通事故風(fēng)險方面做深入比較。另外,在誘發(fā)交通事故變量的選擇上,對既有時間性又有空間性的變量也可做深入探討。