999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二元特征的斷面交通數據異常檢測與修正*

2019-10-16 03:09:00康晉滔
中國安全生產科學技術 2019年9期
關鍵詞:檢測模型

康晉滔,成 衛,張 靈

(1.昆明理工大學 交通工程學院,云南 昆明 650504; 2.昆明市公安局交警支隊科信處,云南 昆明 650000)

0 引言

隨著智能交通系統(Intelligent Transportation Systems,ITS)的引入和普及,交管部門已有龐大的交通原始數據積累。這些交通數據在交通控制、交通規劃等領域蘊含了極大的潛在價值[1]。然而,受環境因素、設備故障等影響,這些數據的準確性仍有待提高。研究表明,交通數據庫里的數據準確率平均值低于70%[2]。因此,為保障智能交通系統有效工作,對其原始數據的異常檢測與修正尤為必要。

20世紀90年代,Jacobson等[3]學者通過建立交通數據最值模型,得到經典3參數的閾值基準,從而對異常值進行檢測;Zhong等[4-5]在此基礎上,采用了插值、回歸等方法,對數據進行修正;Min等[6]基于交通數據的時空相關性,利用鄰接數據、歷史數據等對原始數據進行修正。國內對于此類問題的研究起步較晚,大約在2005年后,姜桂艷等[7-9]針對實時動態的交通數據提出了異常評價體系;徐程等[10]根據前人的研究成果,建立了一套標準的數據預處理流程。但是這些方法,在大數據時代下,難以高效地處理爆炸式增長的交通數據。

隨著機器學習和深度學習的普及,部分學者也開始嘗試訓練模型來處理數據。范光鵬等[11]充分挖掘了數據在時間序列上的信息,利用深度學習LSTM模型與卡爾曼濾波相結合,來預測公交車站到站時間;Sun等[12]在傳統的KNN算法基礎上,引入時間窗和權重,極大拓展了數據集規模,從而在大數據框架下建立了GSW-KNN算法;Kim等[13]則是采用優化的遞歸神經網絡C-LSTM模型,通過對大量歷史交通數據的深度挖掘,訓練特定場景的數據模型,來檢測該場景下的交通異常值。

綜上所述,基于交通數據時空相關性的處理方法,沒有充分挖掘數據本身的邏輯規律。然而由于道路條件等諸多隨機因素存在,在實際工程中交通數據的變化往往無法呈現出既有模型所具有的規律性,所以基于時空相關性的修正方法可能會出現較大的誤差。常用的交通異常檢測手段,多基于數據的單元特征,分別對速度或流量等參數進行異常檢測,隨著數據多元化的發展,已經無法滿足智能交通系統的要求。而在數據修正過程中,傳統方法大多根據交通數據的時空特性,使用大量的歷史數據,通過不同的權重來對異常點進行相應修正。

基于此,提取斷面二元特征向量速度與流量,運用多元高斯分布機器學習模型來進行異常數據的快速甄別。同時鑒于灰色馬爾可夫模型[14]在短時預測的領域有著優良的擬合效果,提出了1種基于GM(1,1)-Markov模型的異常值修正方法,在此基礎上引入了小時修正窗口和波動性數據處理,從便捷性和準確性2方面優化了該組合模型。

1 基于多元高斯分布的異常檢測

1.1 原始數據集二元特征向量提取

交通原始數據呈現多源異構特征,為了便于后續的運算處理,首先要對原始數據集進行標準化處理。本文以10 min為基本單元進行標準化,則每天的速度數據和流量速度分別有144組,即V=v1,v2,v3,,v144,Q=q1,q2,q3,,q144。原始數據集最終可表示為Xt=(V,Q),式中t為該數據集的日期,即t=1,2,3,,31。取第1天交通數據X1為訓練集,并對X1進行異常標定,用于多元高斯異常檢測模型的訓練。

1.2 基于速度和流量的二元高斯異常檢測

實際工程中,即使數據分布不太符合高斯分布,可以通過函數變換使其滿足高斯分布,這一過程稱為高斯化。大量的實驗[15]表明,原數據不進行高斯化處理,異常檢測算法也能夠良好運行。因此,本文認為流量、平均速度等數據服從高斯分布。

根據交通工程學大量的研究,交通流三參數數據為相關性較高[16]的隨機變量。如果使用普通高斯算法,則無法表征特征向量之間的關聯性;多元高斯分布模型則可以自動捕獲特征之間的相關。本文提取速度和流量二元特征,而每日的樣本數量144遠大于特征數量2,因此滿足使用多元高斯異常檢測算法的前提條件。

對于訓練集二元隨機變量X1=(V,Q),具備如下的概率分布密度函數:

(1)

式中:n為特征向量(速度和流量)的數量,取2;μ為對應特征向量的均值;Σ為二元特征數據集的協方差矩陣。

根據多元高斯模型的公式,使用matlab編程計算出X1=(V,Q)的參數μ和Σ,從而擬合出模型p(x)以及閾值參數ε。然后,將測試數據集輸入該模型p(x),計算出對應點p(x)的值。通過比較計算出p(x)值與模型異常閾值ε,當p(x)<ε時,判斷對應的數據點為異常值,否則為正常值。

2 基于GM(1,1)-Markov的數據修正

2.1 小時修正窗口的引入

通過異常檢測算法,可得到原始數據集中的異常點。假設存在異常點xi,xj,xk,,其中i,j,k,分別表示上節檢測出的異常點在原始數據集中的角標編號。

針對每1個異常數據點,分別建立小時修正窗口,即每個窗口(含異常點)有6個數據。根據GM(1,1)模型的特點,第1個數據點為基準點,不會被擬合計算。因此每個異常點有5種不同的修正窗口。用W分別表示這些窗口為:W=[xi-5,xi-4,xi-3,xi-2,xi-1,xi],[xi-4,xi-3,xi-2,xi-1,xi,xi+1],[xi-3,xi-2,xi-1,xi,xi+1,xi+2],[xi-2,xi-1,xi,xi+1,xi+2,xi+3],[xi-1,xi,xi+1,xi+2,xi+3,xi+4]。

經過大量的實驗運算,得出選取將異常點作為窗口最后1個數據的修正窗口得到的修正值為最優。若首次修正效果不滿足異常檢測,則依次選取其他形式的修正窗口進行異常點再修正。

2.2 修正窗口數據集波動性處理

當數據出現波動性變化時,GM(1,1)模型的擬合效果會受到影響,因此采取1種補加增量的方法,弱化原始數據的隨機性,提高灰色模型的運算精度。

(2)

(3)

2.3 GM(1,1)-Markov模型

通過GM(1,1)灰色模型的擬合,找出數據的外在變化趨勢;進一步利用馬爾可夫模型,挖掘時序數據內在狀態的轉移規律。具體步驟如下:

1)對數據集X(1)進行1次累加處理:

(4)

2)定義鄰值生成數:

(5)

式中:zk為X(2)的鄰值生成數列。

3)建立GM(1,1)模型:

(6)

(7)

式中:α為發展系數,β為灰作用量。用回歸分析求α,β的值。可得:

(8)

(9)

4)還原原始數據修正值:

(10)

5)求出窗口修正數據集的相對殘差:

(11)

式中:k=1,2,,n。

6)劃分狀態區間:根據相對殘差范圍集中程度進行劃分。假設劃分好的區間為E1,E2,Ej,j為區間的個數。

7)確定狀態轉移矩陣:

(12)

式中:Pab為狀態Ea轉移到狀態Eb(b>a)的轉移概率;mab表示由Ea一步轉移到Eb出現的次數,Ma表示狀態Ea出現的總次數。確立1步狀態轉移矩陣:

(13)

Pk=v0·P

(14)

(15)

式中:λ+η=1,本文使用平均權值。

2.4 斷面交通異常數據質量控制

對于斷面交通異常數據,運用上述算法,建立整套質量控制流程如圖1所示。算法總體分為2大部分,即異常檢測與數據修正。

圖1 交通異常數據質量控制流程Fig.1 Quality control procedure of traffic abnormal data

3 樣本實驗

選取汕昆高速K2077斷面數據,樣本數據集為2018年5月該斷面的交通流量以及速度數據。首先,對原始數據進行標準化處理及二元特征提取,5月1日部分標準化數據如表1所示。

表1 樣本部分標準化數據Table 1 Partial standardized data of sample

為了便于二元高斯模型的訓練,將所有流量數據乘以0.5,做歸一化處理。

3.1 異常檢測

使用5月1日數據集作為二元高斯模型訓練集,5月2日數據集作為驗證集。模型訓練后得出異常檢測閾值ε=1.735 759e-04。檢測出驗證集中異常數據角標編號分別為9,24,40,49,126,128,139共計7個異常數據點。二元高斯模型異常檢測程序在matlab中運行結果如圖2所示。

為驗證此異常檢測算法的有效性,繼續使用5月3日、5月4日、5月5日數據作為測試集。分別檢測出對應數據集異常值,并計算出對應的誤檢率和檢測率,如表2所示。

通過對上述4天交通數據進行二元高斯分布異常檢測,其結果表明:模型異常檢測率均值可達83.13%,而其中誤檢率均值僅為11.75%。

3.2 數據修正

對5月2日數據集檢測出的異常點,進行修正窗口劃分,將這些異常修正窗口在全天數據集中標記出來,如圖3所示。每一個窗口具有6個數據,異常數據點置于末端。

圖2 異常檢測模型可視化結果Fig.2 Visualization results of anomaly detection model

檢測指標日期5月2日5月3日5月4日5月5日均值誤檢率121361611.75檢測率87.580818483.13

波動性處理前后灰色(1,1)模型擬合平均相對誤差對比如表3所示,由表3中數據可知,直接使用灰色模型對窗口數據進行處理,則各修正窗口擬合平均相對誤差的均值在20%以上。經過波動性處理優化之后,灰色模型各窗口平均相對誤差的均值不足10%。

圖3 劃分修正窗口Fig.3 Partition of correction windows

模型窗口窗口1窗口2窗口3窗口4窗口5窗口6窗口7均值GM(1,1)21.0716.1845.339.9315.6925.6322.5322.34優化GM(1,1)3.686.8129.055.8110.152.709.779.71

各個窗口的修正過程如圖4所示。由于最終的修正數據集更新只針對異常點,因此窗口的其他點只參與狀態轉移的概率劃分,而不計算其最終的馬爾可夫調整量。

圖4 各窗口模型修正Fig.4 Model correction of each window

3.3 結果論證

為了驗證本文提出的優化GM(1,1)-Markov修正方法的有效性,選取歷史數據修正和移動平均修正2種方法作為對比論證。每種方法修正的數據分別與對應窗口的數據集平均值做絕對誤差(Absolute Error)、相對誤差(Relative Error)、以及均方根誤差(Root Mean Squared Error)計算。3種方法對異常點的修正誤差分析如表4所示。

通過上述3種交通數據修正方法的誤差分析,得出波動性優化GM(1,1)-Markov深入挖掘了原始數據集的內在規律,算法誤差小且具備很強的魯棒性。在不使用大量歷史數據的前提下,能夠起到良好的修正效果。

4 結論

1)以斷面數據的時間刻度為標簽,提取該標簽數據的二元特征向量,即速度和流量,運用二元高斯分布擬合的模型,快速準確地檢測出異常數據。今后還可以推廣到多元特征向量,例如涵蓋交通檢測器常有的占有率數據集。

2)對異常數據進行針對性修正,引入小時窗口既使得修正過程清晰便捷又避免大量冗余數據的復合運算。采用GM(1,1)-Markov則可以在小時窗口內部較好地表征出異常點的客觀規律變化,從而進行修正。

3)鑒于短時交通數據的隨機波動性大,引入波動性優化處理彌補了GM(1,1)-Markov模型局部失真的缺陷。

表4 修正數據誤差對比Table 4 Error comparison of corrected data

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 亚洲天堂啪啪| 青青青国产视频手机| 九九九国产| 欧美一级99在线观看国产| 丰满人妻久久中文字幕| 欧美A级V片在线观看| 丁香五月婷婷激情基地| 亚洲色大成网站www国产| 精品国产免费观看一区| 国产拍在线| 自拍中文字幕| 免费不卡在线观看av| 国产精品太粉嫩高中在线观看| 美女被躁出白浆视频播放| 国内精品91| 草草影院国产第一页| 国产精品第页| 美女高潮全身流白浆福利区| 午夜福利在线观看入口| 2022精品国偷自产免费观看| 广东一级毛片| 成人毛片免费在线观看| 99视频在线免费| 一级爆乳无码av| 成人午夜视频在线| 91po国产在线精品免费观看| 亚洲成人动漫在线观看| 亚洲欧美成人在线视频| 国产自无码视频在线观看| 在线观看精品自拍视频| 欧洲欧美人成免费全部视频| 久久久亚洲色| 日本精品视频一区二区| 亚洲无码四虎黄色网站| 免费一级成人毛片| 一本久道久久综合多人| 午夜欧美在线| 国产美女人喷水在线观看| 毛片在线看网站| 亚洲国产综合自在线另类| 视频一区视频二区日韩专区| 日韩亚洲高清一区二区| 国产亚洲高清在线精品99| 日韩一区二区三免费高清| 亚洲综合中文字幕国产精品欧美| 午夜久久影院| 欧美国产日韩在线| 伊人久久大香线蕉综合影视| 亚洲精品视频免费| 国产免费一级精品视频 | 国产精品毛片一区视频播| 五月天综合婷婷| 中文字幕无码中文字幕有码在线| 97久久精品人人做人人爽| AV在线天堂进入| 亚洲成人精品在线| AV在线天堂进入| 精品亚洲麻豆1区2区3区| 国产97视频在线观看| 欧美成人h精品网站| 国产伦片中文免费观看| 国产18在线| 国产成人亚洲无码淙合青草| 国产欧美在线观看一区| 婷婷综合色| a级毛片在线免费| 人妻精品全国免费视频| 国产精品人成在线播放| 久草青青在线视频| 亚洲高清中文字幕| 欧美成人精品高清在线下载| 亚洲精品另类| 一本大道视频精品人妻 | 91精品国产自产在线老师啪l| 国产成人精品无码一区二| 日本成人在线不卡视频| 国产成人精品第一区二区| 欧美啪啪网| 中文字幕丝袜一区二区| 精品一区二区三区波多野结衣 | 亚洲最猛黑人xxxx黑人猛交| h视频在线播放|