陶 莎 欒 翔 暨育雄* 周進華 李雙姐
(同濟大學交通運輸工程學院1) 上海 201804) (江蘇省泰州市公路管理處2) 泰州 225300)
目前,道路行程時間、區間車速及路網交通流向主要通過卡口車牌識別、電子標簽識別、手機信令和浮動車數據進行采集.其中,卡口系統歸屬公安部門所有,可實現重點治安地段的全天候實時檢測與記錄,但搭建卡口龍門架的費用較高,高密度、廣覆蓋的布設方式耗資巨大[1].基于RFID技術的電子車牌識別系統中,電子標簽的覆蓋率難以把控,前期推廣應用較難[2].手機信令數據主要用于高速公路的交通狀態判別,但基站較低的建設密度導致估計精度較低[3].浮動車數據是城市交通狀態判別及行程時間估計的主要數據來源[4],浮動車數據的采樣率較低,時空分布不均勻導致無法滿足實時應用的需求.近年來,隨著無線通信技術的發展,我國手機用戶超過12億人,智能手機普及率達到58%,藍牙設備也日益成為車輛的標配,無線探針數據將成為用戶基礎龐大,獲取成本低廉的交通檢測數據源之一,出現了基于無線探針的交通數據采集技術,并已在國外得到試點應用.
無線探針技術通過監聽道路上智能手機或車載設備中的藍牙或Wi-Fi模塊發射的信號,獲取設備的MAC地址,實現車輛感知.在研究中通常將Wi-Fi探針(wifi media access control scanners,WMS)、藍牙探針(bluetooth media access control scanner,BMS)統稱為無線探針.從原理上來說,藍牙探針是一種檢測周圍藍牙設備存在的檢測設備.探針向周圍已開啟藍牙功能且設置藍牙為可見狀態的設備廣播信息,通過偵聽設備的回復信息確定其存在.Wi-Fi探針的工作原理與藍牙探針不同,并不主動發射信息,而是通過偵聽鄰近區域內各種不同類型的幀來感知不同的無線設備.與藍牙設備的查詢時間10.24 s相比,Wi-Fi的總查詢時間僅為8 ms,這允許Wi-Fi探針檢測1次/s,以更快的速度檢測穿過區域的車輛.此外,二者在檢測原理、操作模式、普及程度等方面也存在著差異,導致Wi-Fi和藍牙數據特征的不同,參考Pengfei (Taylor) Li等提出的藍牙、Wi-Fi在MAC捕獲中的差異,匯總二者差異見表1.
表1 藍牙、Wi-Fi探針技術及數據差異
除了針對Wi-Fi、藍牙的差異研究外,研究者針還對無線探針數據的交通參數提取進行了全方面的研究.高速行駛的車輛在檢測區域內停留時間較短,導致探針有一定的幾率無法完成對該設備的有效檢測.Bhaskar等[5-7]對無線探針技術的檢測可靠性進行了研究.無線探針技術由于檢測范圍較大,通常被研究者稱為區域檢測技術[8].檢測區域的形狀和覆蓋面積與天線的類別及天線增益相關.移動端經過這一檢測區域時,往往會留下多條檢測記錄,在原始數據清洗中需制定規則選擇唯一時間戳.Araghi等[9-10]對不同的時間戳提取方式對行程時間估計的影響進行了分析.作為一種以MAC地址為索引的數據信息,無線探針的檢測數據不區分對象的出行方式,使得估計結果產生偏倚[11].因此,需經由數據過濾實現非機動車和行人數據的清洗.常用的數據清洗方法包括基于統計特征[12]的非機動車數據剔除和基于出行模式識別[13]的非機動車數據甄別兩類.
目前,國際上利用無線探針進行交通信息感知已有一些落地的應用,加拿大多倫多在該市一條主要的進城干道上安裝了能夠覆蓋8條車道的無線探針一體化集成設備,總覆蓋里程達12英里.加拿大卡爾加里市也在市內已安裝了30個藍牙檢測系統用以獲取交通信息.此外,丹麥奧爾堡、澳大利亞布里斯班等地也安裝了類似的檢測設備.
基于目前無線探針數據的研究現狀,本文提出如下區間車速估計方法,包括單個移動終端區間車速提取,異常區間車速過濾,時間窗口區間車速特征值提取,數據融合數據平滑五個步驟.
單個移動終端的區間車速提取通過匹配兩臺無線探針獲取的MAC地址,獲得以MAC地址為索引的區間車速記錄列表.移動終端i的區間車速記錄獲取方法如下.移動終端i在探針A處留存下m條記錄,在探針B處了留存下n條記錄.將兩點記錄下的數據分別按檢測時間戳字段正序排列,并將各條記錄依次編號為A1,A2,…,Am以及B1,B2,…,Bn,見圖1.
圖1 單個移動終端的行程時間估計方法示意圖
由圖1可知,在獲取移動終端i經過兩臺探針處的時刻中,需在連續探測記錄中選取時間誤差和定位誤差最小的記錄作為最優記錄.為了盡可能減少檢測區域范圍過大造成的誤差,本文設計了如下選取原則:移動終端i經過探針的時間由記錄中最中間一條給出,則由探針數據給出的移動設備i通過探針A處的時刻為ti(A|m/2|),通過探針B處的時刻為ti(B|n/2|).故移動終端i通過路段AB的區間車速計算式為
(1)
式中:ti(A|m/2|)為移動終端i經過檢測器A時的時間戳;ti(B|n/2|)為移動終端i經過檢測器B時的時間戳;LAB為AB間的距離;|x|為向上取整函數,如,|4|=4,|4.5|=5.
針對無線探針數據特征的分析表明,原始探針數據存在一定的測量誤差,包括時間誤差和定位誤差.此外,車輛在兩探測器間可能產生減速、加速或停車行為,導致行程時間離群點的產生.因此,對于降低交通狀態估計的偏倚而言,剔除異常值十分關鍵.考慮到區間車速的波動性,制定如下原則進行異常值過濾.
1) 區間車速上限值 路段限速值vlimit與擴張系數δ的乘積δ×vlimit.
2) 區間車速下限值 時間窗口nt的區間車速下限值為
(2)
時間窗區間車速特征值提取包括劃定整合對象和確定特征值兩部分.時間窗的區間車速提取按照整合數據對象的差異分為三種:①以在規定時段內從起點出發的所有車輛為區間車速提取對象;②以在規定時段到達終點的所有車輛為區間車速提取對象;③以規定時段內完成全部里程的車輛為區間車速提取對象.考慮到算法的實時性,應采用方案2進行區間車速的提取為宜.
根據車輛在上下游留下的MAC地址及捕獲時間戳,可獲取車輛在該路段內的行程時間記錄,并計算區間車速.考慮到對異常數據的規避,可選擇中位數作為特征值,取該區間車速記錄集合的中位數作為該時間窗口的區間車速.路段區間車速的計算公式為
(3)
在實現時間窗區間車速特征值提取后,可基于規整區間車速,建立基于藍牙、Wi-Fi數據融合的區間車速估計框架.包括歷史數據與實時數據融合、Wi-Fi數據與藍牙數據融合、多路段數據融合三個部分.
2.4.1實時數據與歷史數據融合
Wi-Fi與藍牙區間車速數據融合過程建立在有Wi-Fi、藍牙檢測數據的基礎之上,對于沒有檢測數據的時間窗口,需結合歷史標準數據庫,實現無樣本時的數據填補.利用上月內相應類型天的所有數據運算生成當前標準庫(滾動更新),為
(4)
(5)
式中:Vnt,l為當前時間窗口的行程時間特征值;nMAC為當前時間窗口匹配到的移動設備數;Vnormal(nt,l)為當前時刻的歷史經驗值;Vreal(nt,l)為當前時刻實時獲取的區間車速值;N為參數,用于調節歷史經驗值和實時車速值的融合占比.當前時刻匹配設備數nMAC為0時,Vnt,l=Vnormal(nt,l).
2.4.2藍牙數據與Wi-Fi數據融合
藍牙和Wi-Fi作為兩個不同的數據源,具有各自的數據特征,同時又具備一定的相關性,在路段交通狀態的估計當中,可互為補充,優化估計結果.本文采用集合Kalman濾波(ensemble kalman filter,EnKF)模型,將Wi-Fi和藍牙作為兩個區間車速子數據集,結合數據融合技術,建立區間車速估計與預測模型,數據融合處理流程見圖2.
圖2 數據融合處理流程
數據融合主體采用EnKF模型,輔以自回歸差分移動平均模型(autoregressive integrated moving average model,ARIMA),具體算法流程如下:
步驟2基于Wi-Fi、藍牙檢測數據,計算檢測誤差協方差Rnt.
步驟4基于測量值和Kalman增益值對原始預測值進行優化.
Kalman濾波為序列數據同化算法最早出現的形式和基本理論,標準Kalman濾波為了得到無偏最優的估計需要系統滿足線性化和噪聲滿足高斯白色噪聲的假設條件,但是實際的系統狀態的預報模式大多是非線性系統.EnKF模型作為標準Kalman濾波的改進算法,用集合的思想替代了標準Kalman濾波單一的預測軌跡.集合的傳播允許預報不確定性的存在,如果所有的集合預測了一個相似的狀態,例如:在集合傳播密集的地方,即離散程度較低,則分析狀態是高度可信的;相反如果集合的預測軌跡是廣泛傳播的,則分析狀態是低度可信的.在本文中,將藍牙數據和Wi-Fi數據作為兩個子數據集合帶入EnKF模型.
式(6)為ARIMA模型下獲取的預測值.
vnt=ARIMA(p,d,q)+ηnt
(6)
式中:ηnt為過程噪聲,為均值為0的高斯分布.在每一個時間窗內,測量值ynt被描述為噪聲干擾下的實際速度狀態.
ynt=Hntvnt+χnt
(7)
式中:Hnt線性觀測向量;χnt為觀測噪聲,服從均值為0,協方差為Rnt的分布.
EnKF是一個用于遞歸和循環計算的模型,其流程見圖3.
圖3 基于EnKF的數據融合結構示意圖
步驟2預測 根據下式(8)更新K個子集的均值和協方差:
(8)
步驟3分析 獲取測量值,計算Kalman增益,更新估計值:
(9)
步驟4返回步驟2.
2.4.3多路段數據融合
τk∈{τ|SO(τ)≤j,SD(τ)≥j+1}
(10)
(11)
依托上海南北高架的道路設備箱,本文在試驗段共安裝了三處無線探針設備,自南向北的安裝位置分別為ND007,NX045及ND084.每個點位分別裝配兩個無線探針主機設備,每個無線探針主機同時具備Wi-Fi和藍牙的探測功能.數據包括2018年10月12日—11月30日近50 d的無線探針數據,以及2018年10月15日—11月15日1個月的卡口數據,編號分別為ND016,ND096,將卡口數據作為基準數據.無線探針及卡口的點位見圖4a).
無線探針南部點位ND007至北部點位ND084的總里程約為2.3 km,卡口設備南部點位ND016至北部點位ND096的總里程為2.47 km.其中,ND007至ND016距離為210 m,ND084至ND096距離為384 m.實驗路段的流量情況,由ND016和ND096兩處的卡口數據估計獲得,見圖4b).兩個斷面的流量峰值均出現在08:00—09:00,ND016達到5 000 veh/h,ND096達到3 700 veh/h.07:00—22:00時段,小時流量均維持在2 000 veh/h以上.
圖4 無線探針安裝位置及車流基本情況
為了比較Wi-Fi與藍牙數據源在區間車速獲取中的準確性,定義以下變量.在區間車速的計算中,設置時間窗長度為10 min,則全天共有時間窗口144個.
定義1以單個時間窗為比較對象,將時間窗口nt內數據源α獲取的區間車速與數據源β獲取的區間車速之差定義為Δvnt,如式(11)所示.Δvnt中包含負值,為了更加直觀的比較二者的差異,同時采用絕對值|Δvnt|,作為比較指標.
(11)
(12)
Wi-Fi、藍牙的區間車速趨勢線與卡口趨勢線呈現相同走勢,貼合度較好,表明Wi-Fi或藍牙作為交通參數提取手段均具備一定的可行性.卡口、Wi-Fi和藍牙數據獲取的區間車速曲線見圖5.
圖5 卡口、Wi-Fi和藍牙區間車速對比圖
與Wi-Fi數據源相比,藍牙數據獲取的區間車速估計偏差絕對值|Δvnt|更小,整體上更接近卡口區間車速,5 km/h以內誤差的時間窗數量達到75.69%,Wi-Fi僅為62.5%.見圖6a).
圖6 Wi-Fi、藍牙區間車速估計誤差對比
圖7 無線探針區間車速估計誤差與速度相關性
從速度與Wi-Fi差值的相關性上來看,二者的Pearson相關系數為0.81,具有很強的正相關性.采用普通最小二乘回歸法對這兩個變量進行線性回歸,得到截距為-6.958,斜率為0.184,R2為0.655,擬合效果較好.從速度和藍牙的差值相關性上來看,二者的Pearson相關系數為0.71,具有較強的正相關性,采用最小二乘回歸法進行線性回歸,得到的截距為-7.679,斜率為0.151,R2為0.492,擬合較好.二者的擬合情況見圖7b).
圖8 臨界速度和箱型圖
圖9 方案A和方案B小時估計偏差絕對值均值時變圖
方案A和方案B估計偏差絕對值|Δvnt|箱型圖見圖10.經過修正融合的早間和晚間估計誤差下降效果明顯.144個時間窗中有63.2%的時間窗誤差下降,下降幅度為56.8%.整體上來說,方案A的誤差均值為3.08 km/h,B方案為2.52 km/h,降幅為18.2%.
圖10 方案A和方案B估計偏差絕對值|Δvnt|箱型圖
無線探針區間車速趨勢線與基準區間車速趨勢線貼合程度高,估計誤差在可接受范圍內,無線探針作為交通檢測領域的新型技術進行交通參數的提取具備一定的可行性.當速度位于40~50 km/h區間時,原始數據的估計誤差最小,低速或高速均會造成估計誤差的增大.在Wi-Fi和藍牙數據的對比研究中發現,不同時段Wi-Fi和藍牙數據的估計精度有差異,白天時段的Wi-Fi估計精度較高,而晚間和凌晨時段的藍牙估計效果更好.且Wi-Fi在40 km/h左右時,估計誤差最小,藍牙在50 km/h時估計誤差最小.本文提出的基于EnKF的Wi-Fi、藍牙區間車速融合方法,結合兩種數據各自的特點,可實現對估計精度的提升.
在后續的研究中,可采用更加精細化的模型刻畫Wi-Fi和藍牙的數據特征,以實現更高精度區間車速的獲取.