張兆寬,李國華
(深圳市城市交通規劃設計研究中心股份有限公司,山東 青島 266000)
高速公路交通流數據采集受設備、天氣等非人為原因限制,通常會造成數據內部存在缺失、冗余等異常問題,數據質量水平不達標,進而導致后續基于此的數據分析、數據預測等存在失準現象,因此事前數據修復對于開展交通類研究工作尤為重要。
針對交通數據修復工作,當前主流的修復方法包含特殊值修補法、熱卡填補法和K近鄰修補法等[1]。特殊值修復法是利用指定數值或已有數據的平均值/眾數來替代異常值,通過數據挖掘方法來分析變量間的相關關系。熱卡填補法是通過在原始數據中尋找和異常值特征最相似的對象,然后使用最相似對象的值來修補異常值。K近鄰修復法[2]是利用歐式距離或曼哈頓距離確定距離異常值最近的K個樣本,然后通過這K個樣本的加權平均值來預估異常數據。上述方法的優勢均在于數據處理過程簡捷,修復較為高效,但缺陷在于受主觀因素影響相對較多,缺少考慮數據變量間的多元相關關系,修復精度一般。
針對當前修復方法的不足,本文擬構建一種基于多元回歸的數據修復模型,以線性回歸、嶺回歸和套索回歸作為基礎模型,經過訓練擇優選擇最佳基礎模型,用以修復數據異常值,該方法可避免傳統線性回歸的過擬合問題,從而有效提高數據修復精度,且保持出色的修復效率。
交通流原始數據受設備故障、傳輸衰減和惡劣天氣等因素,通常會存在數據缺失、冗余問題,因此需要構建一套異常值識別流程,如圖1所示,以判別原始數據中的異常值,進而進行數據修復處理。

數據缺失冗余識別即檢查各時間間隔是否存在零個或多個原始數據,其識別流程如下:將Tn指定為第n個數據的時間戳,對于時間區間(采集間隔)Tm,若Tm的時間區間內僅包含一個Tn,則表明數據正確,不存在異常值;反之,則表明存在異常值[3]。
數據異常識別即借助閾值理論和交通流機理判別異常值,其中閾值理論查驗是單參數獨立判斷,通過交通量、速度和占有率的理論取值范圍識別異常值;交通流機理查驗則是多參數聯合判斷,通過各類數據間的機理關系識別異常值[4]。
1)數據異常識別。
折算交通量Q的取值范圍[5]如式(1)所示:
0≤Q≤CR×fC×(T/60)
(1)
其中,CR為單車道通行能力,veh/h;fC為修正系數,取1.3;T為采樣時間間隔,min。
時間平均車速V的取值范圍如式(2)所示。
V=v×fu
(2)
其中,v為設計速度,km/h;fu為修正系數,取1.3。
時間占有率O即車輛占據斷面的累計時間與采集時間的比值,其取值范圍為[0,1]。
2)數據閾值識別。
交通量、速度和占有率的取值組合可劃分為8種情況,依據取值組合的正確與否可有效篩選異常值[6-7]。如表1所示,序號1-5為數據異常組合,序號6-8為數據正常組合,其中序號6表示道路無車,序號7表示車輛停滯,序號8表示正常行駛。

表1 交通流機理識別準則
1)線性回歸。線性回歸即假設目標值與數據之間存在線性相關,通過構建真實值與預測值的損失函數,然后利用梯度下降法求解目標函數,確定最小損失函數所對應的參數,該回歸方法優勢在于高效擬合數據關系,缺陷在于容易出現過擬合現象[8-10]。
線性回歸目標函數為損失函數最小化,如式(3)所示:
(3)
其中,y為真實值;x為訓練集;ω為權重參數;m為訓練集樣本數;j為訓練集特征變量數。
線性回歸對于目標函數的求導公式如式(4)所示,利用求導結果確定模型權重參數的梯度,其權重參數ω的更新公式如式(5)所示:
(4)
(5)
其中,α為學習率,其余參數解釋同式(3)。
2)嶺回歸。嶺回歸通過引入L2正則項約束權重參數,其會保留所有特征變量,并通過減小權重值來降低特征變量對預測結果的影響,以此規避過擬合問題。L2正則項僅會將訓練數據中無關特征變量的權值參數降至較小值,但不會將其降至0[11-12]。
嶺回歸目標函數是基于線性回歸損失函數引入L2正則項,如式(6)所示:
(6)
其中,參數解釋同式(3)。
嶺回歸模型對于目標函數的求導公式如式(7)所示,利用求導結果確定模型權重參數的梯度,其權重參數ω的更新公式如式(8)所示:
(7)
(8)
其中,參數解釋同式(5)。
3)套索回歸。套索回歸通過引入L1正則化使模型具備一定的特征選擇功能,其將訓練數據集中無關特征變量的權重參數壓縮為0,將與模型結果密切相關的特征變量的權重參數擴大[13-14]。
套索回歸目標函數即為損失函數的最小化,如式(9)所示:
(9)
式中,參數解釋同式(3)。
套索回歸模型權重參數ω的更新公式如式(10)、式(11)、式(12)所示,其首先會計算第k列訓練數據的平方和,其次確定得到權值參數ωk的初步值,最后根據權值參數ωk和正則化參數λ的關系確定得到權值參數ωk的最終值。
(10)
(11)
(12)
其中,xk為第k個訓練集特征變量;ωk為第k個權重參數,其余參數解釋同式(3)。
基于多元回歸的數據修復模型以線性回歸、嶺回歸和套索回歸作為基礎子模型,借助數據集對3個子模型分別進行迭代訓練,然后選取最佳子模型用以修補異常數據,其子模型的目標函數、梯度更新準則見式(3)—式(12)。
基于多元回歸的數據修復模型以損失函數最小化作為目標函數,其目標函數如式(13)所示:
Lbest=min(L1,L2,L3)
(13)
其中,L1為線性回歸目標函數;L2為嶺回歸目標函數;L3為套索回歸目標函數。
擬采用梯度下降法求解3個基礎子模型,利用迭代更新參數來確定目標函數的最優解,其中線性回歸的參數更新梯度見式(5),嶺回歸的參數更新梯度見式(8),套索回歸的參數更新梯度見式(12)。算法詳細求解流程如下所述:
1)數據輸入:訓練數據X,真實數據Y,初始權重參數ω0,正則化參數λ,學習率α,迭代閥值θ。
2)進入第k次循環,計算當前循環的預測值ωk-1X。
3)計算當前循環的損失函數Sk。
4)計算損失函數差ΔS=Sk-Sk-1,若ΔS<θ,迭代結束,反之繼續。
5)更新權重參數ωk。
6)重復步驟2),進入第k+1次循環。
數據修復模型首先將原始數據內存在異常值的數據列依次作為目標列,將其余的數據列作為使用列,且會依據是否含有異常值將使用列進一步劃分為缺失使用列和非缺失使用列;分別訓練、測試預設的3個子模型,擇選其中效果最佳的子模型;利用最佳子模型先修復缺失使用列的異常值,再基于使用列修復目標列的異常值,示意修復流程如圖2所示。

選取美國加州I-5高速公路交通流線圈數據作為實驗數據,數據類型包含交通量、速度和占有率,時間維度包含15個工作日(2021-06-07—2021-06-25),空間維度包含32個車道斷面(8斷面×4車道),部分原始數據見表2。

表2 部分原始數據
原始數據首先開展缺失冗余識別和數據異常識別,其中車道基本通行能力CR取2 200 veh/h,采樣時間間隔T為5 min,設計速度v為113 km/h,完成異常值標記,部分異常數據如表3所示。

表3 部分異常數據
選取均方根誤差(RMSE)作為模型數據修復精度的評估指標,具體公式見式(14)。同時以時間秒(s)作為數據修復效率的評估指標。
(14)
其中,xi為預測值;yi為真實值;n為異常值數量。
本文數據修補子模型的初始權重參數w0均取為0,迭代閥值θ均取為10-10,其中線性回歸子模型的學習率α取為0.1;嶺回歸子模型的正則化參數λ取為0.1,學習率α取為0.1;套索回歸子模型的正則化參數λ取為0.01。
本文構建基于多元回歸的數據修復模型處理原始數據的異常值,并引入特殊值(均值)法開展對比分析,用以檢驗回歸模型的精度和效率。
經交通流數據實驗分析,多元回歸模型對于交通量異常值的修復效果明顯優于特殊值法,且該模型在各斷面中以1115314斷面的數據修復精度最高,其斷面RMSE指標相較特殊值法分別提升96%,各車道相較分別提升92%,97%,97%,97%,詳細評價結果如表4所示。
多元回歸模型的整體修復時間相較于特殊值法提升11%,表明該模型具備較為出色的修復效率。
經速度數據實驗分析,模型修復效果也明顯優于特殊值法,以1115314斷面為例,其斷面RMSE指標相較特殊值法提升95%,詳細評價結果如表5所示。模型的整體修復時間相較于特殊值法提升9%,修復效率較高。
經占有率數據實驗分析,模型修補效果同樣明顯優于均值修補法,以1115314斷面為例,其斷面RMSE指標相較均值修補法提升97%,詳細評價結果如表6所示。模型的整體修復時間相較于特殊值法提升8%,修復效率較高。

表4 交通量數據修復評價結果

表5 速度數據修復評價結果

表6 占有率數據修補評價結果
本文預設一套基于數據缺失、數據冗余、數據閾值和交通機理的數據查驗方法,經實例分析,其可以有效識別交通流數據內的異常值。針對傳統修復方法精度低、效率低等問題,本文構建一種基于多元回歸的數據修復模型,以線性回歸、嶺回歸和套索回歸作為子模型,擇優選擇其一用以修復數據異常值,從而有效提高數據修復精度和效率。經實驗分析,對于交通流數據,該模型相較均值修復法精度提升96%,效率提高11%;對于速度數據,模型相較均值修復法精度提升95%,效率提高9%;對于占有率數據,模型相較均值修復法精度提升95%,效率提高8%;由此證明模型具備較為出色的修復精度和效率。