任其亮,徐韜*,,劉媛,程龍春
(1.重慶交通大學,重慶 400074;2.重慶設計集團有限公司,重慶 400050)
浮動車數據(Floating Car Data,FCD)因其覆蓋范圍廣、時效性高等特點,已成為城市交通大數據挖掘與分析的重要基礎數據,并廣泛應用于道路車速預測[1]、瓶頸識別[2]等智能交通應用領域。FCD采集分析技術因多場景的應用范圍使其擁有很強的挖掘和應用價值,但是大量技術問題,例如,設備故障、信號遮蔽、傳輸失真或其他因素影響,會引發千萬數量級的FCD 出現無法避免的異常或失真數據,為了確保動態交通數據信息的有效性和精準性,準確、實時的異常數據檢測和處理是不可或缺的。
現有異常檢測方法主要對由浮動車車速組成的一維時間序列進行直接處理,存在信息挖掘不足、檢測精度不高等問題。未能檢測出的異常數據會污染數據源,導致數據分析結果誤差較大或失真,從而降低FCD 數據挖掘和分析效果。根據異常數據樣本分布不同,異常數據可分為單點異常、上下文異常和群體異常這3類,FCD主要表現為單點異常和上下文異常。根據檢測方法模型特性的不同,現有異常數據檢測方法可分為基于數理統計方法、空間相似度方法(距離、密度)、集成學習、深度學習這4類。許倫輝等[3]根據前后速度差識別異常數據再利用動態時間規劃方法進行數據修復,但對連續多個異常數據識別較弱;鄭啟晨[4]利用經緯度閾值法和瞬時速度閾值法從空間軌跡視角對離群GPS(Global Positioning System)數據點進行識別,但無法識別出速度突變異常點;……