車聯網數據清洗及其面臨的挑戰
車聯網和大數據是最近汽車行業研究的熱點。車聯網涉及到的技術包括數據采集技術、網絡技術、軟件技術和控制技術,其能夠感知道路交通,并實現交通信息系統間數據的共享和交換,從而提高交通運行效率,為汽車行駛安全提供信息支撐。隨著車聯網應用的普及,造成汽車數據信息(發動機轉速、汽車行駛速度、發動機扭矩、制動踏板位置、離合器踏板位置、加速踏板位置和變速器擋位等)急劇增多。這些數據信息的采集主要依靠安裝的傳感器,在數據信息的導入過程中,若傳感器出現故障,則可能導致數據異常、數據不一致、數據重復和數據缺失等現象。為了獲得通過分析采集的數據而得出準確的結果,需要對采集的數據進行預處理,而數據清洗是其中最為重要的環節之一。
數據清洗過程一般包含缺失值處理和異常值檢測兩個部分。①對缺失值進行處理時,若數據序列中只含有少量的缺失值,則采用填補的方法對缺失值進行補充。具體的填補方法包括數據序列均值法、臨近點中位數法、插值法等。若數據序列中含有大量的缺失值,則采用忽略的方法對缺失值進行處理,即刪除數據序列存儲表格中的空白。②對異常值進行檢測時,則通過聚類的方法實現。聚類能夠將具有相似特征的數據聚集在某一集合之內,異常值則落在集合之外,表現為孤立點。常用的聚類方法如K-均值聚類方法。
目前,對于數據清洗過程仍然面臨著時間消耗長、實時性低等問題,因而還不能應用車聯網數據對汽車進行實時控制。
Venkatesh Raman et al. SAE 2017-01-0069.
編譯:王祥