江偉
摘 要:文章首先對手機信令數據進行簡要介紹,分別從應用思路、系統設計等方面,對交通量預測中手機信令數據的應用進行論述。結論證實,在交通量預測中,手機信令數據的作用非常明顯,通過預處理模塊將其中無用的數據去除后,便可對有價值的數據進行利用,據此完成預測模型的訓練,從而準確預測出某段道路的交通量,為道路等級確定提供詳實可靠的依據。
關鍵詞:手機信令數據;交通量;預測
中圖分類號:U495 文獻標識碼:A
1 手機信令數據
手機信令數據歸屬于信令數據的范疇,信令數據的產生是基站與移動設備之間發生交互,前提條件是移動設備必須在基站信號的覆蓋范圍之內。手機信令數據現已成為城市交通數據的重要來源,在交通建設中的作用隨之突顯,這與手機信令數據本身所具備的諸多特征有著密不可分的關聯,包括時空性、覆蓋性、海量性、實時性、冗余性等等。大體上可將手機信令數據分為以下幾類:通信行為,如呼叫時長、基站位置及ID等;號碼軌跡,如到達與離開時間、位置經緯度等;用戶特征,如用戶名、開戶地、業務類型等。
2 交通量預測中手機信令數據的應用
2.1 應用思路
在城市道路中,交通量由以下兩個部分構成,一部分是車輛,另一部分是行人。在對交通量進行分析期間,行人一般不在考慮的范圍之內,主要考慮的對象為機動車,即某個路段中,單位時間內,往返兩個方向的車輛總數。交通量是道路通行能力的測算指標,是確定道路等級的重要依據。對交通量進行預測就是以相關的數據為依托,借助預測模型,預測出一段時間內與交通量有關的特征參數,據此得出最終結果。從交通量的預測過程來看,數據和預測模型缺一不可,二者對預測結果起著決定性作用。為此,可以對手機信令數據加以利用,據此設計一款交通量預測系統。
2.2 系統設計
手機信令數據并不能直接應用于預測系統,需要進行預處理,從中提取所需的數據,然后利用預測模型,實現對交通量的準確預測。手機信令數據是預測系統的主要數據源,全部記錄在文件當中,均為原始數據。除此之外,還要運用地圖道路數據,如地理坐標信息等。預測系統的最底層主要負責對相關數據進行預處理,為對手機信令數據中的無用數據進行有效去除,在預處理環節中引入多種數據清洗策略。本系統的預測模型為組合式,該模型的預測能力強,結果準確性高,由兩個單獨的模型組成,一個是ARIMA,另一個是SVM。前者可針對非平穩的時間序列進行預測,后者為支持向量機。
2.2.1 手機信令數據預處理模塊
手機信令數據當中包含著大量的數據信息,為從中提取出有用的數據,需要對手機信令數據進行預處理,即依托預處理模塊,以分層次的方法,對手機信令數據進行檢測。按照數據的產生原理,對其中的異常數據進行檢測,具體包括重復的數據、無效數據、屬性值缺失的數據等等。當異常數據全部處理完畢后,還要對手機信令數據中的特有數據進行檢測和處理,如乒乓數據、噪聲數據等。數據清洗方法如下:
①受到多方面因素的影響,導致手機信令數據中無效數據比較多,如果這些數據不進行去除,那么將會導致預測結果的準確性降低。對于核心字段缺失的數據,可以采用丟棄的方法進行處理。由于時間間隔特別短的數據對軌跡點并不會產生出特別的作用,此類數據的存在會導致計算量增大,故此應將這類數據全部剔除。
②手機信令數據中不可避免地會出現重復的數據,此類數據存在會導致后續的計算機量增大,應當在預處理環節中,對這部分數據進行去除。在對重復數據進行清洗的過程中,只需要對第一條數據進行保留即可,之后出行的與該數據相同的數據全部刪除。隨著無效和重復數據從手機信令數據中被大量清除,會使數據源隨之縮小,但并不會對預測結果造成影響。
③在一些重要的區域內,為進一步提升通信質量,常常會設置2個或更多的基站,這樣一來,會產生出重疊的區域,移動設備進入該區域后,會切換基站,致使信令數據中出現乒乓數據,對于這部分數據應當進行去除。可以采用如下方法對手機信令數據中的乒乓數據進行檢測:設兩個相鄰基站之間的最大距離為MaxD,用戶在兩座基站之間移動所需時間的閾值為T,基站距離的閾值為D,乒乓數據會在軌跡點距離小于D時產生。據此,便可對這部分數據進行剔除。
④在手機信令數據中,噪聲數據不可避免,由于這部分數據本身比較特殊,采用常規的數據清洗方法,無法有效去除。因此,需要選用適宜的方法。離群點檢測法在手機信令數據噪聲數據的檢測中效果顯著,可借助該方法對噪聲數據進行有效去除。
2.2.2 交通流量提取
①手機信令數據進行提取,計算出速度序列,依據速度特征,對機動車的出行方式進行識別,計算出機動車在路段內的平均速度,由此便可得到當前的交通流量。在預測交通量的過程中,可以將道路視作為一個整體,這個整體由若干路段組合而成,根據基站的覆蓋半徑,通過相應的提取算法,能夠對道路沿線中的基站數據進行提取,并獲得出行的軌跡點,經篩選之后,可獲得機動車的出行軌跡,這樣為交通量預測提供可靠的數據支撐。
②在同樣的路段內,機動車的速度要明顯比非機動車快,二者的平均速度存在非常大的差別。因信令數據具有方向性的特征,可以求出某個路段內的速度集合,通過聚類算法,對速度進行聚類,識別機動車和非機動車的出行方式。
2.2.3 交通量預測
①預測道路交通量需要選取可靠的預測模型,由于交通量具有不確定性和動態變化的特點,所以要求選取的預測模型能夠對交通量結果進行準確預測。如果選用的一個模型進行預測,受到各方面因素的影響,很難達到預期中的效果。為解決這一問題,選取兩個模型進行組合,以此對交通量進行預測,這樣最終目的是為了預測結果更加準確。本次選取的兩個預測模型分別為ARIMA和SVM,在應用前,需要對先對模型進行訓練,以此來獲取更加穩定的預測模型,為預測精度提供保障。從信令數據中選取60%作為訓練數據,剩余的40%作為驗證數據。訓練前,要先對數據進行平穩化和差分處理,然后對預測模型的相關參數進行初步確定。支持向量機模型的訓練過程較為簡單,只要對核函數進行選取,并完成參數調優即可。
②當兩個預測模型全部完成訓練后,可按照數據特征的變化,對模型進行選取,預測交通量。為使選取的預測模型與當前的數據特征相適應,需要設定誤差閾值,通過誤差大小判斷模型的適用性,即誤差越小越適合,預測結果的準確性越高。可以先選用ARIMA,看預測誤差是否超過閾值,若是超出,則說明不適用于當前的數據,應選取SVM模型進行預測。由預測模型獲得的預測結果就是道路的交通量情況,可將制作為道路等級的確定依據。
2.3 系統測試
選取一組手機信令數據,用本次設計的系統對數據進行預處理,將其中的無用數據全部去除,留下有價值的數據。然后將數據帶入到預測模型當中,得出如下結果:以單個模型進行預測,精度一般,以組合模型進行預測,所得結果的精確度高于單個模型,達到交通量預測的效果。由此表明,組合模型的效果要明顯優于單個模型。
3 結語
綜上所述,交通量預測是一項較為復雜且系統的工作,為提高預測結果的準確性,可以對手機信令數據進行應用,并依托預測模型,構建相應的預測系統。在模型的選擇上,可將組合模型作為首選,由此能夠使交通量的預測精度得到進一步提升。
參考文獻:
[1]唐嘉立.基于手機信令數據分析的路網運行監控系統[J].中國交通信息化,2015,17(12):115-117.
[2]冉斌.手機數據在交通調查和交通規劃中的應用[J].城市交通,2013,11(01):72-81+32.
[3]郭曉妮.基于手機信令的交通流監測與出行信息服務系統[J].通訊世界,2017,24(14):157.