999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運輸車輛軌跡點數據清洗方法研究

2019-03-07 05:22:46高靜文蔡永香甘藝垚
電腦知識與技術 2019年36期

高靜文 蔡永香 甘藝垚

摘要:[目的]運輸行業管理部門利用車聯網系統獲取了大量駕駛員的時空軌跡點數據,而對行車軌跡點數據進行挖掘分析可以評估駕駛員的安全駕駛行為習慣,管理部門可以據此有針對性地對駕駛員進行教育監管,有助于規避風險,提高交通安全。而原始的軌跡點數據由于GPS信號被遮擋或者干擾等原因,會包含大量噪聲及一些錯誤信息,需要有效清洗才能使用。[方法]文中以運輸車輛原始軌跡點數據為研究目標,分析總結出了其中常見的六類數據點異常現象,包括無效屬性信息、時間信息錯誤、車速零點漂移、速度變化率異常、信息量過少的軌跡路段、經緯度漂移等問題,并針對這些具體的問題提出了相應的數據清洗方法;[結果]最后將該方法成功應用于某運輸企業提供的車輛軌跡數據點的清洗。[結論]結果表明,文中提出的數據清洗方法能夠有效去除異常數據,為后續駕駛員行為評估提供高質量數據。

關鍵詞:數據清洗;駕駛行為;車輛軌跡;可視化表達;時空數據

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2019)36-0189-04

1概述

隨著我國運輸車輛日益增多,交通肇事率呈現遞增態勢,迫切需要提升車輛運行安全水平,而司機的駕駛行為習慣是最直接影響道路交通安全的因素。現在大部分運輸車輛都安裝GPS設備,進入了車聯網系統,能夠自動采集行車狀態信息,形成了數據量龐大的時空軌跡點數據。對這些行車軌跡點數據進行挖掘分析可以評估駕駛員的安全駕駛行為習慣,管理部門可以據此有針對性地對駕駛員進行教育監管,有助于提高運輸安全的監管水平。然而有效的數據挖掘必須建立在高質量數據基礎之上,如果是“Garbage in”,那必是“Garbage out”,因此在運輸軌跡數據建模分析之前對原始數據進行清洗變得至關重要。

數據清洗是一種盡可能多的調整或去除有質量問題的原始數據而保留正確信息,使其具有更好的穩定性和代表性的數據處理方法[1-3]。當前關于數據清洗的研究主要集中于以下幾個方向:Jarke等人[4]利用近鄰排序算法比較排序后的相鄰數據是否相等,按一定的規則合并或刪除重復記錄;Hido等人[5]使用統計的方法匹配不同類型數據所需的分布模型,再逐個數據進行檢測發現離群值;郝勝軒[6]提出改進的基于雙聚類的缺失數據填補算法,實驗驗證該方法可以實現對缺失數據填補的高效性;黃冠利等人[7]提出在GPS數據的存儲端采用基于時間序列的算法分別對經緯度數據進行校驗與調整,確保GPS軟件產品的質量得到提升;劉子政等人[8]在[7]的基礎上依據速度一時間序列的方差和均值判斷漂移點,精準度相較于前者有所提升。這些方法基本上是針對一般性的數據異常或者某些特定異常(GPS定位漂移)情況的數據進行清洗。而實際運輸車輛軌跡數據中存在多種特定的異常狀況,本文專門針對運輸車輛產生的軌跡點數據展開研究,分析了其中存在的異常數據類型,并提出了相應的數據清洗方法,最后將該方法應用于某運輸企業提供的車輛軌跡點數據清洗。

2車輛軌跡數據異常分析

運輸車輛時空軌跡數據在采集傳輸過程中,由于受到大氣層、GPS設備自身弊端或故障、信號遮擋或其他信號干擾以及駕駛人員操作不當等客觀或主觀因素的影響,獲取的部分軌跡數據出現了異常數據現象,這對基于這些數據挖掘駕駛員的駕駛行為模式產生了巨大影響[9]。

GPS采集的行車軌跡點數據一般包括了車牌號碼、設備號、方位角、經度、緯度等多個參數,表l是某公司運輸車輛軌跡點數據的參數說明。我們對大量原始運輸車輛軌跡點數據進行分析,總結出原始數據存在以下六種異常現象:無效屬性信息、時間信息錯誤、車速零點漂移、速度變化率異常、信息量過少的軌跡路段、經緯度漂移等。下面對這六種異常現象進行分別說明。

1)無效屬性信息:軌跡點數據記錄中存在部分屬性字段完全為0的情況,如:我們獲取的車輛軌跡點數據中有轉向燈、左轉向燈、手剎和腳剎等參數值均為零。產生這種現象的原因是GPS設備上獲取這些參數的連接線未與車輛連接。

2)時間信息錯誤:部分時空軌跡點數據集中出現了時刻重復、時間前后顛倒等現象,如ti是前一時刻,ti+1,是后一時刻,出現了t+i-ti=0或ti>ti+1的現象,這可能是由于GPS接收機在接收待測衛星信號并進行信號變換處理時,接收機出現不穩定性故障,導致測量的GPS信號從衛星到接收機天線的傳播時間出現誤差[10]。如果用這樣的錯誤時間信息數據計算速率等特征值,即速率a=(vi+1-vi)/(ti+1-ti),得到的結果會不真實。

3)車速零點漂移:時空軌跡數據中出現了當車輛靜止時,車速非零值跳動現象。如:前一時刻車速vi-1=0,后一時刻車速vi+1=0,而當前時刻車速vi≠0。這可能是由于GPS終端設備受到外界信號十擾引起的。

4)速度變化率異常:歐洲共和體(EEC)與聯合國歐洲經濟委員會(ECE)標準對制動效能檢驗要求以及評價參數的限值都曾做出具體規定,詳細內容如表格2所述。

表中M1是指不超過8座小客車;M2是指8座以上且總質量不超過5噸的客車;M3是指8座以上且總質量5噸以上的客車;N1是指總質量不超過3.5噸的載貨汽車或牽引車;N2是指總質量在(3.5噸,12噸1的載貨汽車;N3是指總質量12噸以上的載貨汽車。

從表2中可以看出,運輸車輛所能采取的最大制動減速度不能超過4.4m/S2,然而運輸車輛駕駛行為特性決定了運輸車輛在典型行駛工況下速度變化率一般不會超過2.5 m/s2[11],因此,速度變化率的參考閾值可以設置為[-4.4 m/s2,2.5 m/s2],數據中速度變化率超出這個區間外的為異常。

5)信息量過少的軌跡路段:每輛車的軌跡數據實際上是由多個行駛時段數據集合構成。駕駛員行為模式評估是首先基于單個行駛時段的數據進行行為方式提取,再基于多個行駛路段的情況對其行為模式進行評估,而行駛時間過短的軌跡路段很難分析駕駛員的行為模式,只有行駛時間足夠長的數據才可能具有研究價值。因此,行駛時間過短、軌跡數據信息量過少的數據不具有相應的挖掘價值,需要予以刪除。

6)經緯度漂移:由于GPS信號本身是一種電磁波,而這種電磁波的功率很小,信號經過傳輸至地面時會嚴重衰減,一旦傳輸過程中遇到信號遮擋、建筑物等復雜環境的反射,就會使得GPS所獲取的數據點存在大量經緯度漂移現象[12],即軌跡點數據不在實際行駛的道路上。如果將軌跡點數據中的地理位置信息可視化表達在地圖上就很容易發現異常的存在,如軌跡定位在了河流、高山上,或者突然離開軌跡原本所在道路線,出現在與之相距甚遠的地圖某處。如圖1就是產生漂移,遠離實際路線的軌跡點數據示例,與基礎地理信息數據疊加,圖中縱橫交叉的曲線為真實道路網,圖l(a)中的車輛軌跡點漂移到水體上;圖l(b)中軌跡點漂移到的位置上并沒有與之對應的可行駛的道路。

3車輛軌跡點數據清洗方法

原始獲得的軌跡點數據一般都存在上述六種異常現象的一種或幾種,必須經過相應的清洗和糾偏后使用,才能保證挖掘出有價值的信息。

對此,我們總結了一套清洗流程,如圖2所示,包括過濾掉一些無效的、錯誤的數據點,對一些異常數據點進行糾偏修復等。下面對具體的清洗方法進行闡述。

1)清洗無效屬性信息數據。將屬于字段信息采集不完整(如屬性值全為0),對研究分析的內容沒有信息貢獻的項予以剔除;

2)清洗時間信息錯誤數據。因正常行駛時運輸車輛軌跡點數據的采集時l司間隔大致相等,從初始時刻開始,依次計算軌跡點數據的相鄰時刻差At=ti+1=ti,若存在A≤O,則ti與ti+1,為錯誤疑似點;再計算At=ti+2-ti+1,若At‘也小于等于0,判定錯誤時間信息點是ti+1,;若At‘大于0,則判定錯誤時間信息點是ti,予以剔除。

3)清洗車速零點漂移數據。首先,對軌跡點數據的速度值進行檢查,看是否存在前一時刻和后一時刻GPS采樣點的速度為0,即vi+1=O,vi+1=0,但當前點的速度不為0即vi≠0的情況;其次,進行車速零點漂移異常判斷,看這三點的經緯度的值是否相等,即lati-1=lati+1=lati,Ingi-1=lngi+1=lngi,如果是,則屬于車速零點漂9移情況;最后,進行速度異常值修復處理,將當前點的速度置為O,即vi=O。

4)清洗速度變化率異常數據。對所有運輸車輛的速度變化率進行計算,計算公式為ai=(vi-vi-1)/(ti-ti-1)這里將第i點與第i-1點之間計算的加速度作為第i點的加速度。根據計算結果剔除速度變化率超出閾值的軌跡數據點。

5)清洗信息量過少的軌跡路段,清洗方法包括:分段、檢查和舍棄。《道路交通安全法實施條例》第六十二條規定:連續駕駛機動車超過4小時應停車休息,停車休息時間不少于20分鐘。我們對數據集中大量的車輛數據進行觀察,發現在一次運輸活動結束后(即一條軌跡采集完成后),距離下一次GPS記錄至少間隔兩小時。因此可以設定一定的時間間隔閾值對GPS采集數據點進行軌跡分段。

分段后,對每條軌跡點數據進行檢查。判斷軌跡點信息記錄數量是否過少,將軌跡點數量少于某一特定閾值的軌跡認為是需要舍棄的軌跡。

6)清洗經緯度漂移異常數據,包括經緯度漂移異常數據的發現與修復。經緯度漂移異常數據可以采用位移和位置異常兩種方式進行監測發現:

(1)位移數據異常判別

經過前期異常清洗后的軌跡點數據是嚴格按照時間遞增順序排列的,按照車輛行駛的速度和時間差可以估算出兩點間的最大位移量X,而按照車輛行駛軌跡中的經緯度數據也可以求出兩點間的距離L,如果L大于X的數倍,顯然軌跡數據中的地理位置存在異常。例如,表3是某車輛的第5929個和5930個采樣點數據,分別標記為點A和點B。A點坐標(116.966693°,28.999466°),B點坐標(116.96692° ,28.999585°),而當前汽車速度均為93 km/h,時間差為1秒。根據兩點經緯度位置數據,采用公式(1)-(3)計算出兩點間最小球面距離L為25.65254米,其中公式(1)是已知A、B兩點的經緯度后,利用球面余弦公式求得θ角的余弦值,公式(2)是將角度θ轉換成弧度c,公式(3)根據地球半徑R和弧度c得出球面上A、B兩點間的距離L。而依據其行駛速度和時長,可以按公式4(兩點中的速度最大值與時間差的乘積)求出其最大位移量X為25.83333米,令K=L/X,若K超過一定的閾值范圍,則視為異常。

(2)位置數據異常判別

有些經緯度漂移的數據離開了實際行駛的道路,但并不總是表現出明顯的位移數據異常特征,這就需要通過地理信息科學中的緩沖區分析和疊置分析方法來進行位置異常判別。

緩沖區分析是對一組或一類地圖要素按照設定的距離條件,圍繞這組要素形成具有一定范圍的多邊形實體,從而實現數據在二維空間擴展的信息分析的方法。疊置分析是將代表不同主題的各個數據層面進行疊置產生一個新的數據層面,用來提取空間隱含信息的方法[13]。我國《城市規劃定額指標暫行規定》中將道路劃分為40—70米,30—60米,20—40米,16—30米等寬度的四級道路。我們可以按照這個標準設置道路緩沖帶,再與GPS軌跡點進行疊置分析,即Point n Area,落在緩沖帶范圍外的軌跡點即可視為位置異常。

對于判定為漂移的經緯度屬性數據需要進行修復。取刪除的每個異常漂移點的采樣時間與瞬時速度的乘積進行累加,得到該段缺失軌跡的軌跡距離,再與可視化的底圖路線進行匹配找到實際軌跡路線,以軌跡缺失的開始點為起點,沿著道路線,按照點與點之間的間距進行軌跡點標定,最終將軌跡補充完整。

4車輛軌跡點數據清洗實例

本文的清洗應用實例采用的是第七屆“泰迪杯”數據挖掘挑戰賽的競賽數據,來源于交通運輸部公路科學研究院汽車運輸研究中心的行車時空軌跡點數據,采集時間為2018年7月30日至2018年10月26日,原始數據中平均一輛車約保存100000條記錄,數據采樣間隔為1秒,屬于高頻數據,數據采樣均勻。

按照前面所述的清洗方法,我們從OpenStreetMap(簡稱OSM)地圖上下載得到了全國道路網矢量線狀數據,并利用其柵格底圖,基于Arc GIS平臺,采用Java語言編程實現了數據的清洗。清洗無效屬性信息數據時,剔除掉了左轉向燈、右轉向燈、手剎、腳剎等數值均為零的屬性值;去掉了時間信息錯誤數據;修復了車速零點漂移數據;以[-4.4m/S2,2.5m/S2]作為速度變化率閾值,將速度變化率異常的軌跡點予以刪除;在清洗信息量過少的軌跡路段時,首先我們以連續軌跡點之間的時差超過2小時的作分段處理,接著將記錄數少于1500條的軌跡路段予以舍棄,這是因為我們獲取的數據采樣間隔為1秒,1500條記錄相當于25分鐘,也就是說將行駛時長小于25分鐘的軌跡路段舍棄。

清洗經緯度漂移異常數據時,我們將位移數據異常判別的K值沒置為1.5,將位置數據異常判別的緩沖區半徑設置為35m,首先刪除位移異常的軌跡點數據,接著再刪除位置異常的軌跡點數據。

經過上述清洗步驟后,清洗結果可以以可視化的形式展示。圖4是某車輛軌跡清洗前后的對比圖。

從清洗前后對比圖中可以發現,經過數據清洗后,表現異常的軌跡點得到了刪除或修復,運輸車輛軌跡點匹配到了相應的道路網上,這為車輛運輸路線圖的制作以及后續的駕駛行為挖掘提供了準確的依據。將清洗后的軌跡點在AreMap中按照時間順序由點轉成線,就能生成該車輛在數據采集的時間區段內的運輸線路圖,總共由5條軌跡路段組成,如圖5所示。

5結論

道路運輸行業管理部門通過車聯網平臺采集了大量的運輸車輛時空軌跡點數據,本文針對數據采集傳輸過程中由于主觀或客觀因素而產生的六種不同類型的數據異常現象,提出了一套軌跡點數據清洗的流程和方法,包括過濾無效屬性信息、清洗時間信息錯誤數據、修復車速零點漂移數據、剔除速度變化率異常數據、舍棄信息量過少的軌跡路段、清洗經緯度漂移數據等。我們將該方法應用于某運輸企業原始車輛軌跡點數據的清洗,并將清洗前后的數據在可視化平臺上進行對比,結果表明,清洗后的軌跡點更符合實際行車狀態,清洗效果顯著。

文中提出的數據清洗方法,能有效去除大量噪聲數據,為后續挖掘分析駕駛員的駕駛行為習慣提供了有力保障。

本文數據為第七屆“泰迪杯”數據挖掘挑戰賽競賽數據,來源于交通運輸部公路科學研究院汽車運輸研究中心,感謝競賽主辦方對數據的提供。

參考文獻:

[1] Rajashree Y Patil,R V Kulkarni.A Review of Data CleaningAlgorithms for Data Warehouse Systems,[J]. Intemational Jour-nal of Computer Science and Information Technologies, 2012,3(5):5212-5214.

[2] Prema S Kulkarni,J W Bakal. Hybrid Approaches for DataCleaning in Data Warehouse[J]. Intemational Journal of Com-puter Applications, 2014, 88(18):7-10.

[3]馮士雍,倪加勛,鄒國華,等.抽樣調查理論與方法[M].北京:中國統計出版社,1998.

[4] Matthias Jarke, Manfred A leusfeld, Christoph Quix, et al.Ar-chifecture and quality in data warehouses: An extended reposi-tory approach[J]. Information Systems, 1999, 24(3):229-253.

[5] Shohei Hido, Yuta Tsuboi, Hisashi Kashima, et al.Statisticaloutlier detection using direct density ratio estimation[J]. Knowl-edge and information systems, 2011, 26(2):309-336.

[6]郝勝軒.數據清洗算法研究與實現[D].中國科學院大學,2015.

[7]黃冠利,王輝,徐華平.基于時間序列解決GPS信號定位漂移的研究[J].計算機工程與應用,2008,44(31):94-97.

[8]劉子政,李默穎,黃長青,等.顧及速度約束的基于時間序列GPS漂移數據處理方法[J].測繪地理信息,2017,42(1):14-18.

[9]康四林,李語強.GPS定位中的誤差分析[J].天文研究與技術,2010,7(3):222-230.

[10]崔保延.GPS軟件接收機基礎[M].2版.北京:電子工業出版社.2007.

[11]侯聰,王賀武,歐陽明高.中美PHEV能耗評價方法對比研究[J].汽車工程,2015,37(1):1-8.

[12]金同雄.GPS衛星定位的應用與數據處理[M].上海:同濟大學出版社,2003:207-215.

[13]湯同安,楊昕.AreGIS地理信息系統空間分析實驗教程[M].2版.北京:科學出版社,2012.

【通聯編輯:光文玲】

收稿日期:2019-09-13

基金項目:地理信息工程國家重點實驗室開放基金課題資助(SKLGIE2017-M-4-6)

作者簡介:高靜文(1992-),女,安徽蚌埠人,碩士研究生,主要研究方向為地理信息可視化表達和智能數據處理;通信作者:蔡永香,副教授。

主站蜘蛛池模板: 91在线日韩在线播放| 欧美一级一级做性视频| 久久综合结合久久狠狠狠97色| 免费欧美一级| www.国产福利| 国产99在线观看| 老司机午夜精品视频你懂的| 四虎国产在线观看| 中文字幕人妻av一区二区| 日本道综合一本久久久88| 亚洲swag精品自拍一区| 在线观看免费国产| 成人在线天堂| 亚洲色成人www在线观看| 91在线高清视频| 日本免费精品| 日韩一级二级三级| 动漫精品啪啪一区二区三区| 亚洲综合久久一本伊一区| 91丨九色丨首页在线播放| 综合亚洲色图| 在线播放91| 免费一看一级毛片| 国产人人干| 国产精品9| 激情爆乳一区二区| 日本爱爱精品一区二区| 欧美在线天堂| 国产99在线观看| 欧洲熟妇精品视频| 欧美www在线观看| 成人福利在线看| 77777亚洲午夜久久多人| 亚洲午夜福利在线| 国产乱子伦视频三区| 波多野结衣中文字幕一区二区 | 国产屁屁影院| www.99精品视频在线播放| 999精品视频在线| 女人毛片a级大学毛片免费| 丁香五月亚洲综合在线| 5388国产亚洲欧美在线观看| 亚洲精品国产综合99| 2022国产91精品久久久久久| 欧美亚洲国产日韩电影在线| 国产精品亚洲片在线va| 亚洲国模精品一区| 在线亚洲精品自拍| 国产人免费人成免费视频| 中国黄色一级视频| 看av免费毛片手机播放| 亚洲色欲色欲www在线观看| 99精品在线看| 国产精品区视频中文字幕 | 在线a视频免费观看| 亚洲欧美日韩色图| 久久6免费视频| 91青青视频| 亚洲AV电影不卡在线观看| 亚洲欧州色色免费AV| 一级黄色欧美| 中文字幕自拍偷拍| 99视频精品全国免费品| 亚洲天堂视频在线免费观看| 被公侵犯人妻少妇一区二区三区| 99精品在线视频观看| 亚洲精品福利视频| 国产AV无码专区亚洲A∨毛片| 99视频有精品视频免费观看| 在线观看精品国产入口| 亚洲伊人天堂| 激情影院内射美女| 欧美在线导航| 国产国拍精品视频免费看 | 日本一区二区三区精品国产| 超碰色了色| 久久五月天国产自| 四虎成人免费毛片| 亚洲欧美极品| h视频在线播放| 91偷拍一区| 99在线观看国产|