999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop支持下海量出租車軌跡數據預處理技術研究

2016-03-30 15:12:08呂江波張永忠
城市勘測 2016年3期
關鍵詞:大數據

呂江波,張永忠

(1.蘭州交通大學,甘肅 蘭州 730070; 2.蘭州市勘察測繪研究院,甘肅 蘭州 730030)

?

Hadoop支持下海量出租車軌跡數據預處理技術研究

呂江波1,2,張永忠1,2

(1.蘭州交通大學,甘肅 蘭州730070;2.蘭州市勘察測繪研究院,甘肅 蘭州730030)

摘要:海量出租車軌跡數據預處理是軌跡數據挖掘和應用的前提。出租車軌跡數據是典型的大數據,傳統的數據處理技術無法解決大規模出租車軌跡數據誤差分析和處理問題,文章在分析軌跡數據誤差來源和誤差類型的基礎上,提出基于Hadoop的海量出租車軌跡數據預處理模型,使用Hive實現軌跡數據誤差統計分析,設計MapReduce并行處理程序實現軌跡數據預處理。實驗結果表明,該模型可以有效解決大規模出租車軌跡數據預處理問題,處理方式可靠性較高,大大提高了軌跡數據預處理效率,為后期軌跡數據深入挖掘和分析奠定了基礎。

關鍵詞:軌跡數據;Hadoop;大數據;數據預處理;并行計算

1引言

隨著衛星定位技術、無線通信技術和地理信息技術的迅速發展,定位設備在車載以及移動終端上得到廣泛使用。許多城市的出租車都裝載了定位設備,這些設備會定時將其位置信息傳至服務中心,由此匯聚而成大規模的出租車軌跡數據。這些軌跡數據包含大量信息,已經開始應用于很多重要領域,如城市規劃、智能交通、人類行為模式研究以及能源消耗等。近年來,由鄭宇主導的“城市計算”,掀起了對GPS軌跡數據處理和分析的熱潮。他們通過出租車在某區域的連通性評判區域規劃的好壞;利用出租車軌跡數據感知交通流量,為用戶提供最快駕車路線和最佳拼車方案;利用出租車軌跡數據為出租車司機提供最短時間拉到乘客的方案以及為乘客推薦最可能打到車的地點[1]。童曉君利用出租車軌跡數據分析居民出行熱點區域和出行行為[2]。張富崢利用出租車在加油站等待時間估計加油站的排隊長度,從而估計出此時加油站內車輛數量以及加油量。將全城加油站數據匯總,便可以計算出任意時刻有多少燃油被消耗掉[3]。與此同時,軌跡數據應用也面臨著諸多挑戰,首先,GPS定位誤差和人為因素導致軌跡數據存在許多不合理數據,這些數據嚴重影響數據分析結果,因此,數據預處理成為軌跡數據應用首先要解決的問題;其次,軌跡數據是典型的大數據,以一個城市為單元,一天的出租車軌跡數據量大小從幾GB到幾十GB不等,多日的數據更可達TB、PB量級,常規的數據處理方式要處理如此大規模的數據幾乎是不可能的,即使勉強可以處理,也需要花費很高的時間成本。大數據時代的到來,為海量軌跡數據處理提供了解決方案,Hadoop作為目前主流的開源大數據分析平臺之一,為海量數據分布式并行處理提供強大的平臺支撐。Hadoop可以運行在廉價硬件構建的計算機集群上,能夠對大量數據進行可靠的、高效的、可擴展的分布式處理。

針對上述出租車軌跡應用中存在的數據誤差和數據量大難處理兩大問題,本文以Hadoop平臺為基礎,通過分析軌跡數據誤差來源,總結誤差類型,研究誤差統計分析方法和處理方法,在此基礎上提出基于Hadoop的軌跡數據預處理模型,實驗證明該模型可以有效分析和處理海量軌跡數據誤差,解決軌跡數據量大的處理瓶頸,處理方式更加可靠、高效。

2基于Hadoop的出租車軌跡數據預處理模型研究

2.1軌跡數據誤差來源

由于GPS定位本身存在誤差,加之出租車在實時動態獲取數據,道路交通狀態復雜性等原因,在海量的出租車軌跡數據中存在許多不合理數據,雖然大數據分析中有少許錯誤數據不會對分析結果產生影響,但也要具體問題具體分析,少許的錯誤數據也會使結果相差很多。例如:在計算出租車行駛距離時,因為位置偏離使用錯誤的GPS定位坐標計算的距離肯定相差很多,嚴重影響計算結果。我們將這些導致不合理數據的原因大致分為兩類:一類是與GPS設備有關的誤差,一類是與人為因素有關的誤差。

(1)與GPS設備有關的誤差。主要有多路徑效應誤差、GPS信號遮擋誤差和GPS設備故障。多路徑效應誤差產生的原因是當出租車行駛到有高大建筑物或水面附近時,建筑物和水面對于電磁波具有強反射作用,產生的反射波進入接收天線時與直接來自衛星的信號產生干涉,從而使觀測值偏離真值產生的誤差。GPS設備因建筑遮擋或外界有較強的電磁干擾等因素導致接收裝置無法獲取衛星信號,隨機產生與真值相差較大的位置數據,產生“偏離現象”,這種現象在隧道行駛時特別嚴重。GPS設備出現故障后未及時排除,設備采集的位置、時間和出租車狀態等信息都會出現錯誤[4]。

(2)與人為因素有關的誤差,由于司機關閉車載設備,導致GPS數據間斷傳輸,這樣數據就會不連續,在關閉車載設備的時間段GPS數據空白,在連續計算行駛距離或時間時出現錯誤。司機未規范使用計價器,導致數據中出租車行駛狀態與實際不符,分析軌跡數據發現個別出租車全天的車輛行駛狀態都是空車或載客,這明顯與實際不符。

2.2軌跡數據誤差分類

通過對軌跡樣本數據分析,對計算結果產生較大影響的誤差類型有以下幾類:

(1)經緯度出界。用經緯度描述軌跡點的位置,由于GPS設備誤差導致軌跡點嚴重偏離超出研究區域范圍的數據均為不合理數據[2]。

(2)采集時間錯誤。主要有時間格式錯誤和時間無效。

(3)車輛狀態錯誤。車輛狀態0表示空駛,1表示載客。如果出租車全天空駛、全天載客或車輛狀態存在非0或非1的值,則這些都是不合理數據[2]。

(4)數據丟失。出租車軌跡是由許多在時間上相對連續的軌跡點構成,超出 15 min不連續的軌跡點數據應該作為兩條軌跡的分割點。

(5)其他軌跡數據錯誤,主要有瞬時速度和行駛方向數值異常等。

2.3Hadoop技術體系

Hadoop是一個分布式計算框架,它能在大量廉價的硬件設備組成的集群上運行海量數據并進行分布式計算。他處理的海量數據能達到PB級別,并且可以讓應用程序在上千個節點中進行分布式處理。Hadoop優點主要有:Hadoop是低成本的,Hadoop是開源軟件,這樣就可以降低成本,此外,不必購買服務器級別的硬件,便可以搭建一個強大的Hadoop集群;Hadoop是可靠的,它假設計算過程和存儲會失敗,因此它維護多個工作數據副本,對失敗的節點重新處理;Hadoop是高效的,通過并行處理加快處理速度;Hadoop還是可伸縮的,如果數據量增大或要求提高數據處理效率,Hadoop集群可以通過提升硬件性能或增加節點數量實現擴展。Hadoop主要由分布式存儲HDFS和分布式計算MapReduce兩部分構成。HDFS是一個類似于Google GFS的開源分布式文件系統,它提供一個可擴展、高可靠、高可用的大規模數據分布式存儲管理系統,基于物理上分布在各個數據存儲節點的本地Linux系統的文件系統,為上層應用程序提供一個邏輯上成為整體的大規模數據存儲文件系統。MapReduce并行計算框架是一個并行化程序執行系統。它提供了一個包含Map和Reduce兩個階段的并行化處理模型和過程,提供一個并行化編程模型和接口,讓程序員可以方便快速地編寫大數據并行處理程序。此外,隨著Apache Hadoop系統開源化發展,Hadoop平臺已經演進為一個包含許多相關子系統的完整的大數據處理系統,這些子系統有:HBase、Hive、Pig、Zookeeper、Avro等[5~7]。

2.4數據預處理模型

軌跡數據誤差不可避免,而且在海量軌跡數據中誤差數據的總量不容小覷,嚴重影響計算結果。為了剔除海量軌跡數據中不合理數據,提高處理效率,保證分析結果的正確性,本文提出了基于Hadoop的出租車軌跡數據預處理模型,具體模型如圖1所示:

首先對原始數據進行抽樣分析,找出數據存在的問題,結合誤差來源,進行誤差分類,誤差分類的結果是誤差統計分析和誤差處理的直接依據。為了處理海量軌跡數據,該模型運行在Hadoop集群上,其中HDFS負責數據分布式存儲,MapReduce負責數據并行處理。軌跡數據源文件通常是由許多小于64 M的小文件組成,為了避免大量小文件引起的Hadoop運行效率低問題,編寫小文件合并程序,合并后的軌跡文件直接存儲在HDFS上。然后,在Hadoop集群上部署Hive組件,Hive組件管理Hadoop中存儲的數據,并提供類似SQL的查詢語言,快速實現數據抽取、轉換和加載,實質是將用戶定制的類似SQL查詢語言轉換為MapReduce程序[6]。根據誤差分類結果,使用Hive工具對軌跡數據誤差進行統計分析。最后,針對各類誤差類型編寫MapReduce數據預處理程序,完成數據清洗。MapReduce程序主要有Map函數和Reduce函數組成,Map負責把任務分解成多個任務,Reduce負責把分解后多任務處理的結果匯總起來,一些簡單的數據預處理可以交給Map,例如:數值超界、數值異常、格式校驗等。復雜一些的數據預處理需要Map和Reduce相互配合。

3應用實例

為了驗證本文所提出的基于Hadoop的出租車軌跡數據預處理模型的可行性,以深圳市出租車軌跡數據預處理為應用案例進行測試。

3.1數據概況

本文采用深圳市13 799輛出租車2011年4月18日~2011年4月26日共9天的軌跡數據。軌跡數據文件均以車牌號命名,數據文件采用csv格式存儲,共 13 799個文件,約2億條記錄,數據量大小約為 11 G。數據文件記錄了車牌號、采集時間、經度、緯度、行駛速度、行駛方向和車輛狀態。表1為軌跡數據文件結構,表2為軌跡樣例數據。

3.2環境搭建

本研究使用VMware在一臺高性能的服務器上搭建7臺虛擬機集群,其中1臺為主節點,其余6臺為數據節點。主節點配置8核中央處理器,8 G內存,數據節點配置4核中央處理器,4 G內存,操作系統均為64位CentOS7,并行計算環境基于Hadoop2.6,在Hadoop上部署hive1.2.1組件[8]。

3.3技術路線

對實驗數據進行抽樣查看,發現存在經緯度超界、采集時間錯誤、車輛狀態錯誤和數據丟失問題,按照上述出租車軌跡數據預處理模型對實驗數據進行預處理,具體內容如下:

(1)由于實驗數據是由13 799個文件組成,單個文件大小 1 MB左右,為了避免大量小文件引起的Hadoop運行效率低問題,編寫程序實現小文件合并。具體思路是:從本地文件夾中讀取文件,為了保證每行數據的完整性按照逐行讀取方式讀取數據,循環累計到單個文件達到閾值直接將文件保存到HDFS,新建另一個文件開始輸出,直到所有文件讀取結束[9,10]。

(2)按照軌跡數據誤差類型,分別構造經緯度超界、采集時間錯誤、車輛狀態錯誤Hive查詢規則,并在Hadoop集群上運行,統計各類誤差類型總數,抽取錯誤數據樣例。

(3)針對各類誤差數據,編寫MapReduce并行處理程序剔除這些不合理數據。軌跡大數據分析時經常需要進行路徑分析,數據丟失問題會導致路徑起始點錯誤,需要單獨編寫程序進行處理,本次實驗處理的方法是將超出 15 min不連續的軌跡點作為兩條軌跡的分割點。

3.4實驗結果

根據上述技術路線,對深圳市13 799輛出租車9天的軌跡數據進行預處理,分析得出,錯誤數據約占6.68%,其中車輛狀態錯誤約占6.21%,經緯度出界約占0.4%,采集時間錯誤約占0.08%。編寫數據預處理程序共剔除1.14千萬條錯誤數據,耗時約 10 min。實驗證明基于Hadoop的出租車軌跡數據預處理模型可以有效處理大規模軌跡數據中的常見的錯誤數據,運行可靠性較高,大大提高了軌跡數據預處理效率。實驗數據誤差統計分析結果如表3所示。

4結語

大數據時代的到來給海量出租車軌跡數據分析和應用提供了可能,而Hadoop作為目前重要的并行計算平臺,為大數據的存儲、管理和處理提供了技術支撐。本文認真分析了軌跡數據誤差來源,對軌跡數據誤差類型進行分類,在此基礎上,結合Hadoop并行計算平臺,提出基于Hadoop的出租車軌跡數據預處理模型。最后,本文對所提出的模型進行了驗證。實驗表明,該模型可以有效解決海量軌跡數據預處理問題,為后期軌跡數據深入挖掘和分析奠定了基礎。

參考文獻

[1]王詔遠,李天瑞,程堯等. 基于經驗分布的打車概率和等待時間預測[J]. 計算機工程與應用,2015(24):254~259.

[2]童曉君. 基于出租車GPS數據的居民出行行為分析[D]. 長沙:中南大學,2012.

[3]Zhang,Fuzheng,et al. “Sensing the pulse of urban refueling behavior.”Proceedings of the 2013 ACM international joint conference on Pervasive and ubiquitous computing ACM,2013:13~22.

[4]溫雅靜. 基于熱點載客區域的出租車應急調度方案研究[D]. 北京:北京交通大學,2014.

[5]黃宜華,苗凱翔. 深入理解大數據、大數據處理與編程實踐[M]. 北京:機械工業出版社,2014:31~36.

[6]萬川梅,謝正蘭. Hadoop應用開發實戰詳解[M]. 北京:中國鐵道出版社,2013:11~21.

[7]Chuck Lam. Hadoop in Action[M]. 北京:人民郵電出版社,2011:2~5.

[8]張巖,郭松,趙國海. 基于Hadoop的云計算試驗平臺搭建研究[J]. 沈陽師范大學學報·自然科學版,2013(1):85~89.

[9]陳光景. Hadoop小文件處理技術的研究和實現[D]. 南京:南京郵電大學,2013.

[10]張丹. HDFS中文件存儲優化的相關技術研究[D]. 南京:南京師范大學,2013.

Based on the Hadoop Massive Taxi Trajectory Data Preprocessing Technology Research

Lv Jiangbo1,2,Zhang Yongzhong1,2

(1.Lanzhou Jiaotong University,Lanzhou 730070,China;2.Lanzhou Surveying and Mapping Research Institute,Lanzhou 730030,China)

Key words:trajectory data;hadoop;big data;data preprocessing;parallel computing

Abstract:Massive taxi trajectory data preprocessing is the precondition of trajectory data mining and the application. Taxi trajectory data is a typical big data,the traditional data processing technology can not solve the problem of large scale taxi track data error analysis and preprocessing,on the basis of analyzing the trajectory data error source and error type,study of mass trajectory error statistical analysis method and data processing method,the taxi trajectory data preprocessing model based on Hadoop is put forward,using the hive for the realization of the trajectory error statistics,design MapReduce parallel processing procedures for the realization of trajectory data preprocessing. Experimental results show that,the model can effectively solve the problem of large scale taxi trajectory data preprocessing,high reliability,greatly improve the efficiency of the trajectory data preprocessing,late for trajectory data digging and analysis laid a foundation.

文章編號:1672-8262(2016)03-46-04

中圖分類號:P208.1

文獻標識碼:B

*收稿日期:2016—03—04

作者簡介:呂江波(1989—),男,碩士研究生,主要研究方向:GIS應用與開發。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 全部毛片免费看| 免费一级毛片在线播放傲雪网| 国产精品女同一区三区五区| 狠狠色丁婷婷综合久久| 国产制服丝袜91在线| 精品国产三级在线观看| 伊人久久大香线蕉成人综合网| 精品第一国产综合精品Aⅴ| 国产福利不卡视频| 97超碰精品成人国产| 91亚洲精品第一| 人妖无码第一页| 国产成人啪视频一区二区三区| 国内丰满少妇猛烈精品播| 日韩a级毛片| 亚洲精品你懂的| 亚洲系列中文字幕一区二区| 精品1区2区3区| 精品一区二区三区中文字幕| 久久人搡人人玩人妻精品| 中文字幕无码电影| 色综合天天综合| 极品私人尤物在线精品首页 | 久久男人视频| 日韩a级片视频| 4虎影视国产在线观看精品| 播五月综合| 欧美一级夜夜爽| 亚洲日韩精品无码专区97| 国产成人福利在线| 沈阳少妇高潮在线| 日韩久草视频| 国产女人18毛片水真多1| 国产一区二区三区免费观看| 成人免费视频一区| 国产精品hd在线播放| 亚洲国产日韩一区| 九九这里只有精品视频| 丰满人妻中出白浆| 无码又爽又刺激的高潮视频| 亚洲日本中文字幕乱码中文| 2022精品国偷自产免费观看| 99久久这里只精品麻豆| 99免费在线观看视频| 日韩在线中文| 有专无码视频| 国产女人在线| 欧美精品1区| 日韩国产高清无码| 亚洲欧美日韩成人高清在线一区| 国产aaaaa一级毛片| 国产麻豆aⅴ精品无码| 99无码中文字幕视频| 国产欧美日韩精品综合在线| 超碰色了色| 伊人久久大香线蕉aⅴ色| 亚洲成人精品在线| 狼友视频国产精品首页| 久无码久无码av无码| AV老司机AV天堂| 亚洲人成网站在线观看播放不卡| 毛片大全免费观看| 国产亚洲欧美在线中文bt天堂 | 色精品视频| 日本人又色又爽的视频| 欧美日韩国产成人高清视频 | 日本三级欧美三级| 操国产美女| 精品国产一区二区三区在线观看| 亚洲一级毛片在线播放| 71pao成人国产永久免费视频 | 永久成人无码激情视频免费| 国产日韩欧美在线视频免费观看| 久久久久青草线综合超碰| 午夜性刺激在线观看免费| 最新亚洲人成无码网站欣赏网| 爆乳熟妇一区二区三区| 精品国产免费观看| 亚洲色欲色欲www网| 国产成人久视频免费| 四虎永久免费地址在线网站| 欧洲高清无码在线|