周 濤,趙必成,俞 博
(重慶市交通規劃研究院,重慶400020)
基于CRISP-DM的交通大數據分析方法及實踐
——以重慶市手機信令數據和RFID數據為例
周 濤,趙必成,俞 博
(重慶市交通規劃研究院,重慶400020)
隨著交通大數據研究及應用日益廣泛,其中存在的問題也越來越明顯。很多分析結論存在概念模糊、數據質量不確定、分析方法不清晰等問題,導致分析結果經不起推敲,也缺乏可比性。究其主要原因是未能形成科學的大數據分析方法和統一的分析標準。提出基于CRISP-DM的交通大數據分析方法,包括目標要求、數據理解、數據準備、數據建模、模型驗證、工程化應用(部署)6個階段。結合重慶市交通大數據平臺建設實踐,以手機信令數據和車輛RFID數據為例,詳細闡述數據理解、數據建模和模型驗證三個重要步驟的具體做法,探索如何實現交通大數據分析的標準化、指標化和透明化。
交通大數據;大數據分析方法;數據理解;數據建模;模型驗證;重慶市
隨著信息技術的迅猛發展和移動互聯網技術的大規模普及,席卷全球的大數據時代已經到來。通過海量數據的挖掘與分析輔助決策,交通大數據已成為國內外交通行業研究與應用的熱點,但隨之而來的問題也日益明顯。日前,高德軟件有限公司、滴滴出行科技有限公司、荷蘭交通導航服務商TomTom相繼發布2016年中國城市擁堵排名。雖然幾家機構均采用擁堵延時指數作為唯一的排名依據,但結果差異很大。例如,重慶市在三個榜單中分別排名第四、第二、第一。造成排名結果巨大差異的原因可能來自以下幾個方面:
1)分析范圍不同。例如,高德對重慶市的評價選擇的是內環路以內(約280 km2)區域。如果采用主城區(約780 km2)作為統計范圍,擁堵程度會變得小很多。
2)分析時段不同。高德為早晚高峰各2 h,滴滴為早晚高峰各3 h,TomTom為晚高峰。分析時段拉長,指標值可能降低。
3)參數取值不同。擁堵延時指數定義為高峰時段出行時間與暢通狀態出行時間的比值。因此,路段暢通狀態車速是影響指標最重要的參數。而重慶市由于干路上立體交叉口較多,導致綠波狀態下的行程車速顯著高于非綠波狀態,造成不同統計機構的暢通車速不同。
4)指標單一。僅采用擁堵延時指數,無法準確描述城市交通擁堵狀態,擁堵持續時間長短也應作為重要指標。除此而外,分析時長選取、指標加權方法、道路計算范圍等,均會影響指標計算結果。
由此可見,大數據分析中,由于缺乏對一些概念的準確定義以及科學的分析方法,使得各家機構發布的結論差異很大、眾說紛紜、莫衷一是。長遠來看,這對交通大數據的應用十分有害。
跨行業數據挖掘標準流程(Cross-Industry Standard Process for Data Mining,CRISP-DM)提供了一個數據挖掘生命周期的全面評述,包括項目的各個階段、不同階段各自的任務以及這些任務之間的關系;關系存在于任何數據挖掘任務之間,這些任務依賴于最終目的、背景、用戶的興趣,但最重要的是數據[1]。
數據挖掘項目的生命周期由6個階段組成(見圖1)。階段順序不是嚴格不變的,經常會在不同階段之間移動,這取決于每一階段或其中一個階段某一特定任務的結果,因為每個階段的結果均對下一階段起關鍵作用,箭頭指出了階段之間最重要和頻繁的關聯依賴。其中黃色代表數據挖掘過程中最為重要的部分。
圖1中的外圈形象地表達了數據挖掘本身的循環特性,數據挖掘不是一次部署完就結束的活動。在項目進程期間和方案部署過程中獲得的經驗教訓可能觸發新的、通常更值得關注的問題。涉及的階段包括:
1)目標要求。最開始的階段從應用角度理解項目目標和要求,接著把這些理解轉換成數據挖掘問題的定義和實現目標的最初規劃。
2)數據理解。本階段開始于收集原始數據,對數據進行裝載,描繪數據,并且探索數據特征,進行簡單的特征統計。接下來是熟悉數據、了解數據,例如,檢測數據的量,對數據有初步的理解,探測數據中比較有趣的數據子集,進而形成對潛在信息的假設;檢驗數據的質量,包括數據的完整性和正確性,缺失值的填補等。這些活動的目的是熟悉數據、理解數據、甄別數據質量、發現數據的各種應用可能和適用范圍。
3)數據準備。本階段包括從最初原始數據構建到最終數據集(作為建模工具的輸入)的全部活動。數據準備很可能被執行多次并且不以任何既定的秩序進行。其任務既包括表、記錄和屬性的選擇,也包括為建模工具準備數據的轉換和清洗。
4)數據建模。在這一階段,會選擇和使用各種建模技術,并對其參數進行調整優化。一般地,相同數據挖掘問題類型會有幾種技術手段。某些技術對于數據形式有特殊規定,這通常需要重新返回到數據準備階段。
5)模型驗證。這一階段已經構建了一個(或多個)從數據分析角度看似高質量的模型。在最終部署模型之前,要對模型進行較為全面的驗證,重審構建模型的步驟以確認能達到目標要求。另一關鍵目標是判斷是否存在某些重要問題未被充分考慮。

圖1 基于CRISP-DM的數據挖掘流程Fig.1 Data mining process based on CRISP-DM
6)部署。模型的建立通常并不意味著項目的結束,數據需要在部署之后,才能實時不間斷的輸出,從而達到大數據的工程化應用。
交通大數據往往是海量原始的時空數據,并不能直接得到應用于城市規劃及交通規劃的相關結論。必須采用正確的數據挖掘技術體系,得到科學合理的評價指標和分析結論,以支持交通規劃及研究工作。下文分別以手機信令數據和車輛RFID數據為例,重點針對數據理解、數據建模和模型驗證三個階段,闡述基于CRISP-DM的交通大數據分析方法和應用實踐。

圖2 手機信令數據中的信號漂移Fig.2 Signal drifting in the cellular signaling data

圖3 手機信令監測人口與統計人口對比Fig.3 Population estimated by cellular signaling data vs.the population estimated by statistical method
手機信令數據是一組非等時、等距回傳,定位頻繁跳躍且具有時間順序的時空數據。與傳統的GPS定位數據不同,手機信令數據采集包括主動和被動機制,并且通過基站定位實現位置追蹤[2]。圖2為某一志愿者用戶在2016年5月12日15:50至13日07:59時間段真實的停留位置。通過追蹤該用戶的手機信令數據發現,數據并不是由同一基站服務,而是包含了在12個不同基站間來回250次的定位切換。因此,在構建信令分析模型(例如停留點模型、職住識別模型)時必須考慮這一特點,區分用戶真實的出行發生和信號漂移現象。
通過手機信令監測得到的人口分布并不直接對應于真實人口分布,運營商采集得到的用戶信令包含了流量卡、物聯卡、移動座機、非活躍用戶和一人多機等干擾數據。其中前三者可以通過運營商協調相應的登記信息在數據源頭做數據過濾。非活躍用戶則可以通過后期數據處理模型,識別出長期靜止不動及不產生通信行為的用戶。而一人多機則沒有很好的辦法實現數據清洗,因為使用相同登記信息注冊的設備并不能保證真實是一人使用,一人同時使用的設備也并不產生相同的軌跡信息,而且同一人同時使用不同運營商的設備更無法識別。
通過數據分析得到2016年中國聯通、中國移動在重慶市主城區常住人口用戶分別是134萬人和719萬人(通過連續跟蹤用戶每日出現情況,并未做用戶類型篩選)。由于并未開展基于中國電信數據的職住分析,但按照大致的運營商市場份額推算通過三家運營商的手機信令數據監測出的常住人口約1 000萬人。而根據重慶市統計局公布的2016年統計年鑒人口約為851萬人(見圖3)。兩組數據存在較大差距,也正說明在使用手機信令數據開展職住模型設計時建立相應的干擾用戶清洗機制的必要性。
傳統的手機信令數據主要是通過采集2G,3G用戶的手機通話、短信、開關機以及周期性位置更新和位置區切換等行為產生的控制指令[3]。隨著移動通信網絡的不斷發展,如今更高速、更穩定的網絡以及信令采集技術的提升,讓人們在享受更優質便捷的移動通信網絡服務的同時,也讓基于手機信令的各種數據挖掘分析有了新的生命力,未來基于手機信令的居民活動規律分析將不再局限于職住分布的分析監測,必將延伸至更多更精細的分析方向中,如軌跡分析中的出行路徑分析、出行方式分析,出行活動性質分析,出行鏈分析,活動空間分析。
1)4G采集頻率大幅提升。
以重慶市中國移動、中國聯通的2G,3G信令為例,用戶的日均信令記錄數約為30條,而4G上網信令的采集用戶單日記錄可達上百條,甚至超過1 000條,是傳統2G信令數據量的10~20倍。圖4為多名志愿者用戶的日均記錄數分布對比,可以看出綠色框內的4G用戶記錄數比紅色框內的2G,3G用戶記錄數有顯著提高。
從用戶的信令平均采樣間隔對比來看,4G上網信令的采樣間隔顯著降低,如表1中重慶市移動2G,3G間隔小于10 min信令占比約為46%,而4G上網信令的采集讓這一比例提升至89%,說明4G用戶的信令采集變得越來越密集。
2)4G基站定位精度提高。
手機基站定位主要是借助信令中的基站編號來確定手機用戶所處的空間位置。該定位精度取決于基站小區服務半徑大小:在城區基站布局較密,基站小區服務半徑較小,定位精度可達幾百米;在郊區或農村,基站布局稀疏,基站小區服務半徑很大,定位精度從幾百米至幾萬米不等[4]。4G基站的服務半徑較2G基站明顯降低,76.8%的4G基站服務半徑在600 m以內(見圖5)。隨著4G網絡的建設,4G基站布設更密集,服務半徑更小,定位會變得更準確。
在有了明確的目標需求和深入的數據理解后,針對數據的質量、精度和特點設計算法模型和建立模型所用的數據集。在模型的建立過程中應根據整體數據分析流程,分層建模,高效利用各階段中間成果。圖6以手機信令的職住模型為例,說明職住識別分析流程,包含各子模型的設計,每個子模型都有中間成果的輸出,這些中間成果的疊加、融合能產生更豐富的結果。
1)停留點識別模型:根據用戶原始的軌跡識別出停留位置,形成用戶每日出行OD,識別用戶的停留位置、停留起止時間。

圖4 2015年5月某周用戶單日手機信令記錄數分布Fig.4 Distribution of daily cellular signaling records of a user during one week in May 2015

表1 信令采樣間隔對比Tab.1 Comparison on signaling sampling intervals %

圖5 2G,4G基站服務半徑對比Fig.5 Service radius of 2G and 4G base stations
2)多日穩定點訓練模型:疊加用戶多日的出行OD,識別出用戶規律性出行OD,包括規律性出行的停留位置、起止時間。
3)居住地與就業崗位識別模型:在多日穩定點中識別出用戶的居住地和工作地。
4)通勤時間訓練模型:根據用戶的居住地和工作地結果以及用戶每日出行OD,識別出用戶每日的通勤出行,綜合用戶多日的通勤出行起止時間計算平均通勤時間。
5)統計擴樣模型:根據每年統計局發布的統計年鑒人口和每月手機信令監測人口,得到各類型區域對象每月的人口絕對量。
6)職住平衡評價指標體系:利用各階段成果實現職住平衡評價指標的計算。

圖6 基于手機信令的職住模型設計Fig.6 Job-housing model based on cellular signaling data
在模型的整體設計中應實現各子模型的分級處理、結果分層管控。以基于中國聯通手機信令數據的職住模型數據管控方案為例,在數據類型上劃分為原始數據、臨時數據、基礎數據、中間數據和結果數據(見表2)。根據每一類型的用途、數據格式、更新頻率和數據大小設計不同的存儲方式及存儲周期。
完成數據建模以后需要綜合多種數據進行驗證,判斷模型是否達到要求。在基于手機信令的職住模型驗證中主要采用兩種驗證方式,一種是通過志愿者信令數據計算得到的結果與志愿者真實情況做個體驗證,一種是通過其他相關的調查數據做匯總級驗證。
圖7為某一志愿者結果數據與真實位置數據對比,紅色點表示職住模型最終計算得到的用戶居住地位置,藍色點是用戶家的真實位置,兩者相距約300 m。通過對多名志愿者數據的對比說明模型結果合理,并沒有出現較大誤差。
圖8紅色的柱狀圖為通過職住模型得到的各組團居住人口占手機信令總人口的分布比例,藍色的柱狀圖為人口普查得到的各組團人口占普查總人口的分布比例。兩者具有相似的分布規律,只在部分城市新區所在的區域存在明顯差距,該結果也很好地說明了模型的準確性。

表2 職住模型數據管控設計Tab.2 Data design of job-housing model
將通過職住模型得到的各組團通勤OD結果與居民出行調查OD結果對比(見圖9),在420對跨組團OD中,369對(占88%)絕對誤差不超過4%,兩者吻合度較好。
大數據監測的指標含義并不完全等同于傳統的指標含義,需要一套適用于大數據分析的指標體系。以基于手機信令的居住人口、就業人口識別為例:
1)居住人口識別模型。
當前通過手機信令識別居住人口主要是通過連續多日的信令數據,發現用戶在夜間時段具有規律性出現的用戶,并識別出這些用戶夜間的停留位置。基于此邏輯得到的居住人口分布無法保證用戶是否離開原戶口登記地所在的鄉鎮街道半年以上,也不包含外出不滿半年或在境外工作學習的人,并不等同于常住人口的概念,該指標更接近于短期內的常住人口分布。
2)就業人口識別模型。
基于手機信令的就業人口識別,需要先通過類似居住人口獲取的方法得到白天人口分布。由于白天人口分布包含大量非通勤用戶,這部分用戶往往與短距離通勤用戶混合在一起,很難通過數據分析直接獲取。目前主要通過經驗參數和調查獲取參數輔助計算:1)篩選出行距離大于一定距離閾值α的用戶得到通勤出行用戶,進而得到就業人口及人口分布;2)根據居民出行調查等途徑得到就業人口比例β,通過這一閾值得到通勤出行用戶,進而得到就業人口數量及其分布。
所以,基于大數據分析得到的監測指標,需要了解指標真實的含義才能理解數據表達的規律特點。同時需構建統一的指標計算方法和參數選擇方法,才能讓不同區域、不同機構產生的大數據指標具有更高的準確性和可比性。

圖7 某志愿者職住模型結果驗證Fig.7 Validation of job-housing model by a volunteer

圖8 各組團職住模型結果與人口普查結果對比Fig.8 Job-housing model results and census results by different groups

圖9 各組團職住模型通勤OD結果與居民出行調查結果對比Fig.9 Commuting OD results of job-housing model and results of resident travel survey by different groups
以基于手機信令數據的職住分布監測為例,城市規劃需要掌握城市形態演變規律、內外部聯系規律、職住分布特征、居民出行流動特征等,以便科學合理地制定發展策略、布局基礎設施、提供支撐服務。傳統獲取數據的手段主要包括人口普查(每10年一次)、經濟普查(每5年一次)、人口抽樣調查、居民出行抽樣調查等。傳統抽樣調查耗費大量人力與物力、抽樣率低、精度不高、數據更新周期長且只能獲取特定時間片段的數據,越來越難以適應新時期的規劃管理需求。手機的廣泛普及與海量手機信令數據分析技術為城市規劃提供了一種高效便捷的數據獲取手段。
職住分布監測指標用來描述不同大小區域的職住分布特征及平衡情況(見圖10)。其中,需要從區域居住人口中剝離出就業人口和非就業人口,從區域內部就業人口和外來就業人口獲得區域就業崗位,進而派生出如職住比、獨立指數、外出就業比例、外來就業比例、對外通勤交換強度等職住評價指標。

圖10 職住分布監測指標體系Fig.10 Monitoring indicator system of job-housing distribution

圖11 RFID系統的工作原理Fig.11 Operating principle of RFID system
無線射頻識別(RadioFrequency Identification,RFID)是一種非接觸式識別技術,通過射頻信號自動識別目標對象并獲取相關數據,識別工作無須人工干預。RFID系統主要組成部件包括RFID電子車牌、天線、讀寫器、數據中心計算機。當安裝RFID電子車牌的車輛通過采集點時,采集點的固定天線會檢測到相關信息,并傳輸給讀寫器。由讀寫器讀取電子車牌信息,最后傳輸給數據中心。數據中心結合“卡號—車輛”對應關系生成車輛通過相關信息,包括車輛ID、通過時間和位置信息等。從數據采集到車輛對應信息的輸出總時耗不超過10 s(見圖11)。
由于具有非接觸、多目標及移動目標識別等優勢,RFID技術已經逐漸成為交通智能化管理和物流供應鏈管理領域的重要信息技術手段,廣泛應用于車輛自動識別、公交優先、集裝箱管理、不停車收費等多個方面[5-8]。近年來基于RFID數據或其他類似車輛識別數據,開展車輛OD估計的研究越來越多。文獻[9-10]提出基于車牌識別數據的OD矩陣估計模型,該模型利用車牌識別技術獲得車輛的運動軌跡,分析車輛的出行特征,得到實時的OD出行信息,并在高速公路上進行實驗,取得了滿意的效果。文獻[11]提出基于視頻牌照檢測的OD矩陣獲取方法,并通過VISSIM交通仿真軟件的COM接口構建了視頻牌照檢測獲取OD矩陣的仿真實驗平臺,最后對其獲取的OD矩陣數據進行精度分析。文獻[12-13]提出利用車牌檢測信息進行動態OD矩陣估計的新方法。該方法以粒子濾波算法思想為基礎,通過車牌檢測技術獲取路徑信息、動態行程時間數據等,獲得基于車牌檢測技術的初始OD矩陣;最后運用路段流量信息校正初始OD矩陣,得到最終的OD矩陣估計值。
為提高檢測精度,RFID檢測器會對同一輛車進行連續多次采集,因此會產生同一輛車的重復檢測記錄。如表3所示,該車輛相隔1 s通過同一RFID檢測點。在充分分析數據重檢特征的基礎上,建立了數據清洗算法。該流程包括:1)計算同一輛車相鄰兩次RFID檢測記錄數據的時間間隔;2)如果滿足時間差小于1 min,且相鄰RFID檢測記錄的檢測設備相同則為重檢數據,刪除后面一條(見圖12)。
盡管RFID檢測器有連續檢測的設置,但仍然存在漏檢的情況。為了解重慶市主城區現階段RFID檢測點的漏檢率,針對2016年11月52個檢測點早晚高峰時段流量進行調查發現:其中34個檢測點漏檢率在10%以內,18個檢測點漏檢率為10%~30%。為進一步了解數據特征,通過對比不同漏檢率的RFID檢測點,發現現階段的漏檢原因包括:1)車輛RFID標簽卡損壞,導致車輛通過時無法檢測;2)天線安裝角度不規范,無法檢測特定位置的車輛;3)網絡故障、電源故障,檢測到的數據無法傳輸回數據中心;4)渝籍以外車輛不能檢測(主城早晚高峰時段外省車比例約6.2%)。因此,在應用RFID數據時,應將檢測結果與調查結果相互驗證分析,獲取更為準確的結果。
RFID通行記錄數據是一種典型的時空數據。當帶有RFID電子車牌的車輛通過RFID采集點時,系統會產生一條與該車輛相關的通行記錄數據,可以實時獲取車輛的行駛特征和運行狀態。目前,重慶市的RFID通行記錄數據包括七個屬性:RFID檢測點名稱、RFID檢測點方向、車輛ID、車輛通過時刻、車型代碼、號牌種類和使用性質(見表4)。利用這些屬性字段可以確定車輛的類型和使用性質,類型代碼涵蓋不同型號的客貨車,包括大客車、中客車、小客車、大貨車、中貨車、小貨車等;使用性質主要分為營運、非營運、公共交通和貨運四大類。
為了將RFID通行記錄數據更好地應用于城市規劃和城市交通規劃所需的數據指標,利用現階段的數據特征,構建基于流式處理的模型體系(見圖13)。模型體系包括:1)車輛軌跡修復模型,實現車輛在不同RFID檢測點之間的軌跡修復;2)車輛OD切分模型,根據點位之間的時間間隔和距離,實現對連續的車輛軌跡的切分,獲取車輛多次出行OD及軌跡;3)車輛行為畫像模型,利用車輛OD計算出的出行時間、出行距離、出行次數和出行軌跡,對車輛進行分類識別,全面掌握每輛車的出行行為。
在通過模型構建實現對數據處理的基礎上,根據RFID數據不同層次結果的用途進行分層管控。可以在保證數據應用的基礎上,最大限度地節約存儲資源和提高計算效率。基于RFID數據的分層管控包括五個階段(見圖13):1)原始數據,包括RFID點位信息和RFID原始記錄數據;2)中間數據,即基于OD切分模型獲取的出行停留點,該數據不是最終結果,但可以用于多類結果的生成,因此應保留為中間數據;3)結果數據,利用原始數據和中間數據計算多種結果,包括車輛OD切分數據結果、車輛運行指標結果和路段流量流向結果。

表3 RFID重復通行記錄數據Tab.3 RFID repeated record

圖12 RFID清洗數據流程Fig.12 Procedure of RFID data cleansing

表4 RFID數據屬性Tab.4 RFID data attribute
不同模型在不同環境下會有各自適合的參數閾值取值,傳統RFID數據的OD切分一般采用時間間隔或者速度值,但其分析結果存在較大誤差。RFID數據模型引入時空評價指標(Time and Distance Match Index,TDMI)。利用居民出行調查數據進行比對,得到TDMI的參數取值(見表5)。當TDMI=2.5時,模型結果與居民出行調查數據最為接近。

圖13 RFID模型體系Fig.13 RFID model system

圖14 基于RFID數據的分層管控體系Fig.14 Hierarchical control system based on RFID data

表5 參數閾值Tab.5 Parameter threshold

表6 組團的RFID點位分布Tab.6 Distribution of RFID points in different groups
模型驗證是大數據分析方法最為重要且容易被忽略的部分,缺乏驗證的模型無法應用于實際數據分析。為了有針對性地對重慶市主城區分片規劃,將主城區建設用地范圍劃分成21個組團。以21個組團為對象統計跨組團OD矩陣。根據RFID點位的分布特征,針對RFID覆蓋較廣的6個組團進行機動車OD統計,包括大楊石、南坪、觀音橋、沙坪壩、人和、渝中組團(見表6)。
居民出行調查的數據是機動車出行人次,而基于RFID的機動車OD是車輛數,根據2014年重慶市主城區居民出行調查得到小汽車單次載客人數為1.3人。30對跨組團OD中24對絕對誤差不超過4%,兩者吻合度較好(見圖15)。
基于重慶市主城區的RFID數據和車載診斷系統(On-Board Diagnostic,OBD)數據,構建重慶市主城區機動車使用特征監測指標體系。結合RFID數據的結構特征,從五個機動車使用特征進行分析:
1)車輛分布特征指通勤和非通勤出行車輛使用者的分布特征;
2)通勤出行特征指具有通勤特征的車輛出行指標;
3)區域車輛活動特征指在一定區域內車輛的活躍程度、時空分布和出行強度;
4)車輛行為特征指車輛在運行過程中產生的其他方面特征;

圖15 跨組團OD出行量誤差分布Fig.15 Distribution of OD errors between different groups
5)非通勤出行特征指除通勤出行外的其他類型出行,如購物、公務出行等。非通勤出行特征包括非通勤OD、非通勤出行時間和非通勤出行距離。
隨著大數據分析應用的不斷擴大和深入,應更加重視大數據分析方法的科學性、分析標準的一致性和分析結論的可比性。基于CRISP-DM的交通大數據分析方法中,數據理解、數據建模和模型驗證是特別重要的三個階段,應盡快實現交通大數據分析的標準化、指標化和透明化。標準化即建立普遍適用的城市交通領域大數據分析方法,實現從簡單的數據分析到工程化應用的過渡;指標化即建立適用于城市交通戰略、交通政策、交通規劃方案、交通管理措施等制定的指標體系;透明化即建立大數據交流平臺,加強不同機構之間在大數據的算法、指標、模型等方面的技術交流,使交通大數據分析盡快步入健康、快速、可持續的發展軌道。
[1]Inmon W H.數據倉庫[M].北京:機械工業出版社,2000.Inmon W H.Building the Data Warehouse[M].Beijing:China Machien Press,2000.
[2]王西點.基于手機位置的實時交通信息采集技術[J].中國交通信息產業,2009(1):128-130.
[3]李金明.GSM移動通信系統綜述[J].蘭州石化職業技術學院學報,2001,1(1):21-24.Li Jinming.The Composite Explanation of GSM Mobile Communication System[J].Journal of Lanzhou Petrochemical Vocational College of Technology,2001,1(1):21-24.
[4]楊濤.基于基站切換的交通信息采集技術應用研究[J].現代電子技術,2012,35(15):145-147.Yang Tao.Application of Traffic Information Collection Technology Based on Base Station Handover[J].Modern Electronics Technique,2012,35(15):145-147.
[5]楊濤.RFID在智能交通領域的應用[J].物流科技,2006,29(3):24-26.Yang Tao.The Application of RFID Technology in the Field of ITS[J].Logistics Sci-Tech,2006,29(3):24-26.
[6]曾繁景,劉瑞東,李紅波.基于RFID車輛網絡信息管理平臺的設計[J].通信技術,2009,42(8):132-134.Zeng Fanjing,Liu Ruidong,Li Hongbo.Design of Vehicles Network Information Management Platform System Based on RFID[J].CommunicationsTechnology,2009,42(8):132-134.
[7]王少飛,關可,伍慶文.射頻識別(RFID)技術在智能公交系統中的應用研究[J].公路交通科技(應用技術版),2008(3):141-143.
[8]郭穩濤,何怡剛.基于RFID的智能停車場管理系統的研究與設計[J].自動化技術與應用,2010,29(6):60-64.Guo Wentao,He Yigang.The Research and Design of Management System of Intelligent Parking Based on RFID[J].Techniques of Automation and Applications,2010,29(6):60-64.
[9]Dixon M P.Incorporation of Automatic Vehicle Identification Data into Synthetic OD Estimation Process[D].College Station:Texas A&M University,2000.
[10]Dixon M P,Rilett L R.Real-time OD Estimation Using Automatic Vehicle Identification and Traffic Count Data[J].Journal of Computer-Aided Civil and Infrastructure Engineering,2002,17(l):7-21.
[11]魏靜.基于視頻牌照檢測的動態OD矩陣獲取方法研究[D].上海:同濟大學,2008.
[12]孫劍,馮羽.自動識別環境下車輛的出行矩陣估計新方法[J].同濟大學學報(自然科學版),2011,39(12):1800-1804.Sun Jian,Feng Yu.A New Method of OD Estimation Based on Automatic Vehicle Identification Data[J].Journal of Tongji University(Natural Science),2011,39(12):1800-1804.
[13]孫劍,馮羽.基于車輛自動識別技術的動態OD矩陣估計新方法.同濟大學學報(自然科學版),2013,41(9):1366-1371.Sun Jian,Feng Yu.A Novel Dynamic OD Estimation Approach Based on Automatic Vehicle Identification Data[J].Journal of Tongji University(Natural Science),2013,41(9):1366-1371.
Transportation Big Data Analysis Methodology Based on CRISP-DM:An Example of Cellular Signaling and RFID Data in Chongqing
Zhou Tao,Zhao Bicheng,Yu Bo
(Chongqing Transport Planning Institute,Chongqing 400020,China)
As the transportation big data analysis becomes a popular research tool,the problems emerge in the data quality and ambiguous analysis method,which leads to unverifiable study conclusions and incomparable results.The lack of a scientifically mature data analysis method and a unified analysis evaluation standard are the problems.This paper proposes transportation big data analysis methodology based on CRISP-DM,which includes six steps:clarifying objectives and requirements,understanding nature of the data,data processing,developing models,model validation and application.Based on the practice of big data platform development in Chongqing,the paper elaborates the procedures of three important steps:data understanding,modeling and model validation using cellular signaling and vehicle RFID data.Based on the application experience,the paper explores how to achieve the standardization,indexation and transparency of transportation big data analysis.
transportation big data;big data analysis methodology;data understanding;data modeling;model validation;Chongqing
1672-5328(2017)05-0042-10
U491.1+2
A
10.13813/j.cn11-5141/u.2017.0507
2017-08-08
周濤(1968—),男,四川內江人,教授級高級工程師,副院長,主要研究方向:交通規劃、城市規劃。E-mail:taozhoucq@qq.com