蘇躍江,陳先龍,吳德馨
(1.廣州市交通運輸研究所,廣東 廣州 510627;2.廣州市交通規劃研究院,廣東 廣州 510030;3.同濟大學道路與交通工程教育部重點實驗室,上海 201804)
城市交通綜合調查通常包括居民出行調查、公共交通調查、道路交通運行調查、交通基礎設施盤點等內容,是掌握城市交通運行規律的基礎性工作。發達國家大型城市一般每隔5年開展一次綜合調查,中國北京、上海等城市從2000年開始均已形成5年一次大規模調查的工作機制,并在2014年均已完成第五次交通綜合調查工作。廣州市最近一次開展全市交通大調查是在2005年,距今已過去12年。期間,影響廣州市交通運行的外部環境及內部因素均發生較大變化,與2005年相比,城市建成區面積增長68.4%,常住人口和就業人口增長均超過40%,中小客車保有量約為2005年的3.5倍,公共汽(電)車運營里程增長71%,地鐵運營里程從35 km拓展至309 km。城市空間結構和交通格局發生重大變化,進而導致居民出行規律、交通供需特征等變化顯著,原有調查數據及結論已不能體現當前交通特性,難以有效指導交通工作。因此,亟須盡早啟動新一輪交通綜合調查工作,為交通規劃、交通運營管理以及交通政策和戰略等決策提供可靠依據。
大數據在交通領域的應用為交通信息采集、監測城市與交通系統的互動演變過程提供了重要的技術支持。文獻[1]基于手機信令數據映射至交通分析單元,經預處理、匹配分析、數據去噪等一系列海量數據運算處理,并在交通調查和交通規劃中進行應用;文獻[2]通過手機信令數據對上海市職住空間特征進行分析;文獻[3]利用手機數據與家訪調查數據對比,并通過手機數據來判斷居住地和工作地;文獻[4]基于北京市公共交通IC卡數據對城市職住關系和通勤交通進行研究;文獻[5]通過道路卡口車牌識別數據推斷快速路網匝道之間的OD;文獻[6]對大數據的信息采集、質量控制、特征提取、關聯分析、模型建立、信息融合等方面進行歸納;文獻[7]梳理城鄉規劃學科領域運用大數據開展規劃研究的適應性和局限性并建構相關理論和方法;文獻[8]從“動、靜、顯、隱”4個維度揭示大數據的內涵特征與應用方法,并構建大數據在城市規劃的應用模式;文獻[9]利用大數據的分析方法有效支撐了《上海市城市總體規劃》的編制,并對大數據時代總體規劃編制技術與方法進行探索。本文基于大數據資源優勢,充分發揮傳統抽樣調查與大數據的互補融合,并以廣州市為案例進行實證研究。
居民空間活動包含社會經濟、地理空間、交通方式、活動場所和行為模式等5 個維度的屬性特征。傳統抽樣調查(包含普查、訪談、問卷等)往往是調查某一天或某一個時段居民個體的屬性和出行信息,基于調查信息統計樣本的社會經濟信息(職業、收入等)、地理空間(居住地、就業地等)、出行信息(出行量、出行OD、交通方式等)、行為模式信息(出行意愿、出行時間價值、購車意愿等)等來分析個體空間活動的屬性特征,但很難確定連續和動態的空間活動特征。利用大數據連續的特征追蹤和海量數據使觀測個體的空間活動特征成為可能,利用手機信令數據和互聯網位置數據監測居民的職住特征、利用GPS數據挖掘出租汽車乘客的空間活動特征、通過AFC數據挖掘軌道交通乘客的時空分布特征、利用互聯網地圖的路徑規劃數據挖掘不同區域通過道路網絡及公共交通網絡形成的交通可達性等均成為可能。結合傳統抽樣調查可以全面了解個體空間活動屬性,從而為城市規劃、城市治理等提供更精細化的數據支持。
傳統抽樣調查基于問卷的定制設計,采取當面問詢的方式采集信息,其優點是交通針對性強、采集信息準確。然而,由于調查成本和人力的限制(即使采用智能設備采集也只是手段),使得其樣本量小、可重復性較弱,致使調查樣本可靠性存在問題,例如居民出行調查中由于存在沉默需求導致出行率偏低和出行時間分布不可靠、由于母體(人口總量)的不確定性導致抽樣無法做到均勻分布或隨機分布等問題(見表1)。
大數據挖掘具有連續、動態、數據量大等特點,其優點是產生的數據樣本量大,可以利用動態數據進行重復分析。但是,大數據為衍生產品并非交通定制數據,無法通過大數據獲取相關群體的行為、心理等信息,并且大數據往往是局部對象的全樣本,難以實現全對象關聯,導致對城市現象揭示的片面性。很多數據挖掘分析需要假設條件才能確定,例如大多數城市由于票制政策一般只有公共交通IC 卡上車刷卡信息,需要通過出行鏈假設推斷用戶下車和換乘車站;由于基站的密度和輻射范圍,基于手機信令數據判斷的位置為模糊地址,也無法判定出行方式、出行目的等;利用手機信令數據分析一次出行與傳統抽樣調查出行存在差別,大數據的算法更需要多種情景和敏感性測試,同時基本所有大數據都不是全樣本,需要借助母體進行擴樣。

表1 傳統抽樣調查與大數據挖掘特點對比Tab.1 Characteristics of traditional sampling survey and big data exploration
2.1.1 北京市
1986年,北京市開展第一次交通綜合調查工作,調查內容為7.2 萬戶的居民出行,調查成果為北京市交通規劃和建設管理服務并發揮重要的作用,首次利用調查數據分析了北京市居民的出行規律和時空分布,并開展公共交通線網的優化研究工作等。時隔14年之后于2000年開展第二次交通綜合調查工作(之后每5年開展一次調查,并且從2002年開始每年開展一次小樣本調查工作,見圖1),調查涉及6.4 萬戶居民出行、道路流量、公共汽(電)車等4 大項11 小項,調查成果用于診斷居民出行需求和城市交通擁堵問題,支持全市交通模型構建,為《北京交通發展綱要(2004—2020)》提供重要的數據支撐。2005年開展第三次調查工作,調查涉及居民出行、道路流量、軌道交通等6大項14小項,調查成果用于對北京市交通運行、管理和發展趨勢進行全面、系統的總結和判斷,為“十一五”綜合交通規劃、奧運交通保障措施、奧運后的交通行動計劃、相關的交通政策評估等提供重要的數據支持。2010年開展第四次調查工作,調查涉及居民出行、公共交通等11 大項16 小項,調查成果用于對北京城市交通發展新趨勢和特征進行全面系統的總結和判斷,為制定“十二五”綜合交通規劃、緩解交通擁堵政策、《北京交通發展綱要(2014—2030年)》等提供重要的數據支持。2014年開展第五次交通綜合調查工作,調查內容包含手機信令數據采集分析、居民出行調查、公共交通調查、道路流量調查、專項輔助調查、數據收集等6 大項17 小項,調查成果對支持城市總體規劃修編、軌道交通規劃和評估、京津冀都市圈一體化等提供重要的支持[10]。
2.1.2 上海市
1986年,上海市開展了第一次交通綜合調查工作,主要開展居民出行調查,調查成果用于第一輪上海市城市綜合交通規劃的編制,創建了上海市交通規劃模型,在內環高架、楊浦大橋、延安路高架、地鐵二號線等項目的論證工作中起到較大的作用。1995年和2004年分別開展第二次和第三次交通綜合調查工作(之后每5年開展一次調查)。第二次調查成果對開展新一輪上海市城市總體規劃、綜合交通規劃、軌道交通網絡規劃以及城市交通發展白皮書等研究發揮了重要的作用。第三次調查成果對開展上海市綜合交通發展戰略、“十一五”綜合交通規劃,支持長三角都市圈的交通規劃以及世博會交通規劃等起到積極作用。2009年開展了第四次交通綜合調查工作,調查成果為“十二五”綜合交通規劃、綜合交通模型二期開發、世博會交通保障方案、新一輪交通發展白皮書編制等提供重要數據支撐。2014年開展第五次交通綜合調查工作,調查內容包含交通設施普查及資料收集、人員出行調查、車輛使用調查、系統運行情況調查、信息數據挖掘等5大項24小項,調查成果對支持城市總體規劃、“十三五”綜合交通規劃等規劃和決策支持提供重要的支撐。

圖1 北京市和上海市歷年交通綜合調查概況Fig.1 Overview of transportation comprehensive surveys in Beijing and Shanghai over the years
2.1.3 廣州市
1984年,廣州市開展第一次交通調查,主要調查居民出行和車流量,利用調查數據構建城市交通模型,并在1998年和2003年開展了萬戶居民出行調查對交通模型進行修正。2005年,開展了第二次交通調查,調查成果從不同側面反映居民出行需求,為研究交通演化規律,科學制定交通發展戰略、政策、技術法規提供重要的支撐。在調查數據及結論的支撐下,“十一五”期間形成了豐富的交通規劃研究成果,包括《廣州市綜合交通發展戰略(2010—2020年)》《廣州市綜合交通體系規劃(2011—2020年)》《廣州市軌道交通線網規劃(2040年)》《2010年廣州亞運交通發展戰略規劃》等,對廣州市交通發展做出巨大的貢獻,為促進廣州市社會經濟的快速發展起到至關重要的作用。2017年9月,廣州市開展第三次交通綜合調查工作,包含人員出行調查、交通系統運行狀況調查、信息數據挖掘三大板塊。
1)調查范圍逐步擴大。
隨著城鎮化進程不斷發展,居民的時空分布特征隨著城市空間拓展而發生變化,這就要求調查范圍逐步擴大,以全面了解居民的交通特征和出行需求。北京市調查范圍從中心區到中心區+重點地區,再到全市直至京津冀區域,2014年第五次交通綜合調查的范圍擴大至京津冀城市群,覆蓋北京市市域范圍,重點范圍為六環路以內,針對重點新城和邊緣集團、重點鎮。上海市調查范圍從中心區到中心區+重點地區,再到全市,2014年第五次交通綜合調查的范圍擴大至全市。廣州市調查范圍從原八區建成區345 km2到市區(除增城和從化的10 個區)3 719 km2,再到全市范圍7 434 km2,2017年第三次交通綜合調查范圍為全市范圍(見圖2)。
2)調查內容逐漸增多。
北京、上海、廣州3 個城市分別經歷了從最初的居民出行調查、查核線車流量調查逐漸發展到各種人員調查、各種交通方式調查、系統運行調查以及社會經濟、就業崗位、土地利用的普查等。3 個城市的調查項目數量分別實現從2項到17項、從6項到24項、從2項到15項的變化[11-12]。
3)調查抽樣率呈現逐步下降趨勢。
調查抽樣率北京市從第一次4.5%縮小至第五次0.8%,上海市從第一次2.0%縮小至第五次0.9%,廣州市從第一次3%縮小至第三次1.8%(見表2)。
4)新技術、新方法特別是交通大數據的使用。

圖2 廣州市三次交通綜合調查范圍變化Fig.2 Scope of the three transportation comprehensive surveys in Guangzhou
北京市在第五次交通綜合調查中利用GPS數據對居民出行及車輛出行調查進行校核,利用視頻檢測數據校核道路流量調查,利用IC 卡數據挖掘和校核公共交通出行客流調查等。上海市在第五次交通綜合調查中利用綜合交通信息平臺數據分析干路擁堵時空分布,利用遙感技術分析交通用地,利用手機信息校核居民出行特征,利用車輛牌照識別數據挖掘車輛OD,利用IC卡數據分析公共交通客流特征,利用GPS數據挖掘車輛出行特征等。廣州市在第三次交通綜合調查中,利用智能化終端設備取代紙質問卷,采用視頻拍攝方式取代人工調查,利用車牌識別數據挖掘交通特征,利用IC 卡數據挖掘公共交通出行特征和換乘特征,利用GPS數據挖掘出租汽車及貨運車輛營運特征,利用互聯網位置數據挖掘重要樞紐客流特征、典型建筑交通吸引特征、城市交通可達性,利用手機通信大數據挖掘職住分布、城際出行及軌道交通換乘特征等。

表2 北京、上海、廣州居民出行調查抽樣率演變Tab.2 Evolution of sample rates of resident travel surveys in Beijing,Shanghai and Guangzhou

圖3 廣州市第三次交通綜合調查框架Fig.3 Framework of the third transportation comprehensive survey in Guangzhou
廣州市2017年交通綜合調查包含人員出行調查、交通系統運行狀況調查、信息數據挖掘3 大板塊15 小項:1)人員出行調查,包含居民出行、流動人口出行、樞紐問詢3項調查;2)交通系統運行調查,目的是為調查提供抽樣母體并對人員出行調查提供校核,包含人口就業、土地利用以及道路流量、軌道交通出行、公共汽(電)車出行等6 項調查;3)信息數據挖掘,包含對公路交通信息、道路卡口車牌識別數據、公共交通IC卡數據、營運車輛GPS數據、互聯網位置數據及手機通信數據等6 方面的數據挖掘。本次調查采用大數據挖掘和傳統交通調查并行模式(見圖3),目的是充分利用現有信息化資源,提高調查數據的廣度、精度及效率[13]。
1)強有力的調查組織框架。
本次調查范圍廣、規模大、專業性強、需提供協助的部門多,因此調查工作采用市交通工作領導小組統籌、多個職能部門協助、專業機構提供技術支撐的組織形式,在市交通工作領導小組框架內,組建了市-區-街(鎮)三級調查辦公室。其中,市調查辦公室設在市交通委員會,成員單位包括市交通委員會、公安局、民政局、統計局、教育局、旅游局、國土規劃委員會以及各區政府,主要負責總體統籌工作,并委托第三方機構開展調查方案設計、調查培訓等工作;區調查辦公室設在各區政府,主要負責配合指導本區各街(鎮)調查辦公室工作;街(鎮)調查辦公室設在各區街(鎮),主要負責組建調查隊伍,并配合第三方機構開展具體的調查工作等。
2)充分利用相關部門既有統計資料。
通過相關部門固有的調查機制、日益完善的統計報表制度、手段多樣的信息采集技術形成系統的統計資料,有助于降低調查的人力、物力和財力成本。本輪調查充分協調采用相關部門既有統計資料,包括:市統計局人口普查、經濟普查以及1%人口抽樣調查數據,市教育局就學統計數據,市旅游局旅游人口統計數據,市公安局機動車登記數據,廣州地鐵集團地鐵運營統計數據以及市交通委員會公共交通運營統計數據等。
3)調查方案考慮不同數據關聯。
在調查方案設計階段考慮了不同數據之間的關聯,并通過調查內容設計強化數據之間的聯系,實現各個板塊之間相互補充、校核,方便后續綜合校核擴樣工作(見圖4)。
4)采用新技術替代傳統人工調查,降低人工調查難度、提高調查效率。
人員出行信息采集采用智能化終端PDA設備取代紙質問卷,采用最新的地理信息數據庫作為數據采集基礎,系統在出行信息采集過程中實現了地址經緯度準確定位、自動邏輯糾錯、數據及時上傳、數據采集進度查看以及指標校核等功能,極大提高了調查效率、數據可靠性及后期數據的應用廣度。車流量和載客率調查采用外業視頻拍攝+內業軟件計數及人工抽檢的方式取代大規模人工外業調查,降低了人工調查實施難度,提高了安全性。軌道交通乘客出行調查在人工問詢的基礎上,高峰期采用微信二維碼開展調查。公共汽(電)車典型線路客流調查采用車載視頻監控數據對人工調查結果進行校核。
5)實施單位多專業聯合以及多數據綜合校核確保質量。
①在完善的上層組織架構下,實現調查工作多專業聯合。規劃研究單位和統計研究單位作為上一輪交通綜合調查組織實施單位,具有組織居民出行調查的經驗,且后者憑借每年的專項統計調查與基層已形成良好的溝通機制;交通研究單位承擔交通綜合調查的前期研究工作,在公共交通、道路交通等特征調查方面具備豐富經驗;第三方調查公司在居民出行的調查實施方面積累了大量的實踐經驗。四家單位各盡其能,發揮各自特長和優勢,最大限度地保證了調查工作圓滿完成。②交通大數據挖掘采用交通與信息技術跨界合作,包括交通研究單位、規劃研究單位、騰訊、聯通、交通數據中心等多專業聯合,充分利用統計數據、大數據與人工抽樣調查數據相互補充和校核,實現大數據充分挖掘,并與運營商和互聯網企業實現較好的契合。例如針對手機數據運營商和互聯網企業提供的樣本數據,咨詢單位和運營商聯合完成算法設計、測試工作,然后利用運營商和互聯網企業的服務器運算資源進行數據挖掘并輸出統計級的分析結果。既實現運營商和互聯網大數據信息不向外提供,又完成了科研機構要求的分析結果,并且利用大型企業的運算資源提高了整體計算效率。
大數據的重點并不在大,而在于其數據質量和數據價值含量。數據質量是基石,依托較好的質量挖掘有用的數據才能發揮大數據的分析和決策作用。本次分析分別基于手機信令、互聯網位置、道路卡口車牌識別、高速公路流水、GPS等數據資源,挖掘傳統抽樣調查無法獲取的特殊指標(見表3)。
多源數據相互補充與校核主要分為5 個步驟(見圖5):1)通過傳統抽樣調查得到樣本OD,結合職業、車輛擁有、年齡結構、人口規模等因素,組合擴樣得到分方式出行OD 分布;2)利用手機信令數據和互聯網位置數據進行擴樣(主要利用聯通用戶比例、不同年齡段手機用戶使用率、人口普查年齡結構以及一人多機等屬性數據),獲取全方式OD 矩陣;3)以組合擴樣的交通結構拆分總體OD 矩陣,得到各方式的基礎OD 矩陣;4)獲取各方式OD 矩陣后,利用IC 卡數據、AFC 數據、GPS 數據分別校正公共汽(電)車、地鐵、出租汽車OD 矩陣分布(還將其作為公共交通OD 分布的約束條件進行修正),并利用交通量和載客率調查結果、卡口數據、高速公路收費數據進行OD 反推,校正小汽車出行OD;5)利用GPS 調查和手機信令出行頻次校正沉默需求和出行時間分布。

圖4 廣州市第三次交通綜合調查傳統調查與大數據挖掘之間的關系Fig.4 Relationship between the traditional sampling survey and big data exploration in the third transportation comprehensive survey in Guangzhou
針對手機信令數據模糊(由于部分區域基站分散)的特點,采用基站序列嵌入活動基站序列標簽、空間核聚類、折返識別以及正向傳播與反向反饋相結合的駐點參數優化技術,提高了手機信令數據應用于出行活動分析的可行性,并利用手機用戶的實際出行數據對結果進行檢驗。結果表明,通過相關技術和算法融合,使得出行頻次的分析精度在95%以上。
4.2.1 重構出行頻次分布
傳統抽樣調查中居民出行率存在沉默需求,例如2002年和2011年香港居民出行調查的沉默需求分別為32%和36%[14]、2014年北京居民出行調查的沉默需求約35%[15]。本次調查借助兩種方法來校核沉默需求:1)利用連續6 個月的手機信令數據進行職住和駐點的分析以及敏感性測試,在此基礎上判斷出行駐點次數,重構出行頻次分布;2)借助互聯網企業(騰訊)定制開發APP,定時(每2 min 采集一個軌跡點)采集居民的出行軌跡信息(從被調查的居民中抽選超過3 000名作為信息采集對象),利用駐點判斷以及敏感性測試確定出行頻次分布。通過綜合分析可知,利用GPS 調查志愿者和利用手機信令數據分析的出行頻次分布基本一致,與傳統抽樣調查有較大差別(見圖6),對比分析得出廣州市2017年居民出行調查的沉默需求為28.5%。
4.2.2 分解和校正不同出行目的的出行時間分布
樣本居民出行調查數據存在漏報、錯報等問題,可以利用GPS調查和手機信令出行頻次分布對沉默出行進行校正,從而修正出行總量,但是具體出行特征仍然無法完全校核。因此,傳統抽樣調查存在以下問題:1)由于非通勤出行與通勤出行的時間差異性,非通勤出行漏報導致擴樣的出行時間分布不夠精確,擴大了高峰出行規模,降低了平峰出行規模;2)非通勤出行涉及多種出行目的,例如公務業務、探親訪友、生活購物、文娛等,非通勤出行的漏報直接導致出行目的擴樣存在不均衡。通過綜合分析可知,利用手機信令數據分析的出行時間分布(包含出發時間分布與到達時間分布)與傳統入戶調查樣本數據的出行時間分布有較大差異,特別是在早晚高峰期間(見圖7)。結合AFC,IC卡和GPS等統計數據的客流時間分布分析,利用手機信令數據校核出行時間分布更可靠、更合理。

圖5 大數據在廣州市交通綜合調查中的綜合校核作用Fig.5 The role of big data in comprehensive verification in Guangzhou's transportation comprehensive survey

圖6 基于不同數據源的出行頻次分布對比Fig.6 Distribution of travel frequency based on different data sources

圖7 樣本調查和基于手機信令的出行時間分布差異Fig.7 Differences in the data of travel time distribution between sampling survey and cellular signaling-based method
傳統抽樣調查與大數據技術的共同目標都是最大可能地還原并揭示城市交通特征。傳統抽樣調查往往依據樣本數據分析建立模型和修正模型,表現為因果關系,更加注重未來;而大數據分析是通過更大樣本的連續數據進行相關性分析和敏感性測試,再建立模型測試分析結果,大數據分析技術在證據鏈不足條件下可能形成模糊但全面、因而正確的判斷,表現為關聯關系,更加注重現狀。大數據分析技術的出現并非否定了傳統抽樣調查(如交通調查、意愿調查)的必要性以及傳統的理論和方法,規劃設計人員需要思考和研究如何利用各種數據的優勢彌補不足,將大數據技術融入交通系統分析體系中提煉信息特征,實現各種大數據資源與傳統抽樣調查的樣本數據的有機融合。在此之前,必須更加注重大數據質量、算法以及數據之間融合,更應該重視大數據應用方法和理論體系的構建。數據質量是基石,數據算法是核心,數據融合是創新,理論體系的構建才是根本。本文在總結北京、上海、廣州歷年交通綜合調查演變的基礎上,梳理傳統抽樣調查與大數據挖掘分析的關系和差別?;趶V州市交通綜合調查的框架和特點,重點分析大數據在廣州市第三次交通綜合調查中的作用。隨著新技術快速發展,未來服務供給模式將從原有的增加供給服務向按需服務或者需求響應服務,甚至出行即服務模式轉變,大數據將在城市治理和交通管理中發揮更重要的作用。