999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

出租車軌跡數據挖掘進展

2019-11-20 01:31:34吳華意向隆剛
測繪學報 2019年11期
關鍵詞:數據挖掘方法

吳華意,黃 蕊,游 蘭,向隆剛

1. 武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430072; 2. 湖北大學計算機與信息工程學院,湖北 武漢 430062

近年來隨著物聯網感知與高性能計算技術的不斷發展,大規模城市感知數據受到了各個領域的廣泛關注。作為最重要的一個數據類型,軌跡數據隱含了豐富的城市信息,往往規模巨大且來源廣泛。軌跡數據主要包括人類活動軌跡數據、交通軌跡數據、動物活動軌跡數據和自然現象軌跡數據[1]。這些軌跡數據的時空尺度與粒度各有不同,分別適用于不同研究。其中人類活動軌跡數據與交通軌跡數據是與人類日常生活聯系最緊密的兩類軌跡數據,因此有大量研究圍繞他們展開。

人類活動軌跡數據,包括微博簽到數據、Flickr照片數據、手機基站定位數據、信用卡消費數據、手機GNSS定位數據等,按照時間順序跟蹤這些位置記錄就形成關聯人在一段時間內的移動軌跡。這類軌跡數據精度不高,通常在200 m左右[2],而且大多涉及個人隱私,并沒有得到廣泛的應用,一般在研究中作為輔助數據用于豐富語義信息。

交通軌跡數據包括兩類:一類是通過固定設備采集得到的數據,如城市道路卡口照片、視頻監控數據、地鐵刷卡數據等;另一類是通過車載GNSS設備采樣得到的交通工具移動軌跡,如公交車軌跡數據、出租車軌跡數據、船只軌跡數據等。這其中,固定設備數據只能粗粒度地描述人群或車輛在不同固定位置之間的移動,覆蓋范圍有限;公交車軌跡數據也只能記錄運營時間內公交車的固定路線軌跡。出租車不受線路和時間的約束,是最靈活、覆蓋范圍最廣的軌跡數據,且精度較高、較少涉及隱私問題,常被作為軌跡數據研究和應用的主要數據集。

出租車軌跡數據不僅反映城市道路的交通狀態,還折射出隱含的城市問題與挑戰。通過軌跡數據挖掘可以幫助乘客了解出行信息[3-6]、為司機推薦導航路線[7-8]、改善出租車的運營管理[9-12]。同時,軌跡數據與其他社會、經濟、人口數據的關聯分析,能發現城市人口流動模式[13-16]、社會活動動態[17-18]、能源消耗分布[19-20]及環境污染狀況[21-22]等,幫助提高城市管理決策水平。

近年來,圍繞出租車軌跡數據挖掘展開了大量研究,并取得了豐碩的成果。同時,隨著滴滴出行、Uber等新型出行方式的興起,以及神經網絡與深度學習方法的熱潮,出租車軌跡數據挖掘領域正面臨著重大機遇和挑戰,有必要對該領域的研究現狀進行梳理總結。為此,本文綜合分析近十年來出租車軌跡數據挖掘方向的研究成果,從研究方法與研究應用兩個維度對出租車軌跡數據挖掘研究成果進行剖析,試圖描繪出該領域的發展歷程與研究前景,以期為軌跡數據挖掘等相關領域學者提供參考。

本文首先從空間統計、時間序列、圖論與復雜網絡及機器學習4類研究方法闡述出租車軌跡數據挖掘領域的研究現狀;其次從智能交通、環境與資源保護、城市規劃及社會感知4個應用方面來歸納分析該領域的最新進展;最后討論該領域目前面臨的主要問題和有待探索的研究方向。

1 出租車軌跡數據

1.1 數據內容

原始的出租車軌跡數據集本質上都是出租車軌跡點集,由多行采樣記錄構成,每條記錄代表一個軌跡點,包括出租車編號、時間戳、經緯度坐標、速度和方向等基本行駛數據,部分數據集還會記錄載客狀態、車輛類型等信息。從數據集中抽取出以車為單位的軌跡點序列,就形成軌跡。此外,出租車軌跡在一些特殊場合,也通過二維曲線或關鍵位置序列如路段編號字符串、交通格網編號序列等來描述。

具有不同屬性特征的軌跡適用于不同研究主題,如載客軌跡與空載軌跡常被用于人群移動[14,17]、出行模式[23-24]和運營策略[25]等研究;低速行駛軌跡可以用于發現交通擁堵現象[26];異常軌跡能作為評估司機駕駛行為[27]或感知交通突發事件[28]的依據。

1.2 數據特點

(1) 覆蓋范圍廣。出租車軌跡數據在時間和空間尺度上的覆蓋范圍比其他交通軌跡數據更廣。出租車運營時間可達全天24 h,而且出租車行駛在城市交通路網中,不受線路制約。如圖1所示,武漢市一天的出租車軌跡數據可覆蓋城市中心路網的80%以上。

圖1 武漢市一天的出租車軌跡數據覆蓋范圍Fig.1 Road network coverage of one-day taxi trajectories in Wuhan

(2) 采樣密度高。出租車軌跡數據的采樣間隔一般在1 min以內,部分數據集可達到3 s以內,能完整地記錄出租車的行駛路徑,具有時空序列性和連續性。

(3) 位置精度高。出租車軌跡數據是通過車載GNSS采集獲得的出租車位置數據,其精度較高,一般為5~20 m[2]。同時由于出租車始終行駛在城市路網中,因此可以通過地圖匹配等方法進一步提高數據的位置精度[29]。

(4) 數據規模大。由于城市出租車數量多、運營時間長、采樣密度高,因此出租車軌跡數據集往往規模龐大,中心城市如武漢等一天就可產生200多萬條出租車軌跡數據記錄。而滴滴出行等商業平臺每日新增軌跡數據就超過106 TB,每日處理數據更是達到4875 TB[30]。

(5) 蘊含信息豐富。出租車軌跡數據中記錄的最直接信息是出租車在每個時間點的位置坐標,這些連續坐標點刻畫了出租車在一段時間內的移動軌跡。移動軌跡體現出租車司機的運營特征,包括尋客策略[11]、路徑選擇偏好[31]、載客范圍[10]或欺詐繞路現象[27]等。

出租車在城市交通中所占比重較大,達到總交通流的20%左右,在一些關鍵區域甚至可以達到50%[32]。國家交通運輸部發表的《2018年交通運輸行業發展統計公報》表明,2018年出租車客運量達到351.67億人。因此,出租車速度和密度等屬性一定程度上能夠反映城市交通流和人群移動的整體情況,從而用于估計或預測通行時間和交通流量、監測交通擁堵情況[4-6],并結合POI數據進行城市規劃結構、用地分類[33-35]等的進一步探測。

1.3 數據預處理

原始的出租車軌跡數據多存在異常點、噪音點、軌跡點漂移等問題,因此在對數據進行挖掘分析之前通常要對數據預處理。出租車軌跡數據預處理過程包括數據清洗、地圖匹配、數據軌跡化與軌跡劃分、質量評價4個部分。

數據清洗主要是為了剔除數據中的異常點和噪音點,其中卡爾曼濾波[36]、粒子濾波[37]等都是常用的數據清洗方法。而地圖匹配的目的是要將出租車軌跡點準確地匹配到城市路網上。現有的地圖匹配算法可分為確定性地圖匹配算法與不確定性地圖匹配算法兩大類[29],具體有投影算法[38]、概率統計算法[39]、模糊邏輯算法[40]、相關性分析算法[41]等。數據軌跡化則是將原始的出租車軌跡點數據轉化為線數據的方法。基本思想是將每輛出租車的連續GNSS采樣點按照時間順序先后連接起來,映射到地圖上即得到一條與道路地圖相匹配的有向曲線[42]。出租車軌跡數據質量評價方面可分為兩部分,一是對出租車軌跡數據定位精度進行評定;二是出租車與真實的交通流之間存在密度與速度[43]上的差異,這些差異會導致最終交通流計算或預測結果中存在誤差[44],因此還需要對出租車軌跡數據的計算精度進行評定與校正。

1.4 開放數據集

目前通過互聯網可免費獲取到許多公開出租車軌跡數據集。如微軟T-Drive項目提供的2008年北京出租車一周內的軌跡數據[45];紐約Taxi & Limousine Commission(TLC)官方網站發布的紐約市出租車軌跡數據集[46],時間區間為2009—2018年,可以月為單位下載所需的數據;CRAWDAD是達特茅斯學院的一個無線數據資源網站[47],包含了大量出租車軌跡數據集,如舊金山海灣地區500輛出租車30 d內的軌跡數據、上海4000輛出租車在2007年2月20日這一天內24 h的軌跡數據、羅馬市區320輛出租車在2014年2月1日至3月2日一個月內的行駛數據等;滴滴出行通過蓋亞數據開放計劃向研究者免費開放了部分網約車數據[48],目前已提供西安市和成都市2016年的局部軌跡。

2 研究趨勢分析

出租車軌跡數據挖掘相關研究的歷史最早可追溯至1999年,第3代蜂窩通信網絡與基于位置的服務(LBS)在這一時期開始興起,如圖2所示。移動特性的知識對規劃、設計和運行通信網絡具有重要意義,因此研究者們利用全球定位系統(GNSS)測定一段時間內出租車的位置數據,來評估物體的移動特性[49-50]。之后這些出租車軌跡數據開始被嘗試用于估計路段速度[51]、進行出租車調度[52]和監測交通排放量[53]等智能交通與環境保護方面。

在2011年第十三屆普適計算國際會議上,文獻[54]提出利用出租車軌跡數據檢測城市規劃中的缺陷。此后,利用出租車軌跡數據發現并評價城市規劃結構的研究成果開始大量涌現,如發現城市中的功能區域[55]、識別城市土地利用分類[34,56]、評估城市交通系統應對突發事件的能力[10]等。基于出租車軌跡數據進行城市動態研究的文獻在同一時期開始出現,如文獻[57]以北京1萬多輛出租車為研究對象,對人類移動行為建模分析;文獻[13]基于上海158萬條出租車軌跡數據,識別城市居民出行模式;文獻[58]從葡萄牙里斯本5個月的出租車軌跡數據中發現城市流動規律等。

圖2 1999—2019年出租車軌跡數據挖掘領域文獻數量Fig.2 Numbers of publications on taxi trajectory data mining from 1999 to 2019

總的來說,出租車軌跡數據挖掘領域在2011—2012年間發生了重大變化,出現了兩個新的研究方向:一是城市規劃,指利用出租車軌跡數據發現、識別并評估靜態的城市規劃和城市結構;二是社會感知,指基于出租車軌跡數據對城市內人群活動的動態變化、移動模式進行分析和監測。這時期出現的一系列重要成果徹底改變了之前出租車軌跡數據只能在交通領域內得到應用的情況,出租車軌跡數據挖掘領域進入新的發展階段。

智能交通、資源與環境保護兩個應用方面貫穿出租車軌跡數據挖掘領域始終,尤其智能交通方面,是出租車軌跡數據的直接應用領域,直至現在也是每年發表研究成果數量最多的方向,如圖3所示。城市規劃和社會感知雖然都是于2011年前后開始起步,但這兩個方面的聯系較為緊密,城市規劃結構可以看作是社會感知研究的基礎,因此城市規劃方面相對來說得到了更多的關注和發展,但近年來社會感知研究也開始出現上升的趨勢。

空間統計、時間序列、圖與復雜網絡等傳統的分析挖掘方法是該領域早期的主要研究方法,如圖4所示。空間統計方法適用范圍廣,能解決多種類型的問題,如熱點區域發現、通行時間估計、預測等。時間序列方法主要用于出租車軌跡數據的頻繁模式挖掘與相似性度量。圖與復雜網絡方法則是對基于出租車軌跡數據抽取出的網絡結構如道路網、市民出行網等進行網絡相關特性的挖掘分析。值得注意的是,從2014年開始,由于計算機處理能力和硬件設備的提升,機器學習中的神經網絡與深度學習方法重新吸引了各領域科學家的目光,也開始被用于出租車軌跡數據挖掘領域中預測通行時間、打車需求等問題。

圖3 2008—2019年出租車軌跡數據挖掘研究數量的應用領域分布Fig.3 Application distribution of researches on taxi trajectory data mining from 2008 to 2019

圖4 2008—2019年出租車軌跡數據挖掘研究數量的研究方法分布Fig.4 Methodologies distribution of researches on taxi trajectory data mining from 2008 to 2019

2014—2015年可看作是出租車軌跡數據挖掘領域的第2個分界點。從2014年至今,出租車軌跡數據挖掘領域都依然處于轉型過渡階段。這一時期,除了引入神經網絡與深度學習方法外,更重要的是出現了滴滴出行、Uber、共享單車等新型出行方式。《中國共享經濟發展年度報告(2019)》表明,網約出租車客運量占總出租車客運量的比重達到36.3%,這對傳統出租車行業造成了一定沖擊。許多城市的出租車公司與滴滴出行合作,傳統出租車也能通過在線接單來尋客,因此出租車行業整體的運營方式也改變了。出租車行業的巨大轉變與前沿技術的發展,對出租車軌跡數據挖掘領域,既是機遇也是挑戰。

一方面,基于滴滴平臺獲得的網約出租車軌跡數據比傳統出租車軌跡數據的采樣密度更高,達到1~3 s一個軌跡點;采集精度更高,由于滴滴依據行駛軌跡計費,GNSS數據與實際行駛路徑匹配準確率可達到100%;覆蓋范圍更廣,以北京為例,62%的滴滴網約車起點或終點位于城市邊緣公共交通覆蓋不足地區,且包含大量跨城軌跡[59]。這為出租車軌跡數據挖掘研究提供了質量更高、更具代表性的數據源。

另一方面,滴滴網約車與傳統出租車之間因其行業背景不同而存在差異。例如,主要尋客方式由過去的巡游尋客變為在線派單,滴滴網約車本身存在專車、快車、出租車和順風車等多種運營形式,這些因素影響行車經驗挖掘、載客點推薦等問題的結果。此外,神經網絡與深度學習方法的應用尚未深入。在解決不同問題時應該怎樣選擇網絡?在使用不同網絡時又應該怎樣選擇出租車軌跡數據的輸入形式?神經網絡與深度學習對軌跡數據來說是否真的適用?這些問題都還未得到完整解答。從圖2可看到,2017年后出租車軌跡數據挖掘研究的文獻數量有所回落,這一定程度上表示出租車軌跡數據挖掘領域漸漸開始進入新的瓶頸期,需要進一步探索新型前沿技術在該領域的應用,以及與多源數據的聯合分析。

近年來,部分學者發表了出租車軌跡數據挖掘綜述成果,為本文方法和應用綜述研究奠定了一定基礎。文獻[60]從社會動態、交通動態和行為動態3方面來對出租車軌跡研究進行分析總結;文獻[61]以城市計算為出發點,綜述出租車軌跡數據在城市感知和規劃方面的應用;文獻[62]總結了出租車軌跡數據在交通狀態分析、運營管理及支持和路徑規劃及預測等智能交通方面的研究。這些研究綜述的角度有所不同,各有側重。本文綜述研究的重點是出租車軌跡數據挖掘與分析的理論和方法,以及總結該領域研究主題變化趨勢和挑戰。在出租車軌跡數據領域面臨轉變的背景下,本文旨在梳理出租車軌跡數據挖掘研究的現狀,同時思考未來可能的發展趨勢,為廣大研究人員掌握現有研究狀況、定位和規劃未來研究方向提供參考。

3 出租車軌跡數據挖掘方法

多年來,各個領域的學者都不斷試圖從出租車軌跡數據中挖掘出新的知識與經驗,所涉及的理論與方法覆蓋多個學科,采用的主要方法可以歸納為4類:空間統計、時間序列方法、圖論與復雜網絡及機器學習。

3.1 空間統計

空間統計方法能直觀地幫助研究者獲得數據集的整體分布特征,從而選擇相應的統計模型對軌跡數據進行后續分析。因此,空間統計方法是應用最多最廣泛的基本數據挖掘技術,它可以作為獨立的方法對軌跡數據進行分析,也可以作為前期的數據處理方法為后續的研究提供依據。

3.1.1 探索性空間分析

探索性空間數據分析方法的特點是對數據集的總體不作假設,而是使用統計圖表、圖形和統計概括等探索性、描述性的方法對數據的特征進行分析和描述[63]。在面對出租車軌跡數據時,數據的整體特征對研究者來說往往是未知的。采用該類方法可以獲得數據集的整體統計特征,計算得到載客里程、載客時間、載客數、上下客點數、行駛速度、換乘時間間隔等統計量,幫助發現時空分布規律,進而建立統計模型解決相應問題。

例如,司機收入這一統計量通常被作為衡量司機尋客策略有效性的標準[64-67]。在此基礎上,通過跟蹤高收入司機的行車軌跡,可以為其他出租車司機推薦載客點和提供行車指導[11,25,68-69],從而提高出租車服務質量和司機收入水平。

除了對出租車行業本身的探索與評價之外,部分研究綜合考慮公交站點分布[70]、網約車服務[71-72]、天氣[9]等外界因素從而進一步發掘出租車行為規律。在統計量的基礎上進行簡單計算能粗略估計城市道路交通狀況和交通容納量[3,73-75],提取居民出行與移動的規律[23,57,76]。基于與道路網和社會經濟數據的聯合分析,可以探測城市功能區域和土地利用布局[56,77]、估計城市汽油消耗和尾氣排放總量[19,20,78]。

探索性空間分析方法能幫助簡單、直觀地把握整個數據集的特征,但結果都是比較概括性的結論,容易受到數據處理過程中的誤差影響,不能充分挖掘軌跡數據的價值。

3.1.2 空間聚類

空間聚類方法是數據挖掘領域的關鍵技術之一。根據聚類對象的不同,出租車軌跡數據的空間聚類方法可分為點聚類方法和軌跡聚類方法。

點聚類方法主要是對出租車軌跡數據中的點數據進行空間聚類,包括出租車的GNSS采樣點、停留點或者是上下客點。常用的聚類算法有k-means算法和DBSCAN算法。聚類分析的結果直觀簡明,能直接從結果中發現特定的出租車行為規律。例如,通過對出租車上下客點進行點聚類能獲得熱門上下客區域,從而向出租車司機推薦最佳載客點[79-81]。下客點聚類結果反映了市民出行偏好,可輔助城市規劃布局[16,34,82]。道路網中大量低速聚集狀態的出租車集群是道路擁擠現象的表現,因此,通過道路低速點聚類能對城市道路擁堵模式進行估計和分析[83-84]。文獻[85]還基于空間聚類提出一種城市交叉口自動識別方法,為城市交通路網局部結構的探測提供了新途徑。

點聚類得到的結果通常是要素聚集的面狀區域,但在數據量較大時,難以快速識別出不規則形狀的聚類簇。同時,如何確定具有多重屬性的點數據相似系數也是目前難點之一。如文獻[86]針對現有算法在出租車載客熱點區域提取結果的不足,提出一種顧及路網約束的改進DBSCAN算法,將道路拓撲關系與路段長度數據加入聚類算法的相似性度量中。

軌跡聚類是對出租車行駛軌跡進行聚類,得到的結果是具有相似形態且聚集的軌跡簇。例如,對下客熱點到上客熱點之間的軌跡進行聚類,得到最具有尋客潛力的最優路徑[87]。或者,跟蹤特定區域間的下客軌跡,從而識別出城市交通流向規律[88]。此外,文獻[26]基于相似軌跡聚類的思想提出擁堵同伴的概念和發現算法,篩選出可能發生擁堵的浮動車數據,進而對擁堵區域的變化趨勢進行預測。

軌跡聚類的難點是如何定義軌跡在時空維度上的相似性度量,基于整體的軌跡聚類會忽略子軌跡的細節信息,而基于分段的軌跡聚類會分割軌跡,使一條軌跡分屬于多個聚類簇。從聚類準確度出發,多數研究者認為基于分段的軌跡聚類方法粒度更細、準確度更高。

3.1.3 空間回歸分析

空間回歸分析是定量描述空間數據之間關系的常用方法。出租車軌跡數據記錄了出租車的行駛路線,在空間分布上具有明顯的空間異質性,并與社會經濟因素和城市規劃布局緊密相關;同時,也受城市居民的出行規律影響,在時間上表現出明顯的周期性。因此,空間回歸分析方法常被用來擬合并預測出租車客流量,并量化分析乘客需求與社會經濟因素、環境質量之間的關系。

例如,各種回歸模型被用來擬合出租車上客點的數量分布[89],再對熱點地區乘客的時空變化和等待時間進行預測[10,90-92]。或者,利用地理加權回歸模型來刻畫出租車的空間異質性[93],并將客流量與社會人口和建筑環境變量關聯起來。

空間回歸分析能準確地刻畫因子之間的相關性和擬合程度,但其應用范圍會受到回歸模型假設條件的限制,且模型的構建通常是一個探索性的過程,因此結果依賴于研究者對因子的選擇和表達。

3.1.4 密度分析

密度分析是用來計算整個研究區域內數據聚集情況的方法,利用離散的點(線)生成連續的曲面,從而發現要素較為集中的區域,包括普通的點(線)密度分析方法和核密度分析方法。

普通的點(線)密度分析對落入搜索區域的點或線進行求和,計算區域單位面積內的元素數量。出租車停留點密度能作為有效估計區域內打車需求與出租車充電需求[94-95]的指標、提取城市熱點區域和人們出行規律[35]的依據;同時,跟蹤出租車停留點密度變化過程可以探測城市中上下客事件的冷熱點集群變化規律[17,96]。這種方法的局限在于會導致網格邊緣出現過大落差,也就是“斷崖”現象。

核密度分析方法中,落入搜索區的點具有不同的權重,分析的結果是平滑、連續的表面,避免了普通的點(線)密度分析中“斷崖”的出現。通過核密度分析方法能提取出租車集聚的熱點區域[97]、分析出租車行為的時空分布模式[98]。與普通密度分析方法相比,核密度分析方法提取的區域邊界更平滑、更合理,但由于帶寬的設置會直接影響結果的好壞,因此根據數據集的特點選擇合適的帶寬是該方法的關鍵。

3.1.5 其他方法

除了上述方法之外,還有大量研究使用基于空間統計理論的其他方法來挖掘出租車軌跡數據,如利用OD矩陣分析[15,99]、隱馬爾可夫模型[100]、離散選擇模型[31]等對出租車上下客行為進行建模預測,通過圖像處理方法從出租車軌跡數據中提取路網結構[101]等。另外統計檢驗方法[102]、基于證據理論的方法[103]、主成分分析方法[28]等也逐漸受到人們的關注。總之,空間統計方法種類眾多,所應用的研究領域也涵蓋甚廣,但使用時多受前提假設的限制,是一類基礎而又需謹慎使用的方法。

3.2 時間序列方法

時間序列數據反映了一類事物或現象隨時間的變化狀態或程度。出租車軌跡數據可以看作是按照一定時間間隔通過定位設備采樣得到的時間序列數據,因此部分研究利用時間序列方法的思想對出租車軌跡數據進行分析。

例如,文獻[104]使用PrefixSpan的思想搜索軌跡的頻繁模式子序列,并構建一個頻繁軌跡圖模型,該模型能計算得到最佳打車推薦結果。文獻[105]對GSP算法進行改進以應對大規模軌跡數據,挖掘出租車頻繁軌跡特征[106],從而分析出租車司機的駕駛經驗與行為模式,并為其他司機提供路徑規劃。

相比軌跡數據,時間序列數據的相似性度量要簡單得多,因此有部分研究首先將軌跡數據轉換為時間序列數據,再對其進行軌跡聚類,從而探測十字路口[107]和道路網變化[108]、挖掘司機行為規律[109]等。但其缺點在于轉換過程中會損失信息,且時間序列方法是用于分析一維數據的方法,在應用于二維數據的過程中存在許多限制。

3.3 圖論與復雜網絡

出租車軌跡數據可以看作是城市道路網的映射,能夠從中提取出城市道路網的主干結構。同時,由于出租車軌跡數據記錄了居民出行路徑,將出行熱點區域作為節點,區域間的交通軌跡作為邊,可以構建乘客出行網絡圖。利用從軌跡數據中提取出的圖和網絡特性,通過圖論與復雜網絡相關方法能解決更多特定問題。

3.3.1 路徑搜索方法

路徑搜索方法是解決在圖或網絡中怎樣按照特定的規則從一個頂點到達另一個頂點問題的一類方法,實際應用時通常先構建交通道路網,再遵循長度最短或時間最短的條件在道路網中計算最佳路徑,最后將計算的結果推薦給司機,為司機提供路徑規劃和導航[110-113]。例如文獻[7]基于k-最短路徑算法提出了一種具有負載均衡分配的時空軌跡模型,該模型為出租車司機提供推薦點間的最短路線。最短路徑搜索可以提供理想情況下的路徑參考,然而在現實情況下,距離最短的路徑不一定是司機第一選擇的路徑,還受到許多環境因素的影響如道路擁堵、交通限速等,同時也依賴于道路網構建合理與否。

3.3.2 可達性衡量方法

在城市道路網絡中,可達性指的是道路網中從一個區域到達某個特定區域的容易程度,是評價城市區域和道路網規劃是否滿足市民需求的指標[114-115]。如文獻[116]構建了兩個矩陣模型來分別表示每條軌跡的起訖網格和經過的網格坐標,并采用基于位置的可達性衡量法對研究區域的城市規劃進行評價。這類方法要求研究者對城市規劃和交通規劃有比較深刻的認識,充分理解可達性的內涵與類型,同時考慮各個指標的假設條件限制。

3.3.3 社區發現方法

社區發現方法是用于發現復雜網絡中的社區結構的一種算法,社區是一個子圖,而整個網絡可以看作是由多個社區構成的。其中社區內節點與節點之間的連接很緊密,而社區與社區之間的連接比較稀疏,因此社區發現方法與聚類方法有一定的相似性。社區發現方法可以探測道路網、市民出行OD網絡的子結構,并分析評價城市結構與空間的相互作用,跟蹤其動態演化過程[33,117]。如文獻[118]基于出租車軌跡數據,把空間單元看作節點,人類運動流看作邊,建立了空間嵌入式網絡模擬城市內部空間互動。目前社區發現方法所研究的對象已不局限于靜態單一的網絡,如何在多模式、多維度網絡當中解決不同模式及維度下的信息融合、共享及動態演化是該方法的最大挑戰。

3.3.4 中心性分析方法

中心性(centrality)是量化判定網絡中節點重要性的指標,道路網的中心性評價結果可以用以估計城市交通流量并分析城市路網的結構特征[4,119]。常見的中心性指標有度中心性、介數中心性和PageRank中心性等,如文獻[120]首先評價了道路網的中心性對交通量的預測能力,然后提出了基于現有中心性測度的擴展方法。但現有的大部分中心性指標都是針對靜態網絡的,自然界中的復雜系統本質是不斷變化,面向動態復雜網絡的中心性度量還有待進一步研究。

3.4 機器學習

隨著近年來人工智能技術的發展,機器學習受到了各個領域的廣泛關注。在出租車軌跡數據挖掘中,機器學習方法自發、主動的特征學習過程滿足了軌跡數據挖掘的需求,同時,軌跡數據其規模巨大、來源廣泛的特點為機器學習方法提供了足夠的數據樣本。在出租車軌跡數據挖掘中常用的機器學習方法有神經網絡、貝葉斯模型、支持向量機及遺傳算法等。

3.4.1 神經網絡

神經網絡是利用計算機模擬人的神經系統結構,并通過它從大規模數據中學習到規律和知識的一種過程[121]。神經網絡模型的一個重要應用是預測城市中不同區域的打車需求與尋客潛力,并將其推薦給出租車司機[8,122-123]。文獻[12]以路段集群為預測單位,采用基于排名的ELM回歸模型(極限學習機)預測未標記集群的尋客潛力。神經網絡模型同樣能分析道路交通狀況,文獻[124]采用一種深度限制的玻爾茲曼機和遞歸神經網絡結構模型基于出租車軌跡數據對交通擁堵的演化過程進行建模和預測,能夠快速識別出交通擁堵區域。神經網絡學習的能力非常強大,但由于是直接從數據出發得到規律和經驗,其結果往往難以解釋,而且前期需要大量數據集進行訓練。

3.4.2 貝葉斯分類

對于分類問題來說,貝葉斯理論考慮的是在所有相關概率都己知的理想情形下,如何基于這些概率和誤判損失來選擇最優的類別標記。不同于其他的分類預測方法,貝葉斯分類不僅利用模型信息和數據信息,還會充分利用先驗信息。貝葉斯分類方法能夠基于歷史數據預測交通流量[22]、空載出租車數量[125]、乘客出行目的[126]及司機決策行為[127]。如文獻[22]在估計每個路段的交通狀況基礎之上,利用一個基于貝葉斯網絡的非監督圖形模型TVI來學習交通速度、流量和密度之間的關系,并計算得到交通流量。該方法的優勢在于分類效率穩定、容易解釋,而且所需參數少,適用于大規模數據。但貝葉斯分類中的屬性獨立性假設往往在實際中不成立,且分類之前需要知道先驗概率,存在分類決策錯誤率。

3.4.3 支持向量機

支持向量機(support vector machine,SVM)是一類二分類模型,其基本模型定義是特征空間上間隔最大的線性分類器,其學習策略就是間隔最大化。同時作為一種預測算法,通常能對有效客源、交通速度以及出租車排隊等待時間等[128-130]進行預測。如文獻[130]基于支持向量機模型建立了一個短期交通速度預測模型,并與人工神經網絡、k-最近鄰模型、基于歷史數據的模型、基于移動平均的模型等方法進行比較,其中帶有時空參數的支持向量機模型展現了良好的性能。支持向量機方法對小集群分類效果比較好而且可以避免局部極小點問題,但其局限是難以應用于大規模數據。

3.4.4 遺傳算法

遺傳算法是一種最優化方法,通過模擬遺傳學中生物進化過程來搜索最優解,常應用于解決城市交通領域的各類優化問題,如對電動出租車充電站選址進行優化[131]、對出租車應急調度方案進行優化[81,132]等。文獻[80,132]利用多種群遺傳算法進行最短路徑計算,實現出租車應急調度模型,同時為司機推薦最佳載客路線。遺傳算法采用的是啟發式搜索,易于并行化處理,但可能出現早熟現象,并且處理大規模數據時效率不高。

4 出租車軌跡數據挖掘應用

目前出租車軌跡數據挖掘領域研究的應用很廣泛,其中在智能交通、資源與環境保護、城市規劃、社會感知等方面的應用,是目前的應用熱點。

4.1 智能交通

(1) 交通狀態分析。從出租車軌跡數據中提取城市道路交通相關的信息,并利用這些信息來識別交通擁堵現象[26,75,124]與特殊社會事件[28,133]、估計并預測交通流量[4,134]和行程時間[6]等的一類研究,這類研究的意義是輔助管理者及時處理道路交通中的突發事件。

(2) 出租車運營管理和支持。將出租車軌跡數據挖掘結果用于改善出租車的運營管理、提高出租車司機平均收入是該領域應用最為廣泛的一個方面。如將出租車軌跡數據中提取得到的上下客點、載客里程、空載率等數據作為出租車行為分析[31,70]、打車需求預測[89,92,100]的依據,從而為出租車的尋客策略[8,11]和調度方針[132]提供指導。

這一應用領域相對廣泛和深入,一方面是因為出租車軌跡數據本身是通過安裝在出租車上的GNSS定位設備采樣而來,軌跡數據呈現出的時空規律實際上就是出租車行為的映射,因此與出租車行業經營與管理緊密相關;另一方面,智能交通領域的研究結果能直接改善乘客與司機信息不對等的現狀,并切實解決現實中打車難、司機收入低等問題,具有現實意義性,而且利用數據作為基礎支撐,直觀且具有說服力。

(3) 路徑規劃與異常檢測。路徑規劃主要指為出租車司機規劃特定兩個位置之間的最短路徑,在路徑規劃時多會結合從出租車軌跡數據中挖掘到的高收入司機的擇路經驗[7,112-113]。異常檢測則指對出租車行駛路徑進行異常檢測,如將待檢測路徑與從軌跡數據中提取的常規路徑進行比較,從而判斷路徑是否存在繞路、超速等異常現象[135-136]。該類研究目的是預防司機的欺騙行為及監測突發事件的發生。

4.2 資源與環境保護

車輛在行駛過程中的燃油消耗、尾氣排放等活動是自然資源與環境保護方面關注的一個重要部分。將出租車作為城市行駛車輛的一個樣本,計算出租車行駛里程、行駛速度并提取加油行為[19]可估計城市內整體油耗量[78]和尾氣排放量[20],并可作為相關政策制定的輔助依據。

4.3 城市規劃

(1) 城市規劃優化。這里的城市規劃主要指城市功能區域規劃及道路交通規劃,通過出租車軌跡數據挖掘而獲得的城市功能單元[35]、區域可達性指標[116]和道路容納量[74]等,能作為評價現有城市規劃的指標,并為城市規劃優化[95,98]提供依據和支撐。

(2) 路網更新。從出租車軌跡數據中能提取出較為清晰的交通路網結構,通過比對歷史路網數據可以識別出路網變化,實現路網更新[101,108,137]。同時,結合出租車速度與方向信息對道路交叉口進行分析能夠識別復雜的交叉口結構[85,138]、學習交叉口交通規則[107]。

4.4 社會感知

社會感知是指利用各類地理空間大數據研究人類時空間行為的一類研究。出租車軌跡數據是地理空間大數據中的一類重要數據,它所反映的人類時空間行為主要體現在城市人群出行規律與人類移動特性兩個方面。

(1) 城市人群出行規律。城市道路網中或城市各區域間交通流方向與流量的變化可以反映市民的日常出行規律變化。這類研究通過挖掘交通熱點、跟蹤熱點區域間的交通軌跡來探究人群的移動規律[17-18,117]與市民社會活動與娛樂生活的偏好規律[16],其關注的是城市尺度上人群的集體流動模式。

(2) 人類移動特性。人類移動特性研究是利用特定的統計模型,在個體層面上對人類出行的步長、時間與頻率等量進行建模分析[23-24]。與前一類應用不同的是其不局限于特定的出行目的或時間段,而是更多地關注個體的隨機漫步模式[139],通過數理統計方法對人類移動進行分析。

值得注意的是近年來在城市規劃、社會感知方面出現了許多有價值的工作,出租車軌跡數據挖掘研究已不僅應用于智能交通領域與解決打車問題,而是逐漸開始擴展應用領域外沿,尋求與其他專業領域相結合的綜合應用,如提取城市功能結構、挖掘社會動態等。現如今,城市計算相關主題已漸漸成為出租車軌跡數據挖掘領域的熱點話題,如何利用城市中產生的大規模數據來輔助決策、應對城市化進程中出現的各種挑戰是未來值得繼續深入探索的方向。

5 研究展望

出租車軌跡數據是城市交通狀態、城市結構規劃及人口流動規律的數據映射,通過挖掘出租車軌跡數據可以改善城市交通服務、優化城市規劃、提高市民生活質量。但是出租車軌跡數據挖掘研究的相關理論與技術仍然亟待深入。基于現有研究,本文提出還需進一步探索的幾個方向:

5.1 支持軌跡大數據實時清洗、管理、挖掘的高性能計算

軌跡數據的規模越來越龐大,與此并存的還有數據缺失、精度低、語義信息單一等一系列問題,如何提高數據質量并開發出更高效的軌跡數據實時挖掘方法是一直以來面臨的難題。一方面,急需結合大數據、云計算[140]等新興技術,在充分挖掘軌跡數據的前提下,提高挖掘方法的精度和效率。另一方面,軌跡數據壓縮技術能在保證軌跡數據的結構和語義完整性的前提下,盡可能地減小軌跡數據量。結合分布式計算、量子計算等高性能技術,設計高效的軌跡數據實時壓縮算法與管理查詢機制是未來的研究方向。

運用出租車軌跡數據進行司機行為分析或市民出行目的預測等研究時會涉及個人隱私問題,在不暴露用戶敏感信息的前提下進行有效的數據挖掘,既能挖掘出規律,又能隱私保護,并嚴格遵守法律法規。

5.2 基于泛在信息融合的跨領域研究

隨著傳感網、物聯網、射頻識別技術與智能嵌入技術的發展,信息社會正逐步轉變為泛在信息社會,人與物、物與物之間交流所產生的泛在信息關聯分析將帶來大量潛在新型應用。出租車軌跡數據本身語義信息有限,與其他泛在信息如共享單車數據、夜光數據[141]、POI數據、微博簽到數據、交通刷卡數據、道路卡口數據等進行聯合分析能擴展應用領域范圍,進行多領域多學科的綜合應用研究,有效解決城市問題。其難點在于泛在信息標準不一、結構多樣,需要提出成熟可行的數據度量與融合方法。

5.3 基于軌跡大數據的城市和城市群建設與管理的新型應用

讓健康的人生活在健康的環境里,讓生活在城市中的人都有安全感是城市規劃與設計的一個重要目標。出租車軌跡大數據所反映的正是城市居民的移動行為和出行偏好,能為城市規劃優化、改善城市環境提供依據和支撐。如基于出租車軌跡大數據探測交通網絡中車道設計與實際承載交通流量不相匹配的區域,從而對交通網絡進行重新規劃與建設,在一定程度上緩解城市擁堵現象,從而實現城市的健康與安全。

同時城市本身也處于不斷發展的過程中,城鄉一體化和城市群的發育發展等,也提出了一系列新的課題,為出租車軌跡數據的挖掘提供了新的空間。

5.4 結合軌跡數據與新興信息技術的創新研究

從出租車軌跡大數據中能挖掘出新的規律和知識,結合知識圖譜與知識庫等技術對這些獲取到的知識進行組織、關聯和管理能進一步發揮其應用價值。目前已有部分研究嘗試將神經網絡、深度學習等智能方法應用于出租車軌跡數據挖掘,但大多并未深入。大規模的歷史軌跡數據集為機器學習提供了足夠的訓練樣本,機器學習方法主動的特征學習過程能充分挖掘軌跡數據的價值,在未來這仍是一個前景廣闊的方向。此外,將出租車軌跡數據作為一類輔助數據源用于語義理解、自然語言識別等領域也是值得嘗試與探索的一個方向。

猜你喜歡
數據挖掘方法
探討人工智能與數據挖掘發展趨勢
學習方法
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 中文毛片无遮挡播放免费| 老司机久久99久久精品播放| 国产网站在线看| 最新加勒比隔壁人妻| 日韩123欧美字幕| 国产精品一区二区不卡的视频| 伊人色婷婷| 国产理论精品| 亚洲妓女综合网995久久| 亚洲最猛黑人xxxx黑人猛交| 在线免费a视频| 91激情视频| 精品亚洲欧美中文字幕在线看 | 天天色综合4| 亚洲精选高清无码| 国产精品亚洲一区二区三区z | 亚洲成年网站在线观看| www.狠狠| 成人韩免费网站| 久久国产亚洲偷自| 亚洲va欧美ⅴa国产va影院| 99久久无色码中文字幕| 免费激情网址| 99久久无色码中文字幕| 久久网欧美| 99久久99这里只有免费的精品| 免费看久久精品99| 欧美一区二区福利视频| 人妻精品久久无码区| 欧美a级在线| 国产成人精品高清不卡在线| 日韩av手机在线| 欧美成人一级| 亚洲性一区| 国产精品女熟高潮视频| 日本亚洲最大的色成网站www| 91精品视频网站| 国产精品毛片一区视频播| 2020国产在线视精品在| 精品视频第一页| 青青青亚洲精品国产| 欧美国产日韩另类| 国产自在线播放| 中文字幕 91| 国产69囗曝护士吞精在线视频| 国产尤物视频网址导航| 国产成人综合久久| 日韩精品免费一线在线观看| 99精品热视频这里只有精品7| 国模极品一区二区三区| 国产成人久久777777| 国产免费怡红院视频| 无码视频国产精品一区二区| 久久无码av三级| 欧美日韩国产在线播放| 精品91视频| 亚洲大尺度在线| 久久亚洲黄色视频| 一本大道视频精品人妻| 亚洲精品手机在线| 日韩中文精品亚洲第三区| 亚洲精品片911| 国产精品xxx| 精品91自产拍在线| 国产欧美日韩专区发布| 波多野结衣一区二区三视频 | 亚洲欧美另类久久久精品播放的| 999国产精品| 国产日韩欧美精品区性色| 毛片久久网站小视频| 国产精品污视频| 免费xxxxx在线观看网站| 国产在线一区视频| Aⅴ无码专区在线观看| 高清国产在线| 亚洲免费三区| 综合成人国产| 亚洲人成网站在线观看播放不卡| 日本精品影院| 91麻豆国产视频| 国产精品浪潮Av| 欧美亚洲欧美区|