999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代的交通模型

2019-02-18 19:37:28CuauhtemocAndaAlexanderErathPieterJacobusFourie
城市交通 2019年3期
關鍵詞:活動模型

Cuauhtemoc Anda,Alexander Erath,Pieter Jacobus Fourie 著,宗 晶 譯

(1.蘇黎世聯邦理工大學未來城市實驗室,新加坡ETH中心,新加坡 138602,新加坡;2.中國城市規劃設計研究院,北京 100037)

0 引言

在人們通過移動電話、公共交通智能卡或者全球定位系統支持的設備獲取出行數據之前,構建交通需求模型生成大規模甚至全民樣本困難且昂貴。這些模型的目的不僅是為了復制相關精度的實際交通流,還包括應用假設場景來評估不同基礎設施開發決策的影響。

盡管有新的大數據來源,但在規劃實踐中使用的交通需求模型,幾乎完全是基于交通調查和人口普查等傳統數據。在過去幾十年里,隨著計算能力的成倍增長,所應用的統計模型變得更加復雜,最重要的變化是從基于出行的模型到基于活動的模型的進化:基本模型構架保持不變,用覆蓋一個小樣本人群的出行調查推算實際人口的出行情況。

通過新的大數據源,如手機通話記錄、智能卡數據和社交媒體記錄的地理編碼,觀察和理解前所未有的交通行為的細節。但是簡單的觀察對于規劃目標沒有特別的幫助。考慮到是在假設情景中進行預測,我們需要將大數據中包含的信息置于假設背景中理解,以使大數據信息能適合于交通需求建模框架,并預測交通需求模型。

本文回顧了近年來利用大數據分析交通行為領域的最新進展①,并介紹了可以預測假設情況的交通需求模型。為此,首先介紹最新的交通需求模型的基礎,包括最新的基于個體的方法。

本文聚焦于利用相關大數據的研究,重點研究與交通需求模型直接相關的方法和工具包,因此不包括那些從大數據源獲得實時分析的方法。本文的目的是從方法論角度全面梳理大數據如何提高對出行的理解以及如何應用于交通需求模型。基于此,確定了各種方法的優點和缺點及其在交通預測模型中的適用性。本文得出的結論不僅包括對應用大數據建模的描述,還提出了彌補研究不足的技術要求。

1 交通需求模型和出行數據

1.1 交通需求模型

交通需求模型通過預測不同交通和土地利用方案的影響情況[1]為決策制定提供支持。有兩種交通需求預測方法:1)集計模型,將交通需求定義為小區間的集計交通流;2)基于個體的模型(agent-based model),在整個模型中保留個體層面的出行需求。

1.1.1 經典的四階段法

20世紀60年代引入四階段法需求模型[2]。最初被描述為基于出行的模型,其目的是預測不同交通方式、交通線路在任意兩個OD小區之間的出行次數。第一步出行生成是每個小區產生和吸引的出行估計次數。第二步出行分布是連接起點和訖點之間的出行量,以及它們被吸引到哪里。第三步方式劃分決定了每次出行的交通方式,如汽車或公共交通。第四步是預測每次出行會選擇的路線,并模擬擁堵引起的交通延誤。由于這種延誤不僅影響交通方式和路徑的選擇,還影響區域選擇行為,通常包括步驟二、三和四的反饋與循環。四階段法的建模數據要求包括家庭出行調查信息、人口普查信息和交通網絡信息。

1.1.2 基于活動的模型

20 世紀90年代初以來,基于活動的模型被認為是優于四階段法的選擇,避免了四階段法的固有局限性。為了解基于活動的模型的重要性,文獻[3]強調四階段法在本質上是集計的,即測量單位不是個體,而是來自任何特定小區的出行。此外,四階段法在如何使用不同子模型的行為參數上缺乏穩定性和一致性。而且,當涉及交通需求管理政策,如出行定價政策的評估時,四階段法的獨立性假設經常被視為致命缺點。

基于活動的模型的基本原理是理解出行需求源于參與活動的必要性。基于活動的模型的目標是預測每個個體在受到時間和資源制約的前提下,一定時間周期內的活動次數、順序和類型。然而,基于活動的模型允許在空間上對交通需求進行分解描述,通過路徑選擇和交通仿真,這種交通需求通常會再次集計成所謂的OD 矩陣,以描述在任意兩個起訖點之間的出行次數。這種限制起初是由于模型缺乏模擬交通的相關空間范圍,即全天時段整個城市或區域,但是如今仍舊適用于基于交通仿真的計算要求。

除了與四階段法相同的數據要求外,基于活動的模型還需要一種額外的輸入數據,即在單個家庭和個人層面的“虛擬人口”以及代表地區利益的實際人口數據。這種虛擬人口包括一系列社會人口屬性,可被用于交通需求建模過程中。此外,對于虛擬人口中的每一個個體,都有一個完全描述性的日常活動計劃,包括工作或教育等日常活動的地點。

用于交通戰略規劃的基于個體的模型通常從基于活動的建模方法中獲得交通需求,基于受到交通網絡及其屬性約束的系統[4],采用微觀和完全動態的交通仿真模擬個體的個性化需求。

最初,TRANSIMS[5]發展成為第一個大規模用于基于個體的交通模型的建模工具,專注于取代集計的交通分配方法,之后基于個體模型的實現和最新的發展,如MARSim[6],SimMobility[7], SimAGENT[8]按 照 出 行 方式、時間、目的地和活動調度進行不同程度的整合,形成了一致性的建模框架。這一綜合框架使得在整個建模過程中可以非集計的形式模擬交通需求。除了增強行為一致性外,還允許對現代交通需求的管理工具進行建模和分析,如基于時間或需求定價,以及共享汽車和自動駕駛等新的交通形式。

多元個體建模(multi-agent-based modelling)建立在大規模獨立個體的基礎上,他們執行自己的決策,并與其他個體、環境相互作用。對于個體,一個初始的日常活動計劃需要用活動的位置、時間、開始和結束時間以及兩個活動間行程,包括交通方式和交通線路精確描述。

在正在發展的幾個基于個體的交通模型中,MATSim以一個特殊的作用被認為是目前應用最為廣泛的模型。MATSim可以在一個協同進化的學習循環中集成廣泛的決策維度,但是受限于模塊化框架,它也只能用于交通仿真,并與其他基于活動的出行需求模型結合使用。

1.2 用大數據描述出行

隨著移動設備和定位傳感技術的普及,精確的地理位置數據代表著巨大且不斷增長的大數據集。以交通規劃為目的,基于非集計的活動模型,本文僅局限于從個體獲取出行數據的相關研究。對個體數據軌跡感興趣是因為它可以提供關于交通方式更準確、更有趣的視角。除此之外還包括由基礎設施檢測器記錄的出行信息,這些檢測器記錄了某些交叉口的交通量(如線圈檢測器、視頻車輛檢測系統和ERP系統)。

智能卡自動收費(Smart Card Automated Fare Collection, SC-AFC)系統和移動電話網絡在城市中的設置覆蓋面廣,是本文研究的重點。兩者可歸類于大規模隨機出行檢測器,能以前所未有的規模和詳細程度提供對城市動態和人們活動的觀察。此外,兩者還擁有一個優勢,即無須額外的基礎設施收集出行信息,因為其本身就是為了收集公共交通費用并允許移動通信網絡使用。

其他的數據集可作為補充數據,如GPS數據、特征點(Points of Interest, POI)、土地利用、人口普查和交通調查數據。正如文獻[9]提到的,補充數據集有三個目的:1)驗證基于大規模出行檢測器數據的分析結果;2)明確縮放因子,將結果擴樣至總體樣本;3)增加城市空間信息以獲取更深層次的結果。

2 智能卡數據

SC-AFC系統應用于世界各地的許多公共交通系統中,并持續被公共交通運營商使用。公共交通系統引入智能卡的主要目的是利用其靈活性和安全性進行收費。任何(時空)轉換產生的信息很快就成為交通和城市規劃的豐富數據源。從公共交通客流分析到OD矩陣創建,智能卡數據(為城市動態和出行方式)提供了城市公共交通的洞察視角。下文將介紹從重建個體出行到OD 矩陣預測,如何利用智能卡數據及使用基于個體的建模方法進行交通規劃。

2.1 個體出行的重建

SC-AFC 系統的實施取決于城市及其票價政策。阿姆斯特丹、悉尼和新加坡等城市根據公共交通出行的總里程收取車費,而不管是使用公共汽車還是火車。這就要求乘客上車、下車或者換乘時刷卡。然而,倫敦、舊金山等城市則實行非階梯票價,即無論在哪里上下車,全線票價相同,因此乘客上下車只需要刷一次卡。在任何情況下,為進一步分析人們的出行活動,挖掘智能卡數據的主要挑戰在于重建個體出行。

2.1.1 預測下車站

由于SC-AFC 系統只要求驗證上車站,因此第一步是預測下車站。一般來說,可以基于兩個明確假設使用出行鏈(Trip-Chaining)算法推斷下車站[10]。第一個假設是在出行結束后,出行者將回到之前下車站;第二個假設是在一天結束時,出行者將返回當天第一次出行的上車站。

針對文獻[10]提出的初始概念,一些研究對其進行了改進。文獻[11]將這一概念擴展至軌道交通和公共汽車的換乘線路中。文獻[12]嘗試整合第二天甚至一周的出行方式,以補充魁北克市(Quebec)加蒂諾(Gatineau)公共交通系統的信息缺失。文獻[13]提出了一種利用時間約束而非距離約束的多方式公共交通的預測方法。在這些研究中,個體出行重建的成功率從66%提升至80%。

此外,文獻[14]提出了基于概率無向圖模型(undirected graphical probabilistic model)通過智能卡數據重建個體出行的方法。該文獻提出了一種集成學習方法,將費用、地理空間和時間空間(geospatial and temporal spaces)結合起來,從而推斷出一系列關鍵領域特定的約束因子。通過使用在這些約束條件下的半監督隨機算法,可推斷出確切的上下車站,即使存在未知信息的交通記錄。只有10%的出行有明確上下車站數據,超過78%的出行存在上下車站信息缺失的情況。這項工作的實用性不僅僅是重建僅有出行起點的出行過程,而且是一個通過智能卡刷卡記錄恢復個體出行歷史的系統方式。這個預處理階段可以有效地支撐后期交通需求模型的構建和分析。

3.1.2 階段、行程和OD

確定下車站后,個體出行重建的第二步是推斷這個下車站是否是最終目的地(即行程結束),或只是一個多階段行程的一個階段(即換乘)。常見的識別方法是利用時間法則。例如,文獻[13]使用30 min 的時間法則。如果一個人在某一個特定地點停留超過30 min,即可認為該地點是目的地。在倫敦的案例中,時間閾值取決于交通方式,即地鐵換乘公共汽車為20 min,公共汽車換乘地鐵為35 min,公共汽車間換乘為45 min[15]。

只有智能卡數據才能獲取時空維度上的個體活動,這就限制了識別個體活動的渠道,因為一天的行程不全都是使用公共交通。文獻[16]描述了公共交通出行一致性概念的局限性,一致性意味著同一個人通過公共交通到達活動地點,那么就必須通過公共交通結束此次行程。然而智能卡數據不能記錄公共交通以外的其他交通方式,通過分析最后一段行程的下車點和接下來一段行程的上車點能明確識別是否為統一的交通方式。這就可以確定在兩段行程之間是否還采用其他交通方式,如出租汽車、小汽車或者步行。

以新加坡的一個典型工作日為例,文獻[16]發現在智能卡數據中記錄的不只有一次行程的人群,90%的出行開始于上一次下車點1 km范圍內。這說明:1)大多數公共交通出行者在多次公共交通出行之間并不會使用其他交通方式,因此他們的出行鏈較連貫;2)有可能一個區域只存在特定種類的活動。

一旦個體出行被重新構建到已知的起訖點上,應用程序就可能把這次行程加入公共交通OD 矩陣。針對那些無法重建的行程,建立擴展因子是典型的解決方案。文獻[13]顯示了如何在沒有目的地的前提下為智能卡數據構建擴展因子,以及推測沒有起點或者刷卡記錄的數據分布規律。對于前者,假定行程的分布與其他相同起點的行程一樣,而對于后一種情況,假定行程的分布只與他們的時間分配有關。

2.1.3 初級活動鑒定

通過進一步研究公共交通穩定出行可以增強對可能的活動地點的解釋。文獻[17]提出了一種基于規則的直接分類方法,包括卡片類型信息和行程的時間屬性。工作目的對應成人卡,指活動時間超過2 h 且活動前的出行不是當天的最后一項行程。上學目的對應學生或者未成年人的卡片,指活動時間超過5 h 且該活動也不是當天最后一項活動。最后,回家目的指活動結束后的出行是當天的最后一項行程,其他的行程將被分配到其他活動目的。

文獻[18]是最新的基于規則的研究。該研究包括一項空間規則,通過預先識別用戶家庭所在車站判斷基于家的出行頻率和出行距離。基于此,研究擴展了文獻[10]的假設:1)一天中,最后一段行程的終點站通常與第一段行程的起點站一致;2)第一段行程的起點站通常與前一日最后一段行程的終點站相同;3)對于大多數乘客來說,第一段行程的開始和最后一段行程的結束都在家附近。通過這些假設,研究構建了一個運行平均算法,稱之為基于中心點的檢測算法(center-point based detection algorithm)。該算法的主要優點是操作簡單且方法穩定,從某種意義上說,它可以識別一天出行一次的用戶的家庭所在車站(例如不穩定出行)。

盡管被認為是一個簡單的操作,但是當試圖擴展約束條件時,基于規則的活動計算效率變得低下,更不用說在詳細規則中需要手動操作時的效率。此外,結果的準確性可能會受影響,特別是在識別其他如工作和次要活動等更為靈活的活動模式的情況下。通過引入概率(選擇)模型,可以改進這種嚴格分類的缺點。

文獻[16]提出了一個以活動持續時間、活動開始時間和土地利用作為效用變量的多因子Logit 模型,以匹配離散選擇空間,包括工作活動、家庭活動和其他活動等目標。分段線性函數是構建模型的實用工具。對于活動持續時間和啟動時間,利用當地交通調查信息對效用函數進行校準,而對于土地利用,校準信息依靠來自城市規劃部門的總體規劃。

文獻[19]提出了另一種概率模型方法,建立一個連續空間模型來確定家庭和工作地點。研究引入了一個得分函數,通過對一組受過訓練的使用者進行邏輯回歸和標定得出。與文獻[16]類似,家庭和工作地點標簽主要是由與事件相關的時間因素確定。然而,兩種概率模型方法之間的主要區別不在于他們是否選擇離散或連續空間,而是標定過程中遷移學習方案(transfer learning scheme)[16]使用多源數據(居民出行調查),傳統學習方案使用單一來源被標記的數據子集[19]。

最后,文獻[20]呈現了概率模型在無監督模式下接受訓練(即沒有標記的例子)的情況,以識別智能卡記錄的活動模式。文獻通過提出一個連續的隱藏馬爾科夫模型(Hidden Markov Model, HMM),發現 8 個集群被按照家庭活動和家以外活動描述為不同的模式,其內部結構的釋放概率是一個混合高斯模型。這個模型的優點在于不僅能找到新的觀測對象在集群中的成員關系,還能生成活動鏈來構建虛擬人口。雖然該模型展示了在出行數據中發現活動模式的方法,但是如果只想獲得基本活動,那么就不清楚其基于規則方法的區別(如文獻[8]的實際優勢)。

對活動預測結果進行完全驗證幾乎無法做到,因為在智能卡記錄總量中,這需要個體擁有完整的行程信息。由于這個原因,用部分驗證來確定模型的準確性。例如,一種常見的方法是將識別的熱點區域數據得到的結果,直觀對比家庭出行調查和人口普查[14]。

2.2 基于個體的交通模型與仿真

智能卡數據的非集計特點體現為基于多元個體的交通模型的適當輸入。假設每個獨特的智能卡信息代表一個個體,交通需求可以直接從智能卡數據中獲取。

文獻[21]在阿姆斯特丹和鹿特丹第一次嘗試實施基于個體的公共交通微觀仿真。僅僅基于智能卡數據,工作的主要挑戰是個體活動計劃的生成。研究聚焦于同一個通勤者連續幾天基于家的出行模式。工作和家庭所在車站被認為是工作日期間使用最多的兩個車站,周末期間家庭所在車站客流量最大。智能卡身份信息并不與這一模式完全吻合,但通過在出行中間站引入虛擬活動來重建某個特殊日的活動鏈,以描述當天的交通需求。最后,對于高度不規則的交通模式,每一次出行都會單獨生成。

生成虛擬人口的過程受到各種制約,主要是建模過程中的各種假設。未來研究的機遇在于通過更準確、更有效的實際交通需求來確定出行目的和社會人口特征。為此,可將對智能卡數據的長期觀察看作是應用現代數據挖掘技術來推斷額外信息的機會。沿著這個思路,文獻[22]探索了如何將特征行為(eigenbehaviours)的概念[23]應用于推導時空模式。

使用智能卡數據進行仿真的另一個挑戰是將公共交通工具與其他交通方式(如小汽車)之間潛在的相互作用進行建模。最近,文獻[24]的一項研究為新加坡公共交通開發了一種簡化的基于個體的交通仿真。不同于文獻[21],在連續兩個車站間,通過一個隨機公共汽車速度模型(stochastic bus speed model)取代MATSim 隊列模型來解釋與私人小汽車的相互影響。該模型根據一個多項式回歸模型擬合,假設車站到車站的運行速度遵循正態分布[25]。正如文獻[26]指出的,在交通網絡中決定小汽車速度的各項參數不僅與(從智能卡數據中獲取的)需求有關,還與網絡描述中的地理信息有關。為說明仿真框架中存在的停留時間的易變性,他們考慮了文獻[27]研究的模型。

以簡化的交通仿真方案為例,說明機器學習如何替代MATSim模型。智能卡記錄的統計數據是用來訓練模型的,而不是從多元個體仿真中獲得公共汽車出行時間。結果不僅大大提高了仿真時間,而且使仿真系統網絡的重新設計成為可能。盡管如此,仍有一些限制因素需要解決,例如軌道交通軌跡的重建,對步行、等待和換乘活動更好的表達,這些活動并不能直接從智能卡數據中獲取。

3 手機數據

無論GSM,CDMA 還是LTE,移動網絡需要手機和蜂窩網絡之間進行定期和頻繁的交互信息(例如脈沖信號)。為了給用戶提供服務,移動網絡需要頻繁的對手機進行定位,即使手機處于待機狀態。通過附近的基站計算用戶的位置,這一結果的精度相當于在市區幾百米范圍內的基站覆蓋的大小。通過網絡觸發和事件觸發更新手機定位信息。

網絡觸發定位更新發生在:

1)手機連接到蜂窩網絡;

2)在兩個不同區域之間進行呼叫和移動(例如切換);

3)待機并移動到屬于新位置區域(Location Area,LA)的網格;

4)當相關計時器已經結束,則網絡進行調查(例如定期位置更新,通常每2 h更新一次)。

時間觸發定位更新發生在下列情況:

1)撥打或接聽電話時;

2)使用短信服務(發送和接收);

3)用戶連接到互聯網(如瀏覽網頁或發送電子郵件)。

由此,從移動網絡中獲取的位置更新數據構成了日常活動和交通模型的潛在信息來源。與家庭調查相比,手機數據提供了大樣本量和長時間的觀察周期,而成本可以忽略不計。然而,人們必須克服處理移動電話軌跡以應對出行重建的挑戰,因為這類數據流中包含的信息的空間分辨率和時間分辨率都很低。具體而言,位置估計值的精度取決于給定區域內的基站的分布,而位置更新的頻率則取決于用戶的使用情況。因此,普遍的挑戰是如何從稀疏和雜亂的監測數據中提取人們出行的豐富語義(例如出行目的)[28]。

3.1 手機數據挖掘通道

文獻中出現的第一個方法是根據話單數據(Call Detail Records, CDRs)生成基于出行流的OD矩陣[29-31]。由于OD矩陣是通過捕捉來自不同交通分析小區的突發流產生的,而不是個體出行重建過程,這些方法不符合個人活動的需求。此外,文獻[32]討論如果手機數據的空間分辨率低,前面的方法會存在偏差。另外,它們并非用于處理移動電話原始記錄的偏差,如所謂的超音速跳躍(supersonic jumps)或信號跳躍(signal jumps)(即離群值)。這些事件都是短時間內突發的事件。雖然這種跳躍通常是系統固有的數據偏差,但一些跳躍可能是由外部機制觸發的,目的是保護用戶的隱私[33]。

由于上述原因,需要一條數據挖掘管道,從移動電話位置更新中提取確切的個人行程。首先,需要一個預處理階段去處理偏差測量和基站間信號跳躍。其次,個人行程提取階段,可以分割停留位置(即活動片段),由此估計行程的開始和結束時間。第三,活動或出行目的地推測階段,用于估算家庭、工作、學校等主要活動地點以及餐飲、購物等次要活動地點。

3.2 預處理技術

對于第一個目標,文獻[33]對三種不同類型的濾波器進行評估,以檢測移動電話軌跡數據的異常值:遞歸原生濾波器(Recursive Naive Filter)、遞歸超前濾波器(Recursive Look-Ahead Filter)和卡爾曼濾波器(Kalman Filter)。一方面,前兩種主要表現為低通濾波器[28,34]。它們通過引入出行速度的上限約束來消除較大的定位誤差。因此,可以通過每一對連續的點(遞歸原生濾波器)或者每一個三合點(遞歸超前濾波器)計算速度,并與特定閾值相比較。另一方面,卡爾曼濾波器是重建軌跡的概率方法。結果表明,在排除異常點的情況下,遞歸超前濾波器的效果更好,并保持了軌跡的準確性。雖然卡爾曼濾波器也消除了異常點,但軌跡失去了準確性。然而,文獻[35]通過使用高斯混合模型來擴展現實挖掘數據庫[36]的空間分辨率,考慮到話單數據的低分辨率,需要更復雜的概率濾波器來替代原生濾波器。

文獻[36]提出了另一種專為處理手機數據偏差開發的預處理技術。首先利用基于密度空間維度的聚類方法解決基站間跳躍的問題,以確定可能的停留點,包括來自基站間跳躍數據的虛構停留點。然后,通過幾乎相同的時間戳識別出波動圖。最后,通過選取個人花費更多時間的集群,過濾掉震蕩點(例如虛構的集群)。這種方法可作為移動通信數據的時間解決方案。

3.3 停留點提取

基于時間規則(temporal-based rules)的研究層面:文獻[37]研究德國西南部一個地區的位置區域更新情況。該算法提出的原則是,如果用戶在位置區域停留的時間比直接穿過該區域所需的時間更長,那么用戶在該位置區域可能會開始或結束一段行程。為此,研究提出了60 min原則,如果第一次登入信息和最后一次登出信息的時間間隔大于60 min,則認為該位置區域是一個停留點。當然,由于提取的行程信息在一個大的位置區域層面,而不是在基站區域層面,故該方法受到一些限制。

基于距離聚類(distance-based clustering)的研究層面:文獻[34]提出一種基于從電話、短信和互聯網使用中生成的話單數據來識別基站塔層面的出行的方法。在預處理階段,應用一個低通濾波器,以10 min一次的采樣率來解釋信號的跳躍;應用一個低級別的距離聚類技術,識別一個共同位置附近的小波動,并理順移動電話追蹤軌跡。為了提取停留點,對1 km 范圍內的融合點進行基于距離的聚類分析。集群的質心被定義為一個虛擬位置,在最后一步中,通過將標識的虛擬位置連接起來重建個人路徑。然而,由于一個虛擬位置可在一個臨時事件中創建,因此該方法缺乏對事件的可靠過濾。

基于頻率聚類(frequency-based clustering)的研究層面:文獻[19]提出從時間分布稀疏、空間低分辨率分布的話單數據中識別停留位置的方法,認為被訪問最多的基站是一個人生活中的重要場所。文獻沒有使用時間或空間聚類算法來獲取這些位置,而是使用手機基站訪問數據。該方法包括應用集群引導算法(cluster leader algorithm),根據聯系手機基站的總天數對其進行排序。這種方法適用于低分辨率的跟蹤和長時間的觀測。然而,只有主要活動和一些次要活動地點可以被識別。

時空聚類(spatio-temporal clustering)層面:文獻[32,38-40]利用時間和距離聚類技術過濾經過基站的數據。首先,通過測量兩個相鄰點之間的距離,并與距離閾值進行比較(例如漫游300 m),從而在空間上進行分組。其次,如果第一次和最后一次觀察之間的時間間隔大于時間閾值(例如10 min),則認為可能存在停留。然后,潛在的停留點被設置為集群中的質心。由于位置上的偏差,在不同的觀測日和不同的地理坐標下可能會有多個潛在的相同位置。考慮到這一點,最后不考慮記錄的時間順序利用聚類算法確定停留區域。

同樣,文獻[41]使用了基于密度的聚類算法(即漫游距離),其ε參數取值為100 m,時間閾值為5 min,以此過濾出通過點。與基于頻率的聚類算法相比,只要基于密度聚類算法的時間分辨率不稀疏(例如數據集包含網絡更新數據),時空聚類算法就能檢測到任何活動的位置。

行程驗證(trip validation)層面:因為有更多手機用戶在出行行為中沒有系統差異,所以有必要對算法進行驗證。例如,檢測到的地點數量與手機使用之間不存在相關性。文獻[32]根據手機使用頻率將用戶分為五組,檢查各組每天的日常出行情況,包括出行次數、不同目的地的數量。通過比較上述數據的頻率分布,得出這些數據有相似模式的結論。

活動開始時間和持續時間(activity start times and durations)層面:確定停留位置后,文獻[28]接下來將預測到達時間,方法是計算到達活動記錄的最早值(即到達時間的上限)與下限值的平均值,對上一個位置的最后記錄時間以及上一個位置與當前位置之間的出行時間求和可預測時間下限。行程時間被確定為連續的中心點之間的距離除以假設的旅行速度。在預期的出發時間內執行相同的過程,活動持續時間通過減去估算時間計算得到。

文獻[40]用另一種方法推斷出活動的到達、離開時間。文獻建議使用從全國家庭出行調查中得出的出行持續時間概率函數。為工作日和周末構建6 h 出行分布和對應的出行目的:基于家的工作出行(home-based work, HBW)、基于家的其他出行(homebased other, HBO)和非基于家的出行(nonhome-based,NHB)。然后,在觀察的時間窗口中隨機生成離開時間,得到對應的時間(工作日、周末)和出行目的(HBW、HBO 和NHB)分布。

3.4 活動推測

在傳統的調查數據中,活動目的由被調查者提供,而在手機數據中,活動類型是設定好的。此外,沒有任何數據來源(交通調查或者手機數據)能準確地確定出行目的地的確切位置,但是這些精確的位置在一片區域內。一般來說,我們可以在文獻中找到分布預測的兩種不同的方法,即時間頻率模型和概率模型。

3.4.1 基于時間-頻率規則的活動推測

推斷背景信息例如位置函數或訪問目的,其直接方法之一是通過時間-頻率規則來推斷。文獻[32,39-40]改進了文獻[30-31]在使用訪問頻率和時間數據識別工作、家庭和其他地點的總體思路。一個用戶的家庭位置被定義為在工作日和周末20:00 至次日7:00之間最常觀察到的停留點。然而,工作地點被定義為在工作日7:00—20:00 停留最多的地點。由于有些人不工作,如果一些位置每周訪問不超過1 次,或者地點離家不超過500 m(為了避免通過信號偏差識別出錯誤的工作位置),工作地點就會留下空白。另一種變化[40]是工作地點被確定為用戶從家庭移動的最大距離的停留點,以此來識別夜班工作。

3.4.2 基于概率模型的活動推理

用于推斷活動(出行)目的的時間-頻率規則是一種直接的方法,但是對某些群體可能不適用。此外,它們僅限于在主要活動位置的某些模式。通過概率模型推理是更可靠的方法。概率方法用于處理觀察中的不確定性,并捕獲模型解釋變量之間的相互依賴關系。這使其他相關數據集在模型中集成,例如語義豐富的地理信息數據,以提高結果的準確性,并允許對更廣泛的活動類別進行分類。

推導概率模型的一個有力工具是概率圖模型(Probabilistic Graphical Models, PGM)。PGM 是概率分布的圖形表示,其中一個節點代表一個隨機變量,而連接階段的邊緣顯示它們之間的因果關系。通常以圖中編碼獨立和條件獨立假設描述因子形式的隨機變量之間的聯合概率。兩個典型的概率圖模型是貝葉斯網絡(Bayesian Networks,即有向的非循環圖)和馬爾科夫隨機場(Markov Random Field,即無向圖)。前者將聯合概率分解為條件概率分布,后者根據吉布斯分布(Gibbs distribution)和圖中點集(the cliques in the graph)分解。在定義模型表達之后,下一步是找到模型參數。可以通過以下算法得到:最大似然估計(Maximum Likelihood Estimation, MLE)、最大后驗概率(Maximum a Posteriori, MAP)或者貝葉斯推斷(Bayesian Learning)。例如,期望最大化(Expectation-Maximization,EM)算法是一種迭代方法,當模型依賴于潛在變量(即未被觀察變量)時,可以找到MLE 或MAP。最后,在推理步驟中,我們試圖查詢完整的聯合概率,例如根據觀察所得的活動概率對新觀測信息進行分類。推理算法可以分為精確推理算法(如置信傳播、MAP 推理)和近似推理算法(如變分法)。

1)生成模型(generative models)。文獻[42]通過建立貝葉斯網絡將出行分為五種不同活動類別:家庭、工作、休閑、購物和其他。模型中的解釋變量包括:開始時間、持續時間、每個停留位置以及當前和上一次活動之間的轉換概率。通過家庭出行調查對模型進行標定,并進行逐步分類。首先區分家庭、工作和其他出行;其次進一步將其他活動分為休閑、購物或其他。該方法分類成功率達到79.4%。

文獻[41]采用輸入-輸出隱藏馬爾科夫模型(Input-Output Hidden Markov Model,IOHMM),解釋了話單數據的活動模式。IOHMM 不僅允許潛在變量(即不同的輸出變量)中包含多個觀察值,而且還允許潛在變量的識別不僅基于之前的活動還要基于一些環境信息變化(即不同的輸入變量)。為達到這一目標,首先用3.4.1 節中定義的一組相似的時間頻率規則確定主要活動地點(家和工作),然后用IO-HMM 推斷次要活動。模型輸入的信息代表向一個新活動轉移的起始點信息;因此,這些數據被定義為一天中的某一時間、一周中的某一天以及工作時間的累積變量。與此相反,模型的輸出信息包括向新活動轉移時未能獲取的信息:與家的距離、與工作地點的距離、活動持續時間和該地點以往是否被訪問過。與文獻[42]相反,模型在無監督的情況下采用EM算法(例如不用標簽的案例)進行調試。確定8個不同的活動集群:家庭、遠距離出行、中等距離出行、娛樂、買咖啡或等車(coffee/transport)、個人事務、就餐或購物以及工作。

這兩種方法[41-42]可以進一步被歸類為生成模型,因為它們用隨機變量建立聯合概率模型。生成模型的一個重要好處是,它們不僅可以用來對新的觀察進行分類,還可以生成樣本和創建虛擬人口,從而進一步作為基于活動的模型的需求輸入信息。

2)判別模型(discriminative models)。判別模型是無方向圖,而不是模擬聯合概率,直接將p()

Y/X的條件概率建模。當我們只關注觀察到的特征的目標變量(例如活動),則有適用的模型。由于判別模型并不對特征之間的關系進行模擬,這些模型允許包含更多重疊特征來完善分類任務。文獻[28]提出馬爾科夫邏輯網絡(Relational Markov Network),揭示手機數據中的活動時空結構。MRN 是馬爾科夫隨機場的擴展,它是為關系數據庫中的集體分類而設計的。值得注意的是,文獻[28]根據土地利用類型、活動持續時間、開始時間的分布概率進行模擬,求得這些活動之前是否被訪問,活動是否有一個特定位置,以及在檢測位置只顯現出一個活動情況下的離散變量。該模型采用無監督的方法進行測試,采用EM 和拒絕抽樣(Rejection Sampling)方法進行推理,計算土地利用和活動類型的后驗分布。

文獻[28]的結論是,由此產生的集群反映了與傳統調查數據吻合的出行鏈和活動調度模式。此外,對比研究城市(波士頓和維也納)顯示集群具有相似性。盡管如此,還是有一些改進建議。首先,研究傳統調查中發現的活動集群與傳統活動類型之間的關系。其次,引入POI 數據庫進一步驗證結果。第三,將模型(例如基于個體的模型)預測的交通量與實際交通量進行對比作為驗證步驟。

3.5 方式推演

從無處不在的計算設備推演交通方式是不同研究面臨的共同挑戰。然而,多數建議的方法都是基于手機的傳感器,如GPS、加速度計和陀螺儀,因為這些傳感器可以進行細微取樣。不過,更廣泛的分類只能基于話單數據(細節調用記錄)。這些方法通過預測移動電話的速度并將其與交通方式相關聯來推斷出行方式。例如,文獻[43]使用出行起訖點信息和旅行時間,將出行方式分成三組:小汽車、公共交通和步行。首先,研究過濾了數據集,只保留超過3 km 的出行和更新位置頻率超過1 次·h-1的用戶。然后,按照起訖點進行分組,再通過k 均值算法聚類來劃分出行方式。最后,用谷歌地圖的出行時間信息對結果進行驗證。

雖然學術界對話單數據的關注主要集中于活動(出行)目的估計過程,但是,隨著智能手機普及率的增長和更多細節信息可供使用(即上網使用痕跡),將出現能通過話單數據找到特定出行方式或可以融合智能卡刷卡數據等其他數據集的更可靠的算法。這種算法將有助于理解影響方式選擇的行為參數。

3.6 虛擬人口和基于個體的仿真

使用手機數據滿足基于活動的模型的數據需求是交通規劃中的一大希望。然而,目前存在的挑戰之一是發現充分利用移動數據的真正益處,以更好的數據挖掘方法獲取手機數據和利用機器學習算法開發大數據驅動的基于個體的仿真。文獻[44-45]展示了一項初步研究,該研究僅基于手機數據仿真MATSim模型得到虛擬人口。然而,這一虛擬方法存在缺陷,即研究中使用的話單數據不足以代表真實的話單數據。

最新的智慧港灣(SmartBay)項目,嘗試基于個體的模型開展交通規劃[46]。利用去除隱私的話單數據構建舊金山灣區MATSim模型。包括直接從話單數據派生出需求模型,以及在個體模型人群中賦予特定的社交結構從而模擬不同的出行目的地與方式選擇。類似于文獻[19]提出的方法,以基于活動頻率的插補法來確定主要位置。基于人口調查數據可估算調節過程中的修正系數,其中涉及綜合區點插值方法[47]和一種優化的迭代比例擬合結果。與原有灣區都市區交通需求模型比較發現,城市的發展變化十分明顯,尤其是硅谷IT部門的快速成長導致城市就業分配的巨大變化。

智慧港灣項目目前正在推進,未來計劃包括文獻[41]提到的為推演次要活動設計的生成模型,結合機器學習工具對同一次活動的目的地選擇建立擴展模型,并在方式選擇中引入社會影響。

4 討論

4.1 大數據驅動下基于個體的交通規劃建模

傳統的交通預測數據來源于家庭出行調查,該調查具有不可否認的價值。它們不僅包括個人和家庭成員出行模式的詳細數據,還包括出行方式和出行目的等相關信息。然而,它們不能完全反映基于個體的交通建模的優勢。這里存在兩個主要的限制:1)家庭出行調查僅代表了一小部分人群(通常約1%);2)家庭出行調查通常每5~10年更新一次②。

便攜式移動傳感器克服了這些弊端,并成為繼續開發基于個體的交通規劃模型的有效途徑。其弊端是這種廣泛收集的隨機信息是未經處理的原始數據,需要進行額外的分析工作才能確定出行和出行目的,以便在基于個體的仿真中進行整合。因此,關鍵的挑戰是開發魯棒性算法和設計一種數據挖掘方法,從稀疏的出行跟蹤數據中提取個人每日行程安排。

4.2 從GGPPSS到話單數據模型的可轉移性

當使用稀疏的話單數據來提取活動時,其中一個方向是采用最初為GPS數據開發的方法。例如,文獻[28]將基于話單數據的活動推理用在文獻[48]提出的馬爾科夫邏輯網絡中,最初用于GPS 追蹤;而文獻[14]和文獻[41]應用隨機場條件模型(Conditional Random Fields)[49]處理智能卡數據,應用隱藏馬爾科夫模型[50]處理話單數據。其中一個原因是,在不考慮活動識別的前提下,GPS軌跡已經成為眾多研究中的主要研究對象[51-53]。因此,一個重要的研究問題是,這些模型多大程度上適用于低分辨率的出行軌跡,例如手機話單和智能卡提供的數據。此外,除了出行軌跡在粒度級別上的差異外,基于GPS的研究通常有一個帶有活動標簽的受控樣本;因此,通常情況下模型以監督的形式接受訓練。對于話單數據,這樣的訓練樣本不易獲得。

因此,這些模型應該依賴于無監督學習和半監督學習方法。最后,另一個需要注意的重要問題是,基于GPS的活動推理模型通常在小樣本范圍內被訓練和驗證(例如文獻[49]中的4 個人)。這無疑加重了對模型表現的質疑,當擴展到城市尺度時,我們不禁會想將這些模型擴展到大規模低分辨率出行軌跡的可能性。

4.3 概率機器學習和交通建模

為GPS開發的活動推理模型由概率機器學習衍生而來,是人工智能(AI)的一個分支。人工智能和機器學習是大數據時代交通建模的高相關性學科。為了解它們的重要性以及適應交通運輸工程的方式,我們來看一個簡單的例子。想象一下自己如何理解什么是“貓”,我們會回想起一些圖片以及在幼兒園里被教會“貓”的概念。盡管一開始可能無法區分貓和老虎,但在觀察了幾個貓的實際例子以后,我們對于什么是“貓”變得更加清晰。一般來說,得到的數據越多,我們的觀念就越堅定,不確定性也越少。

在人工智能中,概率被用作計算人們對這些觀念的確定程度。在城市大數據背景下,我們對一種現象及其周圍環境擁有大量的觀察結果。例如,線圈檢測器數據、出租汽車GPS數據、公共交通智能卡數據和手機數據。所有這些信息都可以代表交通運輸網絡的現狀。基于這些觀察,通過概率機器學習來計算和提高我們對交通網絡的認識。

另一個重要的問題是人們如何使用實用的機器學習和概率模型。通常,人們試圖將感興趣的問題映射到一個標準的算法上,例如線性回歸。模型本身限制了我們考慮非相關的解釋變量(例如條件獨立)。然而,感興趣的問題可能會更好建模,包括更豐富的解釋變量和其他類型的假設。因此,我們更希望有一個框架可以構建最能代表問題的模型。概率圖模型即是通過基于模型的機器學習研發的一款面向開發人員的模型框架,目前已提供摘要版[54]。

4.4 解鎖不同數據集的知識

在大規模人類移動傳感器(如手機話單數據、智能卡刷卡數據)中,低時空分辨率可以得到較長的觀察周期或額外的數據集補償。此外,在大數據時代,人們的愿望是從多個不同但存在潛在聯系的數據集中獲取知識[55]。例如,從稀疏的話單數據中推斷出行目的,其中一個直觀的方法是通過包括POIs數據集的模型來豐富空間特征,它可以提供有關某一區域發生的活動類型的信息。該模型支持來自概率圖模型框架的跨區域數據融合[55]。

另一個重要的方面是在城市出行環境中應用機器學習的獨特挑戰。在計算機視覺、自然語言處理等機器學習的領域中,訓練集和測試集通常來自相同的集合。例如,一個識別手寫數字的模型采用具備相同特征空間的圖片進行訓練和測試。然而,在城市出行數據的例子中,用不同來源、不同類型的觀察來解釋相同的現象,我們所需要的能力就是利用所有這些信息生成模型。因此,特別有趣的方法包括轉移學習法(從相關領域中提取有趣的知識以幫助學習目標領域)、多視圖學習法(通過多個不同的特征集學習)、半監督學習法(使用標記和偽標記的數據來訓練模型)。

4.5 數據隱私和市民參與

由于智能卡和手機數據在記錄個人出行模式方面的普遍化和細節化,數據的隱私性越來越受到關注。例如,盡管話單數據去除了隱私數據,文獻[56]指出即使只有4 個時空點,通過手機天線獲取的空間分辨率足以識別95%的個體。

人們在位置混淆不能夠重新識別用戶身份時,采取了一些措施以便能提取有用的出行模式。這些保護隱私的算法目前由新興的差分隱私(Differential Privacy, DP)主導。DP是一種數學保障,通過在序列中引入受控的偏差[57]隱藏數據庫中的參與用戶。預算參數(ε)表示隱私程度和精度之間的權衡。文獻[58]擴展了DP位置數據保護的概念。雖然已經證明DP關于某些基于位置和集聚位置信息的服務是有效的[57-58],但當應用于個人出行軌跡時,DP 看起來是對隱私和精度之間的一種折中,且未能達到最先進的技術水準[59-60]。

對于特定的大尺度、多個體交通規劃仿真實例,在構建仿真過程的不同階段都可能出現保護隱私的機制。然而,最終不應期望通過追蹤任意個體來仿真還原真實個體的情況。出于這一原因,首要的原則是不能使用真實的總體數據和日程信息,因此需要在集計層面設計行為模式類似真實情況的虛擬人口。來自概率圖的生成模型(如貝葉斯網絡、隱藏馬爾科夫模型)是必不可少的基本工作,因為可以從聯合概率分布中提取出樣本,從而使創建虛擬人口成為可能。

最后,公眾參與對進一步發展智慧規劃解決方案至關重要。一方面,隨著技術越來越普及,人們需要加強對自身數據價值的認識。另一方面,研究組織應繼續改進安全和隱私保護機制,以維護數據挖掘生態系統。這種生態系統應該通過數據共享協議和參與感鼓勵公眾積極參與進來。作為回報,應開發更好的數據驅動應用程序以體現使用匿名數據的社會效益。我們希望用一種令人信服的方式解決這些問題,這對于數據驅動、基于個體的交通規劃模型的開發和實際應用至關重要。

5 結論和研究成果

5.1 總結

引言部分對交通需求建模的最新進展進行了介紹。我們認識到基于出行的模型和基于個體的模型與記錄人們移動的大數據源密切相關,因為這兩者都直接源于個體出行模式的概念,而不是集計交通流的概念。為了充分利用基于個體的模型能力,不僅使用傳統的數據輸入(例如交通調查、人口普查),還包括公共交通智能卡和手機數據隨機收集的出行軌跡,這些數據記錄了前所未有的規模和精細水平的交通行為。然而,為了識別出行活動和出行目的,必須進行額外的分析工作,以便將其整合到基于活動的交通需求框架中。

第一章對大數據源中提取出行行為所需要的方法論進行文獻綜述。從出行識別到活動推演,及文獻在交通需求模型中的應用,對公共交通智能卡和手機數據逐步進行了述評。

最后,本文討論了文獻回顧的結果,并針對概率機器學習和交通模型明確了未來的挑戰。

5.2 未來研究方向

本文將大數據與機器學習(例如概率圖模型)相結合將成為繼續發展交通模型的最大潛力,具體來說,是為了改進基于個體的交通規劃模型。為此,未來的研究方向包括:

1)改進更具代表性的虛擬人口生成模型的設計。為此,需要確定給定的特定數據集,這些數據是最優的特征工程(featureengineering)策略和隨機變量之間的最佳關聯。此外,創建虛擬人口的過程(社會經濟方面)和分配活動計劃的過程可以與更健康的生成模型設計聯系起來。

2)從學習的角度看,由于不同的數據源能夠解釋城市出行現象的某些部分,最有前景和挑戰性的方法將從遷移學習、多視圖學習和半監督學習的模式中產生。

3)對于活動推理的具體工作,本文回顧了生成模型[41]和判別模型[28]。然后將兩種模型結合起來,通過一組更豐富的特征集(判別模型)在活動推理中獲得更好的結果,并從聯合分布(生成模型)中取樣。

4)通過尋找基站的信號特定模式和智能卡刷卡等額外數據源,重新審視交通方式推理。

5)基于個體仿真行為參數的超參數優化。例如,通過貝葉斯函數優化。

6)在基于個體的仿真選擇模型中考慮社會效應。

7)進一步探索預處理階段的概率濾波器。

8)針對面向大型數據驅動的基于個體仿真的交通規劃,探討隱私指標的具體定義。

總之,我們認識到復雜的建模知識已經在交通規劃領域發展起來,因此強烈建議在交通規劃中應用數據驅動的方法時,需建立相應領域專業知識的基礎。這些新的挑戰需要交通模型專家和數據處理專家之間進行跨學科的合作。

注釋:

Notes:

①主要工作從2010年至2016年第二季度。

②一些權威機構已經開始使用智能手機進行連續調查,以降低相應負擔并提高數據質量,特別是在捕捉短時間活動方面。

致謝:

Acknowledgement:

感謝Seungjae Lee 在首爾大學組織舉辦的2016年首爾大城市論壇,本文初稿發表于該會議。

公開聲明:

Disclosure Statement:

本文作者不存在潛在的利益沖突。

基金:

Funding:

本研究成果隸屬于由蘇黎世ETH和新加坡國家研究基金會(FI370074016)聯合成立的新加坡ETH中心未來城市實驗室,得到“研究人才和科技企業”項目(Campus for Research Excellence and Technological Enterprise)的資助。

猜你喜歡
活動模型
一半模型
“六小”活動
少先隊活動(2022年5期)2022-06-06 03:45:04
“活動隨手拍”
行動不便者,也要多活動
中老年保健(2021年2期)2021-08-22 07:31:10
牛年到,節日活動可以這么“牛”
少先隊活動(2021年1期)2021-03-29 05:26:36
“拍手歌”活動
快樂語文(2020年30期)2021-01-14 01:05:38
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
三八節,省婦聯推出十大系列活動
海峽姐妹(2018年3期)2018-05-09 08:20:40
3D打印中的模型分割與打包
主站蜘蛛池模板: 伊人福利视频| 久久精品丝袜| 国产伦片中文免费观看| 污视频日本| 四虎永久在线| 思思热在线视频精品| 亚洲国产成人精品青青草原| 国产尹人香蕉综合在线电影| 黄色网址手机国内免费在线观看 | 在线欧美a| 国产精品香蕉在线| 日韩毛片在线视频| 国产剧情一区二区| 最新亚洲人成无码网站欣赏网| 91在线精品麻豆欧美在线| 国产精品亚洲片在线va| 亚洲欧美在线综合一区二区三区| 4虎影视国产在线观看精品| 高h视频在线| 少妇高潮惨叫久久久久久| 99在线观看精品视频| 人妻丝袜无码视频| 欧美区一区二区三| 91极品美女高潮叫床在线观看| 免费a级毛片视频| 香蕉久久国产超碰青草| lhav亚洲精品| 一本久道久综合久久鬼色| 2021精品国产自在现线看| 成年人免费国产视频| 免费一级无码在线网站| 国产免费久久精品99re丫丫一| 波多野结衣一二三| 黄色网在线| 久久精品这里只有精99品| 小说区 亚洲 自拍 另类| 国产99久久亚洲综合精品西瓜tv| 亚洲国产成人麻豆精品| 国产黑丝一区| 一本大道香蕉中文日本不卡高清二区| 又爽又大又光又色的午夜视频| 午夜毛片免费看| 亚洲人成在线精品| 国产女人在线视频| 伊人久久影视| 91亚洲视频下载| 97av视频在线观看| 国产精品第| 中文字幕久久波多野结衣| 亚洲第一区欧美国产综合| 在线无码私拍| 国产精品19p| 一级片一区| 色播五月婷婷| 国产免费看久久久| 国产青榴视频| 狠狠五月天中文字幕| 久久精品亚洲专区| 亚洲视频四区| 欧美专区在线观看| 国产精品七七在线播放| 国产亚洲现在一区二区中文| 亚洲综合专区| 亚洲国产成人自拍| 国产综合精品一区二区| 国产免费久久精品99re不卡| 欧美天堂久久| 91丝袜乱伦| 午夜福利无码一区二区| 欧美影院久久| 亚洲精品第五页| 高清视频一区| 在线观看亚洲精品福利片| 91无码人妻精品一区二区蜜桃| 99久久99这里只有免费的精品| 国产成人调教在线视频| 国产高清色视频免费看的网址| 久久国产乱子伦视频无卡顿| 亚洲动漫h| 欧美伦理一区| 伊人久久婷婷| 在线观看国产精品日本不卡网|