陳瓊

數萬輛出租車幾個月內的行駛軌跡數據匯集到一起,能有什么用?鄭宇博士在做的研究,就是要找到其中的玄機。
2006年7月,剛剛在西南交通大學拿到博士學位的鄭宇從成都來到北京,順利通過了微軟亞洲研究院(MSRA)的各種測試環節,成為MSRA的一名研究員,由此開始了他一直有著濃厚興趣的軌跡數據研究。
那一年,中國基于地理位置信息的商業服務和應用還處于萌芽階段,移動互聯網更是只有朦朧的輪廓,鄭宇所在的研究小組并沒什么特定的應用型研究方向,他甚至還琢磨過候鳥遷徙軌跡,并為此做一些數據挖掘和分析。但也恰恰是那個時期的計算模型和算法積累,為其日后的研究課題做了扎實的鋪墊。
后來有一天,鄭宇看到了一組數據,并深感驚訝:在2006年,北京市區道路內每天的平均擁堵時間,竟高達11小時。而很多國內核心城市的規劃者們一直相信,通過新建道路、大力興建和提倡采用公共交通系統、加強交通法規監管等等途徑,是治療城市交通擁堵頑疾的“良藥”。而除了這些猛藥,還有其他辦法嗎?這個問題引發了鄭宇的注意和思考:能否借助城市交通體系內的某些軌跡數據分析,為交通狀況的改善做些輔助性的支持和貢獻?一個極具普遍性和代表性的樣本群體和數據載體——出租車,進入了他的視野。
下一位乘客
據鄭宇提供的數據:北京市目前有約6.7萬輛的運營出租車,這個數字能在全球排到第4位,位居墨西哥城、曼谷、東京之后,而在紐約之前;北京市市民采用出租車的出行比例約為4.2%。有接近一半的北京出租車中,已被監管部門植入了GPS芯片,該芯片不是給司機用的,而主要是為出租車公司的調度和管理部門提供呼叫服務和監管所用。這些GPS芯片會定時將其位置信息傳至服務中心,由此匯聚而成大規模的出租車移動軌跡數據。
鄭宇選取了北京市3.3萬輛出租車在2009年和2010年,每年的3月~5月間所產生的所有軌跡數據,研究就基于這些海量數據展開。在這些數據背后,不僅可以客觀表征當前城市道路上的交通流量,同時也能體現出一名普通的乘客在城市中從A點到B店的移動路線。
而在這些數據面前,則是現實中的種種問題:很多北京人抱怨打車難,這種抱怨無論對乘客還是對出租車司機而言,都同樣存在——早晚高峰時,人多車少,街邊四處是招手的乘客;平常時段,車多人少,路上隨處可見空載出租車。
鄭宇課題小組的研究首先就從解決這些問題入手。圍繞這些數據,鄭宇的小組首先將乘客的打車行為抽象成一個乘客移動模式,同時,通過對海量數據進行機器學習,對出租車載客、上客、下客的整個過程也抽象為一個出租車攬客行為模式。直白地說,就是分析每個路段上出租車攬客行為,把眾多的數據集合到一起,計算出每個路段上乘客打到空車的概率。
通過分析乘客的移動模式和出租車司機攬客行為模式,鄭宇所做的這項研究可以向出租車司機推薦更有可能迅速招攬到乘客的地點,并向乘客推薦更容易找到空駛出租車的地點。此項結果借由“停車地點偵測算法”以及出租車運行軌跡數據來獲得(以概率代表),將此輸入一個概率模型后,根據出租車司機提出推薦請求的時間和地點,該系統還可以評估某個停車待客地點可能帶來的利潤。
據鄭宇介紹,這套面向乘客以及出租車司機的推薦系統,已經經過了1.2萬輛出租車在110天產生的軌跡數據驗證。其中針對乘客的“打車指南”系統,還被鄭宇掛到了MSRA的內網上,并且有不少同事已經是其忠實用戶。由于采用了機器學習的算法,這套系統給出的推薦是一種不斷學習的結果,而且出租車也被作為移動傳感器來感知路面流量,這樣的思路應用在針對出租車司機的“攬客推薦”系統中,還演化成了一個路線設計功能,在這里,大量的軌跡數據結合在一起,從中可以分析得出一條最為優化的路線推薦給出租車司機。
一座城市級別的計算
其實,圍繞出租車軌跡數據所設計的推薦系統僅僅只是鄭宇研究課題的一部分,城市計算(Urban Computing)才是其全貌。
在該領域,鄭宇通過分析市區運營出租車的GPS行駛軌跡,探測城市規劃的缺陷,并驗證當前實施的城市規劃改善成效。由于他所采集的出租車軌跡數據為兩個自然年度內的同期數據,所以研究結果的對照性更加直觀,比如城市內新建的某條道路和某條地鐵線路,對周邊交通狀況的改善等。
在研究方法上,鄭宇所領導的研究小組將北京市區分隔成了若干個有集中性特點的小型區域,他認為,城市居民的出行往往有很明確的目的性,有比較固定的線路,而所有的線路總是以這些小型區域為端點。由此,再結合出租車的軌跡數據信息,來分析找出不能很好連接的兩個區域。
而即便在出租車行駛中并沒有減速的情況,仍然會有線索表明城市規劃的潛在問題。比如,出租車司機可能會在從A點到B點的線路中,選擇繞行而非直接抵達,這段多出來的距離往往表明,司機很可能知道這是AB之間最快的一條路線。
鄭宇設計的算法能夠直觀地揭示出某兩個區域間的路網設計問題,這將能為城市交通的規劃和設計者提供較為準確的參考建議。在某些情況下,某些區域內出現的交通瓶頸現象,往往并不是這些區域本身的道路設計問題。比如人們必須通過區域2才能從區域1到達區域3,那么更好的解決之道,是直接打通區域1和區域3,而非拓寬區域2內的道路。
當然,像鄭宇他們所做的研究只是城市計算龐大課題的冰山一角,作為城市中海量數據的其中一個載體,出租車軌跡數據所映射出的現實,更多集中于交通層面。而且,這些軌跡數據的采集過程中,出租車本身也已被抽象成為了一個個散落分布在城市系統中的傳感器。