溫振威 彭定永
(江西理工大學 土木與測繪工程學院, 江西 贛州 341000)
從軌跡數據中識別居民出行模式并挖掘其他隱含信息是研究居民出行特征的重要途徑。目前,已有眾多學者利用軌跡數據進行居民出行模式識別及區域功能特征識別等相關研究,在出行模式識別方面,Liu Y[1]為模擬城市內人流特性,結合了出租車軌跡數據,并整合研究區域內的地理異質性和距離衰減效應,從而構建出蒙特卡洛模模型并挖掘出不同的居民出行行為模式。陳世莉等人[2]以廣州市出租車全球導航衛星系統(global navigation satellite system,GNSS)數據作為主要數據源,以城市興趣點(point of interest,POI)數據作為輔助數據,并結合時空計算方法使用多種模型對居民的出行數據進行聚類分析,得到城市功能的優勢聚集區域的分布。在城市功能識別方面,韓昊英等人[3]為識別出北京市的不同功能類型的城市功能區域分布,將POI數據并與城市公交數據相結合進行分析。袁晶等[4]結合POI數據和人口流動數據兩種數據類型,分析出北京市的功能區分布。通過軌跡數據識別城市居民出行模式特征及出行區域功能特征,是優化城市空間結構的重要途徑,軌跡數據挖掘也因此成為地理信息系統(geographic information system,GIS)等相關學科的新興研究熱點[5]。本文將以海口市中心城區“滴滴出行”平臺打車訂單數據作為居民出行軌跡數據源,基于張量分解模型識別出城市居民的日常出行模式,并結合POI數據,分析不同區域模式的功能特性,從而為城市規劃,城市建設提供一定的參考依據。
海口市中心城區內部有著較為復雜的城市空間結構以及較為豐富的人流活動,是海口市的核心地帶,適合于居民出行模式及出行區域功能特征的相關研究,因此,本文以海口市中心城區為研究區域,結合居民出行軌跡數據,從時間和空間兩個維度挖掘居民的出行規律并進行出行區域功能特征識別。
1.2.1 軌跡數據
本文從“蓋亞”數據開放計劃(https://gaia.didichuxing.com)申請下載了海口市2017年6月1日—6月30日的居民打車訂單數據作為本文的居民出行軌跡數據來源,并進行數據清洗、坐標匹配以及分時段提取OD點[6]等預處理工作。
主要預處理工作包括數據清洗:由于獲取的原始軌跡數據覆蓋整個海口市的打車記錄,而本文的研究區域為海口市中心城區范圍,所以需將研究區域外的數據剔除,同時出行訂單數據出現關鍵字段錯誤、缺失、重復等異常的軌跡記錄,也予以剔除;坐標匹配:由于原始軌跡數據的經緯度等位置信息采用GCJ-02坐標系,被加密處理過,為了后續實驗的準確分析,利用Python編寫坐標轉換程序將坐標全部統一為GCS_WGS_1984坐標系;分時段OD點提取:本文按日模式的不同分別對軌跡數據進行提取,得到工作日軌跡數據集和休息日軌跡數據集,再以小時為單位對軌跡數據進行提取,將軌跡數據劃分為24個時段,得到工作日和休息日的不同時段的居民出行軌跡數據集,便于后續居民出行特征的分析研究。
1.2.2 路網數據
城市活動人群的出行一般以道路為參照物,同時,人們生產生活的各項城市設施也大都分布在道路兩側。因此,結合形態學理論,基于路網的區域劃分,相較于網格劃分具有更好的實用性和合理性。路網數據從免費的全球地圖數據庫(open street map,OSM)網站獲得,并對路網數據進行路段清理、路段連接合并以及基于路網剖分研究區域等預處理工作。即是將城市內部主要道路如主干路、次干路以及高速路等,同時利用拓撲工具進行拓撲處理后,將重疊路段合并,將斷頭線結合電子地圖進行取舍連接。最終,利用路網剖分研究區域,將城市內部區域劃分為獨立的2 023個子區域,
1.2.3 POI數據
本文所用POI數據來源于高德地圖開發平臺,包括餐飲服務、購物服務、生活服務、體育休閑等類別,共計133 495條記錄,為保證研究結果準確可靠,對原始POI數據進行了數據清洗、坐標匹配以及POI重分類[7]等預處理工作。主要預處理步驟如下:
(1)數據清洗。將不再研究區域范圍內的POI數據進行剔除;存在數據缺失、重復,異常的POI數據剔除;無法代表城市功能特征的POI數據如公測、快遞點等也需進行剔除。
(2)坐標匹配。由于獲取的原始POI數據的坐標系進行了加密處理,坐標系為GCJ-02坐標系,為了保證POI數據與其他空間數據的準確疊加,需要對POI數據的坐標進行轉換,本文運用GeoSharp1.0軟件中的將GCJ-02坐標系轉換為GCS_WGS_1984坐標系。并將POI數據投影坐標設為WGS 1984 UTM Zone 49N。
(3)POI重分類。高德POI數據有其所屬類別,其中大類是按照其體現的城市服務功能、作用等劃分,如餐飲購物、休閑娛樂等,小類主要體現在POI的名稱等,如超市、體育館等,根據研究目的與需求,按大類對POI數據進行類別劃分,某些大類的POI數據對城市功能劃分影響較小,故在本實驗中剔除,例如交通附屬設施等。所以本文最終使用的POI數據共計13個類別(包括餐飲服務、風景名勝、公司企業、體育休閑服務、住宿服務等)。
張量作為一個數學概念,最早是G.Ricci在19世紀末提出的。張量分解能夠有效地保留原始數據各個維度之間的結構信息,得到的低維度分解結果更能夠反映出原始數據的真實信息[8]。常見的張量分解方法包含Tucker分解和CP分解。但相比CP分解,Tucker分解能分析不同維度之間的相互聯系,且獲得的模型誤差較小。因此,僅考慮張量的Tucker分解。本研究中所使用的居民出行軌跡數據不存在負值現象,經Tucker分解后的結果過將會與實際情況不相符,可解釋性較差,需加入非負約束條件,同時,為了剔除干擾信息,獲取數據的主要特征,并減少分解結果的歧義性,應考慮將分解結果盡可能地稀疏。因此,本文利用稀疏非負約束下的Tucker分解(SN-TUCKER)模型[9]進行居民出行張量分解,挖掘居民出行模式潛在特征,分析不同維度間的隱含關系以及實現居民出行區域的功能特征動態識別[10]。結合居民出行軌跡數據的SN-TUCKER模型的構建流程如下:
(1)統計不同時段各個子區域內的OD點數量,構造居民出行起/終點張量[11]。
(2)對于起/終點張量,使用稀疏非負約束[12]下的TUCKER模型,確定合理的分解模數,得到張量分解結果。
(3)將張量分解結果落實到地理空間,分析不同維度下的居民出行模式特征,結合POI數據,實現居民出行區域模式的功能特征動態識別。
通過張量分解模型得出的時空模式可以探究居民出行區域模式,難以確切識別出行區域功能,為了對居民出行區域模式的功能特征進行識別,本文利用POI頻數密度(frequency density,FD)即每種出行區域模式內每類POI的密度,見式(7),式中表示為D
(7)
式中,N表示每類POI 數量;S表示每種出行區域模式總面積。
由于不同POI類別存在數量級差異會影響頻數密度,因而需對頻數密度進行min-max標準化處理為
(8)
式中,i為區域模式類別編號(i=1,2,…N);j為POI類型編號(j=1,2,…13);D(i,j)表示標準化前的頻數密度;Dnor(i,j)表示標準化后的頻數密度;min(i,j)為頻數密度最小值;max(i,j)為頻數密度最大值。
3.1.1 時間維度
(1)日期維度。在日期維度有工作日和休息日2種模式,如圖1所示。其中2017-06-03(周六)、2017-06-04(周日)、2017-06-10(周六)、2017-06-11(周日)、2017-06-17(周六)、2017-06-18(周日)、2017-06-24(周六)和2017-06-25(周日)是休息日。在圖1(a)中,虛線在休息日的模式值接近0,在工作日的模式值是高值且基本處于平穩狀態,表明虛線在工作日特征信息較明顯;實線在休息日的模式值達到高峰,而在工作日模式值接近0,表明實線在休息日特征信息較明顯,因此虛線是工作日模式,實線是休息日模式。同理,在圖1(b)中,虛線是工作日模式,實線是休息日模式。

(a)起點張量日期維度出行模式

(b)終點張量日期維度出行模式圖1 日期維度居民出行模式變化規律
(2)時段維度。在時段維度有早高峰、日間、晚高峰和夜間4種模式,如圖2所示。圖2(a)的菱形連接線與圖2(b)的菱形連接線在時段07:00:00—08:00:00達到高峰期,因此圖菱形連接線對應早高峰模式。圖2(a)的三角連接線分別在時段10:00:00—12:00:00和時段16:00:00—17:00:00期間達到高峰期,圖2(b)的三角連接線分別在時段10:00:00—11:00:00和時段16:00:00—17:00:00期間達到高峰期,圖2(a)的三角連接線與圖2(b)的三角連接線在時段13:00:00—14:00:00存在低谷現象,低谷現象是由于人們處于午休時段,出租車需求略微下降,因此,圖2的三角連接線對應日間模式。圖2(a)的方形連接線在20:00:00—22:00:00時達到高峰狀態,圖2(b)的方形連接線在19:00:00—21:00:00時達到高峰狀態,因此,圖6的方形連接線對應晚高峰時段。圖2(a)的叉形連接線與圖2(b)的叉形連接線在時段00:00:00附近達到高峰,因此,圖2的叉形連接線為夜間模式。

(a)起點張量時段維度出行模式

(b)終點張量時段維度出行模式圖2 時段維度居民出行模式變化規律
3.1.2 空間維度
在2 023個子區域中具有6種空間維度下的上/下車出行模式,如圖3和圖4所示,審圖號為瓊S(2019)060號。

(a)模式O1

(b)模式O2

(c)模式O3

(d)模式O4

(e)模式O5

(f)模式O6圖3 起點張量空間維度出行模式

(a)模式D1

(b)模式D2

(c)模式D3

(d)模式D4

(e)模式D5

(f)模式D6圖4 終點張量空間維度出行模式
3.1.3 空間功能特征識別
通過張量分解得到起點/終點核心張量,然后建立居民出行的時間模式和空間模式的對應關系,根據時空交互聯系判斷居民出行空間的功能特征。
(1)工作日早高峰模式:O2、O4與D1較活躍,在該時段,人們一般會從居住區前往工作區或交通區,但由于D1分布較稀疏且涵蓋交通樞紐較多,故可初步推測O2、O4為居住區,D1為交通區。
(2)工作日日間模式:O3、D2與D3較活躍,O3、D2與D3分布廣泛,白天人流大且活動范圍廣,推測O3、D2與D3為工作、餐飲購物、交通等多種功能混合區域。
(3)工作日晚高峰模式:O1與O5居民上車量多,D6居民下車量多,但O1更多地分布于區域邊緣地帶,推測O1為景區;O5在休息日晚高峰時段也較活躍,推測O5為娛樂區,D6空間分布較廣,人們晚高峰時段通常是回家或者到達娛樂場所,推測D6為居住、娛樂等多種功能混合區域;O6、D5在工作日夜間模式的較活躍,娛樂場所通常是居民出行的熱點區域,但O6空間分布較為稀疏,推測O6為景區,D5為娛樂區。
(4)休息日早高峰模式:O2、O4、D1與D4較活躍,休息日早晨人們活動起點通常是居住地,目的地為景區或者交通樞紐,推測O2與O4為居住區,D1與D4對應景區或者機場車站;休息日日間時段:O4、D2與D4較活躍,O4白天人流較大且活動范圍較廣,由上文可知O4為居住區,D2為混合區,D4為景區或交通樞紐;休息日晚高峰時段:O5與D6較活躍,上文可知O5為商圈或娛樂區,D6為居住、娛樂、餐飲購物、交通等多種功能混合區域;休息日夜間時段:O6與D5較活躍,上文可知O6為交通樞紐或景區,D5為居住區/娛樂區混合區域。
為了驗證張量分解城市功能區域特征識別的合理性,基于POI數據的數量及語義特征進行區域功能識別,發現其識別結果與基于核心張量分析得到區域功能特征基本保持一致,表明通過出行行為特征進行空間功能識別具有可行性,同時,兩種識別結果的結合分析也進一步提高了區域功能識別的準確性。如表1所示,O1,O6區域中風景名勝的Dnor最大,為觀光游玩功能;而O2,O4區域中居住的Dnor最大,并且配備了一定數量的餐飲、購物、生活、醫療等基礎服務,可見,O2,O4主要對應為居住功能;O3區域中,公司企業,金融保險等商業設施的Dnor較大,為商業功能,而O5區域中,餐飲服務,購物服務以及體育休閑等休閑娛樂設施的Dnor較大,因而,O5主要對應為休閑娛樂功能。同理分析,D1主要對應交通運輸功能,D2、D3和D6主要對應商業功能,D4、D5主要對應休閑娛樂。(注: 類型1~15分別表示餐飲服務、購物服務、生活服務、體育休閑、醫療保健、住宿服務、風景名勝、居住、政府機構、科教文化、交通設施、金融保險、公司企業)。

表1 起點/終點張量出行模式所屬區域的POI指數分布
本文在路網劃分的研究尺度下,根據海口市居民出行軌跡數據,采用非負稀疏約束下的張量分解探究居民的時空出行規律。研究結果揭示了居民出行存在出行時間模式和出行空間模式,并且兩者之間存在一定的交互聯系,根據這種交互聯系分析可以識別居民出行區域的功能特征,識別結果與POI的數量特征和語義屬性識別區域功能結果基本保持一致,表明了居民出行行為識別空間功能特征具有可行性,兩種識別結果的結合分析也提高了功能識別的準確性。可見,通過結合軌跡數據的居民出行模式與功能識別、不僅豐富了城市功能識別的研究,可以為城市研究者研究城市內部功能結構提供一定的科學參考價值,也為城市管理者為了解決城市問題做出的決策提供參考依據。但本文仍存在一些不足,所用軌跡數據無法反映所有人群的日常出行軌跡,今后將結合其他出行數據源,以期更深入地挖掘人們出行機制,更加準確全面地進行功能區識別。