王長碩 蒲英霞,2,3*
1(南京大學地理與海洋科學學院 江蘇 南京 210023)2(南京大學江蘇省地理信息技術重點實驗室 江蘇 南京 210023)3(南京大學江蘇省地理信息資源開發與利用協同創新中心 江蘇 南京 210023)
城市是人類聚居的主要形式之一,是經濟社會發展和文化交流的主要載體[1]。城市居民通過在城市不同區域、不同場所間的通勤和遷移,滿足居家、上班、購物、娛樂等生產和生活需求,實現生存發展和價值追求[2]。城市居民的出行行為包括出行目的、出行方式、出行時間等,與其包括社會角色在內的群體標簽之間相輔相成、互相約束。例如,當“學生”群體的出行目的地為“電影院”等娛樂場所時,其出行行為將受到一定時間限制,大多選擇工作日晚間或周末;而若在工作日上午出門,前往“學校”學習這一出行行為則具有更高的概率。通過城市居民群體分類和出行特征分析,有助于發現城市居民的出行行為模式及變化規律,理解居民在城市中的時空參與性,從而更好地服務于人類生活需要[3]。
自19世紀起,地理學家、交通學家和社會學家從個體行為理論[4-5]、居民出行目的[6]、出行方式[7-9]、出行特征[10-11]等不同方向對城市居民出行行為進行了研究。傳統城市居民出行特征研究一般是以交通小區為單位分析居民出行交通活動(集計模型),進而獲取一個時段內(一般是一個晝夜)的全體城市居民的宏觀出行特征信息,主要包括出行頻率、出行目的、出行時間分布等。在此基礎上,建立回歸分析模型等探索居民出行規律。隨著城市的發展和人們生活水平的提高,居民出行方式越來越多元化和復雜化,居民出行調查數據的獲取周期長、成本高,傳統方法逐漸顯現出其局限性。全球定位系統(GPS)、遙感技術(RS)和地理信息系統(GIS)的發展使得新的數據采集方法和分析手段不斷涌現,國內外學者基于手機信令數據[12]、公交車刷卡數據[13]、GPS軌跡數據[14-17]和社交媒體數據[18],開展了人類出行行為[13,16-17]、土地利用分類[12,14-15,18]等研究。例如,鄭林江等[17]基于出租車軌跡數據,提出一種基于網格密度的GScan聚類算法,以重慶市為例分析居民出行熱點區域。
由Blei等[19]提出的潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型在探究城市居民時空行為方面具有較好的潛力。作為一種概率生成模型,LDA具有潛在語義挖掘和主題提取能力,已被廣泛應用于自然語言處理、文本分類、場景分類等領域[20-21]。該模型包含“詞匯-主題-文檔”三個層次,其中隱含主題由詞匯的多項分布表示,而文檔則用隱含主題的多項分布表示,通過模型求解確定每一篇文檔所隱含主題的概率分布,進而對未知文檔完成文本分類。基于城市居民出行行為的特征分類和文本分類研究具有一定的相似性,城市居民在不同時空間扮演社會角色的不同,導致同一居民存在多種對應的群體類別,因此可以根據居民的出行行為構建語料庫,利用LDA模型將居民劃分為具有不同出行特征的群體。
LDA模型是貝葉斯方法的具體應用。貝葉斯方法的優勢在于將定性或定量的先驗信息與樣本信息結合,通過學習機制,共同得出模型和變量的后驗概率分布,它不僅可以避免僅使用先驗信息可能帶來的主觀偏見,還可避免缺乏樣本信息時的大量盲目搜索與計算[22-23]。然而傳統的LDA模型并沒有借助樣本信息外的其他信息作為先驗,導致了其非監督特性。Labeled-LDA模型通過附加類別標簽,將類別先驗信息融入LDA模型,克服了傳統LDA強制分配隱含主題的缺陷,有效提高了分類的準確性和結果的可解釋性[24-25]。因此,基于Labeled-LDA模型挖掘城市居民出行行為,可以得到具有現實意義、易于解釋的群體類別。
憑借著用戶參與的廣泛性與即時性、信息擴散模式與速度等方面的優勢,移動社交媒體數據在表達城市居民日常出行行為方面具有明顯優勢。2016年末的統計顯示,Twitter的月活躍用戶量已超過3億,平均每位用戶擁有208位直接社交朋友[26]。據此,本文利用2014年波士頓海量Twitter簽到數據,構建居民出行活動模式模型和Labeled-LDA模型,將社會角色標簽作為附加先驗信息,在群體和個體尺度上分析城市居民的日常出行行為,探究居民出行時空特征,為居民在不同時空間表現出的不同出行行為特征提供概率解釋。
為探究城市居民日常出行規律,分析不同群體時空出行特征,本文建立表征城市居民出行行為的定量模型,現給出如下定義:
定義1移動軌跡。處于活動A1的城市居民在TL時間離開某地RO,在TA時間到達另一地點RD,目的為活動A2,則包含出行目的的居民出行移動軌跡可表示為如下的一個六元組M:
M=
(1)
定義2活動模式。當優先考慮居民出行活動的目的,探究群體或個體出行目的規律時,忽略居民出行的地理位置差異,則移動軌跡可表示為如下的一個四元組M+:
M+=
(2)
現實生活中,居民日常的出行狀態:“離開”或“到達”常影響其出行目的和起訖地理位置,并呈現較強的規律性,例如學生群體工作日的“離開”常常指離開“家”到達“學校”。

將每一個居民個體作為一篇文檔,居民的群體類別作為主題,居民出行活動模式作為詞匯,可以運用Labeled-LDA模型對城市居民進行群體分類,如圖1所示。

城市居民的所有出行行為信息→語料庫城市居民→文檔具有不同出行特征的人群→文檔的主題居民出行活動模式→詞匯
圖1 Labeled-LDA用于居民群體分類的思想類比
為分析城市居民的出行行為特征,探究居民扮演的社會角色作為先驗信息與居民出行行為模式之間的潛在規律,研究從以下三個階段展開:居民出行活動模式構建,基于LDA模型提取社會角色先驗信息,基于Labeled-LDA模型完成群體分類和出行特征分析。首先使用Twitter簽到數據提取城市居民出行活動類型和時間等信息,生成居民出行活動模式;其次建立LDA模型處理活動模式,得到典型群體的出行活動分布,并作為先驗信息;最后建立Labeled-LDA模型,完成城市居民群體分類,于群體尺度和個體尺度分析居民出行特征。


圖2 Labeled-LDA模型圖解[24]
算法1Labeled-LDA模入:語料庫D={d1,d2,…,dm…,dM},Dirichlet超參數α、β,主題數量K,先驗標簽Φ,先驗標簽集Λ(d)。
輸出:文檔-主題多項分布θ(d),主題-詞匯多項分布φk。
步驟1對于每一個主題變量k∈{1,2,…,K}:
產生φk=(φk,1,φk,2,…,φk,V)~Dir(·|β);
步驟2對于每一篇文檔d:
步驟2.1對于其中的每一個主題變量:

步驟2.2產生α(d)=L(d)×α;
步驟2.3產生θ(d)=(θl1,θl2,…,θld)~Dir(·|α(d));
步驟2.4遍歷對于該文檔中的每一個詞匯:

產生詞匯wi∈{1,2,…,V}~Mult(·|φzi)。
模型可以得到居民群體類別的后驗概率(對應文檔-主題后驗概率分布)、居民出行活動模式對群體類別的解釋強度(對應主題-詞匯后驗概率分布),結合兩者能夠對城市居民的出行行為規律做出定量解釋和歸納。
在標簽集Λ(d)的設置過程中,本文使用傳統LDA模型對城市居民的出行行為進行探索性分類,得到典型的居民群體,提取其出行活動分布作為先驗信息。具體過程如下:
算法2Labeled-LDA標簽集設入:基于簽到數據的波士頓城市居民出行活動模式(樣本信息D),基于LDA模型的探索性分類結果(先驗信息)。
輸出:波士頓城市居民先驗標簽集Λ(d)。
步驟1分析傳統LDA模型探索性分類結果,得到具有典型出行行為特征的群體,提取其出行活動分布向量作為先驗分布曲線。
步驟2對于每一位波士頓居民:
步驟2.1遍歷該居民的所有出行活動模式:M+=
步驟2.2基于歐氏距離比較該居民的出行活動分布曲線與步驟1中的先驗曲線,計算曲線相似度。
步驟2.3選擇最大曲線相似度對應的群體類別(社會角色)作為該居民的先驗標簽。
步驟3完成先驗標簽集設置,繼續Labeled-LDA建模。
求解含有隱含變量的概率主題模型非常困難,無法通過常用的最大似然函數方法對模型進行推導,目前比較常用的方法包括期望最大化算法(Expectation Maximization,EM)以及馬爾可夫鏈蒙特卡洛算法(Markov Chain Monte Carlo,MCMC)等。Labeled-LDA模型的似然函數為非凸函數,采用EM算法容易得到局部最優解,而由于多項分布和狄利克雷分布具有共軛特性,基于MCMC的吉布斯抽樣可以極大簡化抽樣復雜度,因此我們使用吉布斯方法對參數進行抽樣,獲得參數的后驗分布[21]。
本文利用美國波士頓2014年Twitter簽到數據展開實驗。源簽到數據時間跨度自美國東部時間2013年12月31日至2014年12月31日,記錄了用戶經去隱私化處理的ID、簽到時間、活動類型、簽到時所在地的建筑物ID、所在地的重要性、家庭住址等信息。
如表1所示,源簽到數據中各用戶的不同簽到記錄由“,”鏈接,同一簽到記錄下,各數據項由“&”鏈接。每位用戶的第一個簽到記錄為補充的家庭地址信息,以活動類型為“0”作為標記,除家庭地址的經緯度外其他信息無實際意義。從第二個簽到記錄開始為用戶的實際簽到數據,依次包括地址重要性、建筑物ID、簽到時間、輔助簽到時間(位于一年中的第幾天)、活動類型五個信息。其中,活動類型共有12種,活動類型代碼與實際意義的聯系見表2。

表1 美國波士頓簽到數據示例

表2 活動類型的實際含義及其映射
根據活動模式模型,本文將Twitter簽到數據一一映射為居民出行活動模式,并生成對應的活動模式詞匯。由于城市居民出行的活動周期通常為一天,因此以一個小時為時間間隔離散化時間,得到值為0~23的時間序列。為避免時間與活動類型混淆,本文將活動類型映射為“A-L”(表2)。例如,某波士頓居民于2014年5月1日0時在“家”簽到,然后于當日9時在“學校”簽到,則其對應的活動模式詞匯為A_0_D及A_D_9。
本文對由簽到數據生成的活動模式進行了統計。源數據中總用戶數量為14 177人,可生成3 879 072條活動模式。考慮到數據量不能過小,本文最終選定年簽到數據量高于1 500條的588位用戶及其1 705 568條活動模式,作為后續研究的數據源。
使用JAVA語言搭建LDA模型,對城市居民活動模式詞匯進行處理,生成居民群體類別的后驗概率(文檔-主題后驗概率分布)及居民出行活動模式對群體類別的解釋強度(主題-詞匯后驗概率分布)。本文將LDA模型類別數量(K)設置為10,模型迭代次數設為3 000。對于文檔和主題先驗Dirichlet分布超參數(α和β),本文根據文獻[27-28]的研究,取α=50/K,β=0.01,此時模型性能較好。
LDA模型可得到10種群體類別。表3為居民出行活動模式詞匯從屬于各群體類別的后驗概率分布,取排名前十的結果。概率越大,排名越靠前,越能解釋其相對應的群體類別。

表3 居民出行活動模式對群體類別的解釋強度
通過分析各活動模式對群體類別的解釋性,我們可以總結和歸納出群體類別的現實意義。其中,群體類別1、5、6、7、8具有典型的出行行為模式,分別與居家人員、夜間活動族、大學生、上班族、中小學生的出行行為相接近,因此提取這5個群體的出行活動分布作為先驗信息(表4及圖3),為每一位居民設置先驗標簽。

表4 典型居民群體的出行活動分布向量

圖3 典型居民群體的出行活動分布曲線
Labeled-LDA模型主題數量設為5,其余參數同傳統LDA模型。模型可以得到波士頓各居民屬于5個群體類別的后驗概率分布,如表5所示,編號為1934319254的波士頓居民屬于居家人員、夜間活動族、大學生、上班族和中小學生的后驗概率分別為0.015、0.407、0.172、0.086和0.320。其中,屬于夜間活動族的概率最大,說明該居民通過Twitter簽到所反映出來的日常出行行為更符合夜間活動族群體。

表5 Labeled-LDA建模結果
為分析各群體出行行為時空特征,本文設置后驗概率最大的類別作為該居民的群體類別,提取波士頓居民在2014年任意30天內的出行行為,結果如圖4所示,橫軸代表以一小時計的30天(共720小時),縱軸代表各群體類別的波士頓居民。同時,本文統計了Labeled-LDA主題-詞匯后驗概率分布,表6所示為排名前十的居民出行活動模式詞匯。

圖4 波士頓居民群體的出行行為分布

表6 Labeled-LDA建模結果:主題-詞匯分布
居家人員的出行行為以“家”與“購物場所”、“家”與“家”、“娛樂場所”之間的通勤為主。更為具體地,早上9點或10點,居家人員從“家”出發前往“購物場所”,于9點或10點到達(由活動模式A_9_I、A_I_9、I_I_10、A_I_10反映,下類似);上午10點,居家人員在“購物場所”采購家用生活物品、食物時,在不同“購物場所”區域內移動,居民可能一邊購物一邊悠閑玩手機(I_I_10、I_10_I);下午,居家人員可能于13點左右前往“娛樂場所”娛樂和休閑;而到了21點,居家人員或返回“家”中,或由“家”中出發前往其他區域休閑后再度返“家”(A_21_A、A_A_21)。
夜間活動族的出行行為以“家”與“家”、“家”與“辦公場所”、“購物場所”之間的通勤為主。更為具體地,夜間活動族于早上8點離開“辦公場所”(F_A_10、F_F_8),在10點到達“家”中;在“家”中,他們或休息到12點后再度出門,或不休息直接出門前往其他活動類型區域,或者休憩結束后居家玩手機,期間多次使用Twitter簽到(A_A_10、A_10_A、A_A_12及A_A_12);夜間活動族在15點左右會前往“購物場所”采購生活物品,他們在“購物場所”的行為方式與居家人員一樣,一邊購物一邊悠閑玩手機,然后他們于15點左右返回家中;最后,在17點夜間活動族會返回“辦公場所”上班,如果沒有排班的話,他們則在19點或返回“家”中,或由“家”中出發前往其他區域休閑后再度返“家”。
大學生的出行行為以“大學”與“大學”、“大學”與“家”、“家”與“家”之間的通勤為主。更為具體地,早上8點或9點,大學生到達“大學”并在“大學”內部通勤,可能是在不同教室上課或學習,但他們時常使用Twitter簽到;下午大學生的出行行為也是如此,在“大學”內部通勤;直到17點或更晚,家在波士頓的大學生陸續返回“大學”;從17點開始至21點,部分大學生或返回“家”中,或由“家”中出發前往其他區域休閑后再度返“家”。
上班族的出行行為以“家”與“辦公場所”之間的通勤為主。更為具體地,早上8點或9點,他們于“家”出發前往“辦公場所”,并于9點或10點到達;中午11點至12點,上班族在“辦公場所”內通勤,可能是在公司內部或附近吃完午飯,然后回到公司繼續上班;17點左右工作結束,上班族開始返“家”;到了19點至21點,他們則在家中休閑刷手機,使用Twitter簽到,或由“家”中出發前往其他區域休閑后再度返“家”。
中小學生群體的出行行為以“家”與“學校”、“學校”與“學校”、“家”與“家”之間的通勤為主。更為具體地,早上7點至9點,學生從“家”出發前往“學校”開啟一天的學習歷程;中午12點,部分學生會離開“學校”到達“家”中,也有部分學生一直在“學校”;到了16、17點左右,學生們結束了一天的學習開始返回“家”中,或已經到“家”,而他們在到達“家”后,有可能前往其他區域休閑,并于更晚時候再度返“家”。
為進一步探究引入先驗信息對模型結果的影響,本文統計了各群體居民的活動類型占比(后驗分布),對比傳統LDA模型得到的居民活動類型占比(先驗分布),分析在使用先驗信息后,Labeled-LDA模型得到的居民出行行為變化情況。
如表7所示,居家人員群體于“購物場所”、“學校”活動的后驗概率相比先驗有一定幅度的提升,而于“娛樂場所”活動的后驗概率則下降,說明Labeled-LDA在有效加入先驗信息進行分類的同時,沒有忽略樣本數據自身的信息特征。夜間活動族于“辦公場所”的后驗概率與先驗概率相比,提高了0.058,這一方面說明該群體在“辦公場所”出行行為與他們的日常生活聯系緊密,另一方面給出了該群體在現實生活中所對應的實際人群的可能性解釋,例如夜間工作的藍領員工、從事夜間基礎設施服務的服務類型人員等。大學生群體于地點“大學”有關的出行活動概率達到了20.5%,即他們在日常生活中有五分之一的出行行為,其出發地或目的地為“大學”,遠高于相應的樣本頻率和先驗概率,說明Labeled-LDA模型有效提取了該群體于“大學”的出行行為模式。上班族群體于“辦公場所”的通勤行為中,后驗概率為17.6%,相比先驗有所升高,說明出行行為模式更集中于“辦公場所”的居民被歸類為上班族群體。

表7 波士頓居民群體的活動類型分布

續表7
在實際生活中,“人”常常扮演著多個角色,比如工作日在“學校”時,居民扮演“學生”角色,而放假期間在“家”時,居民則扮演“居家人員”的角色,城市居民的出行行為隨著不同時空間扮演社會角色的不同而發生著巨大的變化。Labeled-LDA模型將先驗信息(標簽)和樣本信息(波士頓居民出行活動模式)相結合,基于吉布斯抽樣通過不斷迭代采樣而得到波士頓居民屬于各群體類別的后驗概率分布,這一貝葉斯過程所產生的模型結果,在一定程度上反映了個體出行行為的不確定性。
例如,Labeled-LDA得到ID號35793087的波士頓居民屬于居家人員、夜間活動族、大學生、上班族和中小學生的后驗概率分別為0.445、0.470、0.050、0.023和0.012,屬于夜間活動族的后驗概率最大,因此被分為夜間活動族(表5)。然而,這并不意味著該居民在任一時刻的出行行為都反映了夜間活動族群體的出行行為特征。如圖5所示,本文提取了該居民于某工作日(3天,不連續)和某周末(2天,不連續)的活動模式,可以發現工作日該居民的出行行為十分符合3.3節對夜間活動族群體出行行為的總結規律,然而,他/她于周末的出行行為卻更貼近居家人員群體。

圖5 波士頓某居民工作日/周末活動模式展示
由于個體自身的不確定性,導致個體出行行為所表征的出行規律在不同時間周期的表現均有所不同。Labeled-LDA模型能基于先驗信息和樣本信息,得到城市居民屬于不同群體類別的后驗概率分布,對個體出行行為的不確定性起到了一定的解釋作用,能在一定程度上反映城市居民出行行為的復雜性。
本文提出一種基于Labeled-LDA的城市居民群體分類和出行特征分析框架。首先利用城市居民的海量Twitter簽到數據,構建居民出行活動模式模型定量表征城市居民的日常出行行為;其次構建潛在狄利克雷分布模型LDA對城市居民進行探索性分類,針對分類結果提取典型城市居民群體的出行活動分布作為先驗信息;最后,構建標簽狄利克雷分布模型Labeled-LDA,將城市居民劃分為居家人員、夜間活動族、大學生、上班族及中小學生五個群體,于群體維度分析城市居民的出行行為特征,并討論個體出行行為的不確定性。
通過引入先驗信息,Labeled-LDA模型能夠有效完成城市居民在群體維度的出行行為特征分類,并定量解釋居民群體的出行行為規律。以后驗概率分布形式給出的Labeled-LDA模型群體分類結果,有效體現了個體出行行為的復雜性與不確定性,為城市居民在不同時間和地點表現出不同群體的出行行為特征提供了定量的數據支撐。