徐戰亞,熊 艷,高仁剛
(1.中國地質大學(武漢) 信息工程學院,湖北 武漢 430074;2.中國地質大學(武漢) 公共管理學院,湖北 武漢 430074)
挖掘居民的時空行為模式,能為交通流預測、公共安全管理、城市規劃及商業決策等應用提供重要依據。以往的多數研究是以問卷調查的方式研究出行者的行為模式[1-3]。基于問卷調查的方式存在數據更新周期慢,缺乏時效性,且研究的空間尺度局限于小范圍等問題[4]。近年來,國內外不少學者嘗試利用社交媒體研究用戶的時空行為模式,Comito等[5]利用序列模式挖掘算法對Twitter數據的時空行為模式進行探究。Li等[6]分析了加利福尼亞州Twitter數據和Flickr照片在時間和空間上的分布特征。新浪微博作為國內的主流社交平臺,已得到學界的廣泛關注,它能提供簽到服務。其中,簽到數據記錄用戶的時間、位置、評論等信息,是一種時空數據源,也是用戶時空行為模式的一個表征,王波等[7]基于此數據,分別從時間、空間兩個角度分析南京市的居民簽到行為特征并進行功能區劃分;張子昂等[8]基于這類數據,分別從時間和空間兩個維度,對南京鐘山風景區內部游客行為活動的演變特征進行探索;陳宏飛等[9]研究西安市夜間用戶簽到行為在時間與空間上的演變規律。上述研究都是單純地從時間和空間兩個不同的維度來分析簽到行為的時空分布特征,而未能將時空屬性有機聯系起來,尤其是研究方法局限在常規的經典統計和地理統計,這就導致對時空數據源的時空特征挖掘不夠全面和深入,繼而為用戶行為分析、商業決策和基于位置的推薦服務等應用帶來困難。
時空聚類作為時空數據挖掘研究的重要問題之一,對揭示地理要素的時空格局與演變規律具有重要意義[10]。現階段,時空聚類主要應用于全球氣候變化、公共衛生安全、疾病預防和犯罪熱點挖掘等領域[11-15]。時空聚類綜合考慮時空耦合因素,因而為研究社交媒體位置服務大數據提供一種新的途徑和方法。
本文以北京地區的新浪微博簽到數據為例,首先,采用擴展Knox指數對簽到點進行全局時空交互性檢驗,確定滿足聚類的時空尺度。然后,利用時空重排掃描統計進行時空聚類分析,挖掘局部時空熱點。最后,對時空熱點的分布范圍、分布時段及持續時長等特征進行探討。挖掘新浪微博簽到數據的時空熱點,不僅能探測北京市居民日常行為的時空交互規律、評估不同時間尺度的聚集范圍和活動時長,并可為城市規劃、公共安全管理以及商業決策等應用提供科學依據。
本文以北京市為研究區(見圖1),北京市的行政區劃數據來源于北京地圖網(http://www.bjmap.gov.cn/bjmap/index.jsp)。利用新浪微博開放平臺(http://open.weibo.com)提供的位置服務讀取接口,獲取研究區域內2016年2月份的簽到數據。本文中使用的簽到數據信息包括:用戶Id、簽到時間、經度與緯度。
首先,對重復的簽到數據進行去重和剔除處理。接下來,結合百度地圖對已處理的數據進行糾偏和空間匹配操作。最后,得到2016年2月北京市有效簽到數據62 393條。

圖1 研究區域
Knox指數是檢驗時空點的時空交互性的簡易方法之一[16],這種方法能探測全局的時空交互性程度(聚集性趨勢)。其研究思路為:首先,基于本文的研究問題,在空間(d)和時間(t)上都設定一個臨界點;其次,定義空間和時間的鄰近性度量準則:如果兩個事件點的空間距離在[0,d]內則屬于距離鄰近,否則屬于距離非鄰近,如果兩個事件點的時間間隔在[0,t]內則屬于時間鄰近,否則屬于時間非鄰近;然后,對所有的簽到點進行兩兩組合(共有N=n(n-1)/2個事件對),進一步判斷其時空鄰近性并進行統計;最后,得到2×2的時空鄰近性統計表,如圖2所示,其中,Oi,Si和N分別代表事件點對的頻數。
依據時間和空間的鄰近關系可將Knox指數表示為[17]
(1)
式中,如果事件點i和事件點j的距離滿足閾值條件,則Dij=1,否則Dij=0;如果事件點i和事件點j的時間間隔滿足閾值條件,則Tij=1,否則Tij=0。k值越大,表明滿足時空鄰近性的事件點對越多,時空交互性就越強。
鑒于Knox檢驗的時間和空間閾值較難確定,因此Knox對此檢驗方法進行了擴展[18]。將時間維度和空間維度進行細分,構造χ2統計量,并采用蒙特卡羅模擬判斷該統計量的顯著性水平。χ2統計量的模型[19]為
(2)
式中:Oi對應圖2(a)的觀察值;Ei對應圖2(b)的期望值。
時空重排掃描統計由美國哈佛醫學院教授Kulldorff[13]于2005年正式提出,是一種應用于犯罪和疾病等領域的時空聚集性分析方法[20]。本文采用時空重排掃描統計方法,顧及時間和空間因素,以動態變化的圓柱形掃描窗口對不同的時間和區域進行掃描,探測事件點的時空聚類特征。時空重排掃描統計量的計算過程如下[21]:
令z代表某區域,d為某時間段。如果某個區域z在時間段d內的簽到點數為nz,d,則所有區域在所有時間范圍內的總簽到點數nc為
nc=∑z∑dnz,d.
(3)
首先,統計單位區域及單位時間內的期望簽到點數μz,d為
(4)
式中:∑znz,d為d時間段內整個研究區的簽到點數;∑dnz,d為區域z整個研究時間范圍內的簽到點數。
接下來,計算動態變化的圓柱體掃描窗口A內的期望簽到點數μA為
μA=∑(z,d)∈Aμz,d.
(5)
鑒于∑z∈Anz,d和∑d∈Anz.d相對于總簽到點數nc而言非常小,圓柱體窗口A中的實際簽到點數NA近似服從均值為μA的泊松分布。基于這一近似,采用廣義似然函數(Generalized Likelihood Ratio, GLR)判定圓柱體窗口中的簽到點是否為集聚的表達式為
(6)
最后,采用蒙特卡羅法產生模擬數據集,利用相同的方法對模擬數據集和真實數據集進行計算,找出時空聚集性最高的窗口,并計算檢驗統計量的P值,P值越小,表明零假設“圓柱體窗口A內的簽到點的時間分布與空間分布無關”成立的可能性越小。
3.1.1 以時為尺度的時空交互性檢驗
通過多次實驗,本文以4 h為時間間隔單位,以1 km為空間單位,對簽到數據進行拓展Knox指數計算和顯著性檢驗,結果如表1所示。

表1 以時為尺度的簽到點的Knox指數聯列表
注:表中所有Knox指數均通過99.9%的置信度檢驗
從表1可看出,在時間尺度為[0,24] h、空間尺度為(0,6] km內,簽到點都表現出明顯的時空交互性特征(置信水平均達到99.9%),這意味著用戶發起的簽到行為在時間和空間上存在相互依賴關系。并且通過進一步分析可知:當空間距離不變時,隨著時間間隔的增大,簽到行為的時空交互性逐漸減弱,反之則逐漸增強;而當時間間隔不變時,隨著空間距離的增大,簽到行為的時空交互性逐漸增強,反之則逐漸減弱。
3.1.2 以天為尺度的時空交互性檢驗
以1 d為時間間隔單位,以1 km為空間單位,對簽到數據進行拓展Knox指數計算和顯著性檢驗,結果如表2所示。

表2 以天為尺度的簽到點的Knox指數分析結果
注:①*代表p<0.01,**代表p<0.001;
②為了使得Knox指數具有可比性,對于時間間隔在[8,28]內計算的Knox指數進行了平均處理
由表2可知,在時間尺度為[0,28] d、空間尺度為(0,6] km下,簽到點都有明顯的時空交互性特征。進一步分析可知,當空間距離不變時,簽到點的時空交互性隨時間間隔的變化規律較復雜。總體上簽到時間在同一天內的時空交互性最弱,時間間隔在1 d的時空交互性突然增大,隨后時間間隔在[2,5] d的時空交互性逐漸減弱,并且時間間隔在6 d時達到最強,之后又開始減弱。而當時間間隔不變時,隨著空間距離的增大,簽到點的時空交互性逐漸增強,反之則逐漸減弱,這與3.1.1節的結論相同。
3.2.1 以時為尺度的時空熱點
利用時空重排統計量對本文的簽到數據進行時空聚類分析時,根據3.1節的時空交互性檢驗分析結果,設置最小的聚類時間跨度為4 h,最大的聚類時間跨度為24 h,空間聚類最大范圍為6 km,并選取置信度水平在95%(即p<0.05)以上的聚集區作為時空熱點區域。實驗中總共探測到12個時空熱點區域(圖3),主要分布在主城區的繁華商業地段(故宮、中關村、三元橋、十八里店、管莊、清河),比例高達58.3%。

圖3 以時為尺度的時空熱點區域分布圖
進一步對時空熱點的分布模式特征進行統計分析,結果如表3所示。從時空熱點的分布范圍來看,覆蓋半徑主要集中在2~6 km(字體加粗表示);從熱點區域的分布時段來看,發現時間段主要集中在11:00—17:00(字體加粗表示),且持續時長一般在3~5 h,少數的時空熱點能持續到6 h以上。

表3 以時為尺度的時空熱點區域統計結果
3.2.2 以天為尺度的時空熱點
由于簽到點存在較強的周期性變化規律(見圖4),為排除周期性趨勢所導致的簽到數量異常而引起的不連續時空熱點現象,將同一個星期(如星期一)的所有簽到點記錄進行匯總分析(共7組)。

圖4 簽到點隨日期的數量變化規律
根據3.1節的時空交互性檢驗分析結果,實驗過程中設置聚類時間跨度最小為1 d,最大為7 d,空間聚類最大范圍為6 km,然后進行計算。選取置信度水平在95%(即)以上的聚集區作為時空熱點區域,共探測到22個時空熱點區域(見圖5),主要分布在主城區的繁華地段(五道口、前門大街、后海、青塔街心公園、朝來森林公園、建國門內大街、海淀區森林公園、三里屯、中關村公園),比例達40.9%。而在其它區縣的熱點分布數量比較均勻,平均每個區縣的時空熱點個數為1,且主要分布在交通發達路段附近,這間接反映了交通網絡的發達程度會影響簽到點的時空分布。

圖5 以天為尺度的時空熱點分布圖
進一步對時空熱點的分布模式特征進行統計,結果如表4所示,結合熱點分布的空間范圍和時間段來看,用戶簽到行為在5~6 km的空間尺度和在時間段2016-02-07—2016-02-13內具有極強的時空聚集性,且熱點持續時間長一般在3~6 d。

表4 以天為尺度的時空熱點信息統計表
本文以北京市2016年2月份的62 393條有效簽到數據為研究對象,使用擴展Knox指數進行全局時空交互性分析并結合時空重排掃描統計挖掘時空熱點,得到以下結論:
1)傳統的地理學研究認為空間上越接近事物的關聯性越強,但本文的研究結果表明,簽到點的時空關聯性隨著空間距離的增大而增強,這是因為職住分離現象的普遍性以及居民移動的頻繁性使得簽到點在空間上的異質性較高,從而在短距離內的關聯性降低;
2)一天當中,居民簽到行為的時空關聯性隨時間間隔的增大而減弱,表明居民的行為模式具有時間上越接近則關聯性越強的特征(如同信號傳播一樣,時間越短衰減越小),這主要是受傳統的作息規律和通勤因素的影響。但是一周內的簽到點的時空關聯性隨時間間隔的變化規律比較復雜,總體上呈現雙峰特征,時間間隔在1、6 d達到峰值,表明居民簽到行為的“關聯效應”,在一或六天時達到最強;
3)以“時”為尺度的時空熱點主要分布在主城區的繁華商業地段,熱點的覆蓋半徑集中在2~6 km、時間集中在11:00—17:00且熱點持續時長大約為3~5 h。這體現了居民傾向于選擇在下午時段內在繁華的商業區進行社交活動的特點;
4)以“天”為尺度的時空熱點的空間分布特征為:主城區的熱點數量多且集中,城外的熱點少且分散,時空熱點的覆蓋半徑集中在5~6 km,時間集中在2016-02-07—2016-02-13(春節假期),熱點持續時長大約為3~6天。由于節假日期間,用戶的出行意愿要比工作日更強,因而簽到點在節假日、長距離下的時空關聯性更強。而商業地段則往往存在固定的經營模式,較長時間內都維持高密度人流狀態,導致時空熱點的持續時間比較長。
綜合來看,居民的簽到活動受作息規律、通勤因素以及節假日的影響。本文通過討論短時間尺度和長時間尺度下的時空交互性規律以及時空熱點的分布范圍、分布時段、持續時長等特征,為人類行為模式的研究提供新的視野。但是,由于人類行為模式的復雜性,多種因素會影響簽到行為的時空分布模式,未來將結合用戶的興趣與偏好、社會經濟和文化等因素進行深入分析。
[1] 蔡明, 蔡曉禹, 張夢歌,等. 山地城市軌道車站周邊住宅區居民出行研究[J]. 交通科技與經濟, 2016, 18(3):4-9.
[2] 姜偉, 趙阿柱, 羅以丹,等. 居民長距離交通出行方式選擇行為研究[J]. 交通科技與經濟, 2016, 18(4):12-16.
[3] 杜先漢, 李巖. 武漢關-中華路過江乘客出行選擇行為研究[J]. 交通科技與經濟, 2015,17(1):61-63.
[4] 馬云飛. 基于出租車軌跡點的居民出行熱點區域與時空特征研究[D]. 南京:南京師范大學, 2014.
[5] COMITO C, FALCONE D, TALIA D. Mining Popular Travel Routes from Social Network Geo-Tagged Data[M]//Damiani E, Howlett R J, Jain L C, et al. Intelligent Interactive Multimedia Systems and Services. Cham: Springer International Publishing, 2015:81-95.
[6] LI L, GOODCHILD M F, XU B. Spatial, temporal, and socioeconomic patterns in the use of Twitter and Flickr[J]. Cartography and Geographic Information Science, 2013,40(2SI):61-77.
[7] 王波, 甄峰, 張浩. 基于簽到數據的城市活動時空間動態變化及區劃研究[J]. 地理科學, 2015,35(2):151-160.
[8] 張子昂, 黃震方, 靳誠,等. 基于微博簽到數據的景區旅游活動時空行為特征研究:以南京鐘山風景名勝區為例[J]. 地理與地理信息科學, 2015, 31(4):121-126.
[9] 陳宏飛, 李君軼, 秦超,等. 基于微博的西安市居民夜間活動時空分布研究[J]. 人文地理, 2015(3):57-63.
[10] 王勁峰, 葛詠, 李連發, 等. 地理學時空數據分析方法[J]. 地理學報, 2014,69(09):1326-1345.
[11] TAKAHASHI K, KULLDORFF M, TANGO T, et al. A flexibly shaped space-time scan statistic for disease outbreak detection and monitoring[J]. International Journal of Health Geographics, 2008,7(1):14.
[12] GRUBESIC T H, MACK E A. Spatio-temporal interaction of urban crime[J]. Journal of Quantitative Criminology, 2008,24(3):285-306.
[13] KULLDORFF M, HEFFERNAN R, HARTMAN J, et al. A Space-Time Permutation Scan Statistic for Disease Outbreak Detection[J]. PLoS Medicine, 2005,2(3):e59.
[14] LEITNER M, HELBICH M. The Impact of Hurricanes on Crime: A Spatio-Temporal Analysis in the City of Houston, Texas[J]. Cartography and Geographic Information Science, 2011,38(2):214-222.
[15] 李雙雙, 楊賽霓, 劉焱序, 等.1960~2013年京津冀地區干旱-暴雨-熱浪災害時空聚類特征[J]. 地理科學, 2016,36(1):149-156.
[16] KULLDORFF M, HJALMARS U. The Knox method and other tests for space-time interaction[J]. Biometrics, 1999,55(2):544-552.
[17] 劉巧蘭, 李曉松, 馮子健, 等. Knox方法在傳染病時空聚集性探測中的應用[J]. 中華流行病學雜志, 2007,28(8):802-805.
[18] 陶海燕, 潘中哲, 潘茂林, 等. 廣州大都市登革熱時空傳播混合模式[J]. 地理學報, 2016,71(9):1653-1662.
[19] 王曉莉, 李勇強, 李清光, 等. 中國環境污染與食品安全問題的時空聚集性研究:突發環境事件與食源性疾病的交互[J]. 中國人口·資源與環境, 2015,25(12):53-61.
[20] 徐敏, 曹春香, 程錦泉, 等. 甲流感疫情時空聚集性的GIS分析[J]. 地球信息科學學報, 2010,12(5):707-712.
[21] 張文增,李長青,冀國強,等.回顧性時空重排掃描統計量在手足口病聚集性研究中的應用[J].中華疾病控制雜志,2012, 16(1):73-76.