陳 康,黃曉宇,王愛寶,陶彩霞,關迎暉,李 磊
(1.中國電信股份有限公司廣東研究院 廣州510630;2.華南理工大學經濟與貿易學院 廣州510006;3.中山大學軟件研究所 廣州510275;4.中國電信集團公司 北京100032)
近年來,隨著以GPS導航儀和智能手機為代表的智能終端的普及與應用,人們已經能夠以相對低廉的代價獲得大量的用戶實時位置數據,如在GPS導航系統的支持下,可以實時獲得汽車駕駛員當前所在的經、緯度位置信息和行駛方向信息;對于隨身攜帶移動電話的用戶,能以基站定位的方式,估計出該用戶所在的大概區域。特別地,對于給定的用戶,將其在一組連續時間點上的位置“串聯”起來后,就形成了他在這個時間段內的行為軌跡數據。
在大量用戶位置和行為軌跡數據的背后,隱含了豐富的空間結構信息和用戶行為規律信息,通過對這些信息進行深入的挖掘和利用,不僅有可能發現個體用戶的日常行為規律和群體用戶的共性行為特征,甚至還有可能掌握其社交關系信息,這對智能交通、廣告推薦等應用具有非常重要的意義。早在2003年,Rao與Minakakis預測,如下4類基于用戶位置信息的服務應用蘊藏著巨大的商機[1]:
·用戶空間定位及駕駛的路徑誘導服務;
·基于用戶位置分析的精準廣告投送服務;
·基于用戶行為的市場細分及應用服務;
·面向企業的商業合作應用服務。
目前,這些預測大多已成為現實,如美國的Inrix公司采集道路上的汽車行為軌跡信息,通過分析、挖掘為在途駕駛員提供交通信息發布和路徑誘導服務,其產品用戶已經覆蓋了北美和歐洲的20多個國家;騰訊公司開發了帶位置服務功能的即時通信軟件——微信,在14個月內即積累了超過2億名注冊用戶。這些應用的成功吸引了廣泛的關注,越來越多的研究人員投入用戶行為軌跡分析的研究領域中。
對于用戶行為軌跡的分析,一般可以總結為“數據采集—位置匹配—分析應用”3個步驟,具體技術架構如圖1所示。

在圖1中,用于軌跡分析的數據主要來源于車載的GPS定位數據和以智能手機為代表的基站定位數據(部分智能手機也支持GPS定位,也有可能提供GPS定位數據),一般這些數據都可以使用四元組<數據源ID,時戳,經度,緯度>表示;在使用這些數據之前,需要把它們匹配到地圖上[2]以關聯某些興趣點(point of interest,POI),但由于地圖匹配所需的電子地圖通常難以獲得,因此研究人員對這一步驟做了簡化處理,只是簡單地柵格化,將每個原始的數據點映射到柵格中,對用戶行為軌跡的分析和應用在完成上述位置匹配過程之后的數據上進行[3~5]。
雖然對用戶日常行為軌跡的分析吸引了眾多的研究興趣,然而總結起來,相關的工作主要分為兩種類型:其一是傳統的智能交通服務應用,研究所需的數據主要來源于由GPS終端和智能手機采集獲得的用戶空間位置信息;其二是對用戶的行為模式識別與社交關系的發現,這一工作的開展除了需要用戶的空間位置信息之外,還需要其他的數據信息,如用戶的網絡瀏覽信息、用戶在社交網站上的活動記錄信息等。
隨著位置數據采集設備的普及,近年來,在智能交通領域,研究手段也出現了革命性的變化:在早期的研究中,由于數據采集與處理的成本過高,數據的主要作用在于對已有模型進行檢驗和校正;在最近10年中,隨著采集成本的降低,已經可以用非常低廉的價格獲得大量的動態交通數據,以此為基礎,相關研究者提出了以數據為驅動的智能交通系統[6](data-driven intelligent transportation system,D2ITS),其核心在于通過數據挖掘、機器學習等手段,從數據中提取交通系統的運行模式,從而研究新的交通應用。
在智能交通的各種研究中,電子地圖是最為底層的數據資源,為地圖匹配、用戶興趣點分析以及路徑誘導等各種應用提供基礎性的支撐。然而,傳統電子地圖的編制代價非常高昂,需要投入大量的人力和物力進行精確的測量與校正。
為解決這一問題,Cao與Krumm[7]利用了如下事實:用戶駕車經過的地方必然有道路的存在。由此提出了一種基于用戶出行軌跡的地圖編制算法,認為車輛在一條道路上行駛的GPS軌跡由該道路上各點的空間位置與一組相互獨立的以0為均值的誤差疊加而成,因此,當多條這樣的軌跡合并時,得到的結果即該道路的實際位置。另一方面,在電子地圖中,車道標識是一個很重要的組成部分,參考文獻[8]中研究了一種完全基于用戶假設軌跡數據的算法,他們注意到道路上不同車道的通行速度是有區別的,而道路上的通行速度可以視作所有車道速度的綜合,因而使用混合高斯分布對同一道路上的通行速度進行描述,進而利用采集到的速度數據對模型進行擬合分析,最后獲得的高斯成分個數即該道路上的車道數目。
對行駛中的車輛進行路徑誘導是智能交通研究中的核心問題之一,其目標是為駕駛員尋找“最合適”的道路。眾所周知,Dijkstra算法能在O(n2)的時間內找到路網中兩點間的最短路徑,然而對駕駛員而言,除路徑的長短外,交通狀況、駕駛成本等也是影響其對路徑進行選擇的重要因素,所以“最短”的路徑并不等價于“最好”的路徑。
為解決上述問題,需要對所謂的“最合適”的路徑給出可操作的定義。當前一個被廣泛接受的定義是:選擇走一條路的車輛越多,這條路的“合適程度”就應該越高。以這一假設為基礎,越來越多的工作轉向基于駕駛軌跡的路徑誘導研究。
[9]中提出了一種有別于傳統的最短路徑算法的路徑誘導策略,駕駛員普遍傾向于選擇高等級的道路(等級越高,速度越快),而不同等級的道路又把路網劃分成大小不一的封閉區域(一般路網的等級越高,區域內的面積越大,反之亦然),由此設計了一種基于A*搜索的最快路徑啟發式策略。在出發端,該策略引導用戶由低等級路網圍成的區域盡快進入通往目標方向的高等級區域;在目標端,則引導用戶盡快由高等級區域進入包含目標地址的低等級區域。在該算法的設計中,Gonzalez等人還注意到,路網中存在部分路徑,雖然級別較低,但通行的車輛卻非常多,因此對道路等級的評定方式也做了修改,即道路的等級不僅與其靜態特性相關,還與其上通行車輛的數目和通行速度這些動態特征相關,這些特征的取值可以通過對用戶出行軌跡的分析獲得。
參考文獻[9]中的算法能很好地解決中長途旅行(如在兩個城市之間)的路徑誘導問題,然而對于城市內的路徑選擇,其效果則差強人意。主要原因在于:在同一城市內,各道路的通行與擁堵狀況在整體上已經漸趨一致,難以給出明晰的等級劃分,因而該算法的應用也受到了限制。對此,T-drive[10]提供了另一種解決方案:以城市內出租車的駕駛軌跡數據為基礎進行路徑誘導,由于出租車的數量眾多,活動范圍廣泛,而且司機的經驗也非常豐富,因此可以認為,對于城市內的任意兩點,連接這兩點的出租車行駛軌跡接近最佳路線。
除了指導人們在駕車出行過程中選擇合適的路線外,對用戶出行軌跡的分析還有助于“綠色出行”的實現。這里的“綠色”指鼓勵人們盡可能使用公共交通工具,從而減少碳排放量,減輕道路的交通擁堵狀況。為減少用戶在使用公共交通工具出行過程中的不便,參考文獻[11]提出基于出租車的歷史行駛軌跡數據的公交線路規劃算法,該算法使用出租車的起止位置表示它的每一條行駛軌跡,并對這些軌跡進行層次聚類以生成若干軌跡簇,這些簇的中心軌跡即公交線路的規劃結果。與此相類似,參考文獻[5]中也研究了根據大規模的出租車駕駛軌跡進行夜間公交線路規劃的應用。
在城市居民的日常出行中,一條出行的行為軌跡可能包含多種不同的行為模式,如步行、公共汽車接駁以及地鐵換乘等,參考文獻[12]中提出了對用戶出行行為模式識別的研究,對比了條件隨機場、支持向量機、貝葉斯網絡與決策樹在這一問題上的表現,令人吃驚的是,在這些工具中,決策樹取得了最好的結果。然而,對于這一結果,還需結合數據的實際分布因素來考慮:對于大多數用戶,在他/她的一次出行行為中,絕大多數時間都是在交通工具上度過的,而步行、騎自行車接駁公共交通工具等行為在總體數據中僅占了非常小的比例,對分類算法而言,這是一個類別不平衡的問題[13]。在這種情況下,分類器僅需簡單地把所有結果都判別為優勢類別,便能獲得很高的準確率,所以簡單地以分類結果的準確率來度量分類器的好壞是不合適的。
Stenneth等人對參考文獻[12]的結果做了改進,當用戶使用不同的公交工具時,公交服務設施可以作為識別其行為模式的重要啟發信息,因此公交站、地鐵線路等的位置分布也可以用于輔助計算[14],結果與參考文獻[12]類似,以決策樹為基礎的隨機森林(random forest)算法獲得了最好的表現。
此外,對用戶交通行為模式的研究還衍生了非常豐富的其他應用,如Kjargaard等人[15]研究了群體用戶的聚集行為,他們的工作以智能手機采集的數據為基礎,匯集從智能手機獲得的用戶行為加速度數據、移動方向數據以及信號強度數據,通過層次聚類生成用戶的群體聚集與移動信息;Zhang和Li[3]、Ge和Xiong[4]等人則研究了基于出租車歷史行為軌跡的駕駛員異常行為探測算法,對于給定的兩點(起點和終點),多數人選擇的路徑就是“正常”的路徑,因此若有某些駕駛軌跡明顯背離了這些正常路徑,則這些行為屬于異常行為。
除了智能交通應用,基于位置信息的行為分析也已滲入用戶的日常生活中,從個人的活動模式到群體的社交關系,都有可能從用戶的歷史活動軌跡記錄中提取獲得,以此為依據,位置服務的提供者又能進一步改進他們的產品,為用戶提供更為個性化的服務。
對用戶行為的意圖分析是用戶軌跡分析的一個重要研究內容,其目的在于從用戶的歷史行為軌跡中挖掘和解釋用戶的日常行為規律。在對這一問題的研究中,聚類分析是最為常用的技術手段,然而在另一方面,由于缺乏必要的驗證信息,對聚類結果的解讀通常需要結合特定的時空上下文進行。如Kirmse等人對用戶日常行為特點的研究[16],使用meanshift聚類根據用戶的歷史行為軌跡數據生成了其日常駐留區域,并結合時間特點給出了結果的語義解釋(如用戶在白天駐留時間最長的地點是工作場所,晚上駐留時間最長的地點是家里);而在Ying等人[17]的研究中,則充分利用空間信息輔助對結果的解讀:首先把聚類獲得的用戶日常駐留點與其周邊的興趣點(如公園、學校、銀行、酒店等)相關聯,進而根據用戶的出行軌跡把這些駐留點“串聯”起來,如“出門—學校—單位—下班”等,以此實現對用戶出行軌跡的語義解讀。
也有部分研究者嘗試直接根據用戶的行為軌跡數據建立其統計生成模型,主要做法是引入文本處理的相關技術。首先在軌跡數據與文本數據之間建立如下映射關系:
·軌跡數據中的一個區域(如一個POI或一條街道)對應文章組成中的一個單詞,用戶經過一個區域的次數相當于單詞在文章中出現的次數;
·一條行為軌跡對應一篇文章;
·一組軌跡構成的集合對應一個文本集合。
在以上對應關系下,Zheng與Ni把對用戶出行行為的理解映射為文本處理中的主題抽取[18],進而構造了LDA模型[19]的一個變體,以解釋用戶出行軌跡的生成過程;與此相類似的還有Yuan等人的工作[20],把LDA聚類的結果與城市中的服務設施位置相結合,從而實現基于用戶行為軌跡的城市實際功能的分區識別。
眾所周知,在社交網絡中,存在著名的“六度分隔”理論,即任意兩個用戶之間的通信最多只需由6個順次認識的用戶進行信息交換即可實現,而這一理論的正確性也已被Jure與Horvitz使用微軟公司的3 000多萬名MSN用戶的歷史通信記錄所驗證[21]。此外,參考文獻[22]中對多個社交網絡數據集的分析結果還指出,在社交網絡中,隨著網絡半徑的擴大,人與人之間的交互距離反而縮小;另一方面,對于社交關系時空分布的特點,當前還沒有定論。近年來,隨著社交網絡與位置服務的盛行,對用戶的物理位置與其社交聯系兩者之間的關聯性分析也激發起了廣泛的興趣。
在基于位置信息的用戶關系分析中,Crandalla[23]等人做了開創性的工作。以照片分享網站Flickr上的數據為研究對象,由于用戶在向Flickr上傳照片的同時也留下了時間信息,此外,在照片上載過程中有部分用戶提交了他所在的位置信息,根據這些記錄可以獲得用戶的時空位置信息;另一方面,Flickr還提供了社交網絡服務,由此,又可以確定用戶在網絡上的社交關系信息。以這些數據為依據,Crandalla等人研究了用戶在物理空間中的行為軌跡與其社交關系之間的聯系,在一定的簡化假設下,證明了如下結論:若兩位用戶在連續k天內訪問了相同的區域,則他們在社交網絡中存在朋友關系的概率可以寫為,c1和c2是常數因子。
由這一結果可知,當兩個人連續出現在相同的場合時,他們間彼此認識的概率將以共現的次數呈指數增長。這一發現為探索人群中的社會關系提供了新的手段:對所關心的目標對象,只需簡單地比較他們的活動軌跡在一定時間周期內的重合次數,即可斷言其是否存在朋友關系。
與參考文獻[23]相反,Cho及其合作者則研究了用戶間的社交關系對他們出行活動的影響[24]。分析了位置服務社交網站Gowalla與Brightkite的用戶數據以及由歐洲某電信運營商提供的用戶定位和聯系數據。結果顯示,一方面,兩個用戶成為朋友的概率隨物理距離的增加而降低;另一方面,當用戶做旅行規劃時,他的社交關系對目標地點的選擇存在一定的影響:對于短途旅游,用戶對目標地點的選擇一般獨立于其社交關系;對于長途旅游,目標地點一般會被優先考慮在有朋友居住的地方。
與參考文獻[24]相類似的工作還有Ye、Yin和Lee的研究[25],在這一工作中,他們分析了位置服務社交網站Foursquare的用戶數據,結果顯示,若兩個用戶間存在社交聯系,則在相同的地理位置共同出現的概率要遠遠高于他們間沒有社交關系時的概率,即對于用戶A和B,記他們去過的地方集合分別為,則在A、B兩者是朋友時,r的取值遠大于兩者不是朋友時的取值。
容易看出,參考文獻[24,25]的發現對旅游行業的廣告推薦具有非常重要的意義,由于用戶在規劃長途旅游時會傾向于選擇有朋友或朋友去過的地方,因此基于用戶社交網絡聯系的目標地點推薦有可能會獲得良好的效果。
推薦服務是在線社交系統與內容服務系統的核心功能之一,常見的推薦內容包括廣告、電影、音樂、朋友關系以及旅游線路等,為能向用戶提供個性化的推薦服務,近年來,有大量的工作投入對用戶行為特點與待推薦目標兩者之間聯系的分析之中。
在社交網絡服務中,一個核心的應用是朋友關系的發現和推薦,參考文獻[23]的結論為此提供了支持,如Ling等人的工作[26]可以視為對參考文獻[23]的直接應用,在這一工作中,Ling等人設計了向量化的數據結構來表示用戶在空間上的歷史訪問記錄和共同出現記錄,進而使用歐氏距離度量用戶間的熟悉程度,并在社交網絡中“相熟”用戶間進行朋友推薦。
另一方面,在參考文獻[23,26]等的工作中,用戶間“相似性”的計算依據是用戶與物理空間中特定參照物間的相對位置關系,這一計算方式雖然直觀而簡單,卻不能直接應用于遠距離用戶間的相似度計算。事實上,當兩個用戶間的物理距離充分大時,容易猜測,他們多次在同一區域中共同出現的概率將趨向于0,但在現實中,即使在這種極端的情況下,有很多用戶仍然在社交網絡中結為好友。為解決這一問題,Xiao等人[27]的做法是把原始的空間位置抽象為更高一級的概念,使用位置空間的語義代替具體的物理地址進行相似度計算,在這一計算模式下,可以認為,當兩個用戶的行為軌跡語義相近時,則他們間有可能存在朋友關系。例如,若有兩位用戶的出行軌跡都是“購物中心—餐館—電影院”,則認為他們是相似的,因而可以在他們之間互相做朋友關系并推薦位置服務。
除了發現新的社交關系外,協助用戶強化現有的聯系也是社交網絡平臺所關注的焦點之一。Braga等研究人員提出了一種通過分析用戶的線下行為來促進其線上交互的策略[28],以用戶的行為軌跡為研究對象,把最小有界矩形(minimum bounding rectangle)應用于好友用戶的行為軌跡,從中提取這些用戶的日常公共活動區域,進而在社交網絡上為他們共享這些結果,以此促進彼此的線上互動。
旅游推薦是用戶行為軌跡分析的另一個重要應用。由于社交關系對用戶旅游地點的選擇起著重要的影響,因此可以認為,這一結論從側面上證實了病毒營銷策略在旅游廣告推薦中的有效性,此外預期它還將深刻地影響未來旅游廣告的推薦行為,社交關系將成為廣告推薦的主要依據。事實上,在Ye等人[25]的研究中,已經對此做了初步的嘗試。
對于基于用戶行為軌跡的分析應用,一方面,在內容上,智能交通領域的主要焦點仍然聚焦在對駕駛路徑誘導、交通狀態判斷等傳統問題的研究上;相對而言,基于互聯網的應用研究則更為活躍,特別地,隨著社交網絡因素的引入,相關工作已經展現了樂觀的前景。然而,需要指出的是,作為一個新興的研究方向,有眾多的問題有待進一步探討,其中最為核心的一個問題是如何針對特定的商業需求,從用戶的歷史軌跡中提取深層次的關聯行為,這也是支持和推動這一方向深入發展的動力。另一方面,在手段上,“大數據”已經成為對用戶行為軌跡分析的主流方向。
對于智能交通系統的研究,近年來,隨著D2ITS的興起,“大數據”已經成為這一領域研究中必不可少的組成部分。這是由于在動態交通數據采集系統中,隨著采集手段的完善,需要處理的數據規模隨之高速增長。這里僅以國內某省級公路交通數據中心為例進行說明。
浮動車數據是該數據中心的主要數據資源之一,目前接入中心內的浮動車數目已經接近100 000輛,平均每車以15 s/次的頻率向數據中心發送實時交通狀態信息(每條信息包括記錄編號、車輛識別號、車輛位置的經緯度、車行方向、瞬時速度以及時戳),據此估算,每天該數據中心將新增約17億條記錄,以每條記錄占30 byte計算,則每天該數據中心新增約48 GB的浮動車數據。
在其他各項應用中,“大數據”依然占有十分顯著的位置。如Crandalla等人[23]為分析用戶的物理距離與社交關系的聯系,使用了Flickr上的3 800萬張照片記錄;Cho及其合作者[24]使用了位置服務社交網站Gowalla的640萬條用戶登錄數據和發生在196 591個用戶間的950 327對用戶關系數據、網站Brightkite的450萬條用戶登錄數據和發生在58 228個用戶間的950 327對用戶關系數據以及由歐洲電信運營商提供的發生在200萬用戶間的4.5億次通話聯系數據。
之所以需要如此規模龐大的數據,原因之一在于數據獲取的便利性,對于車輛的GPS軌跡數據,相關的運營商處有完整的記錄;對于用戶的社交網絡數據和其他定位數據,由于當前主流的位置服務和社交應用平臺 (如Facebook、Twitter以及Flickr等)已經積累了大量的用戶數據,通過使用網絡爬蟲等工具,研究人員可以較為方便地抓取獲得這些數據。但根本的原因還是數據的稀疏性。以Cho[24]的工作為例進行說明:容易理解,雖然參考文獻[24]中所使用的3個數據集都包含了大規模的用戶活動記錄,然而在任一數據集中,相對于用戶總量的規模,發生在用戶間的關系(無論是社交關系,還是在物理空間上的接近關系)仍然是極為稀疏的,試圖在這兩種關系之間建立概率聯系,顯然會導致一個更為稀疏的結果,為了克服這一問題,研究者只能通過提升原始數據的規模以獲得更多的支持。
在“大數據”的背景下,對高效快速的數據分析處理算法的研究,已成為用戶行為軌跡的分析與應用研究的核心內容之一。參考文獻[29]中提出了一個著名的觀點:“更多的數據勝過更聰明的算法”,這一論斷在現有的工作中已經得到了充分的證明。事實上,在現有的對用戶行為軌跡的研究工作中,大多強有力的結果都建立在高度簡化的假設以及對現有數據的統計、分析和擬合之上[23,24];也有其他工作是對某些成熟高效的機器學習算法的應用,如決 策 樹[12,14]、mean shift聚 類[16]等。由此,在這一研究領域中,對現有算法和模型的合理選擇與高效實現,也許比新型算法的設計更為重要。
參考文獻
1 Minakakis R.Evolution of mobile location-based services.Communication of the ACM,2003,46(12)
2 Quddus M A,Ochieng W Y,Noland R B.Current mapmatching algorithms for transport applications:state-of-the art and future research directions.Transportation Research Part C,2007(15):312~328
3 Ge Y,Xiong H,Liu C,et al.A taxi driving fraud detection system.Proceedings of the 11th IEEE International Conference on Data Mining(ICDM'11),Vancouver,Canada,2011:181~190
4 Zhang D Q,Li N,Zhou Z H,et al.iBAT:detecting anomalous taxi trajectories from GPS traces.Proceedings of the 13th ACM International Conference on Ubiquitous Computing(UbiComp’11),Beijing,China,2011:99~108
5 Chen C,Zhang D Q,Castro P S,et al.Real-time detection of anomalous taxi trajectories from GPS traces.Proceedings of the 8th Annual International ICST Conference on Mobile and Ubiquitous System(MobiQuitous’11),Copenhagen,Denmark,2011:63~74
6 Zhang J P,Wang F Y,Wang K F,et al.Data-driven intelligent transportation systems:a survey.IEEE Transations on Intelligent Transportation Systems,2011,12(4)
7 Cao L,Krumm J.From GPS traces to a routable road map.17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems(ACM SIGSPATIAL GIS 2009),Seattle,WA,2009:3~12
8 Chen Y H,Krumm J.Probabilistic modeling of traffic lanes from GPS traces.18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems(ACM SIGSPATIAL GIS 2010),San Jose,CA,USA,2010
9 Gonzalez H,Han J W,Li X L,et al.Adaptive fastest path computation on a road network:a traffic mining approach.VLDB 2007,Vienna,Austria,2007
10 Yuan J,Zheng Y,Zhang C Y,et al.T-drive:driving directions based on taxi trajectories.Proceedings of ACM SIGSPATIAL 2010,New York,USA,2010
11 Bastani F.A greener transportation mode:flexible routes discovery from GPS trajectory data.GIS 2011,San Jose,California,USA,2011
12 Zheng Y,Liu L,Wang L H,et al.Learning transportation mode from raw GPS data for geographic applications on the web.Proceedings of International Conference on World Wild Web(WWW 2008),Beijing,China,2008
13 He H B,Garcia E A.Learning from imbalanced data.IEEE Transactions on Knowledge and Data Engineering,2009,21(9)
14 Leon Stenneth,Ouri Wolfson,Philip S Yu,et al.Transportation mode detection using mobile phones and GIS information.GIS 2010,San Jose,CA,USA,2010
15 Mikkel Baun Kjargaard,Martin Wirz,Daniel Roggen,et al.Detecting pedestrian flocks by fusion of multi-modal sensors in mobile phones.UbiComp 2012,Pittsburgh,Pennsylvania,United States,2012
16 PabloBellver A K.Extracting patterns from location history.GIS 2011,San Jose,California,USA,2011
17 Ying J C,Lee W C,Weng T C,et al.Semantic trajectory mining for location prediction.GIS 2011,San Jose,California,USA,2011
18 Zheng J C,Lionel M Ni.An unsupervised framework for sensing individual and cluster behavior patterns from human mobile data.UbiComp 2012,Pittsburgh,Pennsylvania,United States,2012
19 David M,Andrew Y,Michael I.Latent dirichlet allocation.Journal of Machine Learning Research 3(4-5):993~1022
20 Yuan J,Zheng Y,Xie X.Discovering regions of different functions in a city using human mobility and POIs.KDD 2012,Beijing,China,2012
21 Leskovec J,Horvitz E.Planetary-scale views on a large instant-messaging network.Proceedings of the 17th International Conference on World Wide Web,New York,USA,2008
22 Leskovec J,Kleinberg J,Faloutsos C.Graphs over time:densification laws,shrinking diameters and possible explanations.KDD 2005,Chicago,IL,USA,2005
23 David J Crandalla,Backstromb L,Cosleyc D,et al.Inferring social ties from geographic coincidences.Proceedings of the National Academy of Sciences of the United States of America,2010
24 Cho E,Myers S A,Leskovec J.Friendship and mobility:user movement in location-based social networks.KDD 2011,San Diego,CA,USA,2011
25 Xiao X Y,Zheng Y,Luo Q,et al.Finding similar users using category-based location history.GIS 2010,San Jose,CA,2010
26 Huy Pham,Ling Hu,Cyrus Shahabi.Towards integrating real-world spatiotemporal data with social networks.GIS 2011,San Jose,California,USA,2011
27 Ye M,Yin P F,Wang-ChienLee.Location recommendation for location-based social networks.GIS 2010,San Jose,CA,USA,2010
28 Braga R B.A trajectory correlation algorithm based on users’daily routines.GIS 2011,San Jose,California,USA,2011
29 A few useful things to know about machine learning.Communications of the ACM,2012,55(10):78~87