徐豐力,李勇
(清華大學(xué)電子工程系,北京 100084)
近年來,隨著移動網(wǎng)絡(luò)的飛速發(fā)展和移動用戶的迅猛增加[1],城市環(huán)境中的移動互聯(lián)網(wǎng)逐步成為一個巨大的感知平臺,產(chǎn)生了刻畫用戶日常時空行為的海量“電子足跡數(shù)據(jù)”,所形成的移動行為大數(shù)據(jù)記錄了大規(guī)模用戶在何時(when)、何地(where)、做何事(what)等行為信息,蘊(yùn)含了豐富的社會、經(jīng)濟(jì)和學(xué)術(shù)價值[2]。海量的智能終端和可穿戴設(shè)備連接到覆蓋范圍越來越小的移動網(wǎng)絡(luò)基站或?qū)拵Ы尤朦c(diǎn)時,運(yùn)營商和服務(wù)提供商通過網(wǎng)絡(luò)定位、GPS 等方法記錄了移動用戶在物理世界的細(xì)粒度移動行為,這些數(shù)據(jù)得到了學(xué)術(shù)界和產(chǎn)業(yè)界越來越多的關(guān)注。例如,在移動網(wǎng)絡(luò)領(lǐng)域,研究者提出了基于移動行為大數(shù)據(jù)的移動網(wǎng)絡(luò)優(yōu)化機(jī)制[3];在移動計算領(lǐng)域,研究者正在建立移動大數(shù)據(jù)驅(qū)動的移動網(wǎng)絡(luò)信息平臺[4]。然而,由于移動行為數(shù)據(jù)存在規(guī)模大、維度高、噪聲強(qiáng)、隱私風(fēng)險高等特點(diǎn),對現(xiàn)有分析挖掘模型帶來了很大的挑戰(zhàn),其內(nèi)在價值仍遠(yuǎn)未被充分開發(fā)應(yīng)用[5]。順應(yīng)生產(chǎn)力的發(fā)展趨勢和新時代的要求,我國在近兩年大力推動人工智能和大數(shù)據(jù)的實(shí)戰(zhàn)應(yīng)用[6],明確要求產(chǎn)、學(xué)、研各界大力推動人工智能和大數(shù)據(jù)分析技術(shù)的快速發(fā)展,在總體技術(shù)和應(yīng)用上達(dá)到世界先進(jìn)水平,并指明人工智能和大數(shù)據(jù)分析技術(shù)將成為發(fā)展國民經(jīng)濟(jì)水平、改善民生的新途徑。而在全世界范圍內(nèi),城市環(huán)境成為諸多應(yīng)用的典型場景。城市環(huán)境下的移動行為建模對移動網(wǎng)絡(luò)優(yōu)化、疾病防控、公共管理、城市規(guī)劃等領(lǐng)域存在重要應(yīng)用價值。基于以上背景,本文聚焦于城市環(huán)境下的用戶移動行為建模問題,討論了該問題面對的主要挑戰(zhàn)和對應(yīng)的研究框架,并梳理、總結(jié)了該領(lǐng)域的研究現(xiàn)狀。
在世界范圍內(nèi),城市環(huán)境移動行為數(shù)據(jù)的挖掘與應(yīng)用受到了廣泛的關(guān)注,前沿研究機(jī)構(gòu)在這一領(lǐng)域開展了一系列的研究與探索。一方面,從群體角度看,移動大數(shù)據(jù)蘊(yùn)含用戶分布的時空規(guī)律和業(yè)務(wù)需求的時空特征,這些規(guī)律將有助于移動網(wǎng)絡(luò)、交通系統(tǒng)、醫(yī)療系統(tǒng)等實(shí)現(xiàn)更加高效的資源適配和優(yōu)化;另一方面,從個體角度看,在長時間的歷史個體移動軌跡中,有可能找到移動行為的時空模式,實(shí)現(xiàn)對用戶未來移動軌跡的預(yù)測,為下游應(yīng)用提供有效支持。因此,海內(nèi)外的研究者對個體、群體層面的移動模式識別和行為預(yù)測展開了大量研究。在關(guān)鍵移動行為模式識別方面,研究者提出在宏觀層面用服從冪律分布的隨機(jī)過程建模人群單次移動距離與移動時間間隔的統(tǒng)計特征[7],在微觀層面用頻繁子序列挖掘、主成分分析、聚類分析、表征學(xué)習(xí)等成熟數(shù)據(jù)挖掘模型識別個體時空行為模式的解決策略[8]。在移動行為預(yù)測方法方面,個體移動軌跡預(yù)測與群體時空分布預(yù)測成為關(guān)注焦點(diǎn),學(xué)術(shù)界提出了從時空行為數(shù)據(jù)中識別人群的宏觀時空行為模式,用概率統(tǒng)計建模并對未來時空行為進(jìn)行預(yù)測的解決思路[9];此外,基于經(jīng)典的馬爾可夫鏈和隱藏馬爾可夫鏈等序列挖掘模型也被廣泛研究用于建模和預(yù)測個體的移動軌跡序列[10]。然而,相關(guān)研究工作針對的問題較分散,研究成果彼此間的關(guān)聯(lián)、協(xié)同不足,未能形成統(tǒng)一的研究框架和知識體系,對下游應(yīng)用的支撐能力存在不足。
城市環(huán)境下的用戶移動行為建模問題處于多個前沿學(xué)科的交叉領(lǐng)域,其與信息技術(shù)、數(shù)據(jù)挖掘、城市科學(xué)、社會科學(xué)等經(jīng)典研究領(lǐng)域存在深層次的耦合[11]。概括地說,該研究問題旨在利用城市環(huán)境下采集的海量用戶移動行為數(shù)據(jù),挖掘識別出個體、群體層面用戶的移動行為模式,探索其與城市結(jié)構(gòu)的相互作用機(jī)制,并構(gòu)建能在下游領(lǐng)域直接應(yīng)用的用戶移動預(yù)測模型。這一研究問題在移動網(wǎng)絡(luò)覆蓋日益普及、大數(shù)據(jù)分析技術(shù)方興未艾的今天具有重要意義,其研究成果對下游的無線通信網(wǎng)絡(luò)優(yōu)化、城市規(guī)劃、疾病防控、公共安全等領(lǐng)域有重要應(yīng)用價值,吸引了全球范圍學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注[12]。然而,該領(lǐng)域的研究課題仍面臨著諸多挑戰(zhàn),相關(guān)研究成果總結(jié)如下。
2.2.1 數(shù)據(jù)質(zhì)量差
移動行為數(shù)據(jù)往往從不同源頭由不同設(shè)備采集匯聚而成。已有研究工作對移動數(shù)據(jù)質(zhì)量帶來的挑戰(zhàn)已有較多討論[13-14],一方面,由于移動設(shè)備的數(shù)據(jù)采集能力較弱,覆蓋個體規(guī)模巨大,行為維度多等原因,單一個體在單一維度上的移動數(shù)據(jù)記錄十分稀疏[13];另一方面,由于采集設(shè)備處理能力不均、移動網(wǎng)絡(luò)數(shù)據(jù)丟失等原因,移動設(shè)備采集的數(shù)據(jù)普遍存在顯著的數(shù)據(jù)噪聲。并且,異源數(shù)據(jù)質(zhì)量存在較大差異,難以直接統(tǒng)一建模[14]。比如,通過蜂窩基站定位和衛(wèi)星信號采集的移動記錄在空間精度、記錄數(shù)目上存在較大差別。因此,如何在移動行為數(shù)據(jù)的挖掘中克服記錄稀疏和噪聲顯著等數(shù)據(jù)質(zhì)量問題是一個關(guān)鍵挑戰(zhàn)。
2.2.2 行為模式與城市環(huán)境存在復(fù)雜關(guān)聯(lián)
以智能移動終端為媒介采集的移動行為數(shù)據(jù)具有跨物理域、網(wǎng)絡(luò)域、社會域,覆蓋多維度行為信息和非結(jié)構(gòu)化的特點(diǎn),且不同維度的行為之間存在復(fù)雜的耦合關(guān)系。在城市環(huán)境下,群體和個體移動行為與城市結(jié)構(gòu)的關(guān)聯(lián)關(guān)系是近年來研究的焦點(diǎn)之一[15]。隨著城鎮(zhèn)化的發(fā)展,城市空間逐漸被劃分為功能各異的若干區(qū)域,從而形成了復(fù)雜的城市結(jié)構(gòu)。而經(jīng)典的移動行為模式挖掘算法的刻畫能力較弱,只能捕捉較簡單或預(yù)先設(shè)定的行為模式,難以自適應(yīng)地、準(zhǔn)確地識別出用戶移動行為與城市結(jié)構(gòu)間的復(fù)雜關(guān)聯(lián)[16]。
2.2.3 移動行為存在復(fù)雜的高階時空關(guān)聯(lián)
城市尺度下的真實(shí)移動行為數(shù)據(jù)中往往包含復(fù)雜的高階時空相關(guān)性。舉例而言,在時間維度上,個體的移動性受多種周期性行為的影響,當(dāng)前所處位置常常與一天前同一時間或一周前同一時間所處位置相同;在空間維度上,彼此距離很遠(yuǎn)的地點(diǎn)也可能會因?yàn)榈攸c(diǎn)性質(zhì)相似而吸引相同的人群訪問[17]。另一方面,這種高階時空相關(guān)性是因人而異、因地而異、因時而異的,且往往與社交域、網(wǎng)絡(luò)域的行為存在關(guān)聯(lián)[18]。這種復(fù)雜的高階時空關(guān)聯(lián)對高質(zhì)量的移動行為預(yù)測提出了巨大挑戰(zhàn),經(jīng)典的馬爾可夫鏈等簡單序列模型無法有效建模高階、多尺度的時空相關(guān)性。
2.2.4 數(shù)據(jù)隱私風(fēng)險
在具有重要的學(xué)術(shù)與應(yīng)用價值的同時,城市環(huán)境下的細(xì)粒度用戶移動行為數(shù)據(jù)也存在嚴(yán)重的隱私風(fēng)險。潛在攻擊者通過簡單觀測個體移動數(shù)據(jù)即可對目標(biāo)個體進(jìn)行跟蹤和監(jiān)控,甚至進(jìn)一步推測出其居住地址、工作單位、常去商鋪等敏感信息。這些潛在的隱私風(fēng)險不僅對個體信息安全構(gòu)成了重要挑戰(zhàn),也妨礙了高質(zhì)量移動數(shù)據(jù)在學(xué)術(shù)界、產(chǎn)業(yè)界的有效流通,從而無法充分發(fā)揮其內(nèi)在價值。實(shí)現(xiàn)同時保障用戶隱私、數(shù)據(jù)質(zhì)量和應(yīng)用價值的移動數(shù)據(jù)共享成為相關(guān)領(lǐng)域研究的重要挑戰(zhàn)[19]。
城市環(huán)境的移動行為建模是一個新興的交叉領(lǐng)域。結(jié)合2.2 節(jié)所訴的主要挑戰(zhàn),這一領(lǐng)域的核心科學(xué)問題可以總結(jié)為以下4 個方面,其存在層層遞進(jìn)的關(guān)系,如圖1 所示。
圖1 城市環(huán)境移動行為建模的4 個核心科學(xué)問題
2.3.1 移動行為數(shù)據(jù)增強(qiáng)算法
隨著移動通信技術(shù)的快速發(fā)展,城市環(huán)境下用戶手持的智能終端和海量物聯(lián)網(wǎng)設(shè)備成為采集移動行為數(shù)據(jù)最有效的平臺。然而,各渠道采集的移動行為數(shù)據(jù)均存在數(shù)據(jù)稀疏、數(shù)據(jù)準(zhǔn)確度低等數(shù)據(jù)質(zhì)量問題[14]。因此,有效融合異源采集的移動行為數(shù)據(jù),從而實(shí)現(xiàn)移動數(shù)據(jù)增強(qiáng)是城市環(huán)境移動行為建模的一個關(guān)鍵課題。
用戶移動行為模式的已有研究表明,個體移動行為存在兩點(diǎn)基本共性:一方面,個體移動行為存在顯著的周期性[20];另一方面,不同個體間的移動則存在明顯的差別[21]。因此,異源移動行為數(shù)據(jù)融合問題等價為基于移動行為模式判斷不同渠道采集的移動數(shù)據(jù)是否屬于同一用戶的預(yù)測問題。具體而言,該科學(xué)問題涉及的主要研究內(nèi)容如下。
1) 針對移動行為數(shù)據(jù)由于采集機(jī)制、感知設(shè)備、采集場景不同而導(dǎo)致的數(shù)據(jù)質(zhì)量差異大、數(shù)據(jù)非結(jié)構(gòu)化的特點(diǎn),研究構(gòu)建可以普遍適用于多種場景產(chǎn)生的移動行為數(shù)據(jù)的融合算法,實(shí)現(xiàn)基于互補(bǔ)的多源移動數(shù)據(jù)的融合增強(qiáng)[22]。
2) 在多維度移動行為數(shù)據(jù)(即除時空信息外,還包含與之關(guān)聯(lián)的網(wǎng)絡(luò)行為、社交行為等輔助維度)中,研究可以建模輔助維度信息的移動行為相似度測量機(jī)制,使其在不同來源的移動行為數(shù)據(jù)上具備足夠的泛化能力和拓展能力,并充分利用其他輔助維度的信息[23]。
3) 針對移動行為數(shù)據(jù)由于終端數(shù)據(jù)處理能力較弱、記錄丟失等原因不可避免地存在顯著噪聲的問題,探索識別并過濾數(shù)據(jù)噪聲的方法,并研究基于移動行為規(guī)律補(bǔ)全缺失移動數(shù)據(jù)的算法,提出可靠方法來進(jìn)一步提高移動數(shù)據(jù)在真實(shí)應(yīng)用場景下的穩(wěn)健性和應(yīng)用價值[24]。
2.3.2 城市結(jié)構(gòu)感知的移動行為模式識別
在城市環(huán)境下,識別出城市結(jié)構(gòu)感知的移動行為模式是一個重點(diǎn)研究課題。隨著城市功能分區(qū)的不斷細(xì)化[25],用戶在城市空間中的移動往往有與城市結(jié)構(gòu)相關(guān)的具體意圖,如上班、購物等。因此,如何結(jié)合城市結(jié)構(gòu)建模城市環(huán)境下的移動行為模式,并推斷移動行為對應(yīng)的意圖成為一個重要的科學(xué)問題。其核心難點(diǎn)在于識別基于意圖的移動行為模式,而非在物理空間中相似的移動軌跡。具體而言,這一問題對應(yīng)的主要研究內(nèi)容如下。
1) 通過對個體移動行為意圖的理解和對城市結(jié)構(gòu)信息的重新整合,研究可以有效表征個體移動意圖的、不受物理空間遠(yuǎn)近約束的移動行為模式表示方法及與之匹配的模式識別算法[26]。
2) 基于大規(guī)模社交媒體中富含語義的個體簽到數(shù)據(jù)(包括具體的簽到時間、詳細(xì)的地理位置和對應(yīng)的興趣點(diǎn)信息等)的支持,設(shè)計深度表征學(xué)習(xí)算法以實(shí)現(xiàn)無監(jiān)督的移動語義信息挖掘,并提取同時保留物理空間移動行為模式和移動意圖語義信息的低維向量表示[27]。
3) 研究意圖感知的移動行為低維表征提取方式,通過聚類分析得到典型的移動行為模式,建立移動用戶個體時空模型,并進(jìn)一步分析不同的行為模式的特點(diǎn)及其與城市結(jié)構(gòu)的關(guān)聯(lián)[28]。
2.3.3 多時空尺度的移動行為預(yù)測模型
城市環(huán)境下的移動行為預(yù)測問題主要可以分為個體移動行為預(yù)測和群體移動行為預(yù)測兩類。在個體移動行為預(yù)測方法方面,由于人類活動的規(guī)律性和復(fù)雜性,個體用戶移動行為存在高階時空相關(guān)性和顯著的多尺度周期行為。同時,由于移動行為數(shù)據(jù)的產(chǎn)生和收集方式的限制,真實(shí)數(shù)據(jù)中往往存在大量噪聲,而且通常具有稀疏性和復(fù)雜性的特點(diǎn)。因此,圍繞這一科學(xué)問題的研究熱點(diǎn)主要包含以下具體內(nèi)容。
1) 基于遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)工具,建模個體移動行為在不同時空尺度上的高階時空相關(guān)性,實(shí)現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的移動行為預(yù)測模型[29]。
2) 通過引入注意力機(jī)制等,研究個體時空行為中的多尺度周期性(包括以日、周為周期的時間維度規(guī)律,甚至季節(jié)規(guī)律等),建立針對性的移動行為刻畫模型以提高個體時空行為預(yù)測的準(zhǔn)確性[30]。
3) 基于深度表征學(xué)習(xí)方法,研究綜合利用個體移動行為數(shù)據(jù)中輔助維度信息(包括時間、空間信息和興趣點(diǎn)以及文字評論等豐富的語義信息)的可行性,實(shí)現(xiàn)對于稀疏移動數(shù)據(jù)的合理使用,建立表現(xiàn)穩(wěn)健、可以應(yīng)用于復(fù)雜場景的一般模型。
在群體移動行為預(yù)測方面,由于高精度數(shù)據(jù)獲取的困難性,當(dāng)前研究的重心為基于粗粒度的群體時空分布數(shù)據(jù)預(yù)測動態(tài)的、細(xì)粒度的群體移動行為的映射問題。粗粒度的人口普查結(jié)果是目前最常用的群體時空分布的數(shù)據(jù),但是人口普查數(shù)據(jù)存在空間解析度太低以及無法實(shí)時預(yù)測群體移動行為的問題導(dǎo)致其在現(xiàn)實(shí)應(yīng)用中受到很大局限[1]。隨著移動通信的普及,覆蓋城市的大量移動蜂窩基站成為理想的探測人群分布傳感器,即可以提供近乎實(shí)時的、精細(xì)到百米級別的群體移動行為數(shù)據(jù)。但是因?yàn)殡娦艛?shù)據(jù)的敏感性,這樣理想的群體移動數(shù)據(jù)極難獲得和使用,極大地阻礙了相關(guān)研究[31]。具體而言,圍繞這一科學(xué)問題的主要研究內(nèi)容如下。
1) 基于電信數(shù)據(jù)等高精度、大規(guī)模群體移動數(shù)據(jù),分析城市范圍內(nèi)人群的時空分布特點(diǎn)和遷移規(guī)律,給出預(yù)測群體移動行為的關(guān)鍵因素和性能分析方法[31]。
2) 考慮群體移動行為的空間關(guān)聯(lián)性,研究設(shè)計基于卷積網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等深度學(xué)習(xí)模型的、從粗粒度人口普查分布向細(xì)粒度的人群分布的算法,并基于采集的真實(shí)時空行為大數(shù)據(jù)測試實(shí)際性能[32]。
3) 考慮群體移動行為的時間連續(xù)性,研究基于遞歸神經(jīng)網(wǎng)絡(luò)優(yōu)化空間分布映射結(jié)果的有效性和實(shí)現(xiàn)動態(tài)映射實(shí)時估計的可行性。
2.3.4 移動數(shù)據(jù)隱私保護(hù)機(jī)制
在城市環(huán)境的移動行為建模中,隱私保護(hù)機(jī)制的主要目標(biāo)是實(shí)現(xiàn)在保護(hù)用戶隱私前提下的數(shù)據(jù)共享、發(fā)布與挖掘,為移動行為數(shù)據(jù)的有效流通提供基礎(chǔ)。在這一目標(biāo)下,群體和個體的移動行為數(shù)據(jù)中現(xiàn)行的隱私保護(hù)機(jī)制主要為匿名化處理和聚合化處理策略,即在共享移動行為數(shù)據(jù)前去除個體移動數(shù)據(jù)的用戶標(biāo)識或?qū)⑷后w移動數(shù)據(jù)聚合為集計形式。現(xiàn)有隱私保護(hù)機(jī)制的核心思路是阻止?jié)撛诠粽攉@取目標(biāo)用戶的移動行為信息,從而消除數(shù)據(jù)集中個體用戶的隱私風(fēng)險。然而,近期研究工作表明用戶移動行為存在強(qiáng)規(guī)律性、高唯一性等特點(diǎn)[21]。因此,攻擊者有可能在匿名甚至聚合的移動行為數(shù)據(jù)中推斷出個體用戶的敏感信息。在此背景下,該科學(xué)問題衍生的主要研究內(nèi)容為以下幾點(diǎn)。
1) 分析移動用戶行為模式中可能被攻擊者利用的關(guān)鍵因素,建立針對匿名化處理和聚合化處理的去匿名攻擊模型和軌跡恢復(fù)攻擊模型,測量攻擊模型在真實(shí)數(shù)據(jù)中的可行性。
2) 基于所提攻擊模型分析真實(shí)移動網(wǎng)絡(luò)大數(shù)據(jù)中的隱私風(fēng)險,并探索影響隱私風(fēng)險的關(guān)鍵因素,為實(shí)現(xiàn)可靠的數(shù)據(jù)隱私風(fēng)險測量與保護(hù)算法奠定理論基礎(chǔ)[33]。
3) 針對移動行為數(shù)據(jù)的典型應(yīng)用場景,設(shè)計關(guān)鍵隱私保護(hù)算法及保障用戶隱私的數(shù)據(jù)共享算法,從而為保護(hù)用戶隱私的移動行為數(shù)據(jù)共享與流通奠定基礎(chǔ)[34]。
依據(jù)2.3 節(jié)總結(jié)的關(guān)鍵科學(xué)問題,本節(jié)梳理、概括了城市環(huán)境下移動行為建模的相關(guān)已有研究與典型技術(shù)方案,其中各部分研究成果的關(guān)聯(lián)關(guān)系如圖2 所示。
圖2 城市環(huán)境下移動行為建模主要研究內(nèi)容間的關(guān)聯(lián)關(guān)系
伴隨著移動網(wǎng)絡(luò)應(yīng)用的極大豐富,用戶在網(wǎng)絡(luò)空間中產(chǎn)生的行為記錄往往關(guān)聯(lián)到不同業(yè)務(wù)的用戶標(biāo)識。這些用戶標(biāo)識可能通過不同的移動設(shè)備進(jìn)行登錄,混雜在由不同數(shù)據(jù)源采集到的移動行為大數(shù)據(jù)集中。識別不同數(shù)據(jù)集中對應(yīng)同一用戶的不同身份標(biāo)識,是實(shí)現(xiàn)異源移動數(shù)據(jù)融合、增強(qiáng)移動數(shù)據(jù)質(zhì)量的關(guān)鍵問題。相關(guān)研究工作中,研究者提出了基于用戶屬性[35]、用戶社交網(wǎng)絡(luò)[36]和用戶行為模式[37]的跨域用戶標(biāo)識識別算法。由于移動數(shù)據(jù)是用戶行為的一個維度,本文重點(diǎn)討論基于用戶行為模式的標(biāo)識識別算法在異源移動數(shù)據(jù)融合中的應(yīng)用。按采用的技術(shù)方案,這部分研究工作可以分為概率圖模型[38]和深度學(xué)習(xí)模型[23]兩大類。
文獻(xiàn)[38]通過在物理空間中不同用戶標(biāo)識在同一設(shè)備或同一時空點(diǎn)上同時出現(xiàn)的頻率,建立了用戶標(biāo)識之間關(guān)聯(lián)強(qiáng)弱的無向有權(quán)圖,其刻畫了不同數(shù)據(jù)集的用戶標(biāo)識之間屬于同一用戶的概率。即在用戶標(biāo)識關(guān)聯(lián)圖上,連接越緊密的用戶標(biāo)識表示它們在物理空間中同時訪問相同時空點(diǎn)的頻率越高,因此有更大概率屬于同一用戶。基于這一思路,研究者構(gòu)建了用戶標(biāo)識關(guān)系圖上的貝葉斯推斷模型,用于探測圖上潛在的用戶標(biāo)識簇,從而在無監(jiān)督信息的情況下識別對應(yīng)同一用戶的標(biāo)識。
另一方面,文獻(xiàn)[23]提出了一種基于孿生遞歸網(wǎng)絡(luò)的用戶標(biāo)識關(guān)聯(lián)方案。其核心思路是基于移動軌跡數(shù)據(jù)中個體移動的自相似性和不同個體間移動的差別性所提供的“弱標(biāo)簽”,將用戶標(biāo)識關(guān)聯(lián)問題等效為異源移動軌跡相似度測量問題。這一等價轉(zhuǎn)化使模型可以借助少量監(jiān)督數(shù)據(jù)在軌跡層面推斷用戶標(biāo)識間的關(guān)聯(lián),其模型結(jié)構(gòu)如圖3 所示。核心組件包括共享多模態(tài)嵌入編碼單元、孿生遞歸網(wǎng)絡(luò)單元、交互式選擇單元和全連接比較器,針對性地克服了基于移動數(shù)據(jù)的用戶關(guān)聯(lián)的關(guān)鍵挑戰(zhàn)。①通過引入端到端學(xué)習(xí)的遞歸神經(jīng)網(wǎng)絡(luò)和孿生網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)移動軌跡特征的自動提取,取消了對人工特征工程的依賴,也使模型可以直接應(yīng)用不同來源采集的移動數(shù)據(jù);②為了充分利用移動網(wǎng)絡(luò)中的伴隨移動行為數(shù)據(jù)的豐富輔助信息(如興趣點(diǎn)和文字評論等多模態(tài)信息),該模型在遞歸神經(jīng)網(wǎng)絡(luò)之前設(shè)計了專門的共享多模編碼模塊,將移動行為數(shù)據(jù)中包括時間、空間、興趣點(diǎn)、文本評論在內(nèi)的多維信息進(jìn)行綜合表征和利用;③為了應(yīng)對移動行為數(shù)據(jù)中的噪聲影響,該模型引入了注意力機(jī)制,構(gòu)建了交互式選擇單元來對整個軌跡片段的特征進(jìn)行進(jìn)一步的有所側(cè)重的選擇。直觀上,噪聲移動數(shù)據(jù)的表征向量由于與整段移動軌跡的表征向量的相似度較低而被“過濾”,不能對移動行為相似度判斷產(chǎn)生較大影響,同時真實(shí)的移動行為數(shù)據(jù)的表征向量被加以較高的注意力權(quán)重,從而進(jìn)一步提高該模型提取相似移動軌跡特征的能力。
圖3 基于深度學(xué)習(xí)的軌跡相似度測量模型結(jié)構(gòu)
移動行為模式識別是一個由來已久的研究課題[16,39-40]。根據(jù)采用的技術(shù)路線不同,典型移動模式挖掘算法可以分為基于共有移動子序列挖掘和基于軌跡相似度測量兩類。基于共有移動子序列挖掘的相關(guān)研究的主要目標(biāo)是識別移動數(shù)據(jù)中多個個體共有的移動序列,其代表性工作有Giannott 等[16]提出的T-pattern 模型,用于識別移動數(shù)據(jù)集中頻繁出現(xiàn)的移動子序列;Mamouli 等[39]則研究了周期性頻繁移動序列的識別問題;Lee等[8]提出分割-聚類法,首先識別軌跡中頻繁出現(xiàn)的子序列,然后根據(jù)頻繁移動子序列聚類移動行為模式。在移動軌跡的相似度測量的相關(guān)研究中,Zhang 等[40]通過主成分分析法對移動行為數(shù)據(jù)進(jìn)行隱特征提取,然后在隱空間中測量移動軌跡的相似性并進(jìn)行聚類分析;Yao 等[41]則通過循環(huán)神經(jīng)網(wǎng)絡(luò)為軌跡尋求表征向量,從而刻畫軌跡在位置、速度、加速度上的相似程度;動態(tài)時間規(guī)整(DTW,dynamic time warping)[42]和最大共同子序列(LCSS,longest common sub-sequence)[43]模型則實(shí)現(xiàn)了對于軌跡序列時間差異和移動順序的相似性建模。已有的研究工作利用物理空間遠(yuǎn)近或共同出現(xiàn)次數(shù)衡量移動行為差異,同一類模式局限于相近的物理空間,難以識別城市結(jié)構(gòu)感知的移動行為模式。例如,具有相同目的但空間相隔較遠(yuǎn)的移動模式(比如從住宅區(qū)前往辦公區(qū)上班的移動模式)無法被識別。
針對這一挑戰(zhàn),近期的2 個工作研究了城市結(jié)構(gòu)感知的移動模式識別問題[28,44]。文獻(xiàn)[44]觀察到城市結(jié)構(gòu)感知的移動模式識別的難點(diǎn)在于移動意圖與物理空間的耦合,即現(xiàn)有移動軌跡相似度測量方法無法刻畫用戶移動行為在城市結(jié)構(gòu)層面的相似性。基于這一觀察,文獻(xiàn)[44]進(jìn)一步提出將用戶的移動軌跡抽象為在不同城市結(jié)構(gòu)上的時間劃分方式,從而使移動行為與具體的物理位置解耦,在物理空間中相距很遠(yuǎn)的用戶也可以提取相似的表征。在這種移動行為表征方式下,研究者設(shè)計了移動行為相似度測量方法與基于聚類分析的移動行為模式發(fā)現(xiàn)算法,并在真實(shí)數(shù)據(jù)中驗(yàn)證了算法的有效性。另一方面,文獻(xiàn)[28]在其基礎(chǔ)上設(shè)計了基于深度表征學(xué)習(xí)技術(shù)的保留城市結(jié)構(gòu)語義信息的移動軌跡表征方法。該模型的核心思路是將移動行為數(shù)據(jù)中的時空信息與訪問城市結(jié)構(gòu)的行為信息分離,并將移動軌跡數(shù)據(jù)表示為用戶在離散的時間片序列上在不同城市結(jié)構(gòu)間的跳轉(zhuǎn)方式。例如,用戶可能上午8 點(diǎn)處于住宅區(qū),而11 點(diǎn)處于辦公區(qū)。然后,該模型采用深度表征學(xué)習(xí)技術(shù),在抽象的移動行為序列上學(xué)習(xí)城市結(jié)構(gòu)感知的移動行為模式的低維表征,并通過聚類分析的方式發(fā)現(xiàn)數(shù)據(jù)集中的主要移動行為模式,其流程框架如圖4 所示。這一方法采用新興的深度表征學(xué)習(xí)技術(shù),將移動行為模式投影到低維向量,實(shí)現(xiàn)了便捷、高效的移動行為模式相似度度量。同時其可以有效地保留移動行為模式在城市結(jié)構(gòu)層面的語義,從而實(shí)現(xiàn)城市結(jié)構(gòu)感知的移動行為模式識別。
圖4 城市結(jié)構(gòu)感知的移動模式識別算法流程框架
移動行為預(yù)測的相關(guān)研究按照研究對象是個體移動用戶還是群體移動用戶可以分為兩類。其中,傳統(tǒng)的個體移動行為預(yù)測模型的準(zhǔn)確度與實(shí)際應(yīng)用要求存在差距。根據(jù)技術(shù)方案,已有研究工作又可以分為基于模式的方法和基于模型的方法[27,45]。一方面,基于模式的方法首先從移動數(shù)據(jù)發(fā)現(xiàn)其中蘊(yùn)含的若干時空行為模式,然后基于有限的時空行為模式進(jìn)行移動行為預(yù)測,此類方法局限于少數(shù)流行的移動模式而忽略了個體的偏好[27]。另一方面,基于模型的方法大多采用經(jīng)典的時間序列模型建模時空點(diǎn)之間的轉(zhuǎn)移關(guān)系,雖然可以根據(jù)個體數(shù)據(jù)學(xué)習(xí)不同模型,但是受困于序列建模工具只能捕捉淺層低階、時不變相關(guān)性的局限,此類方法取得的預(yù)測性能依舊有限[45]。隨著深度學(xué)習(xí)技術(shù)的日益成熟,理論上可以建模時變、高階、復(fù)雜轉(zhuǎn)移特性的遞歸神經(jīng)網(wǎng)絡(luò)成為研究熱點(diǎn),但是目前移動行為預(yù)測的大部分相關(guān)研究工作只是對遞歸神經(jīng)網(wǎng)絡(luò)的直接應(yīng)用[46-47],在針對移動行為數(shù)據(jù)特性的研究和設(shè)計上十分不足。另一方面,隨著終端智能設(shè)備計算能力的快速提升,城市環(huán)境下的移動行為數(shù)據(jù)往往包含了個體使用的移動應(yīng)用、訪問不同城市結(jié)構(gòu)、社交互動等多維度的行為信息[48]。如何在基于深度學(xué)習(xí)的移動行為預(yù)測模型中結(jié)合這些復(fù)雜的行為信息來提升性能,進(jìn)一步預(yù)測個體移動對應(yīng)的目的和行為類型,是本文當(dāng)前的重點(diǎn)研究方向。
文獻(xiàn)[30]針對性地設(shè)計了基于深度神經(jīng)網(wǎng)絡(luò)的城市環(huán)境移動行為預(yù)測模型,以實(shí)現(xiàn)對高階復(fù)雜時空相關(guān)性的準(zhǔn)確建模。總體而言,文獻(xiàn)[30]所提方案首先設(shè)計了特征抽取模塊來整合多維度信息輸入,然后利用遞歸神經(jīng)網(wǎng)絡(luò)建模高階時變的狀態(tài)轉(zhuǎn)移,并引入注意力機(jī)制來捕捉個體移動中的多尺度周期性,最后是全連接分類映射網(wǎng)絡(luò),具體的技術(shù)框架如圖5 所示。
圖5 基于深度注意力機(jī)制的個體移動預(yù)測方法技術(shù)框架
文獻(xiàn)[30]所提方案除預(yù)測模塊外主要由3 個部分構(gòu)成。①為了綜合利用軌跡數(shù)據(jù)中包括時間、空間、興趣點(diǎn)和文本評論等在內(nèi)的多維度信息,該模型設(shè)計了包含2 個組件的多模態(tài)編碼模塊:第一個組件獨(dú)立地對各個維度的特征進(jìn)行編碼,得到各個維度特征的稠密表征;第二個組件拼接和整合所有維度特征,從而得到移動軌跡數(shù)據(jù)中基本元素的綜合表示。基于多模態(tài)編碼模塊的表征能力,模型將得到整合多維度信息的能力,可以靈活地融合異構(gòu)的可用信息。②為了建模個體移動過程中復(fù)雜的高階狀態(tài)轉(zhuǎn)移關(guān)系,該模型引入遞歸神經(jīng)網(wǎng)絡(luò)。由于原生的遞歸神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中存在隨著序列的延長出現(xiàn)梯度爆炸或者梯度消失而導(dǎo)致其訓(xùn)練困難、建模能力有限的問題,該模型采用了多種專門的遞歸單元來克服這些問題,其中長短時記憶(LSTM,long short term memory)遞歸神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(GRU,gated recurrent unit)遞歸神經(jīng)網(wǎng)絡(luò)因其訓(xùn)練的高效性和表現(xiàn)的穩(wěn)定性而被廣泛使用于自然語言處理等復(fù)雜場景。③為了解決個體移動軌跡在較長時間尺度上表現(xiàn)出的較強(qiáng)的多尺度周期性問題,該模型設(shè)計了基于注意力機(jī)制的周期提取單元。具體而言,其首先將個體移動軌跡分為歷史軌跡和當(dāng)前軌跡兩部分,當(dāng)前軌跡正常通過遞歸神經(jīng)網(wǎng)絡(luò)完成復(fù)雜轉(zhuǎn)移關(guān)系的建模,而歷史軌跡部分則將通過專門的周期提取單元,并將在當(dāng)前軌跡的挑選下得到歷史軌跡中的周期性部分來輔助軌跡預(yù)測。
在群體移動行為預(yù)測方面,由于數(shù)據(jù)的缺乏和現(xiàn)有模型的局限性,如何準(zhǔn)確地預(yù)測人類群體的時空分布一直是學(xué)術(shù)界和公共管理部門關(guān)心的難點(diǎn)問題[31,49-50]。已有研究工作根據(jù)主要使用的數(shù)據(jù)來源可以分為兩部分:第一部分主要基于遙感數(shù)據(jù)并綜合使用土地資源等數(shù)據(jù),使用統(tǒng)計方法完成人口的空間分布估計[51],此類方法因?yàn)閿?shù)據(jù)本身的限制只能完成簡單的夜間人群空間分布估計,不可能實(shí)現(xiàn)實(shí)時的群體移動行為預(yù)測;另一方面,隨著移動設(shè)備的普及,大規(guī)模的電信信令數(shù)據(jù)為研究者提供了實(shí)時的群體分布采樣數(shù)據(jù),極大地推動了群體移動行為的研究[52]。基于電信系統(tǒng)記錄的用戶人數(shù)和實(shí)際群體分布間存在的冪律關(guān)系,相關(guān)研究綜合考慮土地功能等輔助數(shù)據(jù)用統(tǒng)計模型的方式建立了電信數(shù)據(jù)到群體分布的映射關(guān)系。然而,由于統(tǒng)計模型刻畫復(fù)雜關(guān)聯(lián)關(guān)系的能力十分有限,此類研究難以在預(yù)測準(zhǔn)確性上取得進(jìn)一步發(fā)展[53]。隨著深度學(xué)習(xí)在計算機(jī)視覺方向的成功應(yīng)用,部分學(xué)者考慮將真實(shí)的地理空間轉(zhuǎn)換為二維平面空間,從而可以引入計算機(jī)領(lǐng)域視覺成熟的工具和方法[53-54]。
受計算機(jī)視覺領(lǐng)域基于神經(jīng)網(wǎng)絡(luò)的超分辨率技術(shù)的啟發(fā),文獻(xiàn)[32]將群體移動行為預(yù)測問題轉(zhuǎn)化為基于粗粒度人群分布數(shù)據(jù)的超分辨率問題。如圖6 所示,借助城市區(qū)域的空間網(wǎng)格化,其把城市區(qū)域的群體空間分布視為一張?zhí)厥獾膱D片,給定該區(qū)域的粗粒度人口普查數(shù)據(jù)相當(dāng)于給定一張模糊的圖片,該區(qū)域的細(xì)粒度人群移動行為則相當(dāng)于一張高清的圖片。在計算機(jī)視覺領(lǐng)域中,圖像超分辨率問題即是通過圖片的低分辨率結(jié)果來生成該圖片的高分辨率結(jié)果,因此存在重要的借鑒價值。隨著深度學(xué)習(xí)的發(fā)展,圖像超分辨率模型在近期取得了較大進(jìn)展。不同于經(jīng)典的立方插值等簡單的公式插值法,基于深度卷積網(wǎng)絡(luò)和對抗生成網(wǎng)絡(luò)的模型在圖片質(zhì)量上都取得了巨大的進(jìn)步。
圖6 群體移動行為預(yù)測問題示意
文獻(xiàn)[32]所提模型采用了深度卷積網(wǎng)絡(luò)和對抗生成網(wǎng)絡(luò)來建模人群分布的空間映射關(guān)系,基本的研究思路如圖7 所示,可分為3 個部分。①數(shù)據(jù)融合:考慮到城市功能分布、交通系統(tǒng)等城市空間結(jié)構(gòu)對群體移動行為(粗粒度人口分布)的影響,其同時融合興趣點(diǎn)分布圖、城市交通分布圖等多種信息源作為輔助數(shù)據(jù)輸入。②靜態(tài)空間分布估計:其首先基于深度卷積網(wǎng)絡(luò)刻畫人群分布的復(fù)雜空間映射關(guān)系,同時輔助使用對抗生成網(wǎng)絡(luò)來捕捉空間分布的高頻細(xì)節(jié),避免空間分布估計結(jié)果過于平滑而失去部分細(xì)節(jié)。③動態(tài)分布估計:不同于普通的圖片超分辨問題本質(zhì)上是靜態(tài)的一對一映射學(xué)習(xí),因?yàn)樵撗芯肯M麖撵o態(tài)的粗粒度人群分布得到動態(tài)的群體移動行為預(yù)測,其本質(zhì)上是動態(tài)的一對多映射。為了解決時間因素帶來的動態(tài)變化難題,其引入了遞歸神經(jīng)網(wǎng)絡(luò)來對人群分布的時間特性進(jìn)行建模。
圖7 基于時空關(guān)聯(lián)建模的群體移動行為預(yù)測框架
在面向數(shù)據(jù)共享的隱私保護(hù)方案中,k匿名[55]和差分隱私[56]是當(dāng)前最廣泛采用的數(shù)據(jù)隱私保護(hù)算法。k匿名算法的目標(biāo)是使攻擊者無法基于任意背景知識,實(shí)現(xiàn)對匿名用戶的唯一識別。因此,其一般采用數(shù)據(jù)泛化的方法使任一用戶的數(shù)據(jù)與至少k-1 個其他用戶的數(shù)據(jù)無法區(qū)分,從而保證每個用戶的匿名性。在此基礎(chǔ)上,l-多樣[57]和t-相似[58]框架被陸續(xù)提出以提供更強(qiáng)的隱私保護(hù)。另一方面,差分隱私策略一般采取添加噪聲的方式,使數(shù)據(jù)庫在包含和不包含目標(biāo)用戶時不會表現(xiàn)出顯著差異[56,59]。
在移動數(shù)據(jù)隱私保護(hù)方面,已有研究顯示移動行為的高唯一性和強(qiáng)規(guī)律性使匿名個體移動數(shù)據(jù)中可能存在顯著隱私風(fēng)險[20-21]。具體地,攻擊者可能基于少量的額外移動數(shù)據(jù)(如對目標(biāo)用戶住宅區(qū)和辦公區(qū)的觀測),準(zhǔn)確匹配出目標(biāo)用戶在匿名數(shù)據(jù)集中的移動軌跡[21]。其可以細(xì)分為去匿名攻擊和概率推斷攻擊2 種[60],如圖8 所示。面對這一隱私風(fēng)險,近期的研究工作[60]設(shè)計了基于移動軌跡合并的隱私保護(hù)算法。其核心思想是通過時空泛化的方法實(shí)現(xiàn)不同用戶的移動軌跡間的合并,從而保證匿名個體移動數(shù)據(jù)滿足k匿名要求,而攻擊者無法基于任意外部信息實(shí)現(xiàn)對目標(biāo)用戶的攻擊。這一方法的重點(diǎn)問題在于如何將用戶群體分為若干不少于k個用戶的匿名組,從而使時空泛化處理后的數(shù)據(jù)可用性損失最小。文獻(xiàn)[61]提出了一種啟發(fā)式的組合優(yōu)化方法,實(shí)現(xiàn)了在數(shù)據(jù)可用性和用戶隱私間的高效取舍。
圖8 匿名個體移動數(shù)據(jù)隱私攻擊模型示意
在全球城市化不斷推進(jìn)、大數(shù)據(jù)時代已經(jīng)到來的背景下,城市環(huán)境下的移動行為建模對于諸多關(guān)鍵應(yīng)用有重要價值。本文討論了這一問題的重點(diǎn)挑戰(zhàn),構(gòu)建了針對性的研究框架。此外,本文進(jìn)一步梳理總結(jié)了移動行為數(shù)據(jù)增強(qiáng)算法、城市結(jié)構(gòu)感知的移動行為模式識別、多時空尺度的移動行為預(yù)測模型和移動數(shù)據(jù)隱私保護(hù)機(jī)制4 個關(guān)鍵研究問題的發(fā)展脈絡(luò)與研究現(xiàn)狀,為該領(lǐng)域的未來研究打下了基礎(chǔ)。