





型主要利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)對時空數(shù)據(jù)進(jìn)行建模;現(xiàn)有的深度學(xué)習(xí)時空預(yù)測方法具備復(fù)雜特征表達(dá)和高效模型求解的優(yōu)勢。然而,在現(xiàn)實(shí)生活中進(jìn)行時空預(yù)測時,現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型缺乏對全局規(guī)律的建模,難以建模動態(tài)變化的空間分布與時間依賴。相較于神經(jīng)網(wǎng)絡(luò)模型,概率模型可以更好地捕捉空間維度的全局規(guī)律和時間維度的依賴規(guī)律,為預(yù)測提供更加豐富的信息。因此,針對時空預(yù)測中的時空動態(tài)性,文章提出一種深度循環(huán)高斯時空預(yù)測模型,結(jié)合深度學(xué)習(xí)模型和概率圖模型對空間分布以及時間依賴同時進(jìn)行建模。該模型利用高斯分布在處理動態(tài)性問題中的優(yōu)勢,顯式地建模歷史時刻的全局空間分布,利用循環(huán)高斯混合模型捕獲對歷史空間分布的長期依賴。同時,循環(huán)高斯混合模型結(jié)合自注意力機(jī)制,不僅顯式地建模了相關(guān)的歷史空間分布的傳播規(guī)律,且為預(yù)測結(jié)果提供了一定的解釋。實(shí)驗(yàn)結(jié)果表明,該模型在多個真實(shí)數(shù)據(jù)集上優(yōu)于6個基準(zhǔn)模型。相比神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果,該模型降低了至少3.8%的預(yù)測誤差。
關(guān)鍵詞:深度學(xué)習(xí)模型;時空動態(tài)性;城市時空預(yù)測;深度概率模型;高斯混合模型;自注意力機(jī)制
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2025)14-0007-07
0引言
隨著城市中各種傳感設(shè)備以及智能設(shè)備的發(fā)展和普及,城市中涌現(xiàn)了大量的時空數(shù)據(jù),為智慧城市提供了數(shù)據(jù)支撐[1]。智慧城市平臺可以利用這些時空大數(shù)據(jù)(例如用戶軌跡數(shù)據(jù)、線下服務(wù)交互數(shù)據(jù))對城市居民的需求趨勢進(jìn)行準(zhǔn)確的預(yù)測,進(jìn)而為城市規(guī)劃和個人出行提供有效的決策輔助。在實(shí)際生活中,城市服務(wù)的流量受到居民出行偏好等影響,在時間和空間兩個維度上都具有動態(tài)變化的特點(diǎn)。這種動態(tài)特性為有關(guān)企業(yè)和部門的服務(wù)調(diào)度也帶來了一些挑戰(zhàn),例如在共享單車調(diào)度,出租車調(diào)度,充電樁電量調(diào)度等應(yīng)用上,企業(yè)和管理部門需要根據(jù)實(shí)時需求進(jìn)行靈活調(diào)配。因此,如何有效建模城市服務(wù)需求的動態(tài)變化規(guī)律,成為提升服務(wù)調(diào)度效率、改善用戶體驗(yàn)的關(guān)鍵。
針對城市時空預(yù)測問題,目前的方法主要建模城市的局部空間分布,以及建模在時間上的依賴關(guān)系[1-2]。分別使用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNet?work,RNN)來捕獲空間和時間維度上的特征。例如,Shi等人[3]提出了ConvLSTM模型來捕捉時空相關(guān)性對地區(qū)的降雨量進(jìn)行預(yù)測。該模型結(jié)合了CNN和長短期記憶(Longshort-termMemory,LSTM),建模局部地區(qū)的降雨量空間分布和時間維度上的依賴關(guān)系。
Zhang等人[4]提出了DeepST模型對城市中人進(jìn)行預(yù)測。該模型通過CNN捕獲每個時刻的局部空間規(guī)律,再融合多種時間粒度的空間特征。雖然在時空數(shù)據(jù)學(xué)習(xí)過程中,深度學(xué)習(xí)模型具有復(fù)雜特征表達(dá)和高效模型求解的優(yōu)勢,但是在建模動態(tài)變化的時空時,還存在以下不足。
1)現(xiàn)有方法缺乏對全局空間規(guī)律的建模:現(xiàn)有方法主要利用CNN捕獲城市中的局部區(qū)域特征。但是從局部視角來看,個體的移動具有隨機(jī)性,導(dǎo)致局部區(qū)域的產(chǎn)生隨機(jī)變化,難以準(zhǔn)確預(yù)測。因此,有限的局部特征會影響模型的預(yù)測效果,需要進(jìn)一步建模在空間維度上的全局規(guī)律。
2)現(xiàn)有方法難以建模時間維度上復(fù)雜的依賴關(guān)系:在長期時空序列預(yù)測時,當(dāng)前時刻的與歷史具有依賴關(guān)系,而這種依賴關(guān)系是動態(tài)變化的,例如有些區(qū)域依賴于較長時間段內(nèi)的歷史,而有些區(qū)域僅依賴于短期內(nèi)的歷史。而現(xiàn)有方法對不同區(qū)域采用相同的時序建模方式,難以捕獲不同區(qū)域中動態(tài)的時間依賴關(guān)系。時間依賴的動態(tài)性不僅影響預(yù)測的準(zhǔn)確率,還給分析時間維度上的傳播規(guī)律增加了困難。
要建模空間分布的動態(tài)性,需要進(jìn)一步研究城市中人群移動的規(guī)律。根據(jù)文獻(xiàn)[5-7]以及圖1中的數(shù)據(jù)分析結(jié)果,可以發(fā)現(xiàn)人群通常集中在少量熱點(diǎn)區(qū)域,這些熱點(diǎn)區(qū)域相比其他區(qū)域具有較大的流量。這種分布規(guī)律可以使用高斯分布進(jìn)行刻畫。同時,高斯分布的均值和方差可以估計隨機(jī)變化。盡管現(xiàn)有工作[6]使用高斯模型取得了較好的預(yù)測效果,但是在求解參數(shù)的過程中仍存在一定困難。
因此,本文針對城市流量的時空預(yù)測問題,結(jié)合神經(jīng)網(wǎng)絡(luò)和高斯混合模型,提出了一種深度循環(huán)高斯時空預(yù)測模型(RecurrentGaussianSpatio-TemporalModel,RGST)。該模型由兩個模塊構(gòu)成,分別為空間分布學(xué)習(xí)模塊和時間依賴學(xué)習(xí)模塊。空間分布學(xué)習(xí)模塊利用CNN和高斯編碼來學(xué)習(xí)每個時間點(diǎn)的局部和全局空間分布特征,而時間依賴學(xué)習(xí)模塊則捕捉時間上的依賴關(guān)系,從而預(yù)測未來時刻的流量分布。概括來說,本文的主要貢獻(xiàn)有以下3個方面。
1)本文研究了城市中流量的時空預(yù)測問題,分析了少數(shù)人群隨機(jī)移動導(dǎo)致的空間分布動態(tài)性,以及長時間尺度上的時間依賴動態(tài)性。通過研究這些動態(tài)特性,進(jìn)一步探討了其對時空預(yù)測的影響。
2)本文提出了一種深度循環(huán)高斯時空預(yù)測模型RGST,模型首先使用空間分布學(xué)習(xí)模塊結(jié)合CNN和高斯編碼對空間分布進(jìn)行顯示表達(dá),再利用時間依賴學(xué)習(xí)模塊自適應(yīng)地學(xué)習(xí)對歷史空間分布的動態(tài)性依賴。3)本文使用真實(shí)數(shù)據(jù)集對模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,RGST的預(yù)測結(jié)果優(yōu)于6個基準(zhǔn)模型。同時,通過消融實(shí)驗(yàn)驗(yàn)證了RGST的有效性。
1相關(guān)工作
本文利用深度概率圖模型對城市時空序列進(jìn)行預(yù)測。本節(jié)回顧與該問題和模型相關(guān)的兩類工作:城市時空序列預(yù)測和深度概率圖模型。
1.1城市時空序列預(yù)測
近年來,城市時空預(yù)測方法是城市計算,可以運(yùn)用到多種重要應(yīng)用場景,例如:城市發(fā)展態(tài)勢分析、城市規(guī)劃、智慧出行和公共安全管理等。
早期的時空預(yù)測方法大多使用整合移動平均自回歸模型(AutoRegressiveIntegratedMovingAverage,ARIMA)。該模型是時間序列預(yù)測的方法之一,可以捕獲歷史時間節(jié)點(diǎn)與未來預(yù)測時間節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。例如,Yoon等人[8]利用ARIMA模型提取了每個共享單車車站的流量在時間上的傳播模式。但是城市中的流量預(yù)測不僅與歷史的流量有關(guān),還與一些外部特征有關(guān),如天氣因素、車站所在地點(diǎn)的熱度等有關(guān)。為了引入外部特征提高預(yù)測的準(zhǔn)確性,文獻(xiàn)[9-10]擴(kuò)展了ARIMA模型并分別加入了熱點(diǎn)簇和空間關(guān)聯(lián)性對流量進(jìn)行預(yù)測。然而AIRMA適用于平穩(wěn)變化的數(shù)據(jù),難以處理周期性和趨勢較為復(fù)雜的時空數(shù)據(jù)。近年來,隨著神經(jīng)網(wǎng)絡(luò)的廣泛使用,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)常常被用于提取復(fù)雜的時空依賴關(guān)系。例如,文獻(xiàn)[12-13]使用CNN提取空間特征的關(guān)聯(lián),再使用RNN建模歷史空間特征和當(dāng)前空間特征的關(guān)聯(lián)。Yao等人[14]從多個視角學(xué)習(xí)城市中的流量分布,進(jìn)一步從不同方面捕獲更豐富的空間分布特征。為了建模空間關(guān)系,Wang等人[15]使用圖結(jié)構(gòu)對道路上的交通傳感器之間的空間關(guān)系進(jìn)行建模,通過整合鄰近路段的交通信息對當(dāng)前路段的交通進(jìn)行預(yù)測。文獻(xiàn)[16-17]利用多種特征構(gòu)建多個視角的站點(diǎn)關(guān)系圖,如空間距離、流量相關(guān)性和站點(diǎn)之間的交互記錄等。
上述工作時空預(yù)測的工作達(dá)到了較好的預(yù)測效果,但是在處理時空動態(tài)性問題上還存在不足:1)CNN可以快速且有效地提取局部空間特征,但忽略了全局的空間分布規(guī)律;2)雖然利用RNN網(wǎng)絡(luò)可以學(xué)習(xí)很好的時間依賴,但是RNN的信息傳播過程是隱式的,難以分析空間分布在時間維度上的動態(tài)傳播過程。因此,在對時空數(shù)據(jù)進(jìn)行建模時需要兼顧時空動態(tài)性的問題。
1.2深度概率模型
近年來,越來越多的研究嘗試結(jié)合概率模型與神經(jīng)網(wǎng)絡(luò)模型,以提升預(yù)測效果[18-25]。例如,Gal等人[26]在2015年提出了一個利用貝葉斯模型建模神經(jīng)網(wǎng)絡(luò)的理論框架。在后續(xù)研究中,他們將傳統(tǒng)深度網(wǎng)絡(luò)中的dropout訓(xùn)練過程轉(zhuǎn)化為高斯過程中的貝葉斯估計,來模擬預(yù)測過程中的不確定性。他們在論文中也表明,任何一個采用dropout的神經(jīng)網(wǎng)絡(luò)都是一個近似貝葉斯模型,并且可以通過不同dropout掩碼計算得到的多次輸出結(jié)果,來衡量模型輸出的不確定性。
在進(jìn)一步研究中,為了使得模型更易于求解,F(xiàn)or?tunato等人[27]提出了BayesbyBackprop的方法,利用訓(xùn)練數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)參數(shù)的后驗(yàn)分布進(jìn)行估計,然后通過對神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行采樣的方式,實(shí)現(xiàn)模型輸出的不確定性度量。Li等人[28]在預(yù)測城市中的風(fēng)力發(fā)電時也采用了這個方法,將每個站點(diǎn)的歷史發(fā)電量作為時序數(shù)據(jù)輸入,進(jìn)而預(yù)測每個站點(diǎn)未來的發(fā)電量的上界和下界。
以上研究為時空預(yù)測提供了新的研究思路,可以借鑒概率模型對城市中時間和空間兩個維度上的動態(tài)性進(jìn)行建模。現(xiàn)有深度概率模型主要對個體規(guī)律進(jìn)行建模,而在城市時空預(yù)測中,捕獲全局空間分布的動態(tài)變化尤為重要,從全局視角約束預(yù)測結(jié)果將有助于更準(zhǔn)確地時空預(yù)測。
2問題定義
本文將以紐約市出租車流量為例研究深度概率圖在時空預(yù)測問題上的應(yīng)用。本節(jié)將提出城市時空流量預(yù)測的形式化定義,并介紹建模所需的特征及含義。
定義1:網(wǎng)格。由于流量大多是以GPS點(diǎn)進(jìn)行記錄的,為了便于時空預(yù)測,本文將整個城市劃分為相同大小的網(wǎng)格。以紐約市為例,本文將紐約市劃分為2km×2km的網(wǎng)格。
定義2:時空序列。時空序列可以表示為X={X1,X2,…,Xt,…XT},為T個時刻的城市中的流量序列。其中表示t(t∈T)時刻城市中所有網(wǎng)格的流量向量。Xit表示第i個網(wǎng)格在第t個時刻的流量。
定義3:外部特征。城市的動態(tài)變化也是影響流量的重要因素。為了城市的動態(tài)變化,本文考慮了每個時刻的外部特征,如天氣因素、節(jié)假日、工作日。對于時刻t,其外部特征可以表示為Ft。
定義4:給定一段時間區(qū)間rt的時空流量序列XT-rt:T-1,及其對應(yīng)時間區(qū)間的外部特征FT-rt:T-1,預(yù)測在未來第T個時刻城市中各個網(wǎng)格中的流量XT。
3模型描述
本節(jié)將詳細(xì)介紹深度循環(huán)高斯網(wǎng)絡(luò)的時空預(yù)測模型RGST的組成和各模塊構(gòu)成,模型框架圖如圖2所示。RGST主要由兩個模塊組成:空間分布學(xué)習(xí)模塊和時間依賴學(xué)習(xí)模塊。該模型首先結(jié)合貝葉斯網(wǎng)絡(luò)和CNN捕獲城市中每個區(qū)域的局部空間依賴關(guān)系,然后利用高斯編碼表示城市中所有區(qū)域的流量全局分布。進(jìn)而,模型結(jié)合自注意力機(jī)制和混合高斯分布模型來融合歷史信息與當(dāng)前信息,自適應(yīng)地捕獲空間分布之間的時間依賴關(guān)系。
空間分布學(xué)習(xí)模塊用于學(xué)習(xí)空間高斯分布,從而能夠表示人們隨機(jī)移動產(chǎn)生的空間動態(tài)性。第t時刻的空間分布編碼ET是由該時刻的流量XT和外部特征FT共同決定。其中每個時刻的空間分布都服從高斯分布,可以將其寫作公式(1)。
在公式(1)中,ut和st分別為第t時刻的空間高斯分布的均值和方差。該均值和方差可由第t時刻時流量XT和外部特征FT的融合特征推理得到。
時間依賴學(xué)習(xí)模塊用于學(xué)習(xí)時間維度上的動態(tài)性依賴。對于第t個時刻,隱藏狀態(tài)HT不僅與歷史各個時刻的隱藏狀態(tài)HT-rt:T-1有關(guān),同時與當(dāng)前時刻的信息也有關(guān)。因此,第t時刻的隱藏狀態(tài)可以表示為公式(2)。
根據(jù)空間分布學(xué)習(xí)和時間依賴學(xué)習(xí)兩個模塊的概率圖,本文分別設(shè)計了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢學(xué)習(xí)隱藏特征和快速優(yōu)化模型。
3.1空間分布學(xué)習(xí)模塊
該模塊主要用于學(xué)習(xí)每個時刻的局部空間特征和全局空間分布,并對每個時刻的空間進(jìn)行顯式表示。現(xiàn)有的空間分布學(xué)習(xí)方法主要使用CNN提取空間特征,這些方法在訓(xùn)練完成后使用固定的卷積核對城市中的區(qū)域進(jìn)行掃描。但是由于一些區(qū)域的存在動態(tài)變化的特性,使用固定的卷積核可能會忽略區(qū)域中的變化。因此為了捕獲區(qū)域中不確定的流量,因此本文結(jié)合CNN和高斯分布學(xué)習(xí)每個時刻的空間分布。高斯分布能夠顯式地表達(dá)空間中各個網(wǎng)格之間的關(guān)聯(lián)關(guān)系。同時,結(jié)合方差變化與隨機(jī)因子能夠估計人們隨機(jī)移動的情況,可以一定程度上處理空間分布的動態(tài)性。然而相比神經(jīng)網(wǎng)絡(luò),高斯分布中的參數(shù)訓(xùn)練比較困難。所以在綜合考慮以上問題后,結(jié)合CNN和高斯編碼實(shí)現(xiàn)對空間分布的顯式表達(dá)以及對參數(shù)的快速求解。
具體來說,每個時刻的空間局部特征由外部特征和流量特征共同決定,使用全連接層對Ft進(jìn)行編碼,用CNN卷積神經(jīng)網(wǎng)絡(luò)對流量Xt進(jìn)行編碼,如公式(3)所示。
公式(3)中CNN(·)表示卷積神經(jīng)網(wǎng)絡(luò),F(xiàn)lat(·)表示一個整平操作,⊕表示一個拼接操作,WF和bF表示可訓(xùn)練參數(shù)。
在獲得城市中各區(qū)域的局部特征后,還需要考慮城市中的全局流量分布。根據(jù)每個時刻的特征編碼,可以對因?yàn)槊總€時刻的流量分布為高斯分布,所以本文使用高斯編碼學(xué)習(xí)每個時刻的流量顯式分布。一方面,可以采用高斯分布對全局分布進(jìn)行表示。另一方面,利用變分編碼可以考慮到城市中人群的隨機(jī)移動產(chǎn)生的流量。在使用高斯編碼的過程,關(guān)鍵在于獲得高斯分布的均值和方差。具體地,使用兩個參數(shù)不同的前向神經(jīng)網(wǎng)絡(luò)fu(·)和fs(·),對Zt進(jìn)行編碼可得到當(dāng)前時刻的均值ut和方差st。
該步驟是為保證高效求解高斯分布的參數(shù)。計算方式如公式(4)和公式(5)所示。
4實(shí)驗(yàn)評估
本節(jié)將詳細(xì)介紹實(shí)驗(yàn)設(shè)置,從不同角度評估RGST模型的效果。
4.1實(shí)驗(yàn)設(shè)置
1)數(shù)據(jù)集與模型實(shí)現(xiàn)
本文采用紐約市在2016年公開的出租車行程數(shù)據(jù)集預(yù)測下一小時的出租車流量。該數(shù)據(jù)集的時間跨度為2016年2月1日至2016年5月31日,包含1454204個流量樣本。為了對城市中各地區(qū)的出租車流量進(jìn)行預(yù)測,本文將紐約市劃分為494個邊長2公里的正方形網(wǎng)格[30]。同時,采用2016年的氣象數(shù)據(jù)集和節(jié)假日數(shù)據(jù)集作為流量預(yù)測的外部特征。氣象數(shù)據(jù)集包含天氣狀況、溫度和風(fēng)速。節(jié)假日數(shù)據(jù)集包含節(jié)假日、工作日和星期名稱標(biāo)簽。流量數(shù)據(jù)、氣象數(shù)據(jù)和節(jié)假日數(shù)據(jù)需要預(yù)處理為標(biāo)準(zhǔn)的輸入格式。流量數(shù)據(jù)和氣象數(shù)據(jù)為連續(xù)值,對其歸一化并按照時間順序整理成標(biāo)準(zhǔn)格式。節(jié)假日數(shù)據(jù)為離散值,將數(shù)值根據(jù)是否為節(jié)假日、工作日和星期名稱進(jìn)行分類,再對每一類進(jìn)行編碼表示。
為了訓(xùn)練和評估模型,本文將數(shù)據(jù)集按照時間順序進(jìn)行劃分,將前86天(2064小時)的數(shù)據(jù)作為訓(xùn)練集,接下來的21天(504小時)的數(shù)據(jù)作為驗(yàn)證集,最后14天(336小時)的數(shù)據(jù)作為測試集。在訓(xùn)練模型過程中,采用滑動窗口的形式選取輸入數(shù)據(jù),滑動窗口的大小在后續(xù)實(shí)驗(yàn)中進(jìn)行驗(yàn)證。模型特征提取層的維度(Da)設(shè)置為128,學(xué)習(xí)率設(shè)置為0.001,采用隨機(jī)梯度下降方法對模型進(jìn)行優(yōu)化。
2)對比模型
為了評估RGST,本文選取了當(dāng)前流行的流量預(yù)測模型和RGST模型的變體與RGST模型進(jìn)行對比,這些方法包括:
①歷史平均(HistoricalAverage,HA),將歷史流量的平均值作為未來流量的預(yù)測值。
②線性回歸(LinearRegression,LR),通過計算歷史流量和預(yù)測值之間的關(guān)聯(lián)關(guān)系,進(jìn)而通過歷史流量預(yù)測未來流量。
③門控循環(huán)神經(jīng)元(GatedRecurrentUnit,GRU)[13],是一種循環(huán)神經(jīng)網(wǎng)絡(luò),常用于預(yù)測時間序列。
④LSTNet模型[32],結(jié)合CNN和長短期記憶網(wǎng)絡(luò)(Long-ShortTermMemory,LSTM)學(xué)習(xí)短期和長期時間依賴。使用CNN模型發(fā)現(xiàn)局部的時間片之間的短期依賴,再使用LSTM捕獲長期依賴
⑤ConvLSTM模型[3],通過多層CNN網(wǎng)絡(luò)學(xué)習(xí)輸入到隱藏狀態(tài),以及隱藏狀態(tài)之間的變換。具體地,預(yù)測某個網(wǎng)格的流量時,通過該網(wǎng)格的歷史流量以及該網(wǎng)格鄰居的歷史流量決定該網(wǎng)格未來的流量。過建立多種層級關(guān)系學(xué)習(xí)流量的空間分布和站點(diǎn)之
⑥HCP模型[33],是建模共享單車流量的方法。通間的空間依賴,如城市級、站點(diǎn)簇級和站點(diǎn)級。再利用高斯模型預(yù)測每個站點(diǎn)未來的流量。
⑦RGST-CG模型,即不包含高斯編碼和循環(huán)高斯模型。通過CNN提取空間特征,再通過GRU捕獲時間依賴。
⑧RGST-G模型,即不包含循環(huán)高斯模型。通過高斯編碼學(xué)習(xí)每個時刻的空間依賴,再使用GRU學(xué)習(xí)時間依賴。
3本文選取了)評價指標(biāo)2個時空預(yù)測問題中的常見評價指標(biāo)對不同模型的預(yù)測效果進(jìn)行評估,分別為均方根誤差(rootmeansquareerror,RMSE)和平均絕對百分比誤差(meanabsolutepercentageerror,MAPE)。
①均方根誤差用于評估預(yù)測流量和實(shí)際流量之差的標(biāo)準(zhǔn)差,RMSE越小表示流量預(yù)測效果越好。該指標(biāo)將評估G個地塊在Ttest個測試時刻的真實(shí)值Y*t,g與預(yù)測值Yt,g之間的誤差,具體計算公式如下。
4.2實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)首先對比不同基準(zhǔn)模型與RGST模型的效果,然后與RGST變體模型對比進(jìn)行消融實(shí)驗(yàn),最后分析了參數(shù)對模型效果的影響。另外,本實(shí)驗(yàn)對時間依賴關(guān)系進(jìn)行可視化,并分析各時刻的時間依賴影響。
1)對比實(shí)驗(yàn)
所有基準(zhǔn)模型采用與RGST模型相同的輸入數(shù)據(jù),并對每個模型都進(jìn)行了10次實(shí)驗(yàn),對比實(shí)驗(yàn)結(jié)果如表1所示。表中為10次實(shí)驗(yàn)結(jié)果的誤差均值,RGST模型在RMSE和MAPE兩個指標(biāo)上都優(yōu)于其他基準(zhǔn)模型。從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)以下結(jié)論。
①神經(jīng)網(wǎng)絡(luò)方法在預(yù)測效果上優(yōu)于經(jīng)典時序預(yù)測算法,如GRU、LSTNet和ConvLSTM的預(yù)測效果優(yōu)于HA和LR,主要由于神經(jīng)網(wǎng)絡(luò)方法存在以下兩個優(yōu)勢:一方面可以更好地捕獲時間依賴,另一方面可以學(xué)習(xí)到復(fù)雜的空間分布特征。
②與神經(jīng)網(wǎng)絡(luò)方法相比,HCP效果有較為明顯的差距。主要原因在于HCP為每個區(qū)域的流量獨(dú)立建立高斯回歸模型,而沒有考慮到區(qū)域的全局分布規(guī)律,可能會忽略在空間上的變化。并且,通過網(wǎng)格劃分后的出租車流量在時間維度上較為稀疏,而這種時間維度上稀疏的數(shù)據(jù)難以直接使用高斯分布進(jìn)行建模。根據(jù)本文分析,相比時間維度上的稀疏依賴關(guān)系,每個時刻城市的流量空間分布接近高斯分布,因此RGST模型使用高斯分布對城市的全局空間分布進(jìn)行建模可以有效提升預(yù)測效果。
③相比其他基準(zhǔn)方法,RGST模型結(jié)合神經(jīng)網(wǎng)絡(luò)和高斯分布效果有較為明顯的提升。一方面,RGST模型的優(yōu)勢在于它可以模擬空間中的隨機(jī),進(jìn)而預(yù)測不確定的流量。另一方面,RGST模型結(jié)合混合高斯模型和自注意力機(jī)制,在不同時刻可以自適應(yīng)地捕獲與歷史空間分布的依賴。RGST考慮不同時間和區(qū)域的不確定性變化,所以預(yù)測誤差較小。該結(jié)果也進(jìn)一步說明考慮時空動態(tài)變化對于流量預(yù)測的有效性。
2)消融實(shí)驗(yàn)
為了驗(yàn)證RGST模型中各模塊的有效性,本實(shí)驗(yàn)對比了RGST模型和兩個變體模型,實(shí)驗(yàn)結(jié)果如表2所示。從實(shí)驗(yàn)結(jié)果中可以看出,RGST模型相比其他變種模型的預(yù)測效果較好。具體來說:1)在高斯編碼和RGN同時缺失的情況下,預(yù)測模型RGST-CG模型的預(yù)測效果最差。相比RGST-CG,RGST降低了1.96%的預(yù)測誤差(RMSE)。結(jié)果可以說明加入高斯分布建模空間分布對預(yù)測流量是有幫助。進(jìn)而驗(yàn)證了第3.1節(jié)中闡述的高斯分布在表示空間分布時的有效性。2)相比RGST-G模型,RGST模型降低了1.13%的預(yù)測誤差(RMSE),但兩者的MAPE表現(xiàn)相似,說明RGST-G在某些時刻的預(yù)測結(jié)果偏差較大。尤其在使用RGST-CG時,MAPE和RMSE都與RGST的差距較大,說明RGST的總體預(yù)測結(jié)果與真實(shí)值差距較大。實(shí)驗(yàn)結(jié)果可以說明,RGST模型結(jié)合高斯混合模型和自注意力機(jī)制對歷史空間分布進(jìn)行融合,相比直接使用GRU的效果更好。說明在長期的時間依賴中存在動態(tài)性依賴,并且通過高斯混合模型可以在不偏離高斯分布的情況下使得歷史信息向前傳播。
3)參數(shù)分析
本實(shí)驗(yàn)對兩個重要參數(shù)對RGST模型的影響進(jìn)行評估,分別為序列長度和參數(shù)γ。
為了選擇合適的時空序列長度,本實(shí)驗(yàn)評估不同序列長度下模型的效果。本實(shí)驗(yàn)選取了3種不同的序列長度,分別為6小時、9小時和12小時。圖4所示為序列長度對RGST模型效果的影響。從實(shí)驗(yàn)結(jié)果中可以看出,隨著序列長度不斷增加,RGST模型在RMSE和MAPE兩個指標(biāo)上的效果逐漸變差。因此,最終選擇6小時作為訓(xùn)練和預(yù)測時的序列長度。
實(shí)驗(yàn)分別選取了5中不同取值,分別是:0、1e-6、1e-5、1e-4、1e-3。圖5展示了參數(shù)γ對RGST模型在RMSE和MAPE兩個指標(biāo)上的影響。從實(shí)驗(yàn)結(jié)果中可以得出,隨著γ不斷增大,RMSE和MAPE整體都呈現(xiàn)出先減小后增大的趨勢,并且在1e-5時RGST模型在兩個指標(biāo)上表現(xiàn)最優(yōu)。因此,最終選擇1e-5作為γ的取值。4)時間依賴可視化為了展示當(dāng)前時刻流量對歷史信息的依賴關(guān)系,本實(shí)驗(yàn)記錄了預(yù)測一天中22:00的流量時歷史每個時刻的注意力權(quán)重αk,t,并將權(quán)重進(jìn)行可視化。圖6所示為不同時刻對歷史空間分布依賴的注意力權(quán)重可視化。每行表示的是當(dāng)前時刻對歷史時刻的依賴,每行的權(quán)重之和為1。對于H18,只有一個前序時間節(jié)點(diǎn)H17。所以H18對H17依賴的注意力權(quán)重為1。從實(shí)驗(yàn)結(jié)果中看,當(dāng)前時間節(jié)點(diǎn)不一定總與前一個時間節(jié)點(diǎn)最相關(guān)。例如,H22與H17和H20的相關(guān)程度是相比其他時間節(jié)點(diǎn)的相關(guān)程度較大,說明22:00的流量和17:00以及20:00的流量更相關(guān)。可能的原因是,人群在這幾個時間點(diǎn)于商業(yè)區(qū)活動較為相似。同時,實(shí)驗(yàn)結(jié)果也表明自適應(yīng)捕獲時間依賴的重要性。
5總結(jié)
本文提出的深度循環(huán)高斯時空預(yù)測模型RGST模型,能夠更有效地捕獲時空的動態(tài)變化規(guī)律。與基準(zhǔn)模型相比,RGST模型的預(yù)測誤差降低了至少3.8%。實(shí)驗(yàn)結(jié)果充分驗(yàn)證了RGST在建模全局空間分布方面的有效性。該方法也可擴(kuò)展至多個時空預(yù)測領(lǐng)域應(yīng)用,如油氣田采油量預(yù)測,空氣質(zhì)量預(yù)測等應(yīng)用中。在后續(xù)工作中,將進(jìn)一步提升模型的抗干擾能力,通過評估隨機(jī)性移動或者缺失數(shù)據(jù)導(dǎo)致的不確定性,使其能夠在更多復(fù)雜場景下穩(wěn)健應(yīng)用。
參考文獻(xiàn):
[1]WANGSZ,CAOJN,YUPS.Deeplearningforspatio-temporaldatamining:asurvey[J].IEEETransactionsonKnowledgeandDataEngineering,2022,34(8):3681-3700.
[2]WANGXY,MAY,WANGYQ,etal..Trafficflowpredictionviaspatialtemporalgraphneuralnetwork[C].ProceedingsofTheWebConference,2020:1082-1092.
[3]SHIXJ,CHENZR,WANGH,etal.ConvolutionalLSTMnet?work:amachinelearningapproachforprecipitationnowcasting[J].AdvancesinNeuralInformationProcessingSystems,2015,2015-January:802-810.
[4]ZHANGJB,ZHENGY,QIDK.Deepspatio-temporalresidualnetworksforcitywidecrowdflowsprediction[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2017,31(1):1655-1661.
[5]CHANGHW,TAIYC,HSUJYJ.Context-awaretaxidemandhotspotsprediction[J].InternationalJournalofBusinessIntelli?genceandDataMining,2010,5(1):3.
[6]CHENC,LIKL,TEOSG,etal.Exploitingspatio-temporalcor?relationswithmultiple3Dconvolutionalneuralnetworksforcitywidevehicleflowprediction[C]//2018IEEEInternationalConferenceonDataMining(ICDM).November17-20,2018.Sin?gapore.IEEE,2018:893-898.
[7]CHENJ,HSIANGLOWK,KENG-YANTANC.Gaussianprocess-baseddecentralizeddatafusionandactivesensingformobility-on-demandsystem[C]//Robotics:ScienceandSystemsIX.Robotics:ScienceandSystemsFoundation,2013:1306-1491.
[8]YOONJW,PINELLIF,CALABRESEF.Cityride:apredictivebikesharingjourneyadvisor[C]//2012IEEE13thInternationalConferenceonMobileDataManagement.July23-26,2012.Ben?galuru,India.IEEE,2012:306-311.
[9]MOREIRA-MATIASL,GAMAJ,F(xiàn)ERREIRAM,etal.Predict?ingtaxi–passengerdemandusingstreamingdata[J].IEEETransactionsonIntelligentTransportationSystems,2013,14(3):1393-1402.
[10]LIXL,PANG,WUZH,etal.Predictionofurbanhumanmobil?ityusinglarge-scaletaxitracesanditsapplications[J].Fron?tiersofComputerScience,2012,6(1):111-121.
[11]FENGJ,LINZQ,XIAT,etal.Asequentialconvolutionnet?workforpopulationflowpredictionwithexplicitlycorrelationmodelling[C]//ProceedingsoftheTwenty-NinthInternationalJointConferenceonArtificialIntelligence.July11-17,2020.Yokohama,Japan.InternationalJointConferencesonArtificialIntelligenceOrganization,2020:1331-1337.
[12]ZHANGJB,ZHENGY,QIDK.Deepspatio-temporalresidualnetworksforcitywidecrowdflowsprediction[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2017,31(1):1655-1661.
[13]BAISJ,KOLTERJZ,KOLTUNV.AnEmpiricalEvaluationofGenericConvolutionalandRecurrentNetworksforSe?quenceModeling[C].arXivpreprint,2018:1-14.
[14]YAOHX,WUF,KEJT,etal.Deepmulti-viewspatial temporalnetworkfortaxidemandprediction[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2018,32(1):2588-2595.
[15]WANGXY,MAY,WANGYQ,etal.Trafficflowpredictionviaspatialtemporalgraphneuralnetwork[C].ProceedingsofTheWebConference,2020:1082-1092.
[16]CHAID,WANGLY,YANGQ.Bikeflowpredictionwithmulti-graphconvolutionalnetworks[C]//Proceedingsofthe26thACMSIGSPATIALInternationalConferenceonAd?vancesinGeographicInformationSystems.SeattleWashing?ton.ACM,2018:397-400.
[17]GENGX,LIYG,WANGLY,etal.Spatiotemporalmulti-graphconvolutionnetworkforride-hailingdemandforecasting[J].ProceedingsoftheAAAIConferenceonArtificialIntelli?gence,2019,33(1):3656-3663.
[18]GRAVESA.Practicalvariationalinferenceforneuralnet?works[C].Advancesinneuralinformationprocessingsystems,2011:1-9.
[19]HINTONGE,SEJNOWSKITJ.Analyzingcooperativecom?putation[C].Proc.ofthe5thAnnualcongressoftheCognitiveScienceSociety,1983.2554-2558.
[20]TIELEMANT.TrainingrestrictedBoltzmannmachinesusingapproximationstothelikelihoodgradient[C]//Proceedingsofthe25thInternationalConferenceonMachineLearning-ICML'08.July5-9,2008.Helsinki,F(xiàn)inland.ACM,2008:1064-1071.
[21]LAROCHELLEH,BENGIOY.Classificationusingdiscrimina?tiverestrictedBoltzmannmachines[C]//Proceedingsofthe25thInternationalConferenceonMachineLearning-ICML'08.July5-9,2008.Helsinki,F(xiàn)inland.ACM,2008:536-543.
[22]ZHANGN,DINGSF,LIAOHM,etal.Multimodalcorrelationdeepbeliefnetworksformulti-viewclassification[J].AppliedIntelligence,2019,49(5):1925-1936.
[23]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgo?rithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.
[24]KINGMADP,WELLINGM.Auto-encodingvariationalBayes[J].2ndInternationalConferenceonLearningRepresentations,ICLR2014-ConferenceTrackProceedings,2014:1-14.
[25]GALY,GHAHRAMANIZ.DropoutasaBayesianapproxima?tion:representingmodeluncertaintyindeeplearning[J].33rdInternationalConferenceonMachineLearning,ICML2016,2016,3:1651-1660.
[26]GALY,GHAHRAMANIZ.BayesianConvolutionalNeuralNetworkswithBernoulliApproximateVariationalInference[C].InternationalConferenceonLearningRepresentationsworkshoptrack,2015.1-12.
[27]FORTUNATOM,BLUNDELLC,VINYALSO.Bayesianrecur?rentneuralnetworks[EB/OL].2017:1704.02798.https://arxiv.org/abs/1704.02798v4.
[28]LIXP,WUJ,XUZB,etal.Uncertaintysetpredictionofaggre?gatedwindpowergenerationbasedonBayesianLSTMandspatio-temporalanalysis[C]//2021IEEE17thInternationalConferenceonAutomationScienceandEngineering(CASE).August23-27,2021.Lyon,F(xiàn)rance.IEEE,2021:361-366.
[29]VASWANIA.,SHAZEERN.,PARMARN.,etal.Attentionisallyouneed[C].Advancesinneuralinformationprocessingsystems,2017.5998-6008.
[30]WANGQR,GUOB,OUYANGY,etal.Learningsharedmobility-awareknowledgeformultipleurbantraveldemands[J].IEEEInternetofThingsJournal,2022,9(9):7025-7035.
[31]CHOK,VANMERRIENBOERB,GULCEHREC,etal.Learn?ingphraserepresentationsusingRNNencoder–decoderforstatisticalmachinetranslation[C]//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguagePro?cessing(EMNLP).Doha,Qatar.Stroudsburg,PA,USA:ACL,2014:1724-1734.
[32]LAIGK,CHANGWC,YANGYM,etal.Modelinglong-andshort-termtemporalpatternswithdeepneuralnetworks[C]//The41stInternationalACMSIGIRConferenceonResearchamp;DevelopmentinInformationRetrieval.AnnArborMIUSA.ACM,2018:95-104.
[33]LIYX,ZHENGY.Citywidebikeusagepredictioninabike sharingsystem[J].IEEETransactionsonKnowledgeandDataEngineering,2020,32(6):1079-1091.
【通聯(lián)編輯:王力】