黃警明,陳 翔
(1.中山大學 電子與信息工程學院,廣東 廣州 510006;2.香港中文大學(深圳) 廣東省大數據計算基礎理論與方法重點實驗室,廣東 深圳 518172)
隨著我國經濟建設的高速發展,城市化建設進程不斷加快,朝著信息化、智能化方向發展。“智慧城市”建設是實現城市可持續發展、提高綜合競爭力的重要舉措,其應用領域十分廣泛,如“智慧交通”“智慧醫療”“智慧農業”等。利用移動信息化技術對城市流量模式進行建模也是“智慧城市”建設的重要組成部分[1]。隨著移動通信網絡的發展普及,移動用戶數量急劇增加,移動設備與移動基站之間產生了大量的交互信令數據,這些數據蘊含了豐富的用戶位置信令,對這些數據進行時空建模分析,能夠準確獲取基站用戶接入情況,幫助政府部門研究城市人群的流動模式,合理評估人群聚集情況,有助于應對突發安全事件,提高預警能力。同時,對基站用戶數量的建模,能夠協助電信運營商進行合理資源調度[2],實現基站智能化功率控制,達到節能減排的目的,助力綠色城市建設,提高居民生活質量。
對于基站用戶數量的預測建模研究,大量學者從城市區域流量出發,建模為時序預測問題。在早期的時序建模研究中,學者們常采用機器學習或者統計信號處理的等基礎分析方法進行研究,如卡爾曼濾波(Kalman Filtering,KF)[3]、差分整合移動平均自回歸模型[4](Auto-Regressive Integrated Moving Average,ARIMA)等。文獻[5]在對城市人流進行研究時,發現人流分布在時空上存在明顯規律性。文獻[6]在進行人口密度研究時,使用空間自相關和統計分位數等研究方法,發現人流分布在空間上具有聚集趨勢。文獻[7]使用了數千個矩陣的流量信息和近100萬條用戶的時空信息,分析表明基站通信流量和用戶在時空活動模式上具有明顯相關性。
隨著深度學習技術的廣泛應用,神經網絡由于具有較好的特征提取能力,逐漸被應用于城市人口流量預測建模研究。文獻[8]利用卷積神經網絡(Convolutional Neural Network,CNN)獲取不同時刻的空間交通需求表征后,結合長短期記憶(Long Short-Term Memory,LSTM)網絡預測城市不同區域的交通流需求。由于城市區域流量數據更多是不規則空間結構,為了更好解決非歐結構的數據建模,有學者提出使用圖卷積網絡(Graph Convolutional Network,GCN)進行時空建模。文獻[9]提出一種時空圖卷積網絡(Spatio-Temporal Graph Convolutional Network,STGCN)交通流預測模型,采用一維CNN結構提取時間維度交通流特征,并以頻域圖卷積ChebyNet結構提取空間特征,二者交替迭代實現對交通流建模。有學者在該模型結構上,將歷史序列分辨粒度劃分為小時、天、周三種,并引入注意力機制增強對時空相關性的捕獲[10]。文獻[11]利用手機信息數據,采用一種改進型的STGCN模型對OD(Original-Destination)流進行預測建模。文獻[12]提出一種擴散卷積遞歸神經網絡(Diffusion Convolutional Recurrent Neural Network,DCRNN)深度學習框架,利用雙向擴散卷積捕獲交通節點的空間相關性,并將擴散卷積嵌入門控循環單元(Gated Recurrent Unit, GRU)模型中提取交通流信息的時空特征。
基站用戶數量預測問題本質上是一個城市網絡拓撲約束下的時間序列建模預測問題。一個城市的基站網絡結構可以表示為一個帶權有向圖G(V,E,A),其中,V={v1,v2,…,vN}表示所有基站的集合,共有N個基站,E表示基站之間邊的集合,A∈RN×N表示基站之間的帶權鄰接矩陣。基站用戶數量可以看作是由多個時間序列組成的多維向量,如式(1)所示:
(1)

基站用戶數量預測問題可以建模描述為,在圖G(V,E,A)的條件下,給定歷史P個時刻的輸入信號,建模學習一個關系f,預測估計未來Q個時刻的輸出信號,具體表示如下:

(2)
GCN[13]是一種應用于圖結構數據的GCN,與傳統的CNN[14]相比,GCN能夠有效提取非歐結構數據的空間特征,在城市流量預測、推薦系統等領域得到了廣泛應用。在GCN中,每一層節點的信息都由上一層節點自身的信息和相鄰節點的信息加權求和,再進行非線性變換得到,每一層的前向傳播公式可定義為:
(3)

LSTM網絡[15]是一種改進的循環神經網絡(Recurrent Neural Network,RNN)[16],能夠捕獲時間序列長期依賴特性,并且能夠有效解決長序列訓練過程中的梯度消失和梯度爆炸問題,在長時間序列應用上具有更優的表現。
LSTM網絡結構如圖1所示,由3個門控單元組成:遺忘門、輸入門和輸出門。遺忘門決定了上一時刻細胞狀態Ct-1的保留信息,輸入門決定了當前時刻輸入xt和細胞狀態Ct的輸入更新,輸出門決定了當前時刻細胞狀態Ct的輸出結果,具體計算結果如式(4)~(9)所示:

圖1 LSTM網絡結構Fig.1 Structure of LSTM
ft=σ(Wf[xt,yt-1]+bf),
(4)
it=σ(Wi[xt,yt-1]+bi),
(5)
Cnt=tanh(Wc[xt,yt-1]+bc),
(6)
Ct=ftCt-1+itCnt,
(7)
ot=σ(Wo[xt,yt-1]+bo),
(8)
yt=ottanh(Ct),
(9)
式中:ft、it、ot分別表示遺忘門、輸入門和輸出門信息,Cnt、Ct分別表示候選細胞狀態和當前細胞狀態,Wf、Wi、Wc、Wo表示網絡權重矩陣,bf、bi、bc、bo表示網絡偏置系數。
基站用戶數量預測主要是對其進行時空建模。本文基于GCN提出一種GCN-LSTM模型,模型主要由GCN Block單元和LSTM單元組成。GCN Block單元通過圖生成和圖卷積計算,提取基站用戶數量的空間維度的隱含特征。LSTM單元對GCN Block單元提取的高維特征進行建模,學習序列的時空特征,最后經過全連接層輸出基站用戶數量的預測值,模型結構如圖2所示。

圖2 GCN-LSTM模型結構Fig.2 Structure of GCN-LSTM
圖生成層負責生成圖卷積層使用的鄰接圖,為了更好地提取基站節點之間的空間關系,捕獲高階隱含的空間特性,同時使用基于基站空間距離的靜態鄰接圖和基站節點之間隨時間變化的用戶轉移數量動態鄰接圖,并且引入PoI信息作為空間地理特征補充。
1.5.1 距離鄰接圖
城市基站之間具有一定的地理關系,構造距離鄰接圖,能夠捕獲基站之間的局部區域特性。參考已有工作,使用帶門限的高斯核函數[17]進行構建距離鄰接圖As,具體表示為:
(10)

1.5.2 轉移鄰接圖
實際生活中,用戶的位置往往不是固定不變的,在移動過程中,容易在鄰近基站之間進行切換接入。因此,對于一個基站的用戶數量而言,可能與鄰近基站之間存在一個此消彼長的數量關系。通過構造轉移鄰接圖,能夠描述基站用戶數量的動態變化特性,捕獲其時變特征。轉移鄰接圖計算方法如算法1所示。

算法1 轉移鄰接圖計算方法 輸入:m條數據樣本輸出:每個時刻基站的轉移鄰接圖1.初始化:每個時間段基站之間的轉移鄰接圖yj,ki=0,j,k為基站編號,i為時刻編號2.對于所有數據樣本進行3. 提取每個用戶的所有移動軌跡
1.5.3 PoI鄰接圖
PoI信息的分布特征能夠一定程度上反映該區域的功能特性,具有相似PoI分布的基站區域可能存在相似的用戶數量分布。本文通過高德地圖開放平臺提供的API接口,獲取了研究城市范圍的PoI數據,并根據平臺的分類參考,將PoI興趣點劃分為23類,將PoI根據地理位置映射到各個基站的覆蓋區域,分別統計各基站區域下各類PoI興趣點的數量。為了進一步獲取其場景分布特點,采用詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)方法[18]計算每個基站PoI信息的TD-IDF值,評價其場景服務功能的重要性,具體計算方法如式(11)所示:
(11)
此時,得到了各個基站區域下的PoI信息TD-IDF分布向量,組成得到PoI鄰接圖,并使用Node2Vec模型[19]進行圖嵌入表征,得到PoI鄰接圖表征。
以上,圖生成層生成得到了距離鄰接圖As、轉移鄰接圖At和PoI鄰接圖Ap。

(12)
式中:α1、α2和α3為權重系數。再將加權后輸出H′t經過Softmax函數進行歸一化操作后得到圖卷積層每個時刻的輸出Ht。
時序預測層是對圖卷積層提取空間特征后的輸出結果進行時序特征建模,捕獲基站用戶數量的時間特征。模型經過多個LSTM網絡進行堆疊連接后,再經過全連接層進行組成,輸出模型的預測結果。
本文使用的移動性管理數據集由國內某運營商提供,時間范圍為2018年5月14日—5月27日,時間跨度共計兩周,包含廣州市3 000多個基站下數十億條記錄。該數據集已經過脫敏處理,用戶身份信息均已替換為匿名ID。在開始建模之前,需要先對數據集中的異常數據進行清洗剔除:
① 數據中字段缺失或者格式錯誤的數據樣本;
② 乒乓切換數據樣本。
數據樣本時間跨度為14 d,在進行基站用戶數量提取時,如以1 h為時間粒度進行統計,每個基站可以得到一個長度為336的時間序列樣本,基站用戶數量具體計算方法如算法2所示。

算法2 基站用戶數量統計算法 輸入:m條基站移動性管理數據樣本輸出:每個時刻基站的用戶數量1.初始化:所有基站各時刻的用戶數量yki=0,k為基站編號,i為時刻編號2.對于所有數據樣本進行3. 提取每個用戶的所有移動軌跡4. 對于每個用戶軌跡進行5. 初始化用戶上一時刻t^=-1,上一時刻所在基站p^=-1
為了評價模型的預測性能,采用平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)來評價模型的預測性能,具體計算方法如式(13)~式(15)所示:
(13)
(14)
(15)

為了驗證所提的預測模型性能,將本文模型與ARIMA、XGBoost、LSTM、STGCN和DCRNN五種模型進行比較。
將歷史序列時間粒度劃分為15、30、60 min,以體現短期、中期和長期預測性能。本文模型與對比模型的預測性能結果如表1所示,可以看出,本文提出的預測模型能夠達到較好的預測性能。通過比較可以看出,基于圖卷積模型的幾類預測方法,其性能較ARIMA、XGBoost等經典時間序列方法具有明顯提升。這在一定程度上反映了在時空預測任務中,空間關聯信息對預測任務的重要性,引入空間維度的信息,能夠有效獲取更加全面的時空信息。與STGCN和DCRNN等模型比較,本文提出模型的預測精度更高,這是因為STGCN和DCRNN等預測模型在進行預測時,僅使用了基于基站距離的距離鄰接圖,只能獲取靜態不變的空間維度信息,對于其隨著時間演化的特征未能獲取。本文提出的模型引入轉移鄰接圖,能夠獲取各個時間段之間用戶的轉移關系,進一步提取隨著時間演化的空間特征,學習基站節點間存在的隱含時空關系,能夠更有效地提高預測準確性。

表1 不同預測模型性能比較Tab.1 Forecasting results of different models
通過對不同時間間隔的比較分析可以看出,在時間間隔較小時預測效果更好。這是因為以15 min間隔時,時間粒度較小,用戶數量的統計和轉移數量的描述較為準確,能夠一定程度上降低長時間粒度下產生的誤差,從而提高預測的準確性。
為了驗證不同的空間鄰接圖在提取基站用戶數量的空間關聯模式上的有效性,本文對預測模型進行消融分析,在圖卷積模塊中分別采用不同的空間鄰接圖進行比較分析。第一個僅使用距離鄰接圖進行提取空間特征關系,記為“僅距離圖”;第二個僅使用轉移鄰接圖提取隨時間演化的空間特征,記為“僅轉移圖”。對于這些模型的預測所得結果如表2所示,可以看出,僅使用距離鄰接圖的預測準確度最低,這是因為在引入轉移鄰接圖后,圖卷積模塊能夠獲取相鄰基站節點之間的流量轉移特征,在全局視角下獲取空間特征,獲得更好的預測結果。在此基礎上,本文提出的模型通過動態圖和靜態圖的相結合,能夠在時間和空間上相互補充,獲取更為全面的時間、空間流量模式的演化特征,進一步提高模型的準確性。

表2 消融實驗結果Tab.2 Results of ablation experiments
本文圍繞基站用戶數據預測問題,提出一種基于GCN的時空預測模型。模型基于基站距離構建靜態距離鄰接圖,各時刻基站間用戶轉移數量構建動態鄰接圖,并引入PoI信息作為空間地理信息補充,構建PoI鄰接圖,通過GCN提取各時刻的空間隱含特征,最后經過LSTM網絡學習得到用戶數量。實驗表明,該模型具有更優的預測效果。并且,消融模型證明了采用靜態和動態結合的鄰接圖能夠更有效地獲取空間特征,提高預測準確性。