




摘要 為提升不同信令頻率下的端點識別效果,該研究提出一種基于深度森林的出行端點識別方法。該方法考慮信令切換模式、空間位移及時間停留等輸入特征,提升了不同信令頻率下的端點識別效果。在此基礎上,結合真實出行試驗及數據仿真技術,對比分析了現階段主流方法的端點識別效果,總結了信令頻率對出行端點識別的影響規律。結果表明:該研究提出的方法優于隨機森林、時空聚類等方法,真實信令頻率下識別準確率達89.70%,當信令平均間隔小于330 s時,該研究提出方法識別準確率較其他方法平均提升3.53%。隨著信令頻率降低,端點識別效果先平穩后下降,當信令平均時間間隔小于128 s時,整體識別效果較穩定,平均識別準確率高于78.90%。
關鍵詞 出行端點識別;深度森林;信令數據;信令頻率
中圖分類號 U491.1 文獻標識碼 A 文章編號 2096-8949(2025)01-0014-03
0 引言
準確高效地識別出行端點是提取城市出行OD、分析出行結構的基礎環節,對城市交通規劃及管控具有重要意義。近年來,以手機信令數據為代表的移動大數據蓬勃發展[1,2],手機信令數據具有覆蓋范圍廣、連續被動采集等優勢,能夠有效彌補傳統交通調查方法的缺陷,近年來受到了研究者的廣泛關注[3]。
信令頻率是手機信令數據的平均時間間隔,反映了原始信令數據包含的信息量,對出行端點、出行方式等識別具有重要影響[4]。實際環境中,受手機使用強度、通信網絡等因素的影響,不同出行下的信令頻率往往存在較大差異。現有研究對基于信令數據的出行端點識別方法進行了較為充分的探索[5],但針對信令頻率這一影響手機信令數據實際應用效果的關鍵因素仍缺乏充分探究。對此,該研究提出了一種基于深度森林的出行端點識別方法,該方法考慮了原始信令數據間的關聯性,通過構建位置切換模式特征補充頻率降低帶來的信息損益,進一步提高了不同信令頻率下的出行端點穩定識別。在此基礎上,采用數據仿真方法探究信令頻率對出行端點識別的影響,形成量化規律,為信令數據的高效應用提供支撐。
1 出行端點識別模型
1.1 深度森林模型
基于gcForest(multi-Grained Cascade Forest)模型,該研究構建了一種出行端點識別方法。gcForest是一種深度森林模型[6],其具備訓練數據需求低、對超參數不敏感及泛化能力強的優點,適用于多頻信令頻率下的端點識別,gcForest結構圖如圖1所示。
多粒度滑動窗口用于挖掘原始信令數據間的關聯,當序列長度為n,滑動窗口長度為m時,生成長度為n-m+1的二維特征集合;級聯森林結構借鑒了DNN(Deep Neural Networks)的逐層結構,在每一層中,模型的輸出特征會在模型內部進行轉化傳遞,從而實現在基模型基礎上的進一步集成,詳見公式(1)。
(1)
式中:F——初始輸入特征,Eb——分類器模型,Pb——基分類器輸出概率,F '——融合特征矩陣。
1.2 基于深度森林的出行端點識別
基于深度森林進行出行端點識別的具體流程為:數據預處理、特征構建、端點序列識別。特征工程對出行端點識別至關重要,出行端點通常關聯真實位置附近的一個或多個基站,故出行端點處的信令軌跡在時空上表現為一定的聚集性。同時實際場景中受通信網絡容量等因素的影響,信令常出現乒乓切換現象,出行者停留時間越長,出現此現象的概率越大,因此,采用位移、序列切換模式等特征區分端點與非端點。該模型的輸入特征包含時間特征、空間移動特征、位置切換特征、序列模式特征等,具體如下所示。
(1)同一位置指紋連續出現次數。位置指紋定義為信令數據的經緯度坐標,鑒于多個基站可能共享相同地理位置,位置指紋的重復出現次數反映出行者停留的可能性。
(2)連續切換模式特征。連續切換模式通過標定持續時間超過特定閾值的連續切換序列,量化用戶在特定區域的停留時長。該研究采用基于增量窗口的識別方法進行標定,當一段時間內反復且只出現了某幾個基站時,則將該段軌跡識別為乒乓切換段,若該段持續時長大于閾值,則將其標記為停留段。
(3)同一基站連續連接時長。與同一基站連續連接時間越長,停留概率越高。
(4)基站切換速度。相鄰信令連接基站的切換速度,反映出行者的移動狀態。
(5)相鄰位置切換距離。當位置發生變化時,切換基站的空間距離,其反映出行者的位移狀態。
(6)連接基站數量。不同時間窗口內連接的不同位置指紋的數量,反映出行者單位時間內的位置變化狀態。
(7)位置切換數量。不同時間窗口內不同位置指紋的切換次數,反映出行者的位置變動頻率。
(8)位置停留時間。不同時間窗口內每個位置指紋的平均停留時間,反映出行者單位時間內的移動狀態。
(9)位置切換距離。不同時間窗口內不同位置指紋的平均距離,該研究中的距離根據經緯度計算球面距離。
在特征構建完成后,通過深度森林算法訓練端點識別模型,利用ID與日期對數據集進行劃分。應用k-fold交叉驗證法循環訓練數據集,選取兩組信令為測試集,剩余數據作為訓練集。深度森林模型的預測對象是單條信令數據,受模型表現影響會導致預測結果中的出行端點不連續問題,因此還需進一步提取出行端點。根據空間距離及前后時間差,對深度森林算法識別出的停留序列進行合并、刪減處理,得到最終的出行端點。
2 數據采集試驗
該研究同國內通信運營商合作,在中國某省會城市開展了為期15 d的出行試驗。試驗場景包含上班、購物、就醫、散步等多種日常活動,出行試驗最終采集信令數據7.9萬條,數據字段包含時間戳、位置區編號、小區編號及用戶編碼。試驗獲取信令數據單日最少295條,最多1 861條,中位數777條,平均值814條。統計出行日志的端點段與非端點段信令間隔,發現端點段信令間隔主要分布在750 s以內,而非端點段信令間隔主要分布在250 s以內,后者分布更集中,且信令頻率更高。
3 結果驗證與分析
該研究對比了基于深度森林方法(DF)與現階段主流的出行端點識別方法,并研究了基于規則(RB),基于凝聚聚類(AC),基于時空聚類(ST-DBSCAN)以及基于隨機森林(RF)方法在不同信令頻率下的端點識別效果。
3.1 評價指標
該研究使用召回率、精確率、F1與多識別率對識別結果進行評價。召回率定義為正樣本中被預測為正的概率,如式(2)所示。
(2)
(3)
(4)
式中:Re——召回率,Tp——真正的個數,Fn——假負的個數;精確率則衡量預測為正的樣本中真正為正的概率,如式(3)所示,式中Pr——精確率,Fp——假正的個數;F1——召回率和精確率的調和平均。
3.2 端點識別效果對比
端點識別效果,如表1所示,該研究提出的深度森林方法識別效果最好,識別準確率較隨機森林方法提升4.90%,多識別率顯著低于隨機森林、時空聚類及凝聚層次聚類方法,規則類方法多識別率較低,并且其識別精確率僅有58.45%,整體識別效果較差。該研究提出的方法考慮了端點處的切換模式特征,能夠最大限度地捕捉信令序列中的時空停留信息,整體識別效果較好。
3.3 信令頻率對端點識別效果的影響
完成原始頻率下的結果驗證后,該研究進一步分析了不同信令頻率對端點識別效果的影響,通過間隔抽取與間隔刪除的方法對信令數據進行抽稀,模擬原始數據量10%、20%、25%、33%、50%、66%、80%及90%的多頻率信令數據,以評估信令頻率變化對端點識別性能的影響。不同信令頻率下的端點識別效果,如圖2所示。可見,隨著信令頻率降低,端點識別效果先平穩后下降,當信令數據量高于50%時(平均時間間隔小于128 s),各識別方法(深度森林、隨機森林和時空聚類)的F1指標穩定高于80%,其中深度森林方法識別效果最好。隨著信令頻率下降,端點識別準確率逐步降低,當信令數據量高于20%時,深度森林方法識別效果均優于其他方法。
4 結語
該研究構建了一套基于深度森林算法的出行端點識別模型,該模型結合信令切換模式、移動特性等關鍵特征實現停留點與非停留點的有效區分,結合真實出行試驗數據對比總結了不同信令頻率下的端點識別效果變化規律。結果表明:該研究提出的深度森林方法識別準確率達89.71%,當信令平均間隔小于330 s時,該方法表現均優于其他方法;出行端點的識別效果隨信令頻率降低而下降,但當信令平均間隔小于128 s時,識別效果變化不顯著。
參考文獻
[1]昝雨堯,王翔,俄文娟,等.多源數據融合的城市區域時變停車需求識別方法[J].交通運輸工程與信息學報, 2022(2):82-94.
[2]冉斌.手機數據在交通調查和交通規劃中的應用[J].城市交通, 2013(1):72-81+32.
[3]陳曉光.基于手機信令數據的出行端點識別誤差與交通小區劃分尺度研究[D].成都:西南交通大學, 2020.
[4]王彥琛,楊飛,李榮玲,等.手機信令定位頻率對交通方式識別的影響[J].西南交通大學學報, 2024(5):1158-1166.
[5]JIANG H, YANG F, ZHU X, et al. Improved F-DBSCAN for Trip End Identification Using Mobile Phone Data in Combination with Base Station Density[J]. Journal of Advanced Transportation, 2022:1-17.
[6]ZHOU Z H, FENG J. Deep forest[J]. National Science Review, 2019(1):74-86.
收稿日期:2024-06-14
作者簡介:王嘉鑫(1999—),男,碩士研究生,研究方向:城市交通規劃與管理。