李偉


摘 要:城市出行熱點區域的識別對于提高政府對城市出行特征認識,優化設施選址,改造老舊城區等有著重要意義。同時,隨著互聯網的發展,網約車數量快速增長,其背后的數據挖掘在城市規劃,為政府提高決策數據支撐方面發揮著越來越重要的作用。本文基于2017年5月1日—2017年10月31日海口市每日的滴滴訂單數據,使用密度聚類(Dbscan)算法識別網約車出行熱點區域,并同時結合長短時記憶網絡(LSTM)算法對網約車出行熱點區域的出行需求進行了合理的識別與預測。其結果顯示海口市早高峰存在8個出行熱點區域,午高峰存在6個出行熱點區域,晚高峰存在10個出行熱點區域。結果顯示海口市城區早高峰的平均預測誤差為29.2%,午高峰預測的平均誤差為24.8%,晚高峰預測的平均誤差為22.8%,準確性良好。
關鍵詞:密度聚類;長短時記憶網絡;熱點區域識別;需求預測
中圖分類號:U491.1 文獻標識碼:A
0 引言
城市出行熱點區域是指相對城市其他區域具有更多居民活動的區域,意味著該區域具有更高出行需求與更高的交通流量。通過對城市出行熱點區域的識別,能夠為城市公共設施布置,商鋪選址,土地價值評估,公交線網調整等提供數據依據與支撐。隨著網約車普及,網約車在居民城市出行方式占比逐漸增加,網約車數據具有時間跨度長,空間范圍廣,實時性高的特點,為識別城市出行熱點區域提供新方向。
既有研究在載客熱點區域研究方面,2018年,程智源[1]提出了基于LCSS時空相似性度量方法,對交通熱點區域進行了進一步的提取,并同時提出了基于子軌跡權值分析的熱點路徑提取算法,最后使用成都市的出租車數據對成都市出租車的熱點區域與熱點路徑進行識別;2018年,王明[2]在傳統基于DBSCAN的熱點區域識別的基礎上,增加了出租車的形式距離因素,進一步提高了在城市中使用出租車數據挖掘熱點區域的精度;2018年,鄭林江[3]針對現有熱點區域識別計算效率低的問題,提出了DBGScan算法,并在重慶市進行了實地應用。
在載客需求預測研究方面,2018年,余濤[4]在采用小波分析法對原始交通流數據進行去噪分析的基礎上,提出了一種將支持向量機與BP神經網絡進行組合的算法,最后通過足有加權規則對該預測算法進行了進一步的優化;2019年,蒲斌等[5]使用實際數據將ARIMA乘積季節模型,BP神經網絡模型和RBF神經網絡模型進行對比,最后得出結論,相較于ARIMA乘積季節模和RBF神經網絡模型,BP神經網絡模型具有更高的精度。
綜上所述,在研究數據上,現有文獻多利用出租車數據進行出行熱點區域識別與需求預測,但根據交通運輸部在2020年9月24日的例行發布會上最新數據顯示:在36個中心城市中,已有18個城市的合規網約車數量超過了出租車,并仍在快速發展中。在研究方法上,關于出行熱點區域的識別,現有文獻多使用k-means,凝聚層次聚類,密度聚類等聚類算法,關于需求預測方面,現有文獻多使用BP神經網絡,支持向量機等預測方法,但在預測方法方面,現有預測方法不足以考慮到出行熱點區域的出行需求在時間上具有一定的關聯性。因此,本文以城市出行熱點區域識別為研究目標,并基于滴滴網約車數據,并分別使用密度聚類(Dbscan)與長短時記憶網絡(LSTM)進行網約車出行熱點區域識別與需求預測。
1 基于機器學習的網約車出行熱點區域識別及需求預測
1.1 基于密度聚類(Dbscan)的網約車出行熱點區域識別
在固定時間內,網約車出行熱點區域具有在特定區域內,居民出行密集程度高的特點。而密度聚類(Dbscan)算法能在特定數據空間內,以密度為特征搜索符合條件的區域,并同時識別出密度較小的噪聲區域,與K-means,層次聚類等聚類算法相比,Dbscan具有無需指定聚類數量,并且能夠發現任意形狀的簇的優點。因此,關于網約車出行熱點區域識別,使用Dbscan算法能夠有效避免噪聲的影響,并提高識別精度。
本文使用的Dbscan算法,其核心思想是通過將緊密相連的樣本劃為一類,從而得到了一個聚類類別(出行熱點區域),然后將所有各組緊密相連的樣本劃為各個不同的類別,最終得到所有聚類類別結果(出行熱點區域)。其具體算法步驟如下:
(1)輸入所有網約車訂單的起點位置與時間數據,任意選擇一個位置點為標定點,若樣本點與標定點的空間距離小于等于Eps,時間距離小于等于,且滿足條件的樣本點數大于一定數量,則該標定點為核心點。反復計算,直到從樣本點中循環計算出所有核心點。
(2)REPEAT:
從訂單起點數據中隨機選擇一個位置點。
IF選擇的位置點是核心點。
THEN搜索該核心點一定時間、空間范圍的所有位置點,將滿足條件的位置點與核心點合并為同一簇。
ELSE選擇的位置點為非核心點,結束循環,搜索下一個位置點。
UNIIL所有位置點都完成遍歷,生成熱點區域簇。
(3)REPEAT:
從熱點區域簇中隨機選擇一個簇。
IF非核心位置點在選擇簇中為支點的一定時空范圍內。
THEN將非核心位置點寫入密度可達簇,循環。
UNTIL每個非核心位置點都被遍歷過,生成密度可達簇。
(4)REPEAT:
在密度可達簇中隨機選擇一個簇。
IF任意密度可達簇與選擇密度可達簇存在相同位置點。
THEN將兩密度可達簇合并為同一個密度相連簇,循環。
UNTIL每個密度可達簇都完成遍歷。
(5)輸出熱點區域集合。
1.2 基于長短時記憶網絡(LSTM)的網約車出行熱點區域需求預測
由于網約車出行熱點區域的需求預測受時刻與節日影響較大,并且相鄰日期的需求存在一定黏性。而長短時記憶網絡(LSTM)算法,在循環神經網絡(RNN)的基礎上,利用3個sigmoid層,并借助記憶單元,對之前所有序列輸入有選擇的進行保留,從而實現對數據的預測。因此,本文擬采用LSTM算法,充分考慮歷史相同時刻的數據相似性,進行出行熱點區域需求預測。
LSTM是一種特殊的RNN變體,具有與RNN類似的內部結構。RNN在普通BP神經網絡的基礎上,增加了橫向傳輸,通過增加一個橫向隱藏層狀態,將上一個神經元的值傳遞至現有神經單元,從而為神經網絡增加了記憶功能。但RNN在訓練過程中無法捕捉長周期影響,而LSTM“記憶單元”的門控結構,使用兩個隱藏層狀態控制信息的取舍、輸入、更新、輸出,因此具備長時間的記憶功能。其原理如下:
2 研究數據
本研究基礎數據為2017年5月1日—2017年10月31日海口市城區的每日滴滴訂單數據,該數據來源于滴滴出行“蓋亞”數據開放計劃。數據主要字段內容包括訂單ID,訂單類型(1包車,4拼車,0普通乘車),乘車人數(拼車場景,乘客選擇的乘車人數),出發時間,出行時長(分鐘),起點經度,起點緯度,終點經度,終點緯度。為更好進行后續算法調試,本部分將原始訂單數據進行去重與缺失數據刪除預處理。預處理過程中刪除重復數據或缺失數據共計3,214,911條,最終剩余數據10,979,450條,平均每日產生訂單數59,671單。
3 結果與討論
3.1 參數設置
在聚類算法的參數確定過程中,通過輸入不同的Eps與Eps內的最小樣本點數量,并同時對海口市高鐵東站的實際識別結果進行分析,最終計算出,Eps為400 m,最小樣本點數量為70時,識別效果較為理想。在長短時記憶網絡(LSTM)訓練過程中,若一個神經元參數波動較大,則模型整體擬合會偏向該神經元,故而在每批次訓練過程中,隨機拋棄一定比例的神經元,可以有效減少過擬合現象。LSTM網絡結構參數設置參照文獻[6],將第一層LSTM輸出維度設置為20,第二層LSTM輸出維度設置為40,迭代次數設置為1 000,拋棄比例設置為0.5。
3.2 基于密度聚類(Dbscan)的網約車出行熱點區域識別
考慮到高峰時刻是居民出行的熱點時刻,同時在此時間段內的居民出行頻率最高,因此,首先對海口市城區5月1日-5月31日的訂單數據進行提取,然后針對早高峰(7:00 am—9:00 am),午高峰(11:30 am—13:30 pm),晚高峰(17:00 am—19:00 am)時刻分別進行基于密度聚類(Dbscan)的網約車出行熱點區域識別,最后針對所有5月識別出的所有出行熱點區域進行統計。
統計結果如圖 1所示,早高峰的出行熱點區域如圖 1(a)所示,共有8個出行熱點區域;午高峰的出行熱點區域如圖 1(b)所示,共有6個出行熱點區域;晚高峰的出行熱點區域如圖 1(c)所示,共有10個出行熱點區域。其中早中晚共有的出行熱點區域主要分布于海秀快速路北側與丘海大道東側的居民區,萬綠園西南側的商務與住宅區,以人民公園和核心的中央居住區,南海大道與龍昆南路交匯處,海口東站附近,因此海口市出行熱點區域主要集中于大型樞紐站,主干路交匯處的住宅區與公園附近的住宅區三大區域。同時針對海口市5月份的出行熱點區域識別結果進行分析可以發現,海口市的早高峰出行熱點區域呈現多區域爆發,其主要原因是早高峰上班人群較為分散,城市流動人口較多;當午高峰來臨時,出行熱點區域明顯減少,主要是由于城市午高峰多以飲食與購物為主,因此出行較少;當晚高峰來臨時,出行熱點區域急劇增多與擴大,主要是由于晚高峰的客流以回家為主,同時伴隨著大量夜間活動,因此晚高峰的出行熱點區域更多,且范圍更廣。
3.3 基于長短時記憶網絡(LSTM)的網約車出行熱點區域需求預測
考慮到本部分的數據量較為龐大,為縮短運算時間,本研究針對網絡出行熱點區域進行菱形處理。其主要處理思路是首先提取海口市城區5月份每一個出行熱點區域的上下左右頂點,形成菱形區域;然后對每一天在該區域的出行進行統計;最后以2017年5月1日—2017年9月18日的數據為訓練集,9月19日-9月30日的數據為測試集,進行長短時記憶網絡(LSTM)預測,并將預測結果與觀測值作比較計算誤差,以時間作為橫軸,誤差作為縱軸,以每天各個出行熱點區域的誤差繪制箱型圖,誤差結果如圖 2所示。從圖 2(a)與圖 2(b)中可以看出,在海口市早高峰與午高峰期間,9月19日至9月30日每天的各個出行熱點區域平均預測誤差均保持在50%以下。但在晚高峰,如圖 2(c)所示,每天的各個出行熱點區域平均預測誤差較大,9月28日已超過50%,達到30倍左右,如圖 2(d)所示。其主要原因是晚高峰的出行更多,出行熱點區域分布面積更廣,分布形狀的規則性更差,因此采用菱形區域統計會存在一定誤差。
4 結論
本文基于2017年5月1日—2017年10月31日海口市每日的滴滴訂單數據,使用密度聚類(Dbscan)算法識別網約車出行熱點區域,并同時結合長短時記憶網絡(LSTM)算法對網約車出行熱點區域的出行需求進行了合理的預測。出行熱點區域識別結果顯示海口市早高峰存在8個出行熱點區域,午高峰存在6個出行熱點區域,晚高峰存在10個出行熱點區域。同時早高峰的平均預測誤差為29. 2%,午高峰預測的平均誤差為24. 8%,晚高峰預測的平均誤差為22.8%,準確性良好。相關部門可以根據識別的出行熱點區域和需求預測進行相應的派車服務以及完善公交運營網路。在下一步,如何將需求預測數據與公交規劃模型相結合值得進一步探討。
參考文獻:
[1]程智源.基于軌跡聚類的交通熱點分析[D].電子科技大學,2018.
[2]王明.基于出租車GPS數據的載客熱點可視化的研究與應用[D].中北大學,2018.
[3]鄭林江,趙欣,蔣朝輝,等.基于出租車軌跡數據的城市熱點出行區域挖掘[J].計算機應用與軟件,2018,35(01):1-8.
[4]余濤.基于SVM和BP神經網絡的短時交通流預測與實現[D].南京郵電大學,2018.
[5]蒲斌,李浩,盧晨陽,等.基于神經網絡的海量GPS數據交通流量預測[J].云南大學學報(自然科學版),2019,41(01):53-60.
[6]馬聰,李鋒,張建華,等.基于LSTM神經網絡的肉牛動態稱重算法研究[J].黑龍江畜牧獸醫,2020(20):60-63+157-158.