李思其 李源慶臻
針對傳統共享單車需求預測中潛在需求缺失的問題,文章分析了站點借還量與調度需求量的關系,提出站點潛在需求問題,并利用美國芝加哥Divvy Bikes公共自行車系統實際運營數據,綜合考慮天氣、氣溫、風力、站點容量與初始車輛數等因素,以歷史每日正常數據構建訓練網絡,通過三種神經網絡方法預測出具有潛在需求站點的借還量。該研究方法的應用可以提高共享單車調度的科學性和準確性。
共享單車;潛在需求;需求預測;神經網絡
U491-A-42-147-6
0?引言
作為解決“最后一公里”問題的共享單車系統正處于快速發展期,已經成為城市居民出行的重要方式。共享單車系統理想狀態是各站點的自行車數量和空樁數量維持著一種平衡狀態,為此運營商需要對共享單車進行周期性或動態的調度,首先需要進行各站點共享單車的需求量預測。
關于共享單車需求量預測的研究是近年的熱點問題。
一部分學者從出行鏈入手預測站點需求,如Ying Zhang等人[1]通過結合分析個人出行、出行鏈以及過渡活動來研究共享單車用戶的出行習慣,構建了出行鏈和換乘行為的矩陣,結合站點類型、單位小時內的租借和歸還活動,揭示共享單車使用的時間模式和潛在目的。蘭鵬等[2]提出了基于出行目的鏈的出行生成-分布組合模型,模型考慮了居民出行鏈、出行目的等對客流預測的影響。江國俊[3]以基于活動的出行需求分析理論為基礎,研究自行車出行方式選擇機理,建立了基于出行鏈的自行車方式選擇模型。但是從出行鏈角度預測,所需成本大,實時性不強,可操作性較差。
運營商和一部分學者更傾向于從共享單車系統歷史出行數據中挖掘各站點的用戶使用規律,確定站點未來的需求量,利用數據挖掘方法使預測工作變得簡單高效。如JiaShu、Chou和Liu等[4]通過使用OR模型估計各個時間段各租賃點用戶流量從而推導出不同租賃點的需求總量,繼而得到系統內各租賃點車輛借還的預測值。Borgnat等人[5]分析了里昂共享單車系統數據。他們通過系統數據分析了自行車使用時空特性以及影響因素。譚玉龍[6]結合Markovchain的性質,對自行車的供需進行研究,結合自行車的刷卡數據,建立了共享單車的站點日均還車、借車需求預測模型。Li和Yao等[7]構建了交通流阻塞條件下的出行方式決策方法,并借助智能算法完成了共享單車的客流估計。
通過歷史數據預測需求,成本小,實時性強。但是,采用運營數據而進行的需求預測仍存在較大缺陷,不能完全反映用戶需求:(1)由于某時段某些租賃點共享單車使用需求較大,而共享單車供給不足,造成用戶無法及時租借自行車,而會選擇其他站點租車或更換交通方式;(2)由于某時段某些租賃點的還車需求較大,而站點停車樁全部被占用,造成用戶無法及時歸還自行車,用戶會選擇去其他站點還車。這兩種情況本文稱為潛在需求缺失。站點潛在需求無法體現在共享單車歷史出行數據上,會導致需求預測與實際情況不符合。
針對共享單車站點潛在需求預測問題,本文擬采用數據挖掘技術中解決數據缺失問題的方法,通過站點原始出行數據找出站點處于滿載臨界狀態和空載臨界狀態的時間段序列,將該時段的借車量/還車量數據視為缺失數據,使用神經網絡對該時段的缺失數據進行預測。研究是對現有自行車站點需求預測方法的補充,能有效提高共享單車調度的有效性。
1?研究思路
本文數據來源見美國Divvy共享單車系統[8],關于站點需求預測的具體研究步驟如下:
(1)提取出原始數據中各站點工作日和周末的借車數據和還車數據,以自行車ID在前一天晚上12點之前最后的停留站點作為隔天站點初始車輛數,結合站點初始車輛數和站點借還車數量,判斷站點的實時車輛數。
(2)以7 d的周期循環提取每個站點每段時間的租/還車數、站點車輛數、站點ID和當天的天氣數據,分析影響站點車輛使用的主要因素。
(3)根據所有提取出來的站點數據分析站點車輛數變化趨勢與其臨界狀態,識別具有潛在需求的站點。按60 min間隔生成時間序列,統計每個序列中的租借數、歸還數、租還差值、租還差累計值和站點車輛數,根據站點車輛數變化曲線找出處于滿載臨界狀態和空載臨界狀態的時間段序列。對空載/滿載臨界狀態下的站點可認為站點無法滿足后續一段時間里的租借/歸還服務,將該時段的借車量/還車量數據視為缺失數據,使用神經網絡對該時段的缺失數據進行預測。
(4)為了預測出該時段的潛在需求,先將站點的容量限制假設為無容量限制,分別篩選出同一站點在不同時期具有潛在需求與不具有潛在需求的歷史數據,將不具有潛在需求的數據作為人工神經網絡的訓練樣本,計算網絡預測輸出值并計算網絡輸出值和期望輸出值的誤差e,根據誤差e修正網絡權值和函數參數[9],使網絡預測值逼近期望值。
(5)將具有潛在需求的數據作為測試樣本用于測試網絡預測精度并預測出站點的潛在需求量。
其中步驟(1)到步驟(3)為數據準備。例如提取站點2在2017年2月里所有星期三的相關數據,首先提取2月1日(星期三)的數據,隔7 d繼續提取2017年2月8日(星期三)的數據,按照7 d的周期提取出2月份所有星期三的共享單車出行相關數據。提取的站點車輛變化軌跡如圖1所示。
步驟(4)與步驟(5)則為基于神經網絡的站點潛在需求預測。
2?基于神經網絡的站點潛在需求預測估算
2.1?預測方法的選取
處理不完整數據集的方法主要有三大類:刪除元祖、數據補齊和不處理。其中數據補齊這類方法是用一定的值去填充空值,從而使信息表完備化。文獻[10]研究表明,決策樹插補法、k最近鄰插補法、神經網絡插補法三種方法表現最好。
站點歷史出行數據能夠提供芝加哥Divvy Bikes大量的站點使用數據,如站點初始車輛數、單位時間內的借還數、出行時間、站點使用人群占比等。而神經網絡作為一種先進的人工智能技術,非常適用于此類數據挖掘的問題。本文采用BP神經網絡、小波神經網絡與灰色神經網絡分別對潛在需求量進行預測。
2.2?指標選擇
實際影響潛在站點需求預測的因素很多,但不是所有指標都會產生重要影響。本文從站點信息、天氣信息和區域特征篩選影響因素,具體研究的影響因素、取值和符號如表1所示。
2.3?站點潛在需求量計算模型
站點是否具有潛在需求與站點車輛數是否達到臨界狀態有關,結合站點兩種臨界狀態與站點租/還量的預測值,給出站點潛在需求量的計算公式(1):
PD?i(t)=c?1,i(t)B?i(t)-?i(t)+c?2,i(t)?t(t)-R?i(t)
(1)
式(1)中,PD?i(t)表示站點i在第t個時間段的潛在需求量,PD?i(t)可正可負,為正數時表示站點有潛在的還車需求,為負數時表示站點有潛在的借車需求;c?1,i(t)為判斷站點i在第t個時間段是否達到空載臨界狀態,如是則為1,否則為0;c?2,i(t)為判斷站點i在第t個時間段是否達到滿載臨界狀態,如是則為1,否則為0;B?i(t)表示站點i在第t個時間段的實際租借量;?i(t)表示站點i在第t個時間段的預測租借量;R?i(t)表示站點i在第t個時間段的實際歸還量;?i(t)表示站點i在第t個時間段的預測歸還量。
2.4?神經網絡的輸入輸出
本文選擇歷史不同周同一星期如所有周二預測時段前三個小時借/還車數據、站點初始車輛數、站點容量、借車總量、還車總量、最高氣溫、最低氣溫、天氣和風力水平等數據作為系統輸入,系統輸出為預測時段的借/還車數據。其中若預測時段臨界狀態為空載狀態,則輸入系統的數據為借車數據,系統輸出為預測借車數據;若臨界狀態為滿載狀態,則輸入系統的數據為還車數據,系統輸出為預測還車數據。詳見表2。
將Divvy Bikes站點2作為研究對象,選擇2017-01-01至2017-12-31期間所有星期二的租/還車數據和天氣數據共52組作為算例數據,其中39組為正常數據集,但有3組數據無租/還車記錄,另外13組為具有潛在需求的數據集。潛在需求數據集中有10組達到空載臨界狀態具有潛在借車需求;有3組數據達到滿載臨界狀態具有潛在還車需求。最終剔除無租/還車記錄的3組數據,將36組正常數據集作為訓練數據,將13組具有潛在需求的數據集作為測試數據,利用MATLAB_R2014b的神經網絡工具的小波神經網絡預測臨界狀態時段的租借量或歸還量。取預測t時刻、t-1 h時刻、t-2 h時刻、t-3 h時刻及其他8個影響因素的值,作為網絡的訓練樣本。相關數據見表3。
2.5?預測結果分析
本節介紹MAE(平均絕對誤差)、MSE(均方誤差)這些指標概念和公式,從插補誤差比較三種神經網絡的預測效果。平均絕對誤差計算公式如式(2)所示,均方誤差計算公式如式(3)所示。
MAE=1n∑ni=1?i-y?i(2)
MSE=1n∑ni=1?i-y?i2(3)
式中,?i——第i個預測值;
y?i——對應的真實值;
n——預測值的個數。
MAE值的大小反映了預測值與真實值之間的誤差,MAE值越小表示預測值與真實值偏差越小,說明預測效果越好,反之說明預測效果不好。MSE值也同理,當幾個預測方法的MAE值相同時,MSE值越小,預測方法的效果也越好[10]。
三種神經網絡預測結果的MAE值與MSE值如表4所示,小波神經網絡預測租借量的均值MAE和均值MSE分別為3.42和23.52;預測歸還量的均值MAE和均值MSE分別為3.36和24.69,均是三種方法預測結果的最小MAE和MSE。
案例中的小波神經網絡租借量預測值與實際值差異如圖2和圖3所示。
根據潛在需求計算公式(1),使用小波神經網絡預測結果獲得站點2具有潛在需求當天的潛在需求量,如表5所示。
3?結語
本文在共享單車站點需求預測中提出潛在需求概念,對站點潛在需求量進行預測。用BP、小波和灰色三種神經網絡預測具有潛在需求當天的站點各時間段的租借量和歸還量。通過MAE與MSE指標分析,結果表明三種神經網絡算法中,小波神經網絡在共享單車站點租借量和歸還量的預測精度更高,更為適合共享單車潛在需求的預測。
參考文獻:
[1]Y Zhang,MJG Brussel,T Thomas,et al.Mining bikesharing travel behavior data:An investigation into trip chains and transition activities[J].Computers Environment & Urban Systems,2018(5):39-50.
[2]蘭?鵬,高躍文,韓寶明.基于出行目的鏈的出行生成—分布組合模型分析[J].數學的實踐與認識,2011,41(13):94-98.
[3]江國俊.基于出行鏈的自行車出行方式選擇實證研究[D].北京:北京交通大學,2012.
[4]JiaShu,Mabel Chou,Qizhang Liu,et al.Bicyclesharing System:Development,Utilization and the Value of Redistribution[J].National University of Singapore,2010(12):1-33.
[5]Borgnat P,Abry P,Flandrin P,et al.Shared bicycles in a city:A signal processing and data analysis perspective[J].Advances in Complex Systems,2011,14(3):415-438.
[6]譚玉龍,基于馬爾可夫鏈模型的公共自行車站點供需研究[D].成都:西南交通大學,2015.
[7]ZhiChun Li,MingZhu Yao,William H.K.Lam,et al.Modeling the effects of Public Bicycle Schemes in a Congested MultiModal Road Network[J].Taylor&Francis Ltd,2015,9(4):282-297.
[8]Divvy System Data[DB/OL].https://www.divvybikes.com/systemdata.
[9]史?峰,王小川,郁?磊,等.MATLAB神經網絡30個案例分析[M].北京:北京航空航天大學出版社,2010.
[10]廖祥超.九種常用缺失值插補方法的比較[D].昆明:云南師范大學,2017.