張山山 鮑蓉 馬玉婷
【摘 ?要】為了準確掌握城市共享單車投放量,論文提出了一種以隨機森林為基礎的預測方法。首先,通過隨機森林模型篩選出符合條件的共享單車影響因素;其次,將單車變化量和影響因素分別作為神經網絡參數,建立共享單車需求投放模型;最后,以公開數據集為對象,對其工作日及節假日間的單車投放量進行預測。在隨機森林模型下,預測得分為84.48,選出權重最高的6個影響因素分別為溫度、小時、太陽輻射、是否是工作日、濕度、降雨量。然后建立LSTM神經網絡模型,以這些特征訓練網絡,得到預測得分為82.48,在大幅減少特征維度、降低計算量的情況下,預測結果與其實際出行特征基本吻合,較好地驗證了該模型的實用性和普適性,具有一定的實際參考價值。
【關鍵詞】共享單車需求預測;隨機森林;LSTM網絡;Python
【中圖分類號】F713.36;F570 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2024)04-0038-03
1 引言
隨著城市化進程的日益加速,共享單車作為一種新興的綠色出行方式,正逐漸改變著人們的出行習慣。它既提供了靈活便捷的交通選擇,減輕了城市交通擁堵,又符合現代社會對可持續發展和環保的需求,成為越來越多人短途出行的首選[1]。與此同時,共享單車供需不平衡的問題日漸凸顯,因此,對其需求進行準確預測成為提升人們出行效率和單車使用率的關鍵[2],更有助于優化車輛調度,提高運營效率,有效緩解城市交通壓力,推動城市的可持續發展。
共享單車需求預測是一個跨學科的復雜問題,受到眾多因素的影響,包括時間、地點、天氣、節假日、政策調整等。這些因素相互交織,使得共享單車的需求變化呈現出高度的復雜性和不確定性。因此,構建一個準確且有效的需求預測模型,成為共享單車行業亟待解決的重要問題。回歸模型作為一種經典的統計分析方法,在需求預測領域具有廣泛的應用。它通過建立自變量和因變量之間的數學關系,實現對因變量的預測。在共享單車需求預測中,回歸模型可以根據歷史數據和相關特征,構建需求預測模型,并通過訓練和優化模型,實現對未來需求的準確預測。
盡管國內外學者在共享單車需求預測方面已經取得了一些研究成果[3-5],但現有的研究仍存在一些不足之處。部分研究在數據處理和特征提取方面存在局限,導致預測精度不高。同時,一些研究缺乏對模型性能的系統評估和優化,使得模型的泛化能力和穩定性有待提升。
鑒于此,本研究通過回歸模型,關注天氣、環境等多因素,旨在深入了解這些因素對共享自行車需求的影響,進而挖掘數據中真正的影響因素。本項研究致力于建立一個簡潔而可靠的神經網絡預測框架,為優化共享自行車系統提供科學支持,推動城市交通的可持續發展。
2 隨機森林模型
隨機森林是一種集成算法,它通過組合多個弱分類器,最終結果通過投票或取均值,使得整體模型的結果具有較高的精確度和泛化性能[6]。隨機森林使用了CART決策樹作為弱學習器,它是一種在原始數據集上通過又放回抽樣重新選出k個新數據集來訓練分類器的集成技術,它使用訓練出來的分類器的集合來對新樣本進行分類,然后用多數投票或者對輸出求均值的方法統計所有分類器的分類結果,結果最高的類別即最終標簽[7]。
對于一般的決策樹,假如總共有K類,樣本屬于第k類的概率為:pk,則該概率分布的基尼指數為公式(1),其可以取得不錯成績,主要歸功于“隨機”和“森林”,一個使它具有抗過擬合能力,一個使它更加精準。基尼指數越大,說明不確定性就越大;基尼系數越小,不確定性越小,數據分割越徹底、越干凈。
在遍歷每個特征的每個分割點時,當使用特征A=a,將D劃分為兩部分,即D1(滿足A=a的樣本集合)、D2(不滿足A=a的樣本集合)。則在特征A=a的條件下D的基尼指數為公式(2)。隨機森林中的每棵CART決策樹都是通過不斷遍歷這棵樹的特征子集的所有可能的分割點,尋找Gini系數最小的特征的分割點,將數據集分成兩個子集,直至滿足停止條件為止。
3 神經網絡模型
神經網絡是一種受到人類大腦結構啟發的計算模型,由大量的神經元以及他們之間的連接組成。神經網絡可以通過學習和調整連接權重來進行模式識別、回歸等任務。神經網絡中,每一層都由多個神經元組成,通過前向傳播和反向傳播來不斷優化模型以適應給定的任務。
長短期記憶網絡(Long Short-Term Memory,LSTM)是一種特殊的循環神經網絡(Recurrent Neural Network,RNN)架構,用于處理序列數據。LSTM的設計目的是解決傳統RNN在處理長序列時存在的梯度消失或爆炸問題[8]。本文使用的神經網絡模型為雙向長短期記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM),它是在LSTM的基礎上進行改進的一種架構,用于處理序列數據,網絡的完整結構見表1。與傳統LSTM不同的是,BiLSTM同時考慮了序列數據的過去和未來信息。它包含兩個方向的LSTM層:一個按照時間順序處理輸入序列(正向),另一個按照時間逆序處理輸入序列(反向)。通過這種方式,BiLSTM可以同時捕捉到序列數據的過去和未來信息,從而更好地理解序列中的上下文和依賴關系,提高模型的性能和泛化能力[9]。
4 實例應用
選取UCI上公開的首爾共享單車數據集作為研究對象[10]。該數據集包含2017年12月1日至2018年11月30日的共計8 760條數據,每條數據包含13個自變量:Date(日期)、Hour(小時)、Temperature(溫度)、Humidity(濕度)、Wind speed(m/s,風速)、Visibility(10 m,能見度)、Dew point temperature(露點溫度)、Solar Radiation (太陽輻射)、Rainfall(下雨量)、Snowfall(下雪量)、Seasons(季節)、Holiday(是否假期)、Functioning Day(是否工作日),以及1個目標變量Rented Bike Count(每小時單車使用量)。因為每小時單車的使用數量是與所在城市的氣候以及環境監測相關的,所以可以推廣到所有擁有共享單車系統的城市。本文使用隨機森林方法進行研究,隨機選取其中70%的樣本作為訓練數據集,剩下30%作為測試數據集。首先,對每一條樣本數據提取年、月、日添加進數據集,然后對數據集的數值型變量進行預處理——歸一化操作,處理后的數據樣本見表2。
經過預處理后,初始化隨機森林,為了取得最優效果,使用scikit-learn庫中的GridSearchCV模塊來遍歷搜索最優參數組,搜索算法見算法1,其中N為樣本數,T為時間,V為特征數。最終經過搜索取樹最大深度為20,最大葉子節點數為100,決策樹的數量為40。
算法1:最優隨機森林搜索算法
1: 給定訓練數據X∈RT×V和初始化隨機森林α
2: 初始化搜索最優參數n_estimators、max_depth等
3: for k=1,2,...,遍歷n_estimators(k)、max_depth(k)等網絡參數 do
4: GridSearchCV:訓練網絡
5: GridSearchCV:計算網絡分數
6: end for
在最優森林下對訓練數據進行擬合,得到測試集分數為84.48,RMSE為0.057,將預測值與實際值繪制成圖1,可以看到,預測值與實際值是相對接近的,即結果是可靠的。將影響預測的前6種因素按權重輸出,分別是溫度、小時、太陽輻射、是否是工作日、濕度、降雨量。
經過隨機森林特征選擇,使用被選擇的屬性訓練神經網絡,以減輕模型計算量。與隨機森林不同的是,由于使用的是LSTM神經網絡,因此需要對數據再次進行處理。設置窗口大小為4,LSTM中隱藏單元的個數為10,將原始特征轉化為適合神經網絡輸入的X'∈RN'×W×V,其中W為窗口大小,訓練迭代次數為300次,批處理大小設置為4,最終得到的R2分數為82.48,損失變化見預測結果與真實值如圖2所示,可得出結論,神經網絡使用更少的數據量,更小的計算量達到了與隨機森林模型相近的準確性,由于數據輸入模式更真實,因此具有更好的泛化性。
5 結語
通過對共享自行車需求預測任務進行隨機森林分析,得到了84.48的分數,并獲得影響該預測任務最重要的6個因素,這與前期相關性分析得到的結果基本保持一致。接下來只選擇這些特征,將數據輸入設計的神經網絡中,預測得分為82.48,與使用全部數據的隨機森林預測作對比,發現使用更低的特征維度,更少的計算資源達到了相近的預測結果,提高了模型的泛化性,為共享單車的需求預測任務提供了有效的參考。
使用回歸模型來預測共享單車的需求可以為共享單車行業的運營和管理提供科學依據。主要體現在以下幾個方面:首先,準確預測共享單車需求有助于優化車輛調度。通過了解不同時間和地點的需求分布,共享單車運營商可以更加精準地安排車輛的投放和調度,從而提高車輛利用效率,降低運營成本。其次,需求預測有助于提升用戶體驗。通過預測用戶的需求變化,共享單車運營商可以提前做好車輛維護和保養工作,確保車輛的安全性和可用性。同時,根據需求預測結果,運營商還可以調整收費標準和服務策略,更好地滿足用戶需求,提升用戶滿意度和忠誠度。最后,本研究有助于推動共享單車行業的可持續發展。通過深入研究共享單車需求預測問題,可以為行業的健康發展提供理論支持和實踐指導,促進共享單車行業的長期穩定發展。
【參考文獻】
【1】楊鑫宇.基于機器學習的地鐵站區域共享單車需求預測[J].石家莊鐵道大學學報(自然 科學版),2023(36):92-98+126.
【2】謝光明.基于改進時空圖神經網絡的共享單車流量預測[D].上海:華東師范大學,2023.
【3】Gregory R. Krykewycz,Christopher M. Puchalsky,Joshua Rocks,et al.Defining a primary market and estimating demand for major bicycle-sharing program in philadelphia, pennsylvania[J].Transportation Research Record Journal of the Transportation Research Board,2010,2143(-1):117-124.
【4】徐葉冉子,沈瑾.基于圓分布法和時間序列模型的公共自行車需求量分析[J].工業工程,2014(2):55-63.
【5】何流,李旭宏,陳大偉,等.公共自行車動態調度系統需求預測模型研究[J].武漢理工大學學報(交通科學與工程版),2013,37(2):278-282.
【6】韓成成.基于數據挖掘任務的分類方法綜述[J].軟件,2023,44(06):95-97.
【7】方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2011,26(03):32-38.
【8】楊麗,吳雨茜,王俊麗,等.循環神經網絡研究綜述[J].計算機應用,2018,38(S2):1-6+26.
【9】徐先峰,黃劉洋,龔美.基于卷積神經網絡與雙向長短時記憶網絡組合模型的短時交通流預測[J].工業儀表與自動化裝置,2020(01):13-18.
【10】UCI Machine Learning Repository.Seoul Bike Sharing Demand[EB/OL].https://doi.org/10.24432/C5F62R,2020-02-29.