魏晉, 安實, 張炎棠*
(1.上海市政工程設計研究總院集團第十市政設計院有限公司, 蘭州 730000; 2.哈爾濱工業大學交通科學與工程學院, 哈爾濱 150000)
伴隨著實現雙碳目標重大時間節點的提出,交通領域踐行節能減排可持續發展任務迫在眉睫。大力發展公共交通是實現綠色交通的重要途徑,然而公共交通“最后一公里”問題決定著其使用的吸引力、競爭力。而自行車等慢行交通以其靈活輕便、可達性高等出行特點[1],成為“最后一公里”的有利助力。隨著共享經濟的發展,以共享單車為核心的慢行交通正在被居民普遍接受[2-3]。共享交通成為解決“最后一公里”問題的關鍵,是實現可持續交通發展的有效途徑[4]。為支撐城市可持續交通的發展以及為城市規劃政策提供理論依據,有必要精準預測共享單車出行需求。
在以往研究中,建成環境因素常被用來預測共享單車出行需求[5]。Li等[6]利用普通最小二乘回歸和地理加權回歸模型探討建成環境和社會人口特征對共享單車利用的影響,研究發現興趣點數據(point of interest,POI)混合度大大增加居民出行的多樣性。徐標等[7]使用POI數據構建以騎行距離為約束的多尺度時空地理加權回歸模型,探究建成環境和區域經濟屬性對停車需求影響的時空異質性模式。Ma等[8]利用時空地理加權回歸模型研究了南京市建成環境和社會經濟屬性在時空維度上對定樁和無樁共享單車使用的影響。崔樹強等[9]采用逐步回歸分析方法研究了長沙共享單車出行需求,發現POI密度與多樣性、路網密度、土地利用類型多樣性等因素對共享單車出行需求產生正向作用。現有的研究已經表明,建成環境即土地利用對共享單車出行需求影響十分關鍵。然而,以往的研究較少突破線性假設的限制,盡管能夠得到建成環境要素與出行需求的影響,但其關系相對粗糙,忽視非線性關系所導致的閾值效應以及各土地利用要素間的交互作用將會對城市交通規劃中的空間布局以及基礎設施建設資源造成浪費和損失[10-11]。因此,需準確說明各影響因素對共享單車出行需求產生的影響。此外,最近有限的研究盡管使用機器學習模型如隨機森林與梯度提升樹等非線性模型審視了建成環境要素對共享騎行的影響,但鑒于機器學習模型的“黑箱”特性,對于預測結果無法有效解釋。
考慮到以上研究不足,現提出一種基于GBDT模型的共享單車出行需求預測模型,為提高模型精度引入自行車道密度、公交站點數等交通屬性的建成環境影響因素,以及對預測結果進行解釋來闡明各影響因素的交互作用,借助SHAP方法對GBDT模型進行解釋,分析各影響因子對于共享單車出行需求的作用,并為深圳市共享單車發展提出合理建議。
GBDT模型是由Fridman等[12]提出的一種集成模型,它由多棵弱決策樹組成,并通過提升策略提高模型質量。每一棵決策樹的構建都使得殘差向梯度方向減少,在逐次迭代中使得模型殘差不斷減小。利用損失函數來評價模型性能,認為損失函數越小,性能越好。在共享單車出行需求預測領域,與傳統的回歸模型相比[13-14],它具有預測精度高、非線性、魯棒性強等優點。
GBDT模型工作流程如下。
(1)初始化弱學習器。
(1)
式(1)中:n為樣本數;f0(x)為初始弱學習器;yi為訓練集中第i個樣本的標簽數據;在初始化弱學習器時,c取值為所有樣本標簽值的均值;L(yi,c)為單個弱學習器的損失函數。
(2)對于m=1,2,…,M,重復步驟①~步驟③。其中,M為回歸樹迭代次數。
①對i=1,2,…,n,計算負梯度,即
(2)
式(2)中:rmi為第i個樣本m次迭代的負梯度函數;f(xi)為第i個樣本對應的弱學習器。
②對rmi擬合一棵CART回歸樹,得到第m個回歸樹對應的葉子節點區域為Rmj,j=1,2,…,J,其中J為第m棵回歸樹的葉子節點個數。
③對j=1,2,…,J,線性搜索損失函數的最小值,并計算計算最佳擬合值。
(3)
式(3)中:cmj為Rmj的平方損失最小值。
④更新:
(4)
式(4)中:I為指示函數,若x∈Rmj則I=1,否則I=0。
(3)得到強學習器。
(5)
損失函數一般使用平方損失、對數損失、交叉熵損失函數等。本文研究采用平方損失函數,即L[yi,f(xi)]=[yi-f(xi)]2,利用損失函數的負梯度作為模型殘差的近似值。
為評價GBDT模型的性能,選用平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square erro,RMSE)來評價模型的預測有效性和可靠性,其計算公式分別為
(6)
(7)
SHAP是基于博弈構建的一個加性解釋模型,其中構建了不同輸入變量的組合,通過輸入變量的存在與否比較模型輸出的平均變化來闡明目標輸入變量的重要性[15]。SHAP將模型的預測值解釋為每個輸入特征的SHAP值之和,即
(8)
則模型中特征i的SHAP值為
[fx(S∪{i})-fx(S)]
(9)
所有實驗分析均在Windows7,AMD Ryzen 9 5900HX,3.30 GHz,and 32 GB RAM系統中,使用Anaconda Navigator3(Jupyter notebook) Python3.6進行。
深圳市總面積1 997.47 km2,常住人口1 768.16萬人。市政府為積極推動公共自行車發展,試圖解決 “最后一公里”問題,提升公共交通效率。截至2022年8月,深圳全市現有共享單車數量約為41萬多輛,注冊用戶有近3 000萬,日騎行輛129萬次。
研究數據包括:獲取于深圳政府數據開放平臺(https://opendata.sz.gov.cn/)的共享單車數據,數據記錄了每次騎行起始時間和起始經緯度,結束時間和結束經緯度;獲取于高德開發平臺(https://lbs.amap.com/)的POI數據,數據包含興趣點的土地利用信息及其經緯度信;含有道路類型、里程及位置信息的深圳道路網數據;含有站點名稱、經過線路及其經緯度信息的深圳市公交線路數據。
一方面由于共享單車出行數據具有缺省值和偏差值,另一方面各種數據間進行匹配,需要對數據進行預處理。具體處理步驟如下。
(1)遍歷共享單車出行數據,若存在缺省值、錯誤值等,將該條數據進行刪除。
(2)通過共享單車出行起終點經緯度計算單次出行距離,將不滿足真實出行距離的數據刪除。本文定義單次出行距離在50 m到5 km之間。
(3)借助TransBigData模塊將共享單車出行數據、POI數據、道路網數據和公交站點柵格化并匹配,計算各柵格共享單車發生吸引量、各類土地利用和土地混合使用度、公交站點數目及道路網密度等的情況。
分別繪制各柵格共享單車發生吸引量分布圖如圖1~圖2所示。可以發現,共享單車發生吸引分布接近且比較集中,在東南部,此處為沿海地區,經濟發達,土地利用程度大;在西北和東北地區,共享單車出行需求量不大,該處為龍崗區和寶安區多為工業園區,因此共享單車出行需求較少。
圖1 共享單車發生分布圖
圖2 共享單車吸引分布圖
大量研究表明,共享單車出行需求受土地利用、道路網等建成環境因素影響,結合上節分析,本文選取土地利用及服務設施和交通屬性兩類因素共17個變量分析預測土地利用等建成環境條件對共享單車出行需求的影響。表1詳細地展示了17個變量及其統計特征,其中混合土地利用無量綱。
表1 影響因素統計
由表1可知,在各類土地要素中,餐飲美食、購物消費和公司企業POI數量最大,但其對應的標準差也較大說明其分布并不均勻;混合土地利用度均值為1.851,標準差為0.332,分布較為均勻,反映深圳各地區土地開發的混合程度一致,多種用地存在。在交通屬性中,深圳市的自行車道密度以及公交車站數目均值較小,說明其設施不完善,而且自行車道密度的標準差較大,反映了各地區自行車道密度分布不均勻,自行車道建設存在較大的進步空間。
以500×500的柵格作為研究對象,通過空間連接將各變量與空間信息關聯,并將各柵格的共享單車發生量作為出行需求進行研究,構建基于梯度提升決策樹(gradient boosting decision tree,GBDT)的共享單車發生量預測模型。為判斷GBDT模型在共享單車出行需求預測的可靠性和有效性,將GBDT模型預測結果與BP神經網絡進行對比分析。圖3展示了兩種模型的預測的對比。結果表明GBDT模型的預測精度明顯優于BP神經網絡模型。而且GBDT模型對于極大的真實值擬合效果更優,說明GBDT模型對于非線性需求預測性能更突出。為進一步說明兩種模型的差距,計算對比兩種模型下MAE和RMSE如表2所示。
表2 不同模型評價指標對比
由表2可知,GBDT模型的MAE為0.68明顯小于BP神經網絡的0.859,說明其預測結果更準確;GBDT模型的RMSE也比BP神經網絡低27.3%,說明了該模型預測結果更可靠。圖3展示了兩種模型的預測結果。綜上所述,GBDT模型可以較為精確,滿足對共享單車出行需求預測的要求。
圖4定量表征了各種影響因子對于共享單車出行需求量影響的相對重要性。點顏色越紅說明該影響因子數值越大,顏色越藍則越小。SHAP>0時表示該因子正向影響共享單車出行需求;SHAP<0則反向影響共享單車出行需求。從圖4可以發現,當柵格中交通設施、金融機構、餐飲美食、路網密度和休閑娛樂POI興趣點數量較多時,會使共享單車發生量較大,而且其中交通設施影響最明顯。以交通設施為例,當柵格內交通設施較多時,居民出行便利,往往會產生更多的出行意愿,因此共享單車發生量較大。但是可以發現,交通設施、金融機構、餐飲美食等分布在SHAP值負半軸的樣本點更多,說明深圳地區之間發展不平衡,許多柵格土地利用程度不高交通設施等并不完善,且對共享單車出行產生不良影響。其中圖像顯示購物消費類POI點數目對共享單車發生量具有明顯反作用,可能是由于購物消費往往是居民出行的主要目的,柵格內購物消費POI點較多時其共享單車吸引量會大,而發生量反而會較小。
每行代表一個影響因子的作用;一個點代表一個樣本
同時,可以發現,自行車道密度和公交站點數對共享單車出行需求也具有正向作用,但是其SHAP值較小,說明在GBDT模型中其影響程度不大,反映了深圳的慢行交通設施以及共享單車與公共交通銜接設施有待進一步提高。
在分析各個單影響因素作用情況時,結果表明土地利用混合度的散點顏色分布均勻。為進一步分析混合土地利用對共享單車出行需求的影響,繪制其部分依賴圖(圖5)。可以發現,當土地利用混合度小于2.0時,其SHAP值變化不大且較小;土地利用混合度大于2.0時,SHAP值隨土地利用混合度增加明顯。綜上說明,一方面,若地區土地利用混合度較大,各類POI數目均勻,居民生活多樣共享單車出行需求也會較大;另一方面,雖然各種土地利用比較均勻,但各類POI數目皆較小,誘發的共享單車總出行需求也會小。因此可知深圳存在區域發展不平衡的現象,在土地利用開發中,需對各地區進一步調整。
圖5 土地混合程度影響
在繪制酒店住宿POI的部分依賴圖時,結果表明酒店住宿POI數目對共享單車出行需求的影響具有閾值效應。從圖6可知,在酒店住宿POI數目小于13.5,其SHAP值較為穩定,對共享單車出行需求影響不大;當酒店住宿POI數目大于13.5時,SHAP值發生突變,說明對共享單車影響突然增強。酒店住宿POI數目影響的閾值現象,進一步說明了影響因素作用的非線性,線性回歸模型不能有效地解釋該規律[16]。
圖6 酒店住宿POI數目影響
為研究多種影響因素共同作用對共享單車出行需求的影響,結果展示了交互作用顯著的幾組變量。以購物消費POI數目和餐飲美食POI數目為例繪制其交互作用圖如圖7和圖8所示。可以發現,柵格內購物消費POI數量和餐飲美食POI數量成正比趨勢,當一類POI數量越多時,另一類POI數量越多。這是由于這兩類POI多位于經濟發達的區域,土地開發利用程度往往比較大,因此兩類POI數目呈正相關關系。并且,購物消費POI數目越大,對共享單車出行需求起反向作用;而餐飲美食POI數目越大,對共享單車出行需求起正向作用。購物消費POI數目和餐飲美食POI數目對共享單車出行需求產生相反的作用,而兩者又正相關,反映了共享單車出行需求的誘發并不是簡單線性關系,而是各種因素復雜交互作用影響下產生的結果。因此,在土地利用開發中應將各影響因素的交互作用進行考慮。
圖7 購物消費和餐飲美食交互作用圖
圖8 餐飲美食和購物消費交互作用圖
根據上述分析,結合深圳市實際情況,為促進共享單車發展,提出以下建議。
(1)加強交通設施尤其是慢行交通設施建設,注重共享單車設施與公共交通的結合[17]。一方面加強慢行交通設施的便利性、連貫性,滿足居民使用共享單車的休閑娛樂、運動健身等需求;另一方面,共享單車停取點的設置結合公交、地鐵樞紐站布設,方便居民借助共享單車彌補公共交通的最后一公里。
(2)注重各種土地利用的內在聯系,協調發展。首先提高土地利用混合度,防止出現區域某類POI過多或過少的現象,促進地區內部各類土地利用共同發展;另一方面,關注不同土地利用的關系,例如餐飲美食POI和購物消費POI兩類,如何協調兩者的關系,促進共享單車出行需求的產生。
(3)協調深圳各地區發展,縮小區域差距。深圳經濟發展存在以東南沿海地區為中心,共享單車的出行需求也集中在該地區。因此在后續的發展中,可以加強各區域的協調統籌發展,加大其他區域土地利用開發建設、交通設施建設,促進共享單車全市域發展。
針對如何結合地區土地利用等數據精確預測共享單車出行需求的問題,使用深圳共享單車出行數據、POI數據、路網數據和公交線路數據,基于GBDT模型構建共享單車出行需求預測模型,最后借助SHAP方法解釋建成環境要素在模型中的非線性影響及交互作用。經過實驗得到以下結論。
(1)與BP神經網絡模型相比,GBDT模型預測結果更加可靠準確,預測精度高,且能夠識別解釋變量與共享單車出行需求的非線性影響。SHAP方法可以通過部分依賴圖、交互作用圖等更直觀地對GBDT模型解釋,有利于發掘共享單車發展的重要限制因素。
(2)交通屬性因素對于共享單車出行需求作用明顯;交通設施POI數目的SHAP值最大;而自行車道數和公交站點數雖然具有正向作用,但對共享單車出行需求的作用不明顯。
(3)土地利用對共享單車出行需求明顯。一方面多種土地利用存在交互作用,共同促進共享單車出行需求;另一方面各類土地要素以及土地利用混合度也較大程度決定了共享單車出行需求。