翁劍成,何寒梅,王 媛,張 可,錢慧敏
(1.北京工業大學交通工程北京市重點實驗室,北京 100124;2.中咨泰克交通工程集團有限公司,北京 100083;3.北京市運輸管理技術支持中心,北京 100073;4.北京市交通運行監測調度中心,北京 100161)
出租車作為城市公共交通的重要補充和延伸,為市民提供個性化、點對點的服務。但在以巡游出租車為主要服務方式的出租車市場中,由于乘客出行具有隨機性和波動性,同時車輛在道路網絡中捜尋乘客的路徑具有一定的盲目性,使得車輛空駛率高,高峰時段熱點區域乘客打車難,區域出租車供需不平衡問題嚴重[1]。因此,分析出租車出行需求與影響因素之間的關系,挖掘出租車出行需求的時空分布特征對于預測不同區域不同時段的出租車需求,緩解出租車供需不平衡現象有重要作用。
國內外相關研究主要基于多源異構的數據源,結合問卷調查,將出行需求影響因素分為內部因素和外部影響因素進行分析[2-3]。內部因素主要有出行時間、費用、服務質量等,人口比例、就業率、城市土地利用等則被作為解釋客流需求的代表性外部因素指標。Taylor 等人[4]在將所有影響客流生成的因素分為外部因素和內部因素兩大類的基礎上,討論了外部因素中空間變量與社會經濟變量之間共線性的問題,并重點強調在內部因素中服務質量(包括準點率及安全性等)是最為敏感的變量。Gutiérrez等人[5]選取研究區域相關指標(人口、經濟、土地、交通)和站點相關指標(是否為起終點站、換乘站、線路)作為影響因素,運用GIS 建立距離衰減加權回歸模型并分析了馬德里市步行進入地鐵站的乘客數與出發點至該地鐵站距離的關系。Ding 等人[6]通過構建層次結構方程分析建成環境和出行之間的聯系,發現汽車擁有量、外出活動時間、出行頻率、出行時間等極大程度地影響人們的出行需求。姜偉[7]選取季節因素、環境變化、個體因素等作為動態因素進行問卷調查并構建出租車出行選擇模型,預測居民租車出行選擇情況。以上對出行需求影響因素的研究主要從單一層面入手,未綜合多維度進行分析且模型因素集的構建不夠全面。李龍[8]利用結構方程模型對服務環境、候車感受、服務水平、出行意向等影響居民出行方式選擇的因素進行研究,并描述了各變量之間的潛在關聯性,但研究未結合出行者個體特征進行分析。
針對公共交通出行需求分布與影響因素之間的關系,現有大量研究采用了多元回歸分析、動態回歸分析、邏輯回歸分析等全局回歸法構建出行需求影響模型進行分析[9-10],但全局回歸模型無法解釋因素的空間異質性,因此,地理加權回歸模型(Geographical Weighted Regression,GWR)被應用于分析各影響因素的相關關系及公共交通客流預測等領域。Bradley 等人[11]建立了GWR 模型研究地理變量、經濟因素和路網特征等對公交分擔率的影響,發現該模型對影響因素的局部變化特征有更好的解釋作用。Cardozo 等人[12]探究了地鐵客流量的影響因素,并對比GWR 模型與普通線性回歸模型(Ordinarily Linearity Regression,OLR),發現GWR 模型擬合度更高,其提供的信息認為空間變量具有彈性。Qian 等人[13]基于紐約市出租車數據和美國社會人口經濟基礎數據,探究了出租車客流量與人口經濟、土地利用和其他交通出行方式的關系。張俊杰[14]通過公交GPS 數據和IC 卡數據獲取公交客流量分布,然后利用GWR模型研究零售業數量、地鐵可達性、公交可達性和停車場數量對公交客流量空間分布的影響。以上地理加權回歸法在交通領域的應用研究,大多著力于分析各類型影響因素的潛在關系及其對公共交通客流的影響,但研究選取的自變量涵蓋領域較少,且大多集中在地面公交和軌道交通領域,很少定量探究不同區域出租車出行需求的變化規律及空間用地屬性變量對出租車出行需求分布的影響。
因此,本文圍繞出租車出行供需不平衡問題,從用地屬性、公共交通服務等維度入手,構建出租車出行需求影響因素集,并采用地理加權回歸法構建區域出租車出行需求影響模型,挖掘多維因素對出租車出行需求的影響機理,進而對出租車出行需求的時空差異進行可視化。
本文所需的多源數據包括出租車GPS 數據、計價器數據,公共交通刷卡數據及興趣點(Point of Interesting,POI)數據,通過對這些數據的預處理和關聯分析,為出租車出行需求影響模型構建提供支撐。
本文所用出租車GPS 數據、計價器數據為北京市2016年6月15日—21日的出租車定位數據和計價器數據,利用這些數據可提取乘客出行過程的上下車信息,以獲取不同時間段的區域出租車出行需求。POI 數據為2016 年高德地圖的興趣點數據,共116 806 條,通過統計各交通小區不同類型POI 數據的數量,可得各研究區域的用地屬性信息,進而分析不同用地屬性與出租車出行發生量、吸引量的關聯性。公共交通刷卡數據包含地鐵和公交的出行者交易數據,用于反映各站點和區域的公共交通出行需求。
1.2.1 數據清洗及關聯
對回傳的出租車GPS 數據和計價器數據進行數據清洗,剔除錯誤數據和冗余數據,具體包括重要字段為空值或超過閾值、經緯度和時間字段無變化以及經緯度短時間漂移的數據。通過車牌號和上下車時間字段對經過預處理的出租車GPS數據與計價器數據進行關聯匹配,識別出同一輛車的數據。結合上、下車經緯度信息可判斷出租車出行的OD 點位置,獲取出租車出行需求。數據關聯結果示例如表1所示。
利用ArcGIS 軟件將關聯匹配的出租車基礎數據與北京市1 911 個交通小區進行空間連接分析,結果如圖1 所示。由圖1 可看出,出租車上、下車點主要集中于北京市六環內。因此,選取北京市六環內區域為研究范圍,共包含1 398 個交通小區。
表1 數據關聯結果示例
圖1 出租車上、下車位置的空間分布
1.2.2 POI數據處理
將POI 數據與交通小區數據進行關聯匹配,統計每個交通小區內各類POI 的數量,選取住宅、辦公、休閑娛樂服務、風景名勝、地鐵、公交共6 類興趣點用于表征用地屬性。圖2 顯示了北京市6 類用地屬性密度的空間分布。由圖可知,辦公地主要集中在四環內,大量的住宅建筑位于五環外,地鐵站在三環內更集中,而公交車站分布較為廣泛且中心城區密度較高并呈線狀向外環擴散。
圖2 北京市用地屬性密度空間分布
通過整理出租車出行需求影響因素的研究成果[13,15],發現住宅用地、辦公用地及商業用地等用地屬性,地鐵、公交等公共交通設施及風景名勝等因素是影響出租車出行需求的重要因素,因此選取涉及用地屬性、公共交通和交通設施屬性的10 個出租車出行需求影響因素構建備選因素集,并進行空間自相關性分析、多重共線性分析及影響因素與因變量相關性分析,確定出租車出行需求的核心影響因素。
莫蘭指數是用來衡量空間自相關性的指標,可判別某空間變量是否受周邊空間變量影響及影響程度,反映影響因素在不同空間存在的差異性。因此,選用莫蘭指數衡量各影響因素的空間自相關性。莫蘭指數大于和小于0 分別表示變量空間正相關和負相關,莫蘭指數等于0 表示變量空間不相關,即變量在空間上隨機分布[16]。利用ArcGIS軟件計算莫蘭指數,結果如表2所示。
表2 出租車出行需求影響因素的莫蘭指數計算結果
由表2 可知,10 個影響因素的莫蘭指數均大于0,且P值為0,Z得分大于1.96,表明變量在空間上隨機分布的概率為0,數據呈現明顯的空間聚類特征,說明10 個影響因素存在空間自相關性。
多重共線性是指在回歸模型中,兩個或多個影響因素存在高度相關性。皮爾遜相關系數r值用于衡量變量線性相關的程度。
利用SPSS 軟件計算出租車出行需求10 個影響因素的r值,結果如表3 所示。由表3 可知,所有影響因素之間的相關系數r值均未超過0.8,說明所有變量之間無高度相關性。地鐵站密度、公交站密度與工作日和非工作日的區域公共交通產生量、吸引量的相關系數r分別為0.616,0.562,0.576,0.583 和0.611,0.602,0.568,0.598,均超過0.5,說明地鐵站密度、公交站密度與工作日、非工作日的區域公共交通產生量和吸引量之間存在中度相關性。相比于地鐵站密度和公交站密度,工作日和非工作日的區域公共交通產生量和吸引量能定量反映其他交通方式出行需求。因此,剔除地鐵站密度、公交站密度兩個影響因素。
表3 出租車出行需求影響因素的相關系數
利用多元線性回歸方法檢驗保留的8 個影響因素對工作日和非工作日出租車出行需求的影響程度,計算結果見表4。
表4 顯示,風景名勝密度在工作日、非工作日的Sig值分別為0.606和0.866,均大于0.05,說明風景名勝密度對工作日、非工作日出租車出行需求沒有顯著影響。因此,剔除風景名勝密度變量。
表4 工作日、非工作日影響因素與因變量相關性分析表
經過以上影響因素多維分析,最終保留住宅密度、辦公密度、休閑娛樂服務密度、工作日區域公共交通產生量、工作日區域公共交通吸引量、非工作日區域公共交通產生量、非工作日區域公共交通吸引量7 個因素,為出租車出行需求的核心影響因素。
為了反映出租車出行需求的空間分布差異性及影響因素的空間非平穩性,基于地理加權回歸法構建出租車出行需求影響模型,并采用普通的線性回歸方法對比分析模型的優越性。
普通線性回歸模型通過多個影響因素預測一個因變量,可解釋自變量與因變量之間的定量關系[16]。該類模型的計算公式如下,可采用最小二乘法求解未知參數。
式(1)中:y為工作日與非工作日早、晚高峰的區域出租車出行需求;xi為影響因素;βi為系數;ε為隨機誤差。
地理加權回歸模型引入空間權函數,可描述不同空間狀態下各影響因素與出租車出行需求之間的關系特征。模型具體構建步驟如下。
(1)步驟1:參數確定
地理加權回歸模型計算公式[17]為:
式(2)中:yi為工作日與非工作日早、晚高峰的區域出租車出行需求;(ui,vi)為北京市六環內1 398 個交通小區中第i個交通小區形心的地理坐標;βik(ui,vi)為第i個小區第k個影響因素的系數;xik為第i個小區的第k個影響因素;εi為隨機誤差,εi~N(0,σ2)。
(2)步驟2:參數估計
選擇加權最小二乘法計算每個空間區域的系數,第i個小區形心的目標函數見式(3)~式(7):
式(3)~式(7)中:wij為空間權函數,為第i個形心與其他形心j的距離單調遞減函數;Wi為空間權重矩陣的對角元素;X為影響因素變量構成的矩陣。
(3)步驟3:確定空間權函數與帶寬
將出租車客流影響模型的回歸點設定為北京市六環內1 398 個交通小區的形心。由于各交通小區的面積和形狀各異,各小區的形心空間分布不均衡,因此,模型采用bi-square 函數作為空間權函數,選擇赤池信息準則(Akaike Information Criterion,AIC)作為判斷帶寬的準則。
式(8)~式(9)中:wij為空間權函數;bi(k)為變化帶寬(度);Dij為距離閾值(km);dij為i,j兩點之間距離(km);σ為隨機誤差方差的極大似然估計;n為樣本點數量;tr(S)為帶寬的函數。求解最優帶寬的目標函數min(AIC)。通過計算,最終確定模型的最優帶寬為0.05 度,折算成公里數為6.94km。
選取北京市六環內1 398 個區域2016 年6 月15 日—21 日的出租車GPS 數據、計價器數據,POI 數據及公共交通刷卡數據,利用ArcGIS 軟件中的空間關系建模工具構建出租車出行需求影響模型。考慮時間因素的差異性,研究分別計算了工作日及非工作日早、晚高峰的區域出租車出行需求影響模型。
本文選取影響因素系數的最小值、最大值、均值、中位數、上四分位數、下四分位數和極差表示各影響因素對出租車出行需求的影響程度。影響因素系數的特征值計算結果如表5~表8所示。
表5 工作日早高峰出租車出行需求影響模型系數特征值
表6 工作日晚高峰出租車出行需求影響模型系數特征值
表7 非工作日早高峰出租車出行需求影響模型系數特征值
表8 非工作日晚高峰出租車出行需求影響模型系數特征值
利用ArcGIS 軟件對模型計算結果進行可視化表達,各影響因素對出租車出行需求的時空分布影響如圖3~圖7所示。由圖3可知,北京市中心區域和西北部區域的住宅密度對出租車出行需求有很強的正影響,而城市外圍區域住宅密度對出租車出行需求為負影響。這主要因為城市中心區域高檔住宅小區及商業用地較多,人均收入相對較高,而六環西北側學校較多,對出行的準時性有很高的要求。經比較發現,五環北側區域、房山區政府附近、通州區中心區域晚高峰期間住宅密度對出租車出行需求的促進作用高于早高峰。
如圖4 所示,北京市各區的中心區域辦公密度與出租車出行需求呈負相關,周邊且公司密集區域辦公密度與出租車出行需求呈正相關。這是因為中心區域的地鐵和公交比周邊區域更為發達,大多數人選擇公交、地鐵等出行方式上下班,通勤者很少選擇出租車出行。而在市區周邊區域公共交通的可達性較差,出租車競爭力增強,因此周邊區域的辦公密度對出租車出行需求有促進作用。
如圖5 所示,周邊區域的休閑娛樂服務密度較低,但對出租車出行需求的促進作用明顯高于中心區域,且非工作日休閑娛樂服務密度對出租車出行需求促進作用明顯大于工作日,因此建議通過政策引導,提升出租車的周末出車率。
如圖6 所示,早、晚高峰區域公共交通產生量對出租車出行需求的影響有顯著差異,早高峰中心城區的區域公共交通產生量對出租車出行需求有促進作用,晚高峰城市外圍區域的公共交通產生量與出租車出行需求呈正相關。這主要是因為早高峰期間中心城區的總出行需求大,出租車為地鐵、公交出行方式的重要補充;晚高峰期間,由于乘客無法乘坐地鐵直達城市外圍目的地,通常需換乘出租車以解決“最后一公里”問題。
圖3 住宅密度系數時空分布圖
圖4 辦公密度系數時空分布圖
圖5 休閑娛樂服務密度系數時空分布圖
圖6 區域公共交通產生量系數時空分布圖
圖7 區域公共交通吸引量系數時空分布圖
如圖7 所示,早高峰時段北京市東部區域公共交通吸引量對出租車需求有促進作用,晚高峰期間四環內區域公共交通吸引量對出租車需求有正影響,而各時段西部區域公共交通吸引量對出租車需求均有抑制作用。
以上分析結果表明:各中心區域住宅密度、周邊且公司密集區域辦公密度及城市外圍區域的休閑娛樂服務密度對出租車出行需求有很強的正影響;城市外圍區域住宅密度、各中心區域辦公密度與出租車出行需求呈負相關;非工作日休閑娛樂服務密度對出租車出行需求促進作用明顯大于工作日;區域公共交通產生量對出租車出行需求的影響早、晚高峰差異顯著;公共交通吸引量對出租車出行需求的促進作用主要集中在東部區域,對西部區域的出租車出行需求主要表現為抑制作用。
為驗證所提方法的精度,分別計算GWR 模型和OLR 模型的擬合評價指標,結果如表9 所示。分析回歸結果表明,工作日與非工作日早、晚高峰時段GWR 模型調整后的判定系數R2比OLR 模型調整后的R2分別提高了0.25,0.29,0.24和0.25。此外,各時段GWR 模型的殘差平方和均小于OLR 模型的殘差平方和。說明考慮空間因素的GWR 模型的擬合效果比OLR 模型更優,對影響因素與出租車出行需求之間的影響關系更敏感,更適合探究出租車出行需求與影響因素之間的定量關系,反映出租車出行需求的空間異質性。
本文利用多源異構數據,結合空間自相關性、多重共線性和因變量與自變量的相關性分析法對出租車出行需求影響因素進行相關性分析,提取住宅密度、辦公密度、休閑娛樂服務密度、工作日區域公共交通產生量、工作日區域公共交通吸引量、非工作日區域公共交通產生量、非工作日區域公共交通吸引量7 個核心影響因素,構建影響因素集。基于地理加權回歸法,分別構建工作日與非工作日早、晚高峰的區域出租車出行需求影響模型,探究各核心影響因素對出租車出行需求影響的時空異質性。同時,通過模型驗證可知,所建模型具有較高的精度,適用于解釋各影響因素對出租車出行需求影響的時空差異性。
表9 GWR模型與OLR模型回歸結果
本研究可為合理分配出租車運輸服務資源、解決出租車行業供需不平衡問題提供重要支撐。但本文僅探究了涵蓋用地屬性和公共交通客流信息的7 個核心影響因素對出租車出行需求時空分布的影響,未就經濟、政策、人口等因素進行分析,在未來的研究中可進一步擴展影響因素集,深入挖掘不同類型因素對出租車出行需求分布的影響程度。