崔宇超,關宏志,司 楊,覃正桃
(1.北京工業大學建筑工程學院,北京 100124;2.交通工程北京市重點實驗室,北京 100124)
網約車是指通過網絡預約的出租汽車,網約車中包括了傳統的出租車和“快車”等。其中,“快車”是指私家車主通過互聯網向需要打車的人提供用車服務。快車的出現使得一部分私家車進入了原本以出租車為主體的點到點出行服務市場。在這種條件下,不同類型網約車的乘客出行需求呈現何種規律和特征引起了廣泛的關注,而了解兩種網約車模式下不同的乘客出行需求特征,對合理制定網約車相關政策具有重要意義。相比于出租車訂單來源于線上及線下兩種方式,快車訂單則全部來源于網絡,這些網絡訂單為分析兩種模式的出租汽車提供了依據。
對居民出行時空分布以及出租車運營規律,國內外學者已進行了廣泛且深入的研究。韓一童等[1]通過提取出租車全球定位系統(Global Positioning System,GPS)數據中的起訖點(Origin to Destina?tion,OD)數據,對居民上下車的時空分布進行了分析,為司機尋客提供了幫助。陳澤東等[2]對地塊聚類分析時結合了興趣點和居民出行時序特征,對城市不同功能區域的識別進行了研究,并且利用出租車上下車點的數據分析了城市不同功能區之間的空間交互特征。劉萌等[3]利用出租車OD數據分析了居民在不同時間、不同區域的活動強度。童曉君等[4]利用出租車GPS數據對居民的出行行為進行了分析。欒麗娜[5]通過對出租車GPS數據的挖掘,對影響出租車運營水平的因素進行了總結,并從出租車運營管理方面、出租車調度方面提出了針對出租車運營的改善策略。齊林[6]利用GPS數據研究了出租車的交通特性,為解決交通規劃中的宏觀和微觀的交通問題提供了數據支持和理論依據。覃正桃等[7]對出租車交通運行特征進行了研究,提出了一種確定出租車上下客點位置和各路段出租車運行狀態的方法。楊揚等[8]基于北京市出租車調度系統采集的GPS數據,構建基于路徑長度的Logit(Path-Size-Logit,PSL)模型作為出租車多路徑概率選擇模型,發現出租車駕駛員更傾向于選擇旅行時間短、轉向次數少、主干路和次干路比例較高的路徑。司楊等[9]以計劃行為理論為框架探討了出租車司機主觀上的心理狀態對目的地選擇行為的影響。Zhang等[10]將出租車司機分為高收入、中高收入、中低收入及低收入四類,并利用熵權函數對不同收入司機的上下客多樣性進行分析,發現高收入司機在尋客時有拒載行為,并給出了高收入司機在載客時的拒絕率為8.52%。Chen等[11]研究了在下雨的天氣條件下出租車的時空分布特性。
對于網約車的研究,袁亮等[12]通過問卷調查與深度訪談研究了城市居民在打車出行時對網約車與出租車的選擇意愿,發現出行者的個體特征、出行時間等對網約車的選擇意愿影響顯著,研究了網約車與出租車服務共存下價格管制策略的制定并對比了無競爭市場、競爭市場無管制與競爭市場管制3種情景下社會福利的變化。張永安等[14]利用政策一致性模型(Policy Modeling Consistency,PMC)的政策評價框架分析比較了北京等多個城市的網約車政策,發現了交通擁堵指數與常住人口密度對政策規制力度有很大影響。而在目前的研究中,根據網約車訂單數據對網約車需求特征進行分析的還較少。Guo等[15]利用博弈模型和競爭定價模型,從成本和費用角度分析了網約車和傳統出租車的博弈關系,發現在雙方合作的條件下,可以有效提高資源利用率,緩解交通壓力,從而達到雙贏的效果。Wong等[16]提出一種基于網格的Logit選擇模型,對出租車駕駛員的尋客行為進行了研究,發現出租車駕駛員的尋客路徑并不遵循隨機巡游原則,而是與尋客路徑上尋客成功的累積概率有關。
由此可見,以往的研究并未聚焦于不同類型網約車乘客的出行需求規律和特征。本文擬通過對出租車網絡訂單及快車網絡訂單的數據進行挖掘,分別從兩種網約車訂單的行程時間、訂單費用、上下客區域分布等方面對其需求特征進行統計分析。并且結合北京市“興趣點”(Point of Interest,POI)數據確定了乘客出行時上下車區域的用地性質,利用兩種出行模式下訂單的各種特征對其分別進行了聚類分析,其結果將為二者采取更具針對性的、應對不同類型乘客出行需求的服務措施提供幫助。
本文所使用的訂單數據來自2015年12月3日到2016年1月3日期間北京市出租車網絡訂單及快車網絡訂單數據。數據內容包括:訂單ID、乘客ID、司機ID、訂單初始時間與結束時間、訂單所在城市名稱、起訖點經緯度坐標以及訂單費用。由于GPS數據信號欠佳及用戶在操作時的失誤等原因,所獲取的原始數據可能存在一些誤差。因此,在對數據進行分析前需要對其進行預處理,將如下幾類異常數據剔除:(1)經緯度越界數據,位于北京市坐標范圍115.7°E~117.4°E,39.4°N~41.6°N之外的數據;(2)重復數據;(3)收費價格小于起步價的數據;(4)收費價格不符合出租車或快車收費規則的數據;(5)行程時間大于3h的數據;(6)行程時間小于5min的數據;(7)其他信息不完整的數據。通過對數據進行篩選后得到出租車有效數據共46 599條,快車有效數據共279 098條。
1.2.1 網約車訂單行程時間分布
通過對出租車網絡訂單與快車網絡訂單中每單行程時間進行統計,得到了網約車行程時間分布圖(見圖1)。由圖1可以看出,行程時間大于50min的訂單較少,出租車網絡訂單的行程時間在10~50min內占比約為80%,其中行程時間在20min內的占22.8%,20~30min的占24.5%,30~40min的占21.2%,40~50min的占13.5%,平均行程時間為35.5min;快車網絡訂單的行程時間大于30min的較少,行程時間主要集中于10~20min,其中20min內的占66.7%,20~30min的占17.1%,平均行程時間為21.9min。

圖1 網約車行程時間分布柱狀圖
1.2.2 網約車訂單收費分布
通過對出租車網絡訂單與快車網絡訂單中每單收費進行統計,對出租車與快車分別以10元為間隔分組并得到各組占總訂單數量的比例(見圖2)。由圖2可以發現,快車網絡訂單單程收費主要集中于10~30元之間,其中70%的訂單收費為10~20元,大于40元的訂單占總訂單量不到10%,訂單平均收費為19.48元;出租車網絡訂單單程收費在10~50元區間占有較大的比例,其中20~30元區間占比最大,約為18%,出租車網絡訂單平均收費為51.94元。

圖2 網約車單程訂單收費分布圖
1.2.3 網約車上下客空間分布
對出租車網絡訂單與快車網絡訂單起訖點進行分析可以得到出租車上、下客區域分布熱力圖(見圖3、圖4),快車上、下客區域分布熱力圖(見圖5、圖6)。由圖3、圖4可以發現,出租車上客點集中于國貿CBD區域、望京CBD區域、西單商業區附近區域、中關村區域、西二旗區域及首都機場T3航站樓;出租車下客點集中于國貿CBD區域、望京CBD區域、西單商業區附近區域、中關村區域、北京西站、北京南站及首都機場T2、T3航站樓。由圖5、圖6可以發現,快車上下客點集中于國貿CBD及附近區域、望京CBD區域、中關村區域、西二旗區域及順義區部分區域與通州區部分區域。

圖3 出租車上客區域分布熱力圖

圖4 出租車下客區域分布熱力圖

圖5 快車上客區域分布熱力圖

圖6 快車下客區域分布熱力圖
由以上分析可以發現,出租車網絡訂單中行程時間在10~50min、出行費用在10~50元的訂單占據極大比例:而快車網絡訂單主要集中于行程時間小于30min、出行費用小于30元的訂單,時間短、距離近的特征明顯;出租車網絡訂單乘客上下客熱點區域分布差異較大,而快車訂單分布更為一致。接下來將結合乘客上下車區域用地性質,利用聚類分析的方法對乘客的出行需求特征進行進一步分析。
本文的研究區域為北京市,在已劃分的2 006個北京市交通小區的基礎上利用北京市的POI數據將各個交通小區進行分類。北京市現有的POI數據點共1 383 937個,參考文獻[17]利用POI定量識別城市功能區的方法將所有交通小區劃分為居住用地、公共管理與公共服務設施用地、商業服務業設施用地、工業用地、道路與交通用地、綠地與廣場用地、混合用地,共7種用地類型。共有居住用地73個,公共管理與公共服務設施用地14個,商業服務業設施用地45個,工業用地14個,道路與交通用地212個,綠地與廣場用地134個及混合用地1 363個。
K-means算法是一種基于距離的聚類算法,采用距離作為相似性指標,在算法開始時選取任意k個對象作為初始聚類中心,代表一個簇。在每次迭代中,根據每個剩余對象與各個簇中心的距離將其賦給最近的簇,在一次迭代結束后將重新計算每個聚類的均值,直到每個聚類不再發生變化為止。
在利用K-means法對數據進行聚類分析之前要先確定K值即聚類個數。現引用指標誤差平方和(Sum of Squared Errors,SSE)來確定K的取值。SSE表示所有點到相應簇中心的距離均值,K值越大時SSE值越小,在SSE隨K值變化的曲線上找到SSE減幅最小時的K值,將此時K值確定為聚類數。
將預處理后的訂單數據中起訖點的經緯度坐標通過ArcGIS軟件與交通小區相匹配,即可得到乘客出行上下車點周圍區域的用地性質。將訂單的出行時間、行程時間、上車點及下車點的用地性質作為聚類分析的特征變量,對出租車網絡訂單數據與快車網絡訂單數據的K值進行計算發現,當K值取值為4時SSE值減小的速度迅速放慢,所以對二者的聚類數取值都為4。
對快車及出租車網絡訂單進行聚類分析,結果如表1、表2所示(其中聚類中心坐標值為標準化處理后的值),將這些結果分別命名為快車類型1~4及出租車類型1~4。由表1快車網絡訂單聚類結果可以發現,快車訂單中類型2和類型4占有較大比例,分別為41.15%與33.4%;類型1和類型3占比較小,分別為13.2%和12.25%。由表2出租車網絡訂單聚類結果可以發現,類型1和類型2占比較大,分別為36.37%和32.15%;類型3和類型4占比較小,分別為16.65%和14.83%。

表1 快車網絡訂單聚類結果

表2 出租車網絡訂單聚類結果
通過對快車訂單數據聚類分析結果進行分析,得到各類型訂單的出行時間分布曲線(見圖7),行程時間分布曲線(見圖8),上下車點用地性質分布(見圖9、圖10),出行量隨時間變化曲線(見圖11)。

圖7 快車各類型需求出行時間分布曲線

圖8 快車各類型需求行程時間分布曲線

圖9 快車各類型需求上車點區域性質統計直方圖

圖10 快車各類型需求下車點區域性質統計直方圖

圖11 快車各類型需求出行量隨時間變化曲線
快車類型1在所有訂單數中所占比例為13.20%,這種出行需求發生時間均勻分布在全天8:00—22:00之間,并且受工作日與節假日的影響較小,上車點的性質主要以混合用地性質為主,下車點的性質多分布在居住用地、商業服務設施用地及綠地及廣場用地,行程時間多分布在10~25min之間。
快車類型2在所有訂單數中所占比例為41.15%,所占比例為4個類型中最大的。這種出行需求發生時間在15:00—23:00之間,其中17:00—21:00為這種需求出行的高峰時間,受工作日與節假日影響較大,上下車點用地性質主要為混合用地,行程時間多分布在10~25min之間。
快車類型3在所有訂單中所占比例為12.25%,為4種類型中最少的。這種出行需求在全天8:00—22:00之間均有產生,并且沒有較大的波動,且受工作日與節假日影響較小,上車點用地性質分布在居住用地、商業服務設施用地及綠地及廣場用地,下車點用地性質集中于混合用地,行程時間分布在10~25min之間。
快車類型4在所有訂單中所占比例為33.40%,這種出行需求發生的時間集中于6:00—13:00,并且在7:00—9:00之間達到峰值,在0:00—6:00發生的數量較少,這種出行需求受到工作日及節假日的影響較大,在周末及節假日出行數量會明顯減少,上下車點的用地性質集中于混合用地,行程時間多分布在10~25min之間。
通過對快車訂單需求類型的分析可以發現,類型2與類型4上下車點都集中于混合用地,且類型4出行高峰時間接近于早高峰時間,類型2出行高峰時間接近于晚高峰時間,兩種類型的出行量對于工作日與節假日都較為敏感。其中,類型4在工作日出行量較穩定,在周末及節假日明顯下降,可以判斷類型4主要以居民的通勤出行為主;類型2出行量在節假日時會明顯增多,可以推斷類型2中除通勤外還有大量娛樂出行。
類型1與類型3上下車點在混合用地與3種用地(居住用地、商業服務設施用地、綠地及廣場用地)之間,出行時間在8:00—22:00之間,工作日與節假日對其出行量影響較小,并且所占比例較小,可以認為這種出行需求主要為居民生活出行及休閑娛樂出行。
通過對出租車網絡訂單數據聚類分析結果進行分析,得到各類型訂單的出行時間分布曲線(見圖12)、行程時間分布曲線(見圖13)、上下車點用地性質的分布(見圖14、圖15),出行量隨時間變化曲線(見圖16)。
出租車類型1在所有訂單中所占比例為36.37%,是4種類型中所占比例最多的一種,這種類型的出行需求集中在13:00—22:00之間,在21:00左右達到峰值,上下車點用地性質主要為混合用地,出行量受工作日及節假日影響明顯,行程時間多分布在10~50 min之間。

圖12 出租車各類型需求出行時間分布曲線

圖13 出租車各類型需求行程時間分布曲線

圖14 出租車各類型需求上車點區域性質統計直方圖

圖15 出租車各類型需求下車點區域性質統計直方圖

圖16 出租車各類型需求出行量隨時間變化曲線
出租車類型2在所有訂單中所占比例為32.15%,這種類型的出行需求主要分布在7:00—13:00之間,在8:00左右達到峰值,在0:00—4:00出行量迅速減小,出行量受工作日與節假日影響明顯,上下車點用地性質主要為混合用地,行程時間多分布在10~50min之間。
出租車類型3在所有訂單中所占比例為16.65%,這種類型的出行需求分布在7:00—22:00且隨時間變化波動較小,上車點用地性質主要集中于混合用地,下車點用地性質分布在居住用地、商業服務設施用地及綠地及廣場用地,行程時間多分布在10~50min之間。
出租車類型4在所有訂單中所占比例為14.83%,這種類型的出行需求分布在7:00—22:00,且不隨時間變化有較大的波動,上車點分布在居住用地、商業服務設施用地及綠地及廣場用地,下車點集中于混合用地,行程時間多分布在10~50min內。
通過對出租車網絡訂單的需求類型分析可以發現,類型1與類型2的上下車點區域的用地性質均集中于混合用地,類型2的峰值出現時間接近于早高峰時段,類型1峰值出現時間在21:00左右,晚于晚高峰時段,兩種類型的出行量對于工作日與節假日都較為敏感。可以判斷在類型2中有大量早高峰通勤需求,在類型1中存在一部分通勤需求及平日工作結束后的娛樂需求,所以在13:00迅速增加,并在21:00以后迅速下降。
類型3與類型4上下車點在混合用地與3種用地(居住用地、商業服務設施用地、綠地及廣場用地)之間,出行時間在7:00—22:00之間,出行量受工作日及節假日影響較小,可以判斷這兩種類型需求主要為居民生活及娛樂需求。
以出行時間、行程時間及上下車區域的用地性質作為特征變量對出租車及快車網絡訂單進行聚類分析發現,二者的乘客出行需求均呈現出一定的特征。
(1)出租車與快車網絡訂單需求的聚類結果中均出現兩類受時間影響較大的出行需求類型,并且呈現出相似的需求特性,分別集中于8:00—12:00與15:00—22:00,乘客上下車區域的用地性質集中于混合用地性質,受工作日及周末的影響較大,在工作日更為活躍,在周末及節假日則出行量明顯下降。通過分析其出行特性可以得到,其出行目的應以通勤出行以及工作日下班后的娛樂出行為主。
(2)二者的聚類分析結果中均出現兩類受時間影響不明顯的出行需求類型,呈現出相似的需求特性。這類出行在8:00—22:00有穩定的訂單量,并且受時間影響較小,對于工作日及節假日并不敏感,乘客出行往返于混合用地與居住用地、商業服務設施用地、綠地及廣場用地3種用地類型之間。通過分析其出行特性可以得到,這類出行需求應以居民日常生活出行及娛樂出行為主。
(3)快車乘客出行行程時間介于10~50min,主要集中于10~20min,行程時間大于20min的需求量迅速減少。出租車網絡訂單乘客出行行程時間介于10~75min,主要分布在10~45min。由此可知,選擇快車作為出行方式的乘客多以短時出行為主,當行程時間大于20min以上時,乘客選擇出租車的概率更大。
本文通過對出租車及快車網絡訂單的數據進行統計分析發現,出租車網絡訂單行程時間主要介于10~50min、出行費用主要分布于10~50元,上下車熱點區域差異較大;而快車訂單主要集中于出行時間小于30min、出行費用小于30元的訂單,上下車熱點區域分布較為一致。由聚類分析的結果可以發現,乘客選擇網約車作為出行方式時與出行時間以及上車區域有很強的相關性,在早晚高峰時間采用網約車作為出行方式的乘客多集中于混合用地,而對于其他用地類型的區域中并沒有明顯的早晚高峰情況,網約車司機可以此作為依據在尋客時更有針對性地選擇尋客區域,以提高運營效率及服務質量。研究結果可為相關部門制定網約車的管理措施提供依據。
本文只對快車與網約出租車的乘客特征進行了分析研究,而此外還存在著“順風車”“專車”等其他形式的網約車,在后續的研究中應結合各種網約車的數據進行分析研究,以更好地了解各種網約車的需求特征以及它們之間的相互聯系,供今后網約車合理地為不同類型的乘客提供服務所參考。