, ,
(江蘇大學 汽車與交通工程學院,江蘇 鎮江 212013)
在過去的20年里,我國接受高等教育的人數一直呈現持續增長的趨勢,據中華人民共和國統計局發布的統計信息顯示:2014年,全國研究生在校學生數為184.768 9萬人,普通本專科在校學生數為2 547.7萬人,2類人數總和約占中國總人口的2%。在我國,絕大多數大學生集中住在宿舍里,且大學生的課程安排具有間隙性,這就允許學生在他們課后時間從事各種各樣的活動,無形中增加大學校園周邊的交通需求量,特別是在每天下午五點至晚上九點的時間段內,大學生出行會呈現爆發式的增長,可能會導致局部交通供需失衡,進而對城市的交通網絡產生重大影響。為了降低大學生大量出行對局部交通乃至城市交通網絡的影響,需要對大學生的出行規律進行研究。而研究大學生的出行規律,需先對大學生的出行方式進行研究。
近年來,已有許多學者對大學生的出行方式進行研究[1-2],但這些研究所用數據基本上是基于傳統調查方法——問卷調查方法獲取到的。傳統調查方法本質上是依賴被訪問者對行程的回憶以及他們主觀認知,這樣不可避免地會存在訪問回應率低和數據質量差等問題[3]。相對于傳統調查方法,基于智能手機GPS的調查方法具有實質性的優勢,如可以實時對出行者進行調查;可以減少出行者的負擔;可以提高數據的質量等[4]。最近,已有許多利用智能手機GPS獲取人們的出行數據,并基于獲取的數據進行出行方式識別研究。
文獻[5]利用智能手機GPS記錄45位居民6個月的出行數據,并選取長度、平均速度、速度期望值、最大的3個速度和最大的3個加速度等作為貝葉斯網絡(Bayesian Net,BN)、決策樹(Decision Tree,DT)、支持向量機(Support Vector Machine,SVM)和條件隨機場(Conditional Random Field,CRF)這4種方法的輸入變量,利用這4種方法進行識別研究,其中,DT的識別精度最高,達到74%。文獻[6]利用手機GPS分別記錄16位調查者(8男8女)的75 min出行數據,與此同時提出一種混合模型——決策樹和一階離散隱馬爾科夫模型進行出行方式識別,并選取GPS速度、加速度方差和加速計離散傅里葉轉換系數作為混合模型的輸入變量。研究結果表明,此文獻提出的混合模型的識別精度達到93.6%。文獻[7]利用智能手機獲取的137條出行軌跡數據,并利用提出的兩階段模型(第二階段是SVM)進行識別研究。研究結果顯示模型的識別精度為93%。文獻[8]請15名自愿者利用手機記錄自己2個月的出行軌跡數據,并選擇5%位速度、中位速度、95%位速度、加速度、減速度和方向改變值等作為一種概率分類與離散隱馬爾科夫結合的識別模型的輸入變量。其研究結果顯示:模型的識別精度范圍為65%(地鐵、火車)到95%(自行車)。針對BP神經網絡(Backpropagation Neural Networks,BP-NNs)在訓練過程中網絡參數容易陷入局部最優的缺陷,文獻[9]提出粒子群優化神經網絡(Particle Swarm Optimization Neural Networks,PSO-NNs)模型,并選取低速度率、出行距離、平均速度、平均絕對加速度、中位速度和95%位速度作為模型的輸入變量。根據對比結果可得,PSO-NNs模型的識別精度優于其他常用的識別模型(SVM、多項Logit模型和BP-NNs)。文獻[10]提出一種改進的貝葉斯網絡出行方式識別模型,在模型4個輸入變量(平均速度、95%位速度、平均絕對加速度和出行距離)的基礎上,增加2個輸入變量(低速度率、平均車頭轉向),最終獲得92.74%的識別精度。文獻[11]提出粒子群優化支持向量機(Particle Swarm Optimization and Support Vector Machine,PSO-SVM)的方法進行出行方式識別研究,其出行方式識別精度達到95.1%,并將實驗結果與DT、BP-NNs和基于網絡搜索的支持向量機的結果進行對比,其結果表明PSO-SVM是有效的出行方式識別模型。
綜上所述,在已有出行方式識別模型里,文獻[11]提出的PSO-SVM識別精度相對較好,但PSO存在一定缺陷,如早熟收斂[12]。針對這個缺陷,本文提出一種改進粒子群優化支持向量機(Improved Particle Swarm Optimization and Support Vector Machine,IPSO-SVM)模型。以繁殖PSO算法為基礎,引入遺傳操作機制(即選擇、交叉和變異操作),并IPSO對SVM的懲罰參數和核函數參數進行參數尋優。
SVM模型于1995年首次被提出,是基于統計學習理論和結構風險最小化原則發展起來的一種新的通用學習方法[13]。面對小樣本、非線性和高維數的模式識別問題時,SVM表現出較強的泛化能力[14]。依據已有文獻[15]的研究結果,本文研究選擇徑向基核函數進行大學生出行方式識別研究。
PSO算法于1995年提出一種優化算法。相對于其他優化算法,如遺傳算法和蟻群算法,在大多數情況下,PSO算法不僅擁有較低的計算復雜度,而且全局搜索能力更優、收斂速度更快[10,13]。但是,PSO算法仍存在一些問題,如容易早熟收斂。
在現有研究中,PSO算法容易早熟收斂問題的解決方法已有很多,如基于參數選擇策略的改進方法和基于增加種群規模的改進方法,但這些方向存在一定缺陷,如基于參數選擇策略的改進方法需以多次仿真實驗為基礎,且不同優化問題,其參數選擇存在差異;基于增加種群規模的改進方法,增加了算法的運算量,且不利于與其他算法的結合。基于文獻[16]的研究結果,本文利用以繁殖PSO算法為基礎,引入遺傳操作機制(即選擇、交叉和變異操作)的IPSO來優化SVM。
基于IPSO-SVM模型如圖1所示。首先采用大學生智能手機中的出行軌跡記錄軟件收集其出行數據,并對收集的數據進行處理,接著利用IPSO對SVM進行參數尋優,然后使用優化的SVM對數據進行訓練,最后對大學生出行方式進行識別研究。
IPSO-SVM模型進行大學生出行方式識別研究的具體流程如圖2所示。
在執行遺傳操作機制并更新個體和全局最優位置的步驟時,按交叉概率選擇適應度值較好的粒子作為父代粒子,并按式(1)與式(2)進行交叉操作,計算子代粒子的適應度值:如果子代粒子適應度值優于父代粒子的適應度值,就進行替代。變異操作需按照變異概率和式(3)來執行,其作用是避免陷入局部最優。在執行更新粒子的位置及速度的步驟時,是按照式(4)和式(5)來更新所有粒子的速度與位置信息。
(1)
(2)
(3)
(4)
(5)

本文研究在江蘇大學招募37名在校大學生(5名研究生和32名本科生)作為數據收集自愿者,并要求這些學生在自己的智能手機上安裝SpeedView軌跡記錄軟件。在收集出行軌跡數據時,自愿者須同時打開SpeedView軟件、移動數據及手機GPS定位系統。大學生出行軌跡數據收集時間為2015年6月29日至7月5號。這37名大學生一共收集到691條有效出行數據,其中,步行290條,自行車97條,電動車54條,校園公交53條,公交車165條,出租車32條。
在我國,因為大學生沒有經濟來源,所以其選擇的出行方式與城市居民存在差異性,如城市居民駕駛小汽車出行的情況十分普遍,但是在我國,大學生開車上學的可能性較小。基于大學生的出行特點,本文選取步行、自行車、電動車、校園公交、公交車和出租車等6種出行方式進行識別研究。
在出行方式識別研究中,出行特征變量的選擇對模型的識別精度有很大影響[10]。選擇速度相關的出行特征變量用來進行出行方式識別的研究已有很多。文獻[5]選擇出行距離和最大加速度這兩個出行特征變量對步行、自行車、公交車和小汽車這4種出行方式進行識別研究。文獻[17]選擇中位速度、95%位速度和95%位加速度等3個出行特征變量進行識別研究。文獻[10]選擇平均速度、95%位速度、平均絕對加速度、出行距離、車頭轉向和低速度率等6個出行特征變量作為識別模型的輸入變量。基于已有研究,本文選擇出行距離、平均速度、中位速度、95%位速度、95%位加速度、平均絕對加速度、低速度率等7個出行特征變量作為IPSO-SVM模型的輸入變量,并利用箱線圖和單變量組間均值相等檢驗對選取的出行特征變量的有效性進行驗證分析。
2.2.1 箱線圖法
利用箱線圖(Boxplot)描述6種出行方式的各出行特征變量值,如圖3~圖9所示。由圖3可知,平均速度箱線、中位速度箱線和95%位速度箱線有相似的分布形狀,這種相似性表明,這3個出行特征變量擁有相似的魯棒性[12]。基于圖3和圖4,可以將6種出行方式分成4類,如步行、自行車和校園公交各自為一類,其余的3種出行方式為第4類。但是由圖5和圖6可知,電動車的95%位速度值的分布與公交車和出租車存在較大差異,可以有效地進行出行方式劃分。由圖7~圖9可知,電動車、公交車和出租車這3種出行方式的平均絕對加速度分布、95%位加速度分布和地速度率分布存在差異(如由于公交車需要沿途停靠公交站臺,其低速度率值在這3種出行方式中是最高的,其次是小汽車、最低的是電動車),可進行有效的出行方式劃分。

圖3 6種出行方式的平均速度

圖4 6種出行方式的中位速度

圖5 6種出行方式的95%位速度

圖6 6種出行方式的出行距離

圖7 6種出行方式的平均絕對加速度

圖8 6種出行方式95%位加速度

圖9 6種出行方式的低速度率
2.2.2 單變量組間均值相等檢驗
文獻[18]指出大多數出行方式識別研究在選擇出行特征變量時,并沒有給出選擇的統計基礎,利用單變量組間均值相等檢驗來選擇出行特征變量,并選擇Wilks’ Lambdaλ值和組間F值(Between-GroupF)作為選擇指標。本文基于文獻[18]的出行特征變量選擇方法,對已選取的7個出行特征變量進行驗證分析。基于獲取到的691條有效出行數據,進行單變量組間均值相等檢驗,其結果如表1所示。

表1 單變量組間均值相等檢驗
Wilks’ Lambdaλ是組內平方和總平方和之比。當所有觀測到的組均值相等時,Wilks’ Lambdaλ值為1;當組內變異與總變異相比越小時,Wilks’ Lambdaλ值越接近于0。Wilks’Lambdaλ值在[0,1]之間,且其值越小表明其貢獻越大。組間F值越大表明該出行特征變量對出行方式識別結果的影響力越大。表1顯示了7個出行特征變量的Wilks’ Lambdaλ值和Between-GroupF值,且Wilks’ Lambdaλ值都小于0.4,Between-GroupF值都大于221,參照文獻[18]的出行特征變量選取結果,說明本文選取的7個出行特征變量都有效,其有效性(從小到大排序)依次為平均絕對加速度、低速度率、出行距離、95%位加速度、中位速度、95%位速度及平均速度。
本文是以江蘇大學37名大學生收集的有效出行軌跡數據為基礎,利用IPSO-SVM模型對大學生的出行方式進行識別研究。本文隨機挑選其中的518條數據組成訓練集,剩下的173條數據組成測試集。利用提出的IPSO-SVM模型對訓練、測試數據進行多次仿真,選擇其中識別精度最好的5次,取5次結果的平均值作為IPSO-SVM模型的識別精度。與此同時,讓BP-NNs、DT、SVM和PSO-SVM采用相同數據進行訓練和出行方式識別,并經過多次仿真,選取識別精度最高的5個結果,取其平均值。各模型出行方式平均識別精度如表2所示。

表2 各模型出行方式平均識別精度 %
由表2可知,不同模型對每種出行方式的識別精度都存在一定差異:在步行出行方式識別上,IPSO-SVM和PSO-SVM的識別精度都達到98%,且兩者的差異很小,這2種方法的識別精度均高于BP-NNs、DT和SVM;在自行車出行方式識別上,IPSO-SVM的識別精度最高,達到95.24%,PSO-SVM的識別精度次之,達到91.47%,BP-NNs、DT和SVM對自行車的識別精度都低于90%。IPSO-SVM在電動車出行方式識別精度上低于PSO-SVM的識別精度,但高于BP-NNs、DT和SVM的電動車識別精度。在校園公交出行方式識別上,識別精度從高到低依次為IPSO-SVM、PSO-SVM、BP-NNs、SVM和DT。在公交車出行方式識別上,IPSO-SVM的識別精度最高,BP-NNs的識別精度最低。在出租車出行方式識別上,IPSO-SVM的識別精度最高,達到94.12%,而DT的識別精度最低,只有87.94%。不同模型對大學生出行方式的平均識別精度存在一定差異:IPSO-SVM模型的平均識別精度最高,達到94.22%;PSO-SVM模型的識別精度次之,達到 91.91%;接著是SVM的識別精度,然后是BP-NNs識別精度,DT識別精度最低。
總體而言,相對于BP-NNs、DT、SVM這3種模型,IPSO-SVM模型在大學生出行方式識別精度方面具有較大的優勢,同時整體上也優于PSO-SVM模型。
本文以37位大學生用SpeedView出行軌跡記錄軟件收集到的691條有效數據為基礎,選擇出行距離、平均速度、中位速度、95%位速度、95%位加速度、絕對平均加速度和低速度率等7種出行特征變量,并利用提出的IPSO-SVM模型對大學生的6種出行方式,即步行、自行車、電動車、校園公交、公交車和出租車進行識別研究。實驗結果證明了箱線圖法和單變量組間均值相等檢驗法驗證選取的出行特征變量的有效性,本文提出的IPSO-SVM模型在大學生出行方式識別精度方面優于其他常用的識別模型(BP-NNs、DT、SVM和PSO-SVM)。
[1] WHALEN K E,PáEZ A,CARRASCO J A.Mode Choice of University Students Commuting to School and the Role of Active Travel [J].Journal of Transport Geography,2013,31(6):132-142.
[2] CHRISTIAN A K,THOMAS F.A Multi-level Approach to Travel Mode Choice—How Person Characteristics and Situation Specific Aspects Determine Car Use in a Student Sample[J].Transportation Research Part F Traffic Psychology & Behaviour,2011,14(4):261-277.
[3] 張治華.基于GPS軌跡的出行信息提取研究[D].上海:華東師范大學,2010.
[4] ZHOU J,GOLLEDGE R.Real-time Tracking of Activity Scheduling/schedule Execution Within a Unified Data Collection Framework[J].University of California Transportation Center Working Papers,2004,41(5):444-463.
[5] ZHENG Yu,LIU Like,WANG Longhao,et al.Learning Transportation Mode From Raw GPS Data for Geographic Applications on the Web[C]//Proceedings of International Conference on World Wide Web.Washington D.C.,USA:IEEE Press,2008:247-256.
[6] REDDY S,MUN M,BURKE J,et al.Using Mobile Phones to Determine Transportation Modes[J].ACM Transactions on Sensor Networks,2010,6(2):662-701.
[7] ZHANG L,DALYOT S,EGGERT D,et al.Multi-stage Approach to Travel-mode Segmentation and Classification of GPS Traces[J].ISPRS——International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2012,25(4):87-93.
[8] NITSCHE P,WIDHALM P,BREUSS S,et al.Supporting Large-scale Travel Surveys with Smartphones——A Practical Approach[J].Transportation Research Part C:Emerging Technologies,2014,43:212-221.
[9] XIAO Guangnian,JUAN Zhicai,GAO Jingxian.Travel Mode Detection Based on Neural Networks and Particle Swarm Optimization [J].Information,2015,6(3):522-535.
[10] XIAO Guangnian,JUAN Zhicai,ZHANG Chunqin.Travel Mode Detection Based on GPS Track Data and Bayesian Networks[J].Computers,Environment and Urban Systems,2015,54:14-22.
[11] 李 喆,柏 叢,孫 健,等.基于PSO-SVM的出行方式識別研究[J].計算機應用研究,2016(12):3527-3529.
[12] 王曉霞,王 濤,谷根代.基于改進粒子群優化的神經網絡及應用[J].華北電力大學學報,2009,36(5):99-102.
[13] 王建國,張文興.支持向量機建模及其智能優化[M].北京:清華大學出版社,2015.
[14] 安 旭,張樹東.基于支持向量機的模糊特征分類算法研究[J].計算機工程,2017,43(1):237-240,246.
[15] 王 園.基于SVM_AdaBoost模型的上市公司退市預警研究[D].廣州:華南理工大學,2013.
[16] 胡程磊.數據驅動的建筑電能耗預測方法研究[D].鎮江:江蘇大學,2016.
[17] BROACH J,MCNEIL N W,DILL J.Travel Mode Imputation Using GPS and Accelerometer Data from a Multi-day Travel Survey[C]//Proceedings of Transportation Research Board the 93rd Annual Meeting.Washington,D.C.,USA:[s.n.]2014:256-268.
[18] BOLBOL A,CHENG T,TSAPAKIS I,et al.Inferring Hybrid Transportation Modes from Sparse GPS Data Using a Moving Window SVM Classification[J].Computers Environment & Urban Systems,2012,36(6):526-537.