陳文強,王雪梅,王 濤,高 超,李 瓊
(1.長安大學 運輸工程學院,陜西 西安 710064, 2.陜西匯德通市政工程有限公司,陜西 西安 710086)
“慢行交通”也稱非機動化交通,方式主要包括步行、自行車等,其發展對于解決城市交通“最后一公里”問題、提高城市公共交通運營效率具有重要作用。得益于移動互聯網、移動支付等技術進步,無樁共享單車憑借使用方便、操作快捷等優勢,受到用戶的推崇,共享單車行業正進入快速發展期,運力過度投放、惡性競爭等問題逐漸暴露,嚴重影響行業健康發展。依據共享單車市場需求影響因素,制定精細化管理策略已成為企業亟需解決的重要問題,這就需要根據慢行交通方式選擇影響因素,研究慢行交通方式選擇行為。
交通方式選擇行為相關研究主要歷經集計方法/非集計方法,到基于活動的分析方法,隨著交叉學科的發展,考慮心理因素、環境因素的交叉研究是重要方向[1-3]。近年來,深度學習方法在交通方式選擇行為建模方面的應用越來越廣泛[4-5],由于可處理數據能力更強,模型精度比傳統模型表現更好[6]。但對模型有重要影響的內生潛在變量,如態度、偏好、感知等心理因素,被置于“黑箱”而得不到合理解釋。為提高慢行交通方式選擇模型預測精度和獲得有效的政策啟示,本研究將慢行交通方式選擇的影響因素分為個人信息、態度與認知、建成與自然環境、出行信息4類,利用Lasso-logistic回歸模型與深度學習方法建立慢行交通方式選擇預測模型,提高模型精度和明確政策啟示。
論文其余部分的安排如下:第1節對相關文獻進行綜述;第2節介紹本項研究方法和過程;第3節對研究結果進行分析和討論;最后,總結全文并提出展望。
影響居民出行行為因素很多,可分為4類:個人屬性(B?cker等)[7],建成與自然環境(Roberts等)[8]、態度與認知(Bolduc等)[9]、出行信息(Chang等)[10]。利用不同方法理論研究出行行為及影響因素之間關系的成果豐富。WU等[11]通過MNL模型從出行特性、環境等方面對北京的共享單車選擇影響因素進行分析,發現出行距離、雨天、高溫和霧霾天氣都會影響共享單車的使用;Hagenauer等[12]通過對2010—2012年的荷蘭居民出行數據進行研究,探討不同變量重要性以及與不同出行模式的關系,發現溫度因素對于自行車出行選擇尤為重要;Bamberg等[13]基于計劃行為理論研究發現,態度、行為習慣會影響居民出行方式選擇意愿。Tran等[14]通過對日本名古屋821名受訪者,1 840次出行數據進行分析發現,環境保護、體育健身觀念的傳播,對于居民出行交通方式選擇步行、騎自行車具有十分積極的影響。Jia等[15]研究發現低碳知識與低碳習慣會直接影響步行、自行車出行的方式選擇。
相關研究對慢行交通發展具有重要的政策啟示,例如,可以通過宣貫環保、健康知識來提升城市居民慢行交通比例。但將中國城市慢行交通作為研究樣本的成果不多,中國慢行交通發展及影響因素具有自己的特點,相應的政策啟示也有所變化。
交通出行方式選擇行為預測是一個復雜的系統,與影響因素間存在著一定的非線性關系。深度學習具有無可比擬的處理大數據能力,能夠從眾多影響因素中獲取內在規律,具備很強的擬合任意非線性關系的能力。目前,利用深度學習方法對交通出行方式選擇問題相關研究成果豐富。例如,Cantarella等[16]訓練了兩個具有不同架構的人工神經網絡(ANNs)來預測人們的出行模式選擇行為,發現這兩種ANNs都明顯優于MNL模型。Celikoglu等[17]研究表明,神經網絡能夠有效地校正出行選擇建模中的效用函數。Omrani等[18]研究表明ANNs比非集計模型更準確。分類樹(CTs)也被應用于出行方式選擇分析。例如,Xie等[19]將CTs和ANNs與MNL模型進行比較,結果顯示CTs和ANNs比MNL表現更好。支持向量機(SVM)也在許多研究中得到了應用。例如,Zhang等[20]比較了SVM,ANNS和MNL模型精度,結果發現SVM具有更高精度。相比之下,Omrani等[6]在對通勤者的出行方式選擇行為進行建模時發現ANNS比SVN和MNL模型更準確,但缺點也很明顯,神經網絡模型的可解釋性較差。本研究利用深度學習方法中的神經網絡對慢行交通方式選擇行為進行建模,以期提高預測模型精度。
為了兼顧預測模型的可解釋性,提煉出啟示意義,同時盡量提升模型的預測準確度,本研究將Lasso-logistic回歸模型與人工神經網絡組合建立預測模型。Lasso-logistic回歸模型可以得到各特征變量的顯著性和權重值,從而可以有針對性地提出管理建議。
(1)因變量
本研究選取中國西安為樣本城市,通過RP(Revealed Preference)調查獲取西安慢行交通出行選擇行為及影響因素數據。論文組10人于2019年6月10日—6月13日開展為期4天的RP線下調查,主要在大雁塔、小寨商圈人流密集場所,如地鐵站、公交站、商場、景區等地點通過發放禮物、現場問答的形式收集數據。調查小組共收集問卷1 130份,去除不完整和明顯錯誤問卷,共獲得有效樣本931份,其中步行數據419份,自行車數據512份。
(2)自變量
①個人信息
借鑒B?cker等[7]成果,獲取慢行交通出行者個人信息,包括性別、年齡、教育程度、職業、私家車擁有、騎行技能、智能手機使用技能7個靜態屬性變量。
②建成與自然環境
借鑒相關研究成果,本研究在自變量中加入建成與自然環境因素,主要包括土地利用密度、區域人口密度、出行路況、步道可用性、自行車道可用性、自行車可獲得性、自行車性能、天氣、溫度、空氣質量等8個變量。
③態度與認知
Bamberg 等[13]基于計劃行為理論研究發現,態度、過去行為、習慣和理性行為、主觀規范和感知行為控制會影響居民出行方式選擇意愿。基于此,本研究在自變量中加入態度與認知因素,主要包括環保意識、健康意識、儀態意識、安全意識、消費觀念、出行習慣等6個變量。
④出行信息
借鑒CHANG等[10]的研究,本研究將出行距離、出行目的、出行時間、出行伙伴、費用來源、道路熟悉、隨身攜帶、時間緊迫性、一次出行費用、其他交通方式的可靠性等10個變量歸類到出行信息類中。
本研究模型中的可解釋變量共33個,包括個人信息、建成環境、態度與認知和出行信息變量4大類。表1列出了主要變量及其描述。

表1 慢行交通影響因素

續表1

續表1
本研究采用一次移動平均值和眾數解決原始數列中有缺失值的問題,采用放回重復抽樣的方式解決正反兩類數據不對稱的問題。
2.2.1 步驟
借鑒文獻[21]試驗步驟,本研究設計試驗步驟如圖1所示。

圖1 試驗步驟
(1)通過RP調查獲取出行數據。
(2)數據的預處理。
(3)根據數據處理需求對所得數據進行篩選。
(4)Lasso-logistic回歸模型訓練,輸出各個特征變量的權重值和顯著性指標,對自變量進一步篩選。
(5)根據數據篩選情況將數據分組,分別輸入分類模型,訓練BP神經網絡模型和支持向量機模型,得到預測模型。
(6)通過不同分類預測模型,從準確率等指標進行模型評估。
2.2.2 Lasso-logistic模型與模型參數估計
Lasso-logistic回歸模型可以在求解回歸參數估計值時加入參數的懲罰項以實現對變量的選擇和參數估計。具體做法是對RSS最小化的目標函數加入一個懲罰項L1范數,使得模型由多解變為更傾向于其中一個解。
Lasso-logistic回歸模型中的參數估計可以表示為:
(1)

2.2.3 人工神經網絡模型
慢行交通方式選擇影響因素與選擇結果之間是一種非線性的關系,傳統的線性函數不能滿足這一映射。神經網絡是一種能夠對影響因素和輸出結果之間的非線性關系進行很好的擬合并完成分類任務的模型函數[22]。根據Buijs等[23]的研究結論,兼顧訓練時長和模型的準確度,本研究采用具有3層隱藏層的深度神經網絡作為基礎模型,采用全連接的方式,包括輸入層x、隱藏層y、輸出層z,模型如圖2所示。

圖2 深度神經網絡基礎模型
圖2中,每1個圓環代表1個神經元節點,在輸入層中,神經元節點數目xd根據輸入數據的指標數量確定;在輸出層中,神經元節點數目zc根據輸出種類數確定,在隱藏層中,神經元節點數目yh可以由經驗公式計算并多次測試得出。
本研究中影響慢行交通方式選擇的指標有33個,輸出指標1,因此輸入層的神經元節點數目xd為33,輸出層的數目zc為1。隱含層節點數的設置參考文獻[24],基于式(2)測試發現隱含層節點數取20時準確率最高。
(2)
式中,yh為隱藏層神經元節點數;n為輸入層神經元節點數;l為輸出層神經元節點數。
經過多次試驗選取模型參數,選用relu函數作為隱藏層的激活函數,sigmoid函數作為本模型輸出層的激活函數,二元交叉熵(Binary Cross-Entropy)作為損失函數,采用小批量梯度下降法(Mini-Batch Gradient Descent, MBGD)完成模型的優化,經過多輪嘗試,批數量batch-size定為20,學習率設定為0.01較為合適。采用批次和隨機訓練法選擇訓練樣本,每個批次設置為100個樣本,訓練的迭代數為2 000 次,訓練數據與測試數據比為9∶1。
本研究利用R語言glmnet包來實現Lasso-logistic回歸,基于調節參數λ和均方誤差來選擇最優模型。Lasso-logistic 回歸模型變量選取和模型各變量系數如圖3和表2所示。

圖3 參數變量選擇

表2 主要變量參數系數
由圖3可以看出,當lnλ=-4.1時,均方誤差最小,意味著變量由33個壓縮到19個時,模型具備優良性能。抽取出對應19個變量的模型系數如表2所示。
從表2可以看出,時間價值、健康意識、出行伙伴、出行距離、出行偏好、自行車性能、天氣、自行車專用道、騎行技能等因素與共享單車選擇有正向關系,其中騎行技術變量對慢行交通方式選擇行為影響最大,影響系數為0.45,其次是自行車專用道建設(0.15),天氣(0.11)等;影響居民選擇步行的因素主要有性別、空氣質量、交通狀況、道路熟悉程度、儀表態度、自行車可獲得性、是否有行李等;安全意識、環保意識等態度與認知變量對慢行交通方式選擇行為影響較弱。
利用python編程語言,通過TensorFlow框架的keras集成庫完成模型的構建,使用準確率(Accuracy)和loss值指標評估模型準確率[25]。為了對比分析不同模型和不同數據集在預測準確度上的效果,本研究將未經 Lasso-logistic回歸模型篩選的變量集和篩選后的變量集分別輸入到本研究構建的神經網絡模型和支持向量機(Support Vector Machine,SVM)分類模型中。
其中,利用本研究構建的神經網絡模型對931份未經 Lasso-logistic回歸模型篩選的變量集做訓練和測試后,在迭代次數2 000次后,得到圖4所示的結果。

圖4 迭代2 000次的模型訓練和測試結果
從“epoch-loss”圖可以很明顯地看出,迭代次數在250~500次時,模型有最好的表現,準確率在80%以上。修改迭代次數至360次,模型在測試集上的預測準確率達到了81.48%。同理,輸入Lasso-logistic回歸模型篩選的變量集,預測準確率為85.65%。
將不同數據集輸入不同類型SVM模型中,樣本數據亂序情況與之前保持一致,測試結果如表3所示。

表3 支持向量機分類測試結果
表3中,表示3種不同支持向量機分類器對數據的預測準確率,結果顯示經Lasso-logistic回歸模型篩選的變量集輸入到LinearSVC的表現性能最好,有73.67%的準確率。
對比神經網絡和支持向量機分類模型預測結果發現,經Lasso-logistic回歸模型對冗余變量進行篩選后,模型的準確性得到明顯提升。對于同一組數據,深度神經網絡在與支持向量機分類器的對比中表現更加突出(見表4),具有較強的預測能力和泛化能力。

表4 不同模型的預測準確率
本研究設計了影響慢行交通方式選擇的“個人信息、建成和自然環境、態度和認知、出行信息”4個方面共33項因素指標,利用Lasso-logistic回歸模型,篩選出顯著性指標,將未篩選的自變量和篩選出的自變量分別輸入到深度學習分類模型中,訓練構建的3層神經網絡模型和不同類型支持向量機模型,得到預測分類器,并從準確率等指標對分類器進行評估。研究發現,時間價值、出行距離、天氣、自行車專用道、騎行技能等是影響共享單車選擇的顯著性因素;空氣質量、交通狀況、道路熟悉程度、儀表態度等是影響步行的顯著性指標;而安全意識、環保意識等態度與認知變量對慢行交通方式選擇影響較弱。經Lasso-logistic回歸模型對冗余變量進行篩選后的數據,神經網絡模型的準確性得到明顯提升,預測精度由81.48%提高到85.65%。對于慢行交通選擇影響因素同一組數據,深度神經網絡與支持向量機分類器的對比中表現更加突出。研究成果為改善慢行交通出行環境提供方向指導,為共享單車企業和政府管理部門應對慢行交通道路-環境因素的變化制定相應策略提供參考。
慢行交通承擔著解決城市交通“最后一公里”功能,其發展對于提高整個城市交通運行效率具有重要作用;慢行交通也是重要的綠色交通方式,對于提高城市空氣質量、節能減排具有意義。慢行交通中的步行、自行車等方式適用范圍和影響因素有所不同,明確適用范圍和影響因素,有利于規劃建設促進各自發展的建成環境,有利于營造引導綠色出行的政策環境。
研究結果顯示,正向影響居民選擇自行車出行的顯著性指標按照影響程度由小至大順序分別為時間緊迫性、健康意識、是否結伴、出行距離、出行習慣、自行車性能、天氣、自行車專用道、騎行技能等。除去出行距離、是否結伴等出行信息及天氣等自然因素無法控制或改變外,其他因素可以通過干預加以改變。對于無法控制或改變的影響因素,供給方可以采取優化資源、產品創新等增加乘客選擇自行車概率;對于可以改變或控制的影響因素,供給方盡量通過干預手段增加因素的正向影響來擴大方式選擇的概率。例如,出行距離是影響居民自行車方式選擇的重要因素,在一定范圍內,出行距離越遠,選擇自行車出行的概率越大,企業可以在距離公共交通站點較遠的需求發生點多投放共享單車,有效滿足乘客的需要;天氣也是影響自行車選擇的重要因素,下雨天選擇騎行的居民較少,共享單車企業可以提供雨披等防雨工具來提高自行車選擇概率;騎行技能是影響居民選擇自行車出行與否的最重要因素,也是可以改變的影響因素,如果共享單車企業能夠采取措施,讓更多居民掌握騎行技能或者提高騎行技能,從根本上提高自行車出行人群基數,相關企業可以從中受益。
研究結果還顯示,安全意識、環保意識等態度與認知變量對慢行交通方式選擇行為影響較弱。這可能與樣本中人口統計特征有關,統計樣本中,45歲以下人群占到60%以上,這部分群體年富力強,自信能夠駕馭慢行交通方式,更多關注慢行交通的功能性指標,而非安全性指標;而且,慢行交通中的步行、自行車都具有低碳環保特點。因此,想通過宣傳強調共享單車的安全性、環保性引導乘客選擇共享單車出行作用不大。
深度學習技術特點決定了要想獲得良好的分類效果,需要大數據支撐。本研究只獲取了931條數據,數據量級方面對模型預測精度可能產生制約,因此未來研究可調查獲取更多、覆蓋面更廣的數據,充分提高模型的預測精準率。本研究只選擇了“個人信息、建成與環境、態度與認知、出行信息”4類33個指標,在未來研究中,可以加入心理、出行習慣等因素,這樣數據面更廣,模型準確性可能更高、適用性更好。