






摘" 要: 文中對基于決策樹優化選擇下城市交通出行特征進行研究,通過研究城市交通出行方式,緩解城市交通出行壓力。基于決策樹算法基本理論,構建決策樹模型,選取城市交通出行特征作為分類依據,運用C4.5決策樹算法對城市交通出行數據進行分類,根據分類后各個不同特征葉子節點對上層子節點的總占比進行城市交通出行特征優化選擇分析,并在“Occam′s razor”的基礎上,利用重新引入法提出優化方法,解決C4.5決策樹算法存在的過度擬合問題,提升城市交通出行方式分析效果。實驗結果表明,該方法可有效分析城市交通現有出行特征,指導城市交通規劃,依據該方法的分析結果對早高峰線路進行優化后,有效減少了長距離擁堵路段,同時避免了嚴重阻塞路段的產生。
關鍵詞: 城市交通; 出行特征; 決策樹; 優化選擇; 特征分類; C4.5決策樹算法; 奧卡姆剃刀理論; 過度擬合
中圖分類號: TN911.1?34; U491" " " " " " " " 文獻標識碼: A" " " " " " " " " " " " 文章編號: 1004?373X(2024)05?0182?05
Research on urban traffic travel characteristics
based on decision tree optimization selection
LI Wen1, 2
(1. Hope College of Southwest Jiaotong University, Chengdu 610400, China;
2. Chengdu Transportation + Tourism Big Data Application Technology Research Base, Chengdu 610400, China)
Abstract: A study on urban transportation travel characteristics based on decision tree optimization selection is carried out. This study alleviates urban transportation travel pressure by studying urban transportation travel modes. On the basis of the basic theory of the decision tree algorithm, a decision tree model is constructed, and urban traffic travel characteristics are selected as the classification basis. The C4.5 decision tree algorithm is used to classify urban traffic travel data, and the urban traffic travel characteristics are optimized and selected according to the total proportion of each leaf node with different characteristics to the upper sub node after classification. On the basis of ″Occam′s razor″, the reintroduction method is used to propose optimization methods to solve the overfitting problem of C4.5 decision tree algorithm and improve the analysis effect of urban transportation modes. The experimental results show that the method can effectively analyze the existing travel characteristics of urban traffic and guide urban transportation planning. After optimizing the morning peak line according to the analysis results of this method, it can effectively reduce the long?distance congested roads and avoid the generation of serious congested roads.
Keywords: urban transportation; travel characteristic; decision tree; optimization selection; characteristic classification; C4.5 decision tree algorithm; Occam′s razor theory; overfitting
0" 引" 言
交通出行調查是了解城市交通狀況、獲取人流、車流及貨流日常出行特征和規律的基礎調查之一[1],該調查通過收集數據和分析結果,為城市交通規劃和優化提供了重要的參考依據。同時,交通出行調查也是掌握交通供給和需求之間關系的基本手段之一[2]。交通出行方式的選擇是出行調查中的重要一環[3]。不同交通出行方式對于滿足居民的日常出行需求及交通結構的合理性改變起著舉足輕重的作用。例如,在城市交通擁堵的情況下,廣泛推廣公共交通可以有效地緩解交通壓力[4?5]。因此,了解居民的出行方式選擇及其行為特征,有助于制定出更加科學的城市交通規劃和管理政策。
當前,我國主要的大城市都已經對我國的交通狀況進行了調研,并對調研結果進行了一些分析和研究。文獻[6]以西寧市為例,基于大樣本居民出行調研數據,構建支持向量機(SVM)與二元邏輯(BL)兩種方法,實現對不同城市交通出行方式的預測。文獻[7]采用CFSFDP和BP神經網絡相結合的方法,對交通特性進行個性化選擇,構建交通特性群識別模型,通過對私家車、出租車中存在的特征組進行分析,識別出其不同的交通方式,從而完成對交通特性組的識別并對其進行評估和分析。但上述兩種方法中均存在實驗樣本數據不夠多的問題,這樣會使分析結果存在一定的誤差性。
為優化選擇城市交通出行方式,本文運用C4.5決策樹算法對不同特征的城市交通出行方式進行研究,并運用奧卡姆剃刀理論(Occam′s razor)優化C4.5決策樹算法存在的過度擬合問題。
1" 城市交通出行特征的決策樹優化選擇研究
1.1" 決策樹城市交通出行特征選取
建立決策樹是一個自上而下的遞歸過程,決策樹根節點是取一個城市交通出行特征,將其視為所有訓練特征與該根節點有關聯的一類標號。對根節點的特征進行測試,并對其進行切割,由此可以得到與其相對應的各種子集,之后將這一類子集看作是擁有新特征的非葉節點,對其進行測試并將其分割,得到新的特征子集[8]。如此反復,直到沒有新的葉子節點出現時,就可以獲得完整的決策樹。
在決策樹算法中,城市交通出行數據類別特征的選取是一個非常重要的環節。在這種新的分類算法中,根據信息增益的大小和信息熵值的大小,選取一個分類的城市交通出行特征作為分類的依據。
信息增加準則包括三個重要的概念:信息熵、期望熵、信息增加。信息熵或者期望熵是指每個采樣集合所具備的純凈程度。假設在城市交通出行集合[Q]中包括[q]個城市交通出行數據采樣,類別標記城市交通出行特性[A],包括[a]個不同的取值,將采樣集合[Q]分為[a]個不同的類別[Aii=0,1,2,…,a];在每一種類別中的樣品數目被指示為[q],因而城市交通出行集合[Q]被分成預期信息的[a]種不同種類:
[EQ=-i=1apilog2 pi] (1)
在所述樣本集合中,不同種類特征的可能性為:
[pi=qiq] (2)
信息是用二進制來編碼的,而編碼的長短是用熵中二進制比特的數目來衡量的,因此使用了一個具有2個基點的對數函數。
每個城市交通出行特征都有一定的信息量,即根據特征對城市交通出行數據采樣結果進行劃分,從而使其對熵值的期望有所下降。在[Q]的城市交通出行樣本集中,可以將多個不同的城市交通出行特征分開,假定[T]的特征含有不同的值,那么相應的一組數字被記錄為[ValuesT],[Qb]是[Q]的一組特征的[T]值為[t]的一組數據,其表示為:
[Qt=q∈QTq=t] (3)
在[T]的不同分枝節點上,這類節點樣本集合[Qt]的類別熵值可以用[EQt]表示。相對應于特征[T]的預期熵為:
[EQ,T=-t∈ValuesTQtEQtQ] (4)
式中:[EQt]代表狀態[Q]在特定時間[t]下的期望值,并對整個時間段內的每一個狀態進行加權平均以得到[EQ,T]的值。
從城市交通出行特征[T]中可以得到其信息量為:
[GainQ,T=EQ-EQ,T] (5)
當[GainQ,T]的數值較大時,對[T]的類別所能給出的資訊也較多。
采集到不同類別的城市交通出行數據特征后,需要對不同類別的城市交通出行數據進行相應分類。
1.2" 決策樹城市交通出行特征分類算法
將城市交通出行數據抽樣集合[Q]分為[q]個抽樣子集合,用[Q1,Q2,…,Qq]表示。劃分的原則是以離散城市交通出行特征[T]的[m]個不同的取值為基礎,因此,在采樣集[Q]中,使用離散城市交通出行特征[T]進行劃分得到的信息增益率為:
[GRQ,T=log2QiQGainQ,T-i=1qQiQ] (6)
決策樹分類方法的中心思想就是把城市交通出行特征為連續值的值域分割成一個離散的區間集[9?10]。C4.5算法既可以對離散特征進行有效的分類,又可以對連續類型的特征進行有效的分類,具體步驟如下所示:
1) 根據連續城市交通出行特征[T]的不同取值,對樣品集中[Q]的樣品進行了數值計算,并根據從小到大的快速排序方法對城市交通出行數據樣品集中[Q]的城市交通出行數據進行排序,其中城市交通出行數據樣品集中[T]被每個不同的取值劃分為[s]個子集[Q1,Q2,…,Qs]。
2) 2個相鄰取值的平均值按照一定的順序進行分割,該平均值被當作是分割點,城市交通出行數據樣本集被分割點分割成兩個子集,兩個子集的范圍以平均值為界限,一個子集全小于平均值,另外一個子集則全大于平均值,一共含有[s-1]個分割點,分別對每一個分割點對應的信息增益進行計算。
3) 在此基礎上,以連續型城市交通出行特征[T]對城市交通出行數據集[Q]信息增益率的劃分為基礎,從各種取值中找到一個值作為城市交通出行特征[T]的分裂值,所找到的這個值一定要非常接近局部閾值,卻又不能超出局部閾值。
4) 反復進行以上操作,最終得出在該城市交通出行特征集中每個特征所對應的信息增益率,將其取值最高的特征作為測試特征,并將該城市交通出行數據樣本集劃分為幾個城市交通出行數據樣本子集。
5) 對所得到的城市交通出行數據樣本子集根據以上劃分方法進行劃分,直至無法進行進一步劃分。C4.5決策樹形算法[11?12]不僅對連續類型的特征有很強的適應能力,而且對缺失類型的特征也有很好的處理能力,可以產生更多的分枝。
C4.5算法分類流程如圖1所示。
對各個不同城市交通出行特征節點分類后,分析各個不同特征葉子節點對上層子節點的總占比,通過分析總占比,針對不同情況進行不同優化選擇。但C4.5方法在提高判別準確率的同時,也存在著“擬合過度”的問題。為此,本文提出一種新的“Occam′s razor”方法,以提高其在數據處理中的準確率,從而避免了決策樹在處理城市交通出行數據時存在的過度擬合問題。
1.3" 解決C4.5算法過度擬合問題
為了克服C4.5在求解過程中易出現的過擬合現象[13],本文在“Occam′s razor”的基礎上,利用重新引入的方法,提出了一種新的優化方法。該算法的優化思路是:根據奧卡姆剃刀理論,當兩個模型的推廣精度完全一致時,將其推廣到一個更簡單的模型中。
假設由城市交通出行數據組建的訓練集[Q]存在[V]種記錄和[h]種類別。用此訓練集形成的決策樹存在[t]個葉子節點,葉子節點的集合設為[U1,U2,…,Ut],第[k]個葉子節點中的類分別設為[Uk1,Uk2,…,Ukh],設[Ck]為第[k]個節點中類的總數,對應第[k]個節點中各個類的數量表示為[Uki1≤i≤h],[maxUki] [1≤i≤h]設為[Uki]中最大的值,那么泛化誤差公式可表示為:
[e=k=1ti=1sCk-maxUkiV] (7)
從奧卡姆剃刀理論可以看出,在泛化誤差相等的情況下,采用更簡單的數學模型更為合適。因而,在不過度追求精度的前提下,可采用再代入估計法進行估算。下面詳細說明了再代入估計法的具體方法。
決策樹每進行一次分裂,就會進行一次訓練誤差(訓練誤差是指訓練集的誤差,計算公式見式(7))的計算,將訓練誤差看成是一種通用誤差,當通用誤差小于某一特定值[?]時,就會停止決策樹的成長。[?]因資料集合的差異而異,須以真實的需要為基礎進行反復的實驗才能決定。
2" 實驗分析
本文數據是以某市城市交通出行調查的數據為基礎,對其進行研究,主要研究的是在主城區及周邊輻射區影響范圍內的常、暫住人口及流動人口的交通出行狀況。常住人口和流動人口是以家庭為單位抽取的,在主城區的樣本比例是5%,周邊地區的樣本比例為3%。根據4%的樣本統計,農民工人數占總人數的4%。問卷采用的是以家庭為單位進行的家庭問卷,問卷包括個人情況、家庭情況和旅行情況。通過對所收集到的資料進行歸類,得到了1 000份可供使用的資料,所涉及到的運輸形式大致可以分為:步行、非機動車、公交和私人機動車等,部分輸入變量定義如表1所示。
該決策樹模型以對不同交通方式的選擇為因變量,由于影響交通方式的選擇因素很多,本文主要考慮出行者的個人屬性及家庭屬性信息,選取出行時間、出行目的、出行日期(工作日、節假日)、出行者的年齡、性別、職業、是否有公交卡、是否用公共自行車、家庭規模、兒童數、是否有購車意愿作為自變量。
以該市采集資料為實驗樣本,運用本文方法對該市交通出行特征進行分析,對該市交通出行方式做出優化分析選擇,選取出行方式與職業作為實驗自變量,具體實驗模型設置如表2所示。
運用本文方法對該市交通出行方式按表2中的因變量與自變量構建決策樹,具體實驗結果如圖2所示。
由圖2可看出,運用本文方法構建的決策樹中,在“出行方式”模式中是根據私人機動車擁有量的數量而分割的,可以看到,在擁有私人機動車的數量為零時,居民主要會選擇以步行及公共交通方式進行出行,而在這之中,選擇公交出行的比例約為64%。當私人機動車擁有量超過零時,居民們就會以私人機動車和公交出行為主,在這兩種交通方式之中,選擇汽車出行平均占到了50%左右,而選擇公共交通出行平均占到了31%。同時,公務員、工人多選擇以私人機動車與公共交通作為主要出行方式;農民和學生多以公共交通與步行作為主要出行方式。研究結果表明,從結合本文方法構建的決策樹可看出,對于未擁有私人機動車的人員來說,大部分會選擇公共交通這種出行方式;對于具有私人機動車的家庭來說,其私人機動車并不是唯一的交通工具,選擇公共交通工具的比例也很高,同時各個職業選擇公共交通方式出行的占比均較大。運用本文方法可有效分析出城市交通出行特征,指導城市進行交通規劃,可通過適當增加公共交通出行工具,確保滿足該市出行需求。
實驗以該市某區交通線路圖作為實驗對象,以早高峰期為實驗時間,以原有早高峰交通擁堵情況作為實驗對比對象,運用本文方法得出的分析結果對交通出行方式進行相應調整,測試運用本文方法后交通擁堵優化情況,具體實驗如圖3所示。
由圖3可看出,優化前該區早高峰有5條長距離擁堵路段與4條嚴重阻塞路段,結合本文方法進行優化后,可看出擁堵路段距離明顯縮短,同時減少了2處嚴重阻塞路段,說明運用本文方法對交通出行進行優化選擇后,該區早高峰路段嚴重阻塞情況明顯得到改善,同時避免了大段汽車擁堵的情況。
3" 結" 論
本文利用C4.5決策樹算法對城市交通出行做出優化選擇,并以奧卡姆剃刀理論為基礎,在減少決策樹計算復雜性的同時,還可以克服過擬合問題。在大數據環境下,如何實現決策樹的并行性,提高其分類精度,將成為未來進一步深入研究的熱點。
參考文獻
[1] 崔敘,喻冰潔,楊林川,等.城市軌道交通出行的時空特征及影響因素非線性機制:基于梯度提升決策樹的成都實證[J].經濟地理,2021,41(7):61?72.
[2] 歐冬秀,張馨尹,趙源,等.基于梯度提升決策樹級聯分類方法的城市軌道交通列車突發事件延誤時間預測[J].城市軌道交通研究,2022,25(10):65?70.
[3] 孫曉黎,朱才華,李美妮,等.時間序列聚類下的城市軌道交通客流預測研究[J].鐵道運輸與經濟,2023,45(3):149?157.
[4] 唐亮,李飛.基于決策樹的車聯網安全態勢預測模型研究[J].計算機科學,2021,48(z1):514?517.
[5] 王超發,王文隆,蔡鑫.基于新老司機道路選擇行為的交通流均衡研究[J].運籌與管理,2021,30(6):12?18.
[6] 彭輝,王劍坡,張娜.基于SVM的高原川道型城市通勤者出行方式選擇研究[J].重慶交通大學學報(自然科學版),2021,40(11):18?23.
[7] 蔡曉禹,呂亮,杜蕊.基于組合模型的車輛出行特征模式劃分[J].公路交通科技,2021,38(6):129?140.
[8] 段力偉,冉松民,陳瑞雪,等.基于梯度提升決策樹的城市軌道交通網絡運營態勢綜合評估方法[J].城市軌道交通研究,2022,25(8):32?35.
[9] 王磊,劉雨,劉志中,等.基于屬性離散和特征度量的決策樹構建算法[J].河南理工大學學報(自然科學版),2021,40(3):127?133.
[10] 鄭貞,鄒俊穎.基于混沌關聯維與決策樹的運動數據分類研究[J].計算機仿真,2022,39(10):327?330.
[11] 宋汶秦,王海亮,趙春娟,等.基于改進C4.5算法的退役動力電池等級篩選研究[J].電源技術,2022,46(11):1318?1321.
[12] 吳濤,王占海,陳奇,等.基于C4.5決策樹的航空器機翼積冰風險監測仿真[J].計算機仿真,2023,40(7):44?48.
[13] 謝鑫,張賢勇,王旋曄,等.變精度鄰域等價粒的鄰域決策樹構造算法[J].計算機應用,2022,42(2):382?388.