梁燈 蔡曉禹 彭博 邢茹茹
摘要:為了掌握城市干道交通運行規律,向交通管理部門制定相關交通需求管理政策提供理論依據,提出了一種基于組合模型的城市干道車輛出行群體辨識模型。基于青島市膠州灣隧道過車數據,從出行強度、出行時間與出行習慣3個維度構建了出行特征指標體系以全面刻畫車輛個體的出行行為。基于相關性分析剔除了冗余指標以避免對辨識研究的影響。針對混合屬性出行特征指標數據,使用改進K-prototypes算法以有效地實現車輛出行群體劃分,將其與GBDT算法相結合,建立了一種基于改進K-prototypes與GBDT的辨識模型,隨機選取10 000個樣本開展辨識研究。結果表明:研究道路存在5類車輛出行群體:高頻通勤群體、低頻通勤群體、營運群體、頻次穩定群體與普通群體,對于這5類車輛出行群體,平均識別準確率為97.75%,最高識別準確率可達99.47%。
關鍵詞:城市道路交通;群體辨識;出行特征;改進K-prototypes & GBDT
中圖分類號:U491.4 文獻標志碼:A
本文引用格式:梁燈,蔡曉禹,彭博,等. 基于改進K-prototypes與GBDT的城市干道車輛出行群體辨識模型[J]. 華東交通大學學報,2023,40(5):49-58.
Vehicle Travl Group Identification Model of Urban Arterial Road Based on Improved K-prototypes and GBDT
Liang Deng1,2,Cai Xiaoyu1,3,Peng Bo1,3,Xing Ruru1,2
(1. College of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, China;
2. College of Smart City, Chongqing Jiaotong University, Chongqing 400074, China; 3. Chongqing Key Laboratory of Traffic System&Safety in Mountainous Cities, Chongqing Jiaotong University, Chongqing 400074, China)
Abstract:In order to identify the traffic operation law of urban arterial road and support basis for traffic management departments to formulate relevant traffic demand management policies, a vehicle travel group identification model of urban arterial road based on combined model was proposed. In this study, a travel characteristic indicator system was constructed from dimensions of travel intensity, travel time, travel habits for comprehensively describing the travel behavior based on the traffic bayonet data of Qingdao Jiaozhou Bay Tunnel. The redundant indicator was eliminated based on the correlation analysis to avoid the impact on identification research. For the mixed attribute travel characteristic indicator data, the improved K-prototypes algorithm was used to effectively classify the vehicle travel groups, and combined with GBDT, the identification model based on improved K-prototypes and GBDT was established. By randomly selecting 10 000 samples to conduct identification research, the result shows that there are 5 vehicle travel groups for the road in this research, including high-frequency commuter groups, low-frequency commuter groups, operating groups, frequency stable groups, and ordinary groups. For the 5 vehicle travel groups, the average identification accuracy rate exceeds 97.75%, and the highest identification accuracy rate can reach 99.47%.
Key words: urban road traffic; group identification; travel characteristic; improved K-prototypes & GBDT
Citation format:LIANG D,CAI X Y,PENG B,et al. Vehicle travl group identification model of urban arterial road based on improved K-prototypes and GBDT[J]. Journal of East China Jiaotong University,2023,40(5):49-58.
城市干道作為城市交通系統的重要組成部分,往往承擔著很大比重的交通出行,交通擁堵也較多集中發生于城市干道,嚴重影響著居民的正常生活。對城市干道的車輛出行群體進行分類研究有助于掌握其交通運行規律,可為交通管理部門制定相關交通需求管理政策提供理論依據[1],是保障城市交通系統正常運行的重要舉措。
出行群體分類是將出行者劃分為具有相似出行規律的各類群體,分類結果能夠揭示出行者之間的共性與異質性。依據分類的方法,可分為基于監督學習的分類與基于聚類的分類。
基于監督學習的分類依賴于有標簽的數據標定分類器的參數,在出行者類別難以人工標注的情況下,此類研究的開展多輔以額外的出行調查,如梁泉等[2]基于北京市連續1個月公交刷卡數據提取特征指標,結合RP調查結果構建了面向公交通勤乘客識別的BP神經元網絡模型。崔洪軍等[3]基于調查數據標定樸素貝葉斯分類器參數,進而對智能刷卡數據中缺少的出行目的屬性加以補充。
不同的是,基于聚類的分類直接從數據構建出行特征指標,采用聚類算法實現出行者的自動劃分,如Mohamed等[4]基于法國雷恩市的乘客刷卡數據,將乘客每周每天每小時對應的平均出行次數聚合成向量,使用K-means算法將乘客分為16類。劉凱[5]根據AFC刷卡數據的特點,基于DBSCAN算法提取乘客規律性特征,以兩步聚類法將乘客分為3類。程小云等[6]基于AFC刷卡數據,針對工作日有出行的一卡通用戶提取出行天數、出行集中度等特征,以GMM算法將乘客分為5類。
受限于出行調查所耗費的大量人力、財力,基于監督學習的分類通常只進行是非通勤的判別[7-9]。相比之下,基于聚類的分類避免了出行調查,適合用于大樣本數據集挖掘任務,因而成為目前大多數研究所采用的方法,國內外學者基于K-means[4,10,11]、K-means++[12-14]、DPC[15-16]、OPTICS[17]、LDA[18]、GMM[6,19]等算法開展出行群體分類研究,取得了豐富的研究成果。然而,目前的出行群體分類研究主要針對的是公交出行群體,對于車輛出行群體而言,其分類方法的選擇亟需深入探討。
分類方法的合適選擇往往能有效地劃分群體,而其實現的前提是構建出行特征指標體系以全面刻畫出行者個體的出行行為。一般來說,應盡可能從多個維度構建指標,然而對于不同的數據而言,可獲取的指標有所不同,需根據研究數據定制化選取指標。過車數據是某特定道路的車牌號識別數據,記錄了車輛每次經過道路的車牌號、通行時間與方向、車輛類型等信息,具有準確性高、數據量大等優點,是研究車輛出行行為的良好數據源。
因此,本文以城市干道車輛出行群體為研究對象,基于過車數據構建多維出行特征指標體系以全面刻畫車輛出行行為,考慮出行特征指標體系特點選取聚類算法,將聚類與監督學習相結合構建基于改進K-prototypes與GBDT的辨識模型,以期為交通管理部門制定相關交通需求政策提供理論依據。
1 車輛出行特征指標體系構建
1.1 數據來源
研究數據來源于青島市膠州灣隧道2021年10月11日—31日(共計21 d)小型客車的過車數據。本文主要基于過車數據中車牌號、通行時間(具體到秒)與通行方向(2個方向)字段開展研究,數據格式如表1所示。對原始數據中車牌號缺失、車牌號識別錯誤、車輛連續兩次通行時間間隔過小等數據予以剔除,最終保留160萬余條。
1.2 車輛出行特征指標體系構建
基于前期的統計分析發現,研究時間范圍(21 d)內車輛以偶然出行為主,為確保所構建出行指標的有效性,本文只針對出行天數大于3的車輛構建指標。參考已有的研究并結合過車數據的特點,構建車輛出行特征指標體系,具體如表2所示。
部分出行特征指標的提取方法如下。
1) 首次/末次最頻繁出行時段。首次/末次最頻繁出行時段表征的是車輛多日出行活動中首次/末次出行最集中的時段;由于車輛的出行時間是連續值,需將連續的時間值劃分為離散的時段。將1天24 h劃分為5個時段:[00:00,06:30),[06:30,10:00),[10:00,16:30),[16:30,19:30),[19:30,24:00),編號為1~5。
2) 出行頻次模式重復性。出行頻次模式重復性表征車輛在多日出行活動中以相同出行頻次進行的穩定程度,出行頻次模式重復性定義為
式中:Ωx為出行頻次模式X的取值空間;p(x)為X=x的概率。需要說明的是,由于本文采用熵值作為出行頻次模式重復性的度量,因此,當Hpc為0時,則代表車輛每天完全以相同頻次出行;Hpc大于0時,Hpc越大則代表車輛重復性越低。
3) 出行時空模式重復率。出行時空模式重復率表征車輛以相同(時間-方向)模式出行的概率,以30 min為粒度將24 h劃分為48個互不相交的時段,以(時間-方向)模式表示車輛的1次出行,則出行時空模式重復率a為
式中:n為重復出現模式的個數;N為出行時空模式的總數。
為避免冗余特征指標的影響,需進行指標之間的相關性分析。對于混合屬性出行特征指標體系,根據文獻[20]的方法得到相關性結果如圖1所示。
由圖1可知,“首次出行時間標準差”與“末次出行時間標準差”之間具有強相關性。本文將末次出行時間標準差剔除,最終保留出行天數、日均出行次數、周出行次數標準差、首次出行時間標準差、出行頻次模式重復性、出行時空模式重復率與首/末次最頻繁出行時段共8個指標開展辨識研究。
2 基于改進K-prototypes與GBDT的車輛出行群體辨識模型
2.1 改進的K-prototypes算法
K-prototypes是由Huang[21]提出的一種可有效解決混合型數據聚類問題的算法,本文構建的出行特征指標體系為數值和分類混合屬性指標,采用該算法有較好的聚類效果。此外,針對原始算法相異度計算公式與初始聚類中心選取的不足加以改進。
給定樣本量為n的數據集D=[x1,x2,…,xn],樣本i表示為xi=[xi1,…,xip,xip+1,…,xim],x1~xp為數值屬性,xp+1~xm為分類屬性。聚類過程中,類簇集合為c=[c1,c2,…,ck],其中k為類簇個數,k≥2;聚類中心點集合表示為z=[z1,z2,…,zk],其中z1表示類簇c1的中心點。
針對原始算法中數值屬性部分僅使用簡單歐氏距離求得樣本之間的相異度,未考慮樣本被分到類簇中各屬性貢獻大小的差異,本文使用標準差系數法以客觀地確定各屬性的權值。對于數值屬性s,其標準差為
式中:xis為樣本i在屬性s上的取值;為屬性s的均值。則各屬性的權重為:ws = σs / σs。
將數值屬性部分的相異度定義為
針對原始算法中分類屬性部分僅使用屬性出現頻率最高的值作為聚類中心,而未考慮類簇中各屬性取值的分布情況,根據參考文獻[22]的思想將分類屬性部分相異度定義為
上的取值,cljs為類簇cl中樣本j在屬性s上的取值;|cl|為類簇cl中已有樣本個數。
依據式(4)與式(5)將混合屬性相異度定義為
相異度計算公式改進后的K-prototypes算法的目標函數定義為
式中:uil為樣本i對于類簇cl的隸屬度;uil為0時,表示樣本i樣本未被劃分到類簇cl中;uil為1時,表示樣本i樣本被劃分到類簇cl中。
針對原始算法初始聚類中心的選取采取隨機方式導致聚類穩定性差,本文基于DPC算法生成的樣本局部密度與距離的二維坐標決策圖來選取初始聚類中心。DPC算法原理及具體步驟請參考文獻[23-24]。綜上得到改進K-prototypes算法的步驟如下
1) 輸入數據集D,計算樣本之間距離以構建相異度矩陣,數值屬性根據式(4)計算,分類屬性采取漢明距離;
2) 根據決策圖選取初始聚類中心并輸出;
3) 根據式(6)計算樣本點與各聚類中心的相異度,將各樣本點劃分到與其相異度最小中心點所對應類簇中;
4) 基于類別劃分后的數據,更新各類簇的中心。數值屬性以該類簇中數值屬性的平均值作為新的聚類中心;分類屬性使用該類簇中出現頻率最高的分類屬性值作為新的聚類中心;
5) 重復步驟3)和5),直到目標函數值收斂或者達到預設的迭代次數為止,輸出聚類結果。
為驗證本文改進K-prototypes算法的有效性與可行性,使用UCI數據庫的真實的混合屬性數據集Statlog Heart(SH)、Credit Approval(CA)與Australia Credit Approval(ACA)進行驗證,選取K-prototypes(KP)與Fuzzy K-prototypes(FKP)算法進行比較。驗證數據集的描述如表3所示。
為了評估算法聚類效果,采用正確率(AC)與類精度(PE)作為評價指標,其定義如下
式中:t為數據集的樣本個數;k為類簇數;ti為第i個類簇中被正確劃分的樣本數;cti為聚類結果中第i個類簇的樣本數。AC與PE的值越大代表聚類效果越好。
由于量綱的不同,各屬性的取值差異性較大,為了增加聚類準確性與減少計算復雜性,聚類之前,本文對驗證數據集的數值屬性部分數據均采取min-max歸一化處理,即將取值控制在[0,1],公式如下
式中:x*為歸一化后的取值;xmin,xmax為數據集中對應數值屬性下的最小值與最大值。
對于隨機選取初始聚類中心的KP與FKP算法,在各數據集上給出聚類個數后均重復實驗50次取均值作為最終結果。在各數據集上將所有算法共有的參數γ設置為對應數據集中分類屬性個數與數值屬性個數的比值[25],此外,FKP算法中的模糊因子均設置為2,本文算法中DPC算法中近鄰占比Pd均設置為1.5%,即將對應數據集的距離δ按升序排列后位于第1.5%的值作為截斷距離dc取值。
在各數據集上的實驗結果比較如表4所示。從表4可以看出,本文改進后的K-prototypes的聚類效果要明顯優于KP與FKP算法,由此驗證了本文改進K-prototypes算法的有效性與可行性。
2.2 GBDT算法
GBDT全稱梯度提升決策樹,是統計學習性能最好的方法之一[26],在解決各種領域如城市交通、電力、醫學等領域的分類問題和回歸問題上均表現出優異的性能。GBDT的核心思想是利用損失函數的負梯度在當前模型的值作為算法中的殘差近似值,通過不斷擬合殘差從而使殘差不斷減少。在分類問題中,GBDT采用交叉熵損失函數或者對數似然損失函數, GBDT算法原理請參考文獻[26]。
2.3 車輛出行群體辨識模型
車輛出行群體辨識包括3個部分:出行特征指標數據集構建、基于改進K-prototypes的車輛出行群體劃分與基于GBDT的車輛出行群體識別。車輛出行群體辨識流程如圖2所示。
3 實驗分析
3.1 數據準備
經過統計分析,研究數據中出行天數大于3的車輛共73 124輛,占總體的19.6%,但該部分車輛出行量占總體的58.7%,針對該部分車輛進行分類可有效研究掌握道路出行規律。此外,由于需要構建相異度矩陣以選取初始聚類中心,樣本量大會導致計算時間過長,本文隨機選取10 000個車輛樣本開展辨識研究。對于出行特征指標數據中的數值型部分,采取Min-max歸一化處理,處理方式見式(10)。
3.2 車輛出行群體劃分
基于歸一化后的特征指標數據集,使用標準差系數法求得各數值指標的權重。K-prototypes算法中參數設置為0.333,迭代次數設置為100次。DPC算法中近鄰占比Pd設置為1%。得到初始聚類中心5個,而最終聚類結果如表5所示。繪制不同群體的出行特征指標的分布情況,具體如圖3所示。
根據聚類結果與不同群體的出行特征指標分布情況定義群體。
1) 類別1與類別2:類別1與類別2出行特征基本相似,日均出行次數集中于2次、首次出行時間穩定、出行時空模式重復率高、出行頻次模式重復性強、首/末次最頻繁出行時段分別集中于2和4,與通勤群體的特征相符合。與類別1相比,類別2出行天數少,周出行次數波動性較大。綜上,將類別1定義為高頻通勤群體,類別2定義為低頻通勤群體。
2) 類別3:出行天數較多、日均出行次數分布散亂且其日均出行次數大于2的車輛數占比大于其他類別、周出行次數與首次出行時間波動性大、出行時空模式重復率低、出行頻次模式重復性弱、首/末次最頻繁出行時段分布較為散亂,與道路上出行的出租車、網約車的特征相符合。綜上,結合實際將類別3定義為營運群體。
3) 類別4:類別4出行天數少、日均出行次數小、周出行次數的標準差較小、首次出行時間標準差較大、出行時空模式重復率基本為0、首次最頻繁出行時段集中在2與3、末次最頻繁出行時段集中在3。但其出行頻次模式重復性為0,說明此類車輛在其多日出行活動中每天以相同頻次出行。綜上,將類別4定義為頻次穩定群體。
4) 類別5:類別5在出行天數、出行時空模式重復率、首次最頻繁出行時段、末次最頻繁出行時段上、周出行次數標準差分布與類別4相似,但在日均出行次數、首次出行時間標準差、出行頻次模式重復性的分布與類別3相似,說明此類群體并無明顯的規律。綜上,將類別5定義為普通類。
3.3 車輛出行群體識別
基于3.2節聚類后獲取群體劃分結果數據集,根據2.2節所提算法開展群體識別研究。
由于GBDT算法無法直接處理分類型指標,建立識別模型前需要對首/末次最頻繁出行時段指標進行One-hot編碼處理,以0和1來解釋屬性。首次最頻繁出行時段編碼處理示例如表6所示。
本文采用Python機器學習庫的中Sklearn模塊進行車輛出行群體識別建模,由于本文的車輛出行群體識別是多分類問題,因此,將損失函數設置為交叉熵損失函數,其他部分參數[27]如表7所示。
將數據集按照8∶2的比例劃分為訓練集與測試集。為了避免過擬合與欠擬合問題的出現,在訓練集上,以識別準確率為評價指標,針對Learning_rate與N_estimators進行調參。其中,Max_depth設置為5,Subsamples設置為0.8。調參步驟如下。
1) 將Learning_rate的初始值設置為0.3,采用5折交叉驗證法對N_estimators尋優。
2) 降低參數Learning_rate的值,并按比例增加參數N_estimators,采用5折交叉驗證法尋找使得識別準確率最高的參數組合。重復此步驟,得到不同Learning_rate下的最優N_estimators值,如表8所示。
3.4 群體識別結果分析
基于3.3節得所有Learning_rate下的最優組合(0.01,3 000)在訓練集上建立GBDT識別模型,在測試集上得識別結果如圖4所示。
由圖4可知,5類車輛出行群體識別準確率分別為97.89%,95.91%,94.72%,99.47%與99.13%。平均識別準確率約為97.42%,最高可達99.47%。
4 結論
1) 針對城市干道車輛,在考慮過車數據特點的基礎上,從出行強度、出行時間與出行習慣3個維度構建了全面刻畫車輛個體出行行為的出行特征指標體系,并基于相關性分析剔除了冗余的指標,保障了所構建指標體系的合理性。
2) 針對城市干道車輛出行群體的含有數值型與分類型指標的出行特征指標數據,使用相異度計算公式改進與基于密度峰值聚類算法的二維(局部密度-距離)決策圖,選取初始聚類中心的改進K-prototypes算法劃分得到了5類典型群體:高頻通勤群體、低頻通勤群體、營運群體、頻次穩定群體與普通群體。基于群體劃分結果數據集,在訓練集上確定了GBDT群體識別模型的關鍵參數,測試集上進行了群體識別驗證,對于這5類群體,平均識別準確率為97.42%,最高可到99.47%,識別效果良好。
3) 采用改進K-prototypes與GBDT的組合模型可有效辨識城市干道車輛出行群體,有助于掌握城市干道的交通運行規律,可為交通管理部門制定相關出行需求管理政策提供理論依據。
參考文獻:
[1] 黃正國. 基于車牌識別數據的車輛出行特征研究[D]. 成都:西南交通大學,2019.
HUANG Z G. Research on vehicle travel feature based on license plate recognition data[D]. Southwest Jiaotong University,2019.
[2] 梁泉,翁劍成,林鵬飛,等. 基于個體出行圖譜的公共交通通勤行為辨別方法研究[J]. 交通運輸系統工程與信息,2018,18(2):100-107.
LIANG Q,WENG J C,LIN P F,et al. Public transport commuter identification based on individual travel graph[J]. Journal of Transportation Systems Engineering and Information Technology,2018,18(2):100-107.
[3] 崔洪軍,趙銳,朱敏清,等. 基于樸素貝葉斯分類器的乘客出行屬性分析[J]. 科學技術與工程,2020,20(11):4572-4576.
CUI H J,ZHAO R,ZHU M Q,et al. Travel attributes analysis of passengers based on nave bayes classifier[J]. Science Technology and Engineering,2020,20(11):4572-4576.
[4] MOHAMED E,ETIENNE C,JOHANNA B,et al. Understanding passenger patterns in public transit through smart card and socioeconomic data:A case study in rennes,france[C]//New York:The International Workshop on Urban Computing,2014.
[5] 劉凱. 地鐵乘客出行規律分析及目的地預測方法研[D]. 北京:北京交通大學,2019.
LIU K. Analysis of metro passenger travel law and study of destination prediction method[D]. Beijing Jiaotong University,2019.
[6] 程小云,張學宇,薛順然,等. 基于多維屬性的軌道交通出行行為分類方法[J]. 交通運輸工程與信息學報,2020,18(4):166-174.
CHEN X Y,ZHANG X Y,XUE S R,et al. Method of analyzing rail transit travel behavior based on multidimensional attributes[J]. Journal of Transportation Engineering and Information,2020,18(4):166-174.
[7] 翁小雄,呂攀龍. 基于GBDT算法的地鐵IC卡通勤人群識別[J]. 重慶交通大學學報(自然科學版),2019,38(5):8-12.
WENG X X,LYU P L. Commuter crowd identification based on GBDT algorithm[J]. Journal of Chongqing Jiaotong University(Natural Science),2019,38(5):8-12.
[8] TAKAHIKO KUSAKABE,YASUO ASAKURA. Behavioral data mining of transit smart card data:A data fusion approach[J]. Transportation Research Part C,2014,46:179-191.
[9] 孫世超,楊東援. 基于樸素貝葉斯分類器的公交通勤人群辨識方法[J]. 交通運輸系統工程與信息,2015,15(6):46-53.
SUN S C,YANG D Y. Identification of transit commuters based on naive bayesian classifier[J]. Journal of Transportation Systems Engineering and Information Technology,2015,15(6):46-53.
[10] CHEN H,YANG C,XU X. Clustering vehicle temporal and spatial travel behavior using license plate recognition data[J]. Journal of Advanced Transportation,2017(7):1-14.
[11] YANG C,YAN F F,UKKUSURI S V. Unraveling traveler mobility patterns and predicting user behavior in the Shenzhen metro system[J]. Transport metrica A:Transport?Science,2018,14(7):576-597.
[12] 陳君,田朝軍,趙清梅,等. 基于時空行為規律挖掘的公交乘客分類方法[J]. 交通運輸工程學報,2021,21(5):274-285.
CHEN J,TIAN C J,ZHAO Q M,et al. Bus passenger classification method based on spatial and temporal behavior regularity mining[J]. Journal of Traffic and Transportation?Engineering,2021,21(5):274-285.
[13] MA X,WU Y J,WANG Y,et al. Mining smart card data for transit riders travel patterns[J]. Transportation Research Part C:Emerging Technologies,2013,36:1-12.
[14] 馬新露,雷小詩,馬筱櫟,等. 基于高速公路收費數據的車輛分類研究——以重慶市為例[J]. 交通運輸研究,2021,7(1):73-80.
MA X L,LEI X S,MA X L,et al. Vehicle classification based on expressway toll data:A case study of Chongqing[J]. Transport Research,2021,7(1):73-80.
[15] 梁野,呂衛鋒,杜博文. 基于峰值密度聚類的公交出行目的分類模型[J]. 哈爾濱工程大學學報,2018,39(3):541-546.
LIANG Y,LYU W F,DU B W. Classification model of public transport trip purpose based on density peak clustering[J]. Journal of Harbin Engineering University,2018,39(3):541-546.
[16] 杜蕊. 軌跡數據驅動的城市干線影響區車輛出行特征辨識及建模[D]. 重慶:重慶交通大學,2020.
DU R. Identification and modeling of vehicle travel characteristics in affected areas of urban arterial road driven by trajectory data[D]. Chongqing:Chongqing Jiaotong University,2020.
[17] VENUGOPAL S,DIVYA D. Transit passenger segmentation based on the travel patterns mined from smart card data using Optics algorithm[J]. International Journal of Advanced Information Science and Technology,2016,5(5):49-56.
[18] 王長碩,蒲英霞. 基于Labeled-LDA模型的居民群體分類與出行特征分析[J]. 計算機應用與軟件,2022,39(11):17-24.
WANG C S,PU Y X. Analysis of classification and activity characteristics of urban residents based on Labeled-LDA model[J]. Computer Applications and Software,2022,39(11):17-24.
[19] JI Y J,CAO Y,LIU Y,et al. Research on classification and influencing factors of metro commuting patterns by combining smart card data and household travel survey data[J]. Iet Intelligent Transport Systems,2019,13(10):1525-1532.
[20] 趙超. 混合屬性聚類算法的研究及應用[D]. 秦皇島:燕山大學,2017.
ZHAO C. Research on clustering algorithm for mixed attributes and application[D]. Qinghuangdao:Yanshan University,2017.
[21] HUANG Z. Extensions to the K-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998,2(3):283-304.
[22] 石鴻雁,徐明明. 基于平均差異度的改進K-prototypes聚類算法[J]. 沈陽工業大學學報,2019,41(5):555-559.
SHI H Y,XU M M. Improved K-prototypes clustering algorithm based on average difference degree[J]. Journal of?Shenyang University of Technology,2019,41(5):555-559.
[23] RODRIGUEZ A,LAIO A. Clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492- 1496.
[24] 王森,邢帥杰,劉琛. 密度峰值聚類算法研究綜述[J]. 華東交通大學學報,2023,40(1):106-116.
WANG S,XING S J,LIU C. Survey of density peak clustering algorithm[J]. Journal of East China Jiaotong University,2023,40(1):106-116.
[25] 歐陽浩,戴喜生,王智文,等. 基于信息熵的粗糙K-prototypes聚類算法[J]. 計算機工程與設計,2015,36(5):1239-1243.
OU Y H,DAI X S,WANG Z W,et al. Rough K-prototypes clustering algorithm based on information entropy[J]. Computer Engineering and Design,2015,36(5):1239-1243.
[26] 李航. 統計學習方法[M]. 北京:清華大學出版社,2012.
LI H. Statistical learning methods[M]. Beijing:Tsinghua University Press,2012.
[27] 戰友,鄧強勝,羅志偉,等. 基于GBDT的瀝青路面抗滑性能感知模型研究[J]. 土木工程學報,2023,56(2):121-232.
ZHAN Y,DENG Q S,LUO Z W,et al. Research on GBDT-based asphalt pavement skid resistance perception model[J]. China Civil Engineering Journal,2023,56(2):121-232.
第一作者:梁燈(1996—),男,碩士研究生,研究方向為交通信息工程及控制。E-mail:3192513626@qq.com。
通信作者:蔡曉禹(1979—),男,教授,博士生導師,研究方向為深度學習交通視頻檢測與狀態識別。E-mail:caixiaoyu@cqjtu.edu.cn。
(責任編輯:吳海燕)