中圖分類號:TP391.7 文獻標識碼:A DOI:10.7535/hbkd.2025yx03002
Adaptive multi classifier traffic data interpolation model based on information entropy
ZHANG Yunkai12, 1,2 , 1,2, (1.Hebei University Road Traffic Perception and Intellgent Application Technology Researchand Develop Center. Shijiazhuang,Hebei O50035,China; 2.Department of Electrical and Information Engineering,Hebei Jiaotong Vocational and Technical College, Shijiazhuang,Hebei O50035,China; 3.School of Artificial Intelligence and Data Science,Hebei University of Technology, Tianjin 300131,China)
Abstract:Toaddress theisse that single traficdata misingvalue imputation modelscannotcomprehensively handle the multi-sourceheterogeneityandcomplexdata volumeof trafficdata,amulti-clasifierimputation modelbasedonadaptive weighting determined by informationentropywas proposed.First,information entropyrepresenting \"disorder degree\"was introduced toevaluate predictionqualityanddeterminemulti-clasifierweights.Second,adynamicadaptive weightingmethod was designedtoresolve theproblemof differentclassfiers being suitableforvarious samples caused bydeviceheterogeneity. Finall,validationwasconductedonbothpublicandself-collcteddatasets.Theresultsdemonstratethattheproposedmodel achieves significant improvementindetection performancecompared withotherimputation models.Italsoatains highacuracy in experiments on the public Interstate Highway Trafic Flow Dataset,with an F1 of O.778 and a 10% improvement in RMSE,exhibiting strong generalizability.By enabling weights toadaptively evolve withdata streams basedon information entropydetermination,thealgorithmachieves faster detectionspeedand higher accuracy,providing technical references for the establishment of missing value imputation models in traffic data cleaning.
Keywords: data processing;traffc data cleaning;; mising value prediction; information entropy;adaptive weight
隨著智慧高速公路的不斷發展,高速公路部署了眾多終端監測設備來采集種類繁多的數據,如道路數據、車輛數據、氣象數據等。這些海量數據存貯在不同的信息系統中,數據之間關系復雜,規模巨大,數據維度高[1]。由于離散的數據采集異常以及通信時數據壓縮導致的缺失、設備故障等原因,造成高速公路采集的多源數據中往往會出現數據錯誤[2]、數據缺失、數據冗余[3]等情況。
現有交通數據清洗方法可分為離線填補與在線處理2類[4]。傳統的離線填補方法可進一步劃分為基于近鄰的填補[5-8]和基于回歸的填補[9-13]。基于近鄰的KNN、Hot-deck 等算法通過相似性匹配填補缺失值,但在稀疏數據場景下可能產生較大誤差。GBKII通過灰色關聯度查找缺失值的近鄰進行填補;kNNE集成多個特征的相似度來確定近鄰填補缺失值;ILLS 在近鄰上建立模型以估計缺失值。基于回歸的線性模型和核函數模型[14-15]試圖挖掘全局相關性,但難以應對數據異構性問題。混合模型如LOESS[16]、ERACER[17]和IIM[10] 等通過局部回歸或多模型融合提升性能,其中IIM在多源交通數據中表現最佳。深度學習技術的引人拓展了數據清洗的邊界,張偉光等[18]提出的生成對抗網絡、陳俊揚等[19]的圖神經網絡與強化學習模型及李國等[20]的深度多任務學習框架在特定場景下取得了進展。
然而,現有算法存在兩大局限:一是多數方法針對靜態數據集,難以適應實時數據流;二是單一模型難以處理交通數據的多源異構性和時空關聯性。為了使模型運行速度更快,并全面考慮數據量復雜性,本文提出一種基于信息熵的自適應交通數據插值模型。
1 系統建模
1.1基于信息熵的靜態權重插值模型
單一的插值法存在不能同時考慮整體數據模型的結構關系和稀疏性的問題,本文模型采用k近鄰填補法、多重插補法、隨機森林插值法作為學習的基本框架[15]。KNN插值分類模型是一種簡單但應用廣泛的監督學習模型。KNN插值分類模型查找前k個與測試數據最相似的訓練數據,并根據其k個最近鄰數據的標簽判斷測試數據的標簽。但是如果其他屬性和缺失屬性無關,則對其進行的計算是沒有必要的[21]。針對這一缺點,隨機森林插值法通過對缺失值進行預設處理,然后根據其在隨機森林中的表現評估不同預設情況下與原缺失路徑的相似度,多次迭代得到穩定的估計值[22]。隨機森林填補由于在構造決策樹過程中,每個分支節點選用隨機的部分特征而不是全部特征,所以能很好地應用到高維數據的填補。DA(data augmentation)多重插補法通過缺失數據的可能分布值修復缺失數據,適用于連續型數據、離散型數據以及混合型數據[23]。
基于信息熵的靜態權重插值模型如圖1所示,常用符號表示如表1所示。
定義時刻 Ψt,tΨ 時刻可能采集多條交通數據,定義 sit=(sit[A1],sit[A2],…,sit[Am]) 表示為 Ψt 時刻到達的第 i 條交通數據,其中每條數據包含 Σm 維屬性, ] 1?j?m )表示為 sit 在第 j 維度屬性 Aj 上采集到的值。定義數據集 St={s1t,s2t,…,sit,…,snt} 為 Ψt 時刻到達的 n 條數據。數據集 S={S1,S2,…,St,…} 為所有時刻到達的數據集合。
面對復雜的交通數據,對于不同分類器插值方法的優劣,本文改進了基于信息熵的權重確定方法,使用信息熵來衡量“混亂程度\"24]。如果一個同屬性的向量,即在交通數據中測量的向量值相差較大,則表示其測量值越“混亂”,熵值也就越大。預測值也同理。因此希望針對3種插值方法得到使得同一屬性的預測向量的熵值越小的方法。在方法設定中,先基于訓練集 TRN ,分別將3種插值方法的預測結果統
計為
forest,
intrploate,由多條交通數據的插值預測組成的訓練集預測矩陣分別為 MKNN Mforest Minterploate 。為了兼顧每個屬性的特異性,對分類器的權重確定不是基于整個缺失集來進行,而是基于樣本中的每個屬性來進行。每個屬性的數據表現為預測矩陣中的列,給定 M 個屬性,對于屬性 j ,本文試圖比較訓練集原數據與預測數據的“相似性”,根據信息熵對不確定性的衡量屬性,將原始訓練集同一屬性向量與預測向量合并為一個屬性向量 (MjN,MjKNN) 。考慮到不同屬性之間維度差異性,為了方便觀察,對數據進行標準化 Nor(MjN .MjKNN )。若其不確定性enter (Nor(MjN,MjKNN) )越小,表明樣本差異越小,此時該方法預測數據與原始數據越接近,越少出現異常值,表示在該屬性下該方法的表現性能越好。對比不同屬性下的 EjKNN?Ejforest 與Ejinterploate ,使3種方法權重之和為1,熵值即不確定性越小的方法賦予最高權重,依次遞減。方法 f 的權重值為
設KNN插值法得到的預測結果為 κ ,隨機森林插值法得到的預測結果為 F ,interploate方法(即DA法)得到的預測結果為 ,使用權重綜合考慮不同方法的優劣,則得到的對于該條交通數據填補的值為
YN=wKNN×K+wforest×F+winterploate×I
權重確定算法如算法1所示。
算法1靜態權重確定算法
輸人: DN TRN TEN / ? 輸人缺失集、訓練集、測試集 ? /輸出: yt (204號
(20
(20
中 / ? 缺失集預測標簽矩陣 ? / (n,m)=TRN ,shape
3.for j in : EjKNN=enter(Nor(MjN,MjKNN))
(20 (204Eiinterploate=enter(Nor(MjN,Miinterploate)) /*計算不同分類器標準化標簽矩陣的信息熵并加權*/(wiKNN,wiforest,wiinterploate)=W(EiKNN,Eifor Eiinterploate ) /*根據不同分類器分類效果的信息熵
“表現\"設置分類器權重 ?/
4.yN=W?(K,F,I)
以上靜態權重確定方法可以使用信息熵衡量不同分類器在交通數據集上表現的優劣,并根據表現設定不同權重。
1.2自適應權重調整系統
靜態的分類模型不能考慮不同數據特異性的問題,為此本文改進靜態權重插值模型提出基于信息熵的自適應交通數據清洗模型,如圖2所示。本文基于KNN插值模型、隨機森林插值模型與DA多重插補法,通過信息熵度量規則,實現多分類器的最優分配,并實現自適應動態處理數據流。
動態的自適應系統往往更能適應數據形式的不斷變化[20],而對于不間斷輸人的交通數據,本文方法可以自適應地根據該數據的特性進行權重的調整預測,以達到兼顧不同數據特異性的目的。本文方法主要包含2個部分。
首先,本文提出的動態預測方法是將預測好的交通數據批次結果逐步列入訓練樣本,并將其作為訓練樣本去預測下一條新樣本,依此方法預測的新數據可能會導致2種結果:一是預測較為準確,因此作為訓練樣本去預測新樣本會使得預測越來越準確;二是若預測效果一般,就會導致之后的預測效果越來越差。為了避免在動態系統中出現第2種情況,本文將測試樣本“分批”加入訓練樣本,根據樣本個數設定分批個數b_count,一般情況下設置為 10,100,1 000,… 。假設訓練樣本個數為 1 000 ,可以設定將填補出的完整數據加入到訓練樣本中,然后依次預測之后的新樣本。當加入到1100個樣本時,即 b-count=100 時,停止加入,將此100個樣本清空,再重新使用這1000個訓練樣本訓練,依此類推,下一個批次的新樣本也逐步加入,加到第200個再清空。
其次,在計算每個新樣本的不同維度的插值時,在基于靜態的權重確定方法的基礎上,本文提出了動態的權重確定方法,即自適應地為每個樣本設定不同插值方法的權重。當系統輸入一條新的樣本數據 Sι ,對于它的屬性 j ,分別計算3種方法與訓練樣本組成的向量 (SjN,MjKNN),(SjN,Mjforest),(SjN,Mjinterploate) ,進行標準化與信息熵的計算,最后對比3種方法得到針對該樣本的權重,再通過權重對預測插值加權計算,得到最終的插值填補結果。
自適應的權重確定方法可以有效解決數據的差異性問題,具體算法見算法2。
算法2自適應權重調整系統
輸人: Sι,TEN,M?N
輸出: y′
1.初始化 i=0
2.if i- count/*在本批數據內先進行預測*/
(20
(204號
(20
6 Ψ(nΨ,mΨ)=MΨN ,shape/ ? 得到缺失集預測的標簽矩陣 ×1
7.forin1至 Ψm :
(20 8.EjKNN=enter(Nor(MjN,MjKNN)), (2
(20 9.Eiforest=enter(Nor(MjN,Miforest)) (20
1 ).Eiinterploate=enter(Nor(MjN,Minterploate)) (20號
11 (wiKNN,wiforest,winterploate)=W(EjKNN,Eiforest,Eiinterploate) (2
12.end for/ ? 得到本批次數據的分類器權重 ?1
13. yN=W?(K,F,I) / ? 預測本批次數據的缺失值 ? /
14. TM=TM+St / x 本批數據內依次加人新數據 ? /
15.else: TM=TM+1 /*本批次后清空,重新輸入數據 ? /
2 數據集構建及評價指標
2.1 數據集準備
本文采用的數據集來自廣東省廣州市公路局夏元交通量觀測站采集到的真實國道數據,數據包含了2021年1一4月期間每天至少 10h 的路過車輛類型與個數,每條數據一共包含14列,具體表示為日期、小時序號、中小客、大客、小貨、中貨、大貨、特大貨、集裝箱、摩托車、拖拉機、預留、預留、預留。
為了驗證模型的可擴展性,本文還采用公開數據集\"州際公路交通流量數據集\"[21]進行訓練。該數據集來自UCI機器學習數據庫,包含美國94號州際公路MNDoTATR301站西行交通量的每小時測量值。數據集包括了時間戳、雨量、雪量、氣溫、云層覆蓋、天氣描述、交通量等特征。
2.2 實驗設置與評價方法
為了區分數據集中連續值與布爾值對模型評估的影響,本文分別采用重構誤差(RMSEerror,簡稱RMSE)和F12種方式進行評估。
對于連續值的填充效果本文使用的測量方法是計算填補數據與原始標簽之間的重構誤差,可用公式表示為
式中: yi 為原始輸人數據標簽; 為預測數據; m 為數據數量。
對于布爾類型的特征值選取F1進行評估,計算公式為
式中: P 表示預測為正的樣本中實際也為真的個數; R 表示正例樣本被預測成功的數量;F1是 P 與 R 的加權調和平均值。
本文中,對夏元交通量觀測站數據集采用RMSE值進行模型評估,“州際公路交通流量數據集”選取RMSE評估氣溫、云層覆蓋、交通量的缺失值填充效果,設置雨量、雪量、天氣描述3個特征為布爾值。具體的,設置有雨雪的天氣特征值為布爾值 1[25] ,晴天天氣為0。采用F1進行評估。
本文對數據集按照 7:2:1 的比例隨機分為3部分,分別設置訓練集、驗證集與測試集,對數據集設定隨機缺失數據進行實驗,采用十折交叉驗證重復進行10次,取RMSE值與F1均值作為最后結果。
3 實驗分析
3.1 消融實驗分析
表2、表3分別為夏元交通量觀測站數據集的消融實驗與“州際公路交通流量數據集\"的消融實驗,其中單分類器是由 python3.12中 sklearn 庫的數據插補方法計算所得。首先在單分類器中多重插補法在2個數據集上都表現較好。多重插補法來源于貝葉斯估計,認為待插補的值是隨機的,數據集隨機缺失的設置也證明了多重插補法表現較好。并且通過多分類器和單分類器的對比可以看到,多重插補法單分類器的F1仍然處于較高的狀態。但是從整體來看,不論是靜態的權重設定方式,還是自適應的融合方式,在RMSE 和F1上,多分類器的模型表現都優于單分類器的模型表現。
通過多分類器的消融實驗可以發現,有些情況下,并不是分類器越多模型的性能就越好。例如在夏元交通量觀測站數據集中隨機森林插值 +DA 多重插補分類器的靜態權重設定方法就優于三分類器模型的表現,這表明并不是添加分類器就一定能得到更好的模型,存在某次缺失值數據較差或者較多的噪聲反而降低模型性能的情況,但大體趨勢上,分類器越多越能準確預測缺失值。本文的實驗也表明,3個分類器的自適應權重缺失值預測在夏元交通量觀測站數據集上RMSE提升了 16.28%~64.45% ,在“州際公路交通流量數據集\"上RMSE提升了 4.55%~43.91% ,F1提升了 4%~26% ,驗證了本文方法的有效性。
通過自適應的權重確定方法與靜態的權重確定方法對比,發現一般情況下,自適應權重設定方法能更綜合地考慮到不同分類器的優缺點,用于建立更有效的模型。
3.2 對比實驗分析
為了進一步驗證本文方法的有效性,在保持隨機種子不變且統一訓練200輪的情況下,設計其與KNN缺失值填補、隨機森林缺失值填補、DA多重插補、Mean插補進行對比,設定每個時刻到達數據的缺失數據概率由 5% 增加到 45% ,隨著缺失率的增大,夏元交通量觀測站數據集經典插補法與本文方法的
RMSE表現情況對比如圖3所示,“州際公路交通流量數據集\"RMSE對比如圖4所示,F1對比如圖5所示。本文方法通過多分類器的動態權重設定考慮了不同數據樣本的異構性,對比經典插補法,在自采真實數據集上表現最好且穩定,在公開數據集上RMSE與F1都取得了最好的效果,表示本文方法具有較好的擴展性。
與最新的包括權重設定、時間序列的數據插補算法IIM、RIIM、GARF、SAITS、PSW對比結果如表4所示。使用共同的交叉驗證策略與同一隨機種子的數據可以發現,本文方法在2個數據集上RMSE和F1的表現均優于IIM和RIIM等方法,在“州際公路交通流量數據集”上的RMSE表現略低于GARF等方法,“州際公路交通流量數據集\"數據量較大,對抗網絡的算法模型更能精確訓練,但本文模型在收斂速度上遠快于GARF。綜合來看,本文方法取得了更好的效果。
4結語
針對交通數據流的稀疏性和異構造成的數據清洗困難,提出了一種融合型的缺失值填補方法。根據數據的差異性給予不同分類器不同的權重,能夠保持增量的自適應更新,有效提高了插值模型的檢測精度并且
保證了算法的輕量化。本文方法RMSE和F1較傳統插值模型提升 5% 以上,驗證了本文方法的有效性,可為交通數據實時處理和提升交通管理精細化水平提供參考。
本文只考慮了RMSE和F1指標模型的表現情況,并且采用隨機的缺失值進行實驗。未來擬采用更精細化的評估方式進行模型評估,對于非隨機缺失數據集,采用更合適的方法來預測,以獲得更全面、穩定的模型效果。
參考文獻/References:
[1]王龐偉,何昕澤,張龍,等.智能網聯環境下城市道路多源交通數據補全方法[J].中國公路學報,2025,38(1):281-293. WANG Pangwei,HEXinze,ZHANGLong,etal.Multisourcetraficdatacompletionmethodforurbanroadsinintellgentoctedsce narios[J].China Journal ofHighwayand Transport,2025,38(1):281-293.
[2]李霞,馬茜,白梅,等.RIIM:基于獨立模型的在線缺失值填補[J].計算機科學,2022,49(8):56-63. LI Xia,MA Qian,BAIMei,etal.RIM:Real-timeimputationbasedonindividualmodelsJ].Computer Science,202,49(8):56-63.
[3]CHENHanyangJANYang,UOengnan,etal.Diight:Aartialewardsconditionddiusionmodelfortrafcigalotrol with missing data[J].Advances in Neural Information Processing Systems,2024,37:123353-123378.
[4]ZHANGHuiruZKungtaaalysisdtellgttrafianageentfoprtasportC/Proefe4 6th International ConferenceonBig Data Engineering.New York:Association for Computing Machinery,2o24:74-80.
[5]ALTMAAntroductiontoelandearestigboroprametricegresioJ]emericanStiticia99)- 185.
[6]MYERSTA.Goodbye,listwisedeletionPresentinghotdeckimputationaaneasyandefectivetolforhandingmissingdataJCom munication Methods and Measures,2011,5(4) :297-310.
[7]COOPERL G,deLEEUWJ,SOGOMONIANAG.Animputation methodfordealing with missngdata inregression[J].Applied Sto chastic Modelsand Data Analysis,1991,7(3):213-235.
[8]DOMENCONIC,YANB.Nearest neighborensembleC]/Procedingsof the17th International ConferenceonPattrn Recogition. Cambridge(UK):IEEE,2004:228-231.
[9]LITTLERJA.Regressonwithmssng X's:AreviewJ]JouraloftheAmericanStatisticalAsociation99287237.
[10]CAIZhipeng,HEYDAIM,IGuouiMroarrmissingvalueimputationbyteratedlocalleastsquaresC]/Procedgoftt Asia-Pacific Bioinformatics Conference.Taipei:[s.n.],2oo5:159-168.
[11]WANGQa,AOJNK.EmpiriallikelobasedferencinlinearodelswithmisingdataJ].candiavianJoualoftatistics, 2002,29(3):563-576.
[12]ANUD,VIDHYAK.BreastcancerclasificationusingmachinelearnngalgoritmC]/24InternatioalCofereneonKowledge Engineering and Communication Systems (ICKECS).Chikkaballapur:IEEE,2024:1-7.
[13]王向,李月鳳,王震洲,等.一種改進樽海鞘群算法優化 K -Means的小麥覆蓋度提取方法[J].河北科技大學學報,2023,44(4):356-367. WANG Xiang,LIYuefeng,WANG Zhenzhou,etal. Wheatcoverage extractionbasedonimproved salpswarm algorithm foroptimizing K -Means[J].Journal of Hebei University of Science and Technology,2023,44(4):356-367.
[14]RCINEJiparaetrictiatiofgessfuncswiothategcaldcisdataJoualofo rics,2004,119(1):99-130.
[15]ZHU Xiaofeng,ZHANG Sichao,JINZhi,etal.Misingvalueestimationformixed-atributedatasetsJ]IEEETransactioson Knowledge and Data Engineering,2011,23(1):110-121.
[16]CLEVELANWS,LOADERCSmothing bylocalregresson:Principlesand methods[C]//Statistical TheoryandComputational Aspects of Smoothing.Heidelberg:Physica,1996:10-49.
[17]MAYFIELDC,NEVILLEJ,PRABHAKARS.ERACER:AdatabaseapproachfostatisticalinferenceanddatacleanigC]/Prodings ofthe2010ACMSODInternationalConferenceonanagementofData.NewYork:AocationforomputingMachinery1075- 86.
[18]張偉光,龍非筱,吳玉平,等.一種基于深度學習的多普勒缺失數據填充方法:CN202310859909.1[P].2023-07-13.
[19]陳俊揚,戴志江,李雪亮,等.基于強化學習的多變量時序數據缺失值補全方法[J].中國科技論文,2023,18(11):1205-1212. CHENJunyang,DAIZjiangLIXueliang,etal.Reiforcementlearingbasedmisingvaluecompletionmethodfoultiarateie series data[J].China Sciencepaper,2023,18(11):1205-1212.
[20]李國,袁聞,王懷超.融合多任務深度學習與主動學習的民航常旅客缺失數據填補[J].計算機應用與軟件,2022,39(8):21-27. LIGuo,YUANWen,WANGHuaichao.Fillngmissingdataofcivilaviationfrequentpassengersbycombiningmulti-taskdeeleaing and active learning[J].Computer Applications and Software,2o22,39(8):21-27.
[21]KUMARrdictiemodellngoftrafifoithepanehsnteatioalJoalofietifiReeacEg neering and Management,2024. DOI:10.55041/ijsrem33183.
[22]HWANG SH,KIMM,HWANG SERC-Mixup:AdataaugmentationstrategyagainstnoisydataforregresiontasksC]//Proceedings ofthe30thACMSIGKDConferenceonKnowledgeDiscoveryandDataMining.NewYorkAsociationforComputingMachinery2024: 1155-1165.
[23]孫玲莉,董世杰,楊貴軍.常用多重插補法的插補重數選擇[J].統計與決策,2019,35(23):5-10. SUNLingli,DONGShijieANGujunSelectionofimputationmutplicityonmultipleimputationmethodsJ].tatistisandecision 2019,35(23):5-10.
[24]高金.基于模糊積分集成融合的多模態生理信號情感識別方法研究[D].蘭州:蘭州大學,2021. GAO Jin.EmotionRecognitionBasedonFuzzyIntegralFusionofMulti-ModalPhysiologicalSignal[D].Lanzhou:Lanzhou University,2021.
[25]MORENOIG,YU Xiaofan,ROSING T.KalmanHD:Robuston-devicetimeseries forecasting withhyperdimensionalcomputing// 2024 29th Asia and South Pacific Design Automation Conference(ASP-DAC).Incheon:IEEE,2024:710-715.
[26]ZHANGAoqianONGSaou,SUYu,etal.Learing dividualmodelsfomputationC]/19IEE35thInternationalCoerence on Data Engineering(ICDE).Macau:IEEE,20l9:160-171.
[27]PENGJinpeng,CUIHanghaiSHEND,etal.GARF:Aself-superviseddataeaningsystem withSeqGANC/Proceedingsofth3rd ACMInternationalConferencenInformationandKnowledgeManagement.NewYork:AsociationforComputingMachinery,024: 5260-5264.
[28]DUWenjiCOEDUYanSelf-atentiobasediputatinfortisries]ExpertSstemswithAplicatios 10.1016/j.eswa.2023.119619.
[29]WANGHaoZhengnan,LHaoxuanetal.OptialtrasportfotieserisimputationC//CL5Conferene.S., 2025:1-25.