馬宗普, 王 婷
(中遠海運科技股份有限公司,上海 200135)
聯網收費是高速公路運營中的一項基本業務,征收的費用主要用來償還修路貸款和改善公路路網條件,是高速公路賴以生存和發展的基礎。隨著高速公路收費業務的信息化程度不斷提高,特別是路網的規模越來越大,車輛的單次通行費用越來越高。部分車輛受利益驅使,往往會采用多種方式偷逃通行費并從中獲益,如利用加裝的假軸來減少通行費,而采用傳統的稽查方法已較難發現這種隱性逃費行為,不能滿足高速公路收費工作的管理要求。因此,利用高速公路收費數據甄別疑似假軸車輛成為一項重要且具有實際意義的課題。
假軸車輛一般是指在車輛原軸型的基礎上自行加裝車軸(一般為1組)的車輛。通常假軸車輛在行駛到收費站時,司機會將事先安裝好的帶有液壓裝置的假軸放下,以增加車輛的軸數和提高限載質量上限,從而通過稱重設備的檢測。這種行為會對高速公路的路基造成嚴重損害,增加高速公路運營及養護成本,且甄別難度很大,采用人工的方式甄別不僅費時費力,而且無法實現實時甄別。因此,對假軸車輛進行自動判別是收費稽查工作的重點和難點。
目前,稽查假軸車輛主要有以下2種方式:
1) 依靠數據員人工進行軸型和車型比對,根據車輛標準軸型進行判斷。這種方法對數據員的經驗和技能要求較高,工作效率較低。
2) 由監控員現場查看車輛軸型的情況,查驗車輛的行駛證,通過對比行駛證圖片對軸數進行認定[8]。
這2種人工判別方式均依靠經驗和技巧進行辨別,依賴監控員的經驗和責任感,容易出現人為失誤,甚至是舞弊行為。
根據力學原理,當相同軸型的貨車所裝載貨物的總重在一定范圍內時,其各軸重占總重的百分比符合一定的規律。當車輛通過收費站的車道時,收費系統的計重設備會記錄其軸型和軸重信息。通過對收費數據庫中的海量數據進行軸型和超限比例分析,運用機器學習算法計算各組軸重分布的均值,得到貨車載荷數據分布的隱含規律和不同類型貨車對應軸型的分布情況。以此為依據,對通行記錄進行分析和判別,找出異常記錄,從而識別出假軸車輛,有效避免車輛通行費流失。
本文采用聚類分析方法對不同載荷分布比例的車輛進行區分,聚類后同類數據盡可能地聚集到一起,不同類的數據盡量分離,以找到隱含的規律。聚類算法的選擇取決于數據的類型和聚類的目的。K-均值(K-Means)是劃分方法中比較經典的聚類算法,效率較高,廣泛應用于大規模數據的聚類。
根據某省高速公路的計重收費數據,采用K-Means聚類算法設定常見軸型和不常見軸型2個簇;從常見超重軸型中選定某種軸型進行分析。通過對選定的車輛在不同超重區間內的軸載譜數據進行分析,求取每個軸重占總軸重的比例,從而得到該軸型車輛的軸載分布情況,由此對該軸型車輛在不同超重區間內的軸載比例關系進行分析。采用聚類算法找出軸重占比的中心點(即在該超重區間內的軸載比例),依次計算出其他軸重的軸載比例,最終得到該軸型車輛的軸載比例系數關系。
懷卡托智能分析環境(Waikato Environment for Knowledge Analysis,WEKA)是一個開源數據挖掘工作平臺,集合有大量能承擔數據挖掘任務的機器學習算法,能實現交互式界面的可視化。本文的數據分析主要采用WEKA3.8.1及其提供的聚類分析算法SimpleKMeans。
根據經驗,高速公路上的很多假軸貨車都有貨物超載問題,因此本文主要針對超載貨車,按照軸型和軸重范圍進行貨車載荷分布情況分析。根據文獻[11]對貴州省2013年和2014年的高速公路收費數據進行分析,得到各軸型的平均運距,其中平均運距>200 km的軸型是1127軸型(2013年的平均運距為334.83 km,2014年的平均運距為310.44 km)和157軸型(2013年的平均運距為300.48 km,2014年的平均運距為274.67 km)。根據規定,汽車運輸距離≤50 km為短途運輸,運輸距離≤200 km為中途運輸,而>200 km為長途運輸。由以上數據可知,掛車一般用于中長途運輸,是中長途運輸的主力。長途運輸貨車的通行費用較高,容易出現偷逃費行為,因此本文以1127軸型貨車為例進行分析。該軸型貨車共有6個軸組,收費系統以軸組為單位記錄貨車軸重數據,該軸型組合見圖1。

圖1 1127軸型組合
根據各軸重占總重的比例,可直接推導出各軸重之間的比例關系。由于車輛的第一個軸不可能為假軸,因此以第一個軸的軸重為基準,對其余各軸進行等值轉換,得到各軸之間的比例關系。采用WEKA數據分析工具對各軸的軸重及其比例值進行聚類運算,得到不同超限范圍內的軸重比例關系,進而得到1127軸型貨車各軸重在不同超限范圍內的載荷分布情況,簡化后得到1127軸型貨車載荷分布比例數據見表1。

表1 1127軸型貨車載荷分布比例數據

圖2 1127軸型超限0%~10%貨車載荷比例
對表1中的數據進行可視化處理,可得到軸重荷載比例關系的直觀展示效果見圖2,該曲線可作為對應超限0%~10%范圍內的載荷分布參考曲線,其他超限范圍與此類似。
現有技術在假軸車輛判別方面存在一定的不足,假軸車輛的通行記錄中沒有明顯標明該車輛肯定是假軸車輛,因此缺少驗證集數據,很難對試驗結果進行直接驗證。為驗證試驗方法的合理性,采用間接方法對試驗結果進行驗證:以1127軸型的第2個軸組數據為分析對象,結合離群點數據,從某省高速公路歷史通行記錄中獲取不同車牌貨車的通行記錄數據,選擇相關字段進行匯總(見表2)。根據總重數據分布情況,選擇20 000 kg作為載重狀態(輕載/重載)的分界參考點。根據各軸型規定的限重情況,1型軸限重8 t,2型軸限重10 t,7型軸限重22 t,可計算出車輛在真實軸型下的總重和超重情況。

表2 1127軸型疑似假軸貨車通行記錄數據
采用同樣的辦法獲取正常軸型車輛的通行記錄,并按總重進行升序排列,結果見表3。由表3可知,該車輛在3—5月份的通行記錄均為1127軸型車輛,由其總重可判斷,不論是20 000 kg以下的輕載情況,還是20 000 kg以上的重載情況,該車輛的軸型均為1127。因此,可判定車牌為PF5168的車輛為真實的1127軸型車輛,而車牌為CR2721的車輛為疑似假軸車輛。

表3 1127軸型正常貨車通行記錄數據
分別對2輛貨車在1127軸型下的通行記錄進行整理并作可視化處理,可得到對比曲線見圖3。由圖3可知:正常軸型貨車(車牌為PF5168)的軸重載荷曲線與參考曲線基本上一致;當疑似假軸貨車(車牌為CR2721)被判定為1127軸型車輛時,其軸重載荷曲線與參考曲線差別較大,很容易判別出該貨車與正常的1127軸型貨車不同,稽查人員可以此為參考,對該貨車進行攔截和查驗,核實后依法進行處理。由此可證明,將軸重載荷曲線作為疑似假軸車輛的判別曲線具有一定的參考價值。

圖3 1127軸型正常貨車與疑似假軸車輛對比
該試驗數據不僅可用于甄別假軸貨車,而且可用來對車輛超限情況進行判別,以表2和表3的數據為例,車牌為CR2721的車輛的真實軸型為127型,該軸型的總限重為40 t,而1127軸型的限重為48 t,當該車輛載重45.6 t行駛時,放下假軸,限重上升為48 t,車輛為未超限狀態,但若收費系統以真實的127型軸型判斷,該車輛已超限5.6 t,可追回因超限而逃避的通行費。利用數據分析方式甄別假軸車輛不僅能減少人工成本、提高甄別效率,而且可利用歷史記錄提高甄別的準確性。
由于車輛各軸軸重間的比例關系是采用無監督的聚類方式獲得的,不利于對假軸車輛進行精準判斷,因此還需在采用上述方法判斷出正常軸型的車輛之后對其通行記錄進行標記,積累正常軸型車輛在不同超限范圍內各軸重間的比例關系,從而更加真實準確地反映出各軸重間的比例關系,使正常軸型與假軸之間的界限更加明顯,提高判別的準確度。采用同樣的方法得到其他軸型的軸重載荷曲線數據,并以此為依據對更多軸型的車輛進行判別,擴大假軸車輛的甄別范圍。
目前尚無簡便高效的假軸車輛查驗方法,收費系統也尚未對前后通行費用的對比情況進行記錄。根據本文研究的方法,下一步將考慮與高速公路運營管理單位合作,對假軸車輛的甄別和查處進行試點,在實踐中提高算法的準確性和適用范圍。
本文提出通過采用K-Means聚類統計結合其他均值計算、等值換算等數據分析方法計算貨車軸重載荷分布情況,尋找載荷分布規律,并繪制不同超限范圍內的軸重載荷分布參考曲線。
根據業務經驗,從通行記錄中找出指定軸型的正常車輛的通行記錄和疑似假軸車輛的通行記錄,計算出各自對應的軸重載荷分布曲線,將其與參考曲線相比對和可視化展示之后,可看到3種曲線的一致性情況,從而證明本文采用的以軸重載荷分布曲線作為判別依據的方法具有一定的參考價值。以此為參考,對訓練集(日常通行記錄或歷史通行記錄)中的數據進行比較,標記偏離參考曲線的通行車輛(疑似假軸車輛),為高速公路收費稽查提供有力的數據支撐,對提高收費稽查工作的效率和準確度、打擊偷逃費行為及增加通行費收益等都有一定的價值。