王玲
(山東省交通運輸廳工程建設事務中心,山東 濟南 250014)
自2015年至2022年,國內高速公路聯網收費模式已經實行了7年。隨著信息技術的廣泛應用,高速公路收費系統持續升級,相較于獨立收費模式,聯網收費模式實現了對高速公路交通信息由點到面的控制?,F階段國內各省市地區大多已經完成“一張網”鋪設,但聯網收費系統復雜度較高,系統一日所收納的交通數據量較大,車輛的流水數據量大多隨著車輛在高速公路上行駛的里程增加而增大,加之高速公路收費數據存在錯誤,部分車主的ETC 逃費行為會導致卡點的流水數據不完整。由此,在聯網收費模式下,如何應用ETC 防逃費技術維護高速公路交通環境,就成為高速公路逃費稽查工作的重點,本文將基于這一重點,針對逃費行為與防逃費技術展開理論分析。
現階段,高速公路ETC 逃費行為涵蓋典型的逃費行為與新型的逃費行為,從理論分析的角度上分析逃費行為的原因,一方面在于車主存在不愿意承擔高速公路通行費的心理,面對高額的通行費,部分車主選擇鋌而走險;另一方面則在于高速公路的聯網收費系統復雜、數據流量大,甚至聯網收費系統存在漏洞。除此之外,逃費稽查工作大多以人工稽查為主要工作方式,即利用聯網收費系統中的監控子系統所收錄的車輛監控信息,通過人工對比車牌號,分析車輛是否存在逃費行為,逃費稽查的工作效率相對較低。
車輛識別技術的原理為:在ETC 車道上方或收費站點側面的區域設置高精度圖像傳感器,利用圖像分析算法識別車輛信息,判別車輛的收費類型,將其與車輛流水數據做對比,最后從數據庫中篩選出存在逃費行為的車輛。
車輛識別技術的應用流程如下:其一,對車輛品牌型號特征的檢測,利用高精度圖像傳感器獲取車輛特征。現階段國內的車輛品牌型號特征識別方法涵蓋車牌定位與車輛整體特征兩種。一般情況下,先應用車牌定位檢測方法,在確定車牌位置后,應用車輛整體特征,將兩種檢測方法結合后,能快速提取車輛所在區域,最后利用神經網絡對所提取的車輛圖片樣本進行對比,分析車輛特征與車輛流水信息是否一致。其二,對車輛品牌型號特征的識別,基于所抓取的車輛圖片,利用圖像識別技術中的識別算法對車輛號碼、型號、車燈、霧燈、保險杠以及車輛的天窗等進行識別,通過檢測與識別,系統將會自動預測出車輛的繳費類型。其三,車身顏色的識別。車身顏色的識別應用圖像識別技術,需經過特征提取、顏色識別兩個環節,一般情況下車頭相對平坦的區域為特征提取區域,待車頭圖像提取完成后,利用Low-level 像素顏色值進行車身顏色的識別。但此方案在夜間的應用效果一般,無法保證準確性。其四,圖像結構化信息,為提高圖像庫車輛信息檢索的效率,需要對抓取的車輛圖像信息進行特征分析,現階段應用較為廣泛的方法為Gabor、SLFT 等,應用圖像局部特征分析法可以將紙巾盒、車輛掛墜、車檢標志等提取為結構化信息,為逃費稽查工作追根溯源提供信息支撐。
車輛識別技術在ETC 逃費稽查工作中的應用主要在以下幾個方面:其一,在ETC 車道的車輛入口位置抓拍車輛信息,如型號、車牌號、顏色等,當車輛駛入ETC 收費通道后,車輛識別系統將對駛入的車輛進行自動化識別,而后將所識別的信息利用二值化的圖像展現出來,收費系統對車輛圖像數據做進一步處理,記錄車輛信息,將車輛信息傳送至收費站的服務器終端。其二,在ETC 車道車輛出口位置二次抓拍車輛信息,核實兩次信息是否一致,若兩次抓拍信息一致,將依照常規流程進行下一環節的操作,若兩次抓拍信息存在差異,則需從收費站服務器終端中調取車輛流水信息,核對后判定車輛的逃費行為。其三,建立車輛特征預警,將逃費行為記入信息庫,將信息庫與ETC 收費站的收費系統聯動,一旦嫌疑車輛進入ETC 收費站,車輛識別系統的外接預警設備將亮起、鳴笛。
數據倉庫技術的應用原理為:從數據源中抽取ETC 出入口車輛流水表,將流水表轉換、重新裝載,使其形成具備分析價值的出入鏈信息,而后經過數據的采集與整合,為逃費稽查工作人員判斷車輛是否存在逃費行為提供依據。逃費稽查數據倉庫的設計,需要從以下四個環節入手:
3.1.1 需求分析
逃費稽查數據倉庫的設計需求涵蓋以下幾點內容:其一,針對性地處理聯網收費系統中的出入車輛數據流;其二,科學主動刻畫出存在逃費行為的車輛特征;其三,提前預測某一車輛于某一地點可能故意逃費;其四,動態識別逃費車輛的記錄,并自動報警。
3.1.2 構建概念模型
在逃費稽查數據倉庫設計實踐中構建儲存逃費車輛信息的概念模型,是最高層設計內容,因概念模型與聯網收費模式下高速公路ETC 收費業務存在直接聯系,所以在設計概念模型前期需要充分了解相關的ETC 收費業務,概念模型的構建流程如下:
第一,根據高速公路聯網收費系統的詳細說明對出行鏈與逃費信息進行梳理,在了解逃費行為的基礎上確定概念模型的大主題域為通行卡逃費出行鏈主題域。第二,根據逃費車輛數據流篩選重要指標,涵蓋車輛信息、收費信息、時間信息、載重信息、客戶標識信息、出行鏈信息,并將這六項指標作為大主題域下的子主題,形成概念模型。
3.1.3 邏輯模型設計
基于逃費出行鏈主題域進行逃費稽查數據倉庫邏輯模型設計,邏輯模型的設計方法分為星型與雪花型兩種,本文選取了星型邏輯設計方法。首先,進行事實表設計,將逃費出行鏈主題與概念模型作為基礎,構造逃費出行鏈事實表:一級標題為出行鏈事實表;二級標題為車輛維度表、收費維度表、時間維度表、出行鏈維度表、客戶標識維度表、載重信息表;三級標題為二級標題的細化,其中車輛維度表的三級標題為出入口車牌、出口車型、出口車種、車牌是否相符以及出行費用。收費維度表的三級標題為總載重、軸重、計重標識、超限重量、軸型。時間維度表的三級標題為日期關鍵字、日分時段、季度、半年度、節假日指示符、星期指示符、重大事件。出行鏈維度表的三級標題為出行頻數累計、入口、出口、入口時間與上次出口時間差、距離差,是否閉環、入口或出口時間是否黑夜出行,是否高峰小時、入口時間是否工作日、出行路徑是否有服務區或開口、出行鏈速度、當前時段車輛平均車速、超時時長。收費維度表的三級標題為時間信息、車輛信息、總收費金額、收費金額非現金、(通行卡)金額、免費車金額、公務車金額以及未付金額。載重維度表的三級標題為軸組數、總軸數、總軸限軸型、各軸軸重、超限重量、修改前軸型、超限重量是否超重、超重比例、修改前總軸重、每月超重數、超重次數。客戶標識度維度表的三級標題為通行收費卡號、注冊車牌號、注冊車型。其次,進行維度表設計,在事實表基礎上對每一個通行卡進行逃費維度預測,并將高風險通行卡提取出來,作為下一個數據倉庫運行周期的預警通行卡。
3.1.4 物理模型設計
物理模型設計的意義在于進一步確定逃費稽查數據倉庫的性能,基于I/O 設計構建逃費出行鏈主題域各個子域的物理模型,并為各子域的三級標題從“字段/數據類型/數據長度”三個方面配置數據屬性,例如為車輛維度表配置數據屬性:入口車牌En-VehiclePlate/Char(12)/12;出口車牌號 碼ExVehiclePlate/Char(12)/12;入口客貨標識EnVehicleFlag/TinyInt/1。為載重維度表配置數據屬性:總軸重TotalWeight/BigInt/8;總軸限 TotalWeightLimit/BigInt/8。為通行卡維度表配置數據屬性:出口流水號LaneExSerialNo/Char(16)/16;入口流水號LaneEnSerialNo/Char(16)/16;IC 卡 編 號ICInCardID/BigInt/4。
3.2.1 數據處理
由聯網收費系統中抽取源數據—根據數據的轉換規則按照上文所配置的數據屬性轉換所抽取的源數據,并確定數據格式統一—按照逃費稽查數據倉庫既定的數據呈現方式將數據存儲至數據倉庫之中。
3.2.2 ETL 開發流程
Repository—創建Project 數據倉庫平臺(Microsoft SQL Server 2008)—Data Store 源和目標定義—某省某地高速公路路段數據—Job1 數據整合—Work Flow1 數據清洗轉換—Data Flow1 數據清洗—Data Flow2 數據轉換—Work Flow2 記錄合并—Project2 出行鏈主題事實表—Job2 提取數據—Data Flow—各維度數據錄入—Job 部署—Job 執行—運行監控。
3.2.3 結果分析
上述設計所建立的逃費稽查數據倉庫能夠為逃費稽查決策提供依據,在數據倉庫各層業務準則的指導下,源數據經ETL 處理后可用于工作人員查詢異常流水數據。
高速公路車輛流水數據是復雜的、異構的、海量的,所以在逃費稽查工作中,如何提取高速公路車輛流水數據中的價值信息,成為逃費稽查工作的重點。數據挖掘技術能夠利用不同的數據分析方法與模型,根據用戶的目的對源數據進行分析,所以數據挖掘技術被作為高速公路ETC 防逃費技術。該項技術在逃費稽查中的具體應用如下:
基于高速公路ETC 防逃費目標設計預測模型:數據倉庫數據源—確定目標數據—系統聚類分析+Kmeans 聚類分析—逃費行為判別分析—聚類判別結果—邏輯回歸分析—建立預測模型—防逃費應用。
該算法框架設計中采取兩種聚類分析相結合的目的主要在于提升算法實現的效率,使數據挖掘過程能夠滿足逃費行為的預測需求。
4.2.1 系統聚類
最短距離法見式(1):

式(1)中:d表示g和g樣本之間的距離差;D(a,b)表示G和G不同總體中任意2 個樣本點g和g之間最小距離。
最長距離法見式(2):

式(2)中:D(a,b)表示G和G不同總體中任意2 個樣本點g和g之間最長距離。
4.2.2 K-means 聚類
K-means 聚類中的k 為K-means 最初的聚類數,于算法初始化環節一組樣本數據需根據k(k≤n)找出各個樣本的聚類中心,而后將樣本歸并于差異值最小的集群之中,計算出平均值,重新確定樣本的聚類中心。經過循環往復直至樣本于式(3)收斂:

式(3)中:m表示類C的樣本均值;x表示單個樣本數據;k 表示輸入參數。
Fisher 判別模型的具體內容如下:
假設在k 個總體G,G,…,G中選取n,n,…,n個數據,且令總數為:


邏輯回歸分析模型見式(5):


在邏輯回歸分析實踐中應重視篩選變量,同時保證建模的車輛流水數據樣本數量滿足要求。
建立預測模型的流程為:抽取高速公路源數據—數據處理—逃費變量分析—確定存在逃費行為的車輛集—建立預測模型—驗證與評估車輛的逃費行為。
首先,選取A 省高速公路聯網收費系統中S 路段,所選取的路段全長223km,設有12 個ETC 收費站。選取時間為2021年5月6日~2021年8月14日,24h不間斷采集數據,在選取的時間內,ETC 卡數量為20351 張、車輛流水記錄為207852 條。其次,將SAS 軟件與逃費稽查數據倉庫相連,獲取樣本數據,提取每一個ETC 出行鏈信息并處理,例如,按照ETC 車道的入口時間構建車輛每次駛出的速度時序,找出速度時序圖中波動較大的樣本,將其判定為出行鏈異常車輛,將該車輛信息上傳至程序,由系統執行逃費業務判斷,如該車輛符合系統所制定的逃費規則,則該車輛屬于“可疑逃費車輛”。再如,將60km/h 作為判定指標,對車輛ETC 出入口最大行駛時間進行計算,結合出行鏈信息中給出的實際行駛時間,判定車輛是否存在逃費的嫌疑,或結合出行鏈出入口車輛基本信息,如車牌、車型等,若存在多次對比不匹配,則判定該車輛為“可疑逃費車輛”。最后,將目標樣本數據進行聚類分析,根據聚類分析結果確定可疑逃費車輛。
綜上所述,本文基于聯網收費模式下高速公路ETC 防逃費問題,闡述了高速公路ETC 逃費行為的分類與原因,分析了防逃費技術,涵蓋車輛識別技術、數據倉庫與數據挖掘技術。通過理論研究可以明確:數據倉庫技術與數據挖掘技術相輔相成,兩項技術不僅是聯網收費模式下高速公路逃費稽查工作效率得以大幅度提升的關鍵,還是通行費作弊逃費問題得以有效解決的根基。所以,在聯網收費模式下,高速公路管理部門應對ETC 防逃費技術的應用予以高度重視,積極利用現代信息技術解決ETC 逃費問題。