劉玉喆,保麗霞,吳金友,祁 坤,苗燁麒,劉 輝
[1.上海市城市建設設計研究總院(集團)有限公司,上海 200125; 2.上海市地下空間設計研究總院有限公司,上海 200125;3. 上海國際汽車城(集團)有限公司,上海 201805; 4. 吉林大學,吉林 長春 130012]
高速公路的建設促進了各地區的經濟聯系,有效拉動內需,對中國經濟的發展起著關鍵作用,其中高速公路收費是提高高速公路效益的必要手段。但隨著駕駛里程的增加,高速公路產生的費用也會增加。因此部分駕駛員懷著僥幸心理運用各種手段逃繳通行費。典型的逃費行為包括:(1)交換卡逃費,主要存在于固定線路客車、集團貨運車隊和私人車隊。通過交換通行卡或前端車輛,達到少交過路費的目的;(2)沖擊收費道,通常是指后車緊隨前面車輛,達到逃避收費的目的;(3)干擾和逃避重量逃費,該方式是逃費的主要方式。此外還存在反轉貨物、更換主軸箱、吊掛等逃避重量的方式;(4)偽造專用車輛逃費,是指利用政府對某些車輛減免稅的政策,如使用假卡、假證件、偽裝商品等逃避過路費。這種現象不僅擾亂了交通運輸運營的秩序,甚至對駕駛員的生命財產造成嚴重的威脅,不利于高速公路的長期平穩發展。
為此,不少學者針對高速公路逃費檢測問題進行深入研究。高速公路收費數據具有數據量大且復雜度高的特點。薛璞[1]建立了基于大數據及數據挖掘技術收費逃費檢測模型。李松江等[2]提出了IGA-IBP算法實現了高速公路的逃費預測,通過優化遺傳算法中的變異算子來減少誤差以及提高收斂速度。鄒嵩涵[3]首先基于密度峰值的特征選擇算法對高速公路數據集進行降維,然后通過K-Means算法自適應確定DBSCAN聚類算法的參數,提高了逃費檢測的效率。Zhao等[4]采用基于負荷權重的高斯混合模型(Gaussian mixture model,GMM)的聚類方法來識別運輸車輛的逃費行為。該方法借助不同行駛循環的載荷分布存在的顯著差異,對不同行駛循環中的載荷重量進行測試,以此確定某一行駛循環中載荷近似為高斯混合分布(Gaussian mixture distribution,GMD)。然后,通過GMM對某一行駛循環中歷史車輛的載荷進行聚類。借助于期望最大化(Expectationmaximization,EM)算法用于計算GMM的參數。最后,根據高斯分布的3σ準則,科學地得出合理的裝車間隔,區分運輸車輛逃費行為??嫡竦萚5]采取貝葉斯分析的方法對歷史數據中通行行為指標進行篩選,并結合最大熵模型確定指標權重,完成對車輛逃費的預測與檢測。
鄭再超等[6]對解決逃費現象的理論對策和技術手段進行了總結,并指出研究人員可進一步改進算法水平,提高數據預測的精確度。這是由于高速公路逃費行為比正常駕駛行為少得多,是典型的數據不平衡分類問題,導致目前對逃費檢測精度不夠高。近年來,對抗性訓練,尤其是生成式對抗網絡[7](Generative Adversarial Nets,簡稱GAN),在類間不平衡的異常檢測中占據著越來越重要的地位。GAN最初由Goodfellow等人提出,被視為一種無監督機器學習算法,在圖像識別、異常檢測等領域均取得了顯著的應用效果。為此,該文嘗試使用GAN來提高逃費檢測的精度。
隨著中國經濟與技術的進步,高速公路的收費模式逐漸由全封閉式進口收費/出口驗票的人工收費方式,轉變為ETC聯網及不停車收費方式。雖然高速公路收費方式在不斷變化與改進,但對應的逃費方式也在不斷變化。由早期的兩車倒(換)卡、卸車頭甩掛、計重貨車“墊磅”等方式,轉變為更集體化、隱蔽化的方式。例如入口車牌卡號不符、出入口車型車種不符、通行時間過長或過短、短程重載或長程空載、通行時間重疊、車重降低、車型變更、假冒特殊車輛等。
在原始的逃費數據集中包含多個屬性,但并不是所有屬性均對逃費檢測模型有促進作用。相反地,過多的屬性會產生“維度災難”與過擬合的問題。因此需要合理選擇合適的特征,不僅能加快模型的訓練速度,還能獲得更高的準確度。為此該文基于典型高速公路逃費類型選擇合適的數據屬性,具體如表1所示。

表1 所選擇的特征屬性

如圖1所示為該文所提出的基于GAN的高速公路逃費檢測模型的網絡架構,該模型由兩個部分組成:生成器與判別器。

圖1 網絡架構


由于該模型中采用了編碼-解碼-編碼的網絡結構,因此該文的損失函數包含三部分:欺詐損失、表面損失以及潛在損失。
欺詐損失的目的是誘導判別器將生成器產生的數據誤識別為正常樣本,定位如下:

表面損失用來測量真實樣本與生成樣本之間的距離,即:

對于判別器,該文采用Salimans[9]等人提出的特征匹配損失進行對抗學習,以降低GAN訓練的不穩定性。

此外,該文使用Adam優化器來更新等式(7)與(8)。
實驗數據采用河北省2018年收費系統中記錄的全省高速公路所產生的流水數據。車輛每次進入和駛出收費站都會在相應的入口記錄表和出口記錄表中留下一條記錄,每條記錄記錄了車輛、收費站、交易和系統操作等信息。依據實例的完整度共篩選出960 000條數據,并劃分為80%作為訓練集,20%作為測試集。

數據分類預測模型算法較多,為了驗證預測結果的性能,選取了決策樹(Decision Tree,DT)、人工神經網絡(Artificial Neural Network,ANN)、支持向量機(Support Vector Machine,SVM)、孤立森林(Isolation Forest,IF)與該文所提出的GAN 模型進行比較。對比結果如表2所示,可以看出,該文提出的GAN模型的性能最佳。

表2 對比結果
高速公路聯網收費系統的建設,使高速公路運營管理變得更加科學高效。然而,車輛逃費手段多種多樣,不僅導致高速公路通行費收入的極大損失,更影響交通安全。該文所提出的基于GAN的逃費檢測算法主要包含兩大模塊:生成器與鑒別器,利用生成器生成期望的正常行為并使用鑒別器區分正常與異常行為。實驗結果表明,該文所提出的算法具有更高的準確度。將此算法應用于高速公路收費管理運營系統中,可有效提升稽查自動化與智能化水平。