999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于歷史通行數據的假冒綠通車逃費行為預測

2021-05-14 02:02:10劉昱崗徐旭東王添碧葉勁松
公路交通科技 2021年4期
關鍵詞:模型

劉昱崗,鄭 帥,徐旭東,王添碧,葉勁松

(1.西南交通大學 交通運輸與物流學院, 四川 成都 610031;2.西南交通大學 綜合交通運輸智能化國家地方聯合工程實驗室,四川 成都 610031; 3.交通運輸部科學研究院,北京 100088;4.四川省交通運輸發展戰略和規劃科學研究院,四川 成都 610001)

0 引言

為響應惠農興農的精神,四川省于2010年12月1日全面給予運輸鮮活農產品車輛“綠色通道”政策支持。但一些不法車主利用該政策,通過“混裝”即在普通貨物上覆蓋一層鮮活農產品的方式逃繳通行費,給高速運營部門帶來了巨大損失。現階段逃費行為頻發,但針對假冒綠通車的稽查手段卻相對落后,主要依靠工作人員在車道現場對每輛出站綠通車開箱檢驗,極少數收費站安裝了放射源綠通車專業檢測設備。隨著鮮活農產品運輸需求擴大,綠通車通行量增加,綠通車稽查工作面臨的檢查難、效率低、成本高、風險大的難題更突出,成為高速公路稽查管理部門亟待解決的問題。

現階段大數據、數據挖掘技術已經完全具備實際應用能力,將其應用到綠通車排查,可以為綠通車檢查工作提供決策參考,降低假冒綠通車成功逃費情況的發生概率,從而提高檢查假冒綠通車的效率及收費站通行效率。

國內研究學者對高速公路綠通車稽查管理工作做了大量相關研究,主要從2個方面來解決假冒綠通車逃費的問題。一是通過優化政策和完善制度來解決綠通車管理中存在的不足,二是通過運用放射源等檢測設備、圖像識別、數據挖掘、互聯網等新技術來檢查或管理綠通車。國外由于無“綠色通道”類似政策,其研究更多偏向高速公路收費政策、高速公路管理技術應用等方面。陳力[1]認為在全面取消省界收費站且繼續執行現有“綠色通道”政策的背景下,建議將綠通車傳統的“先檢查后免費”模式轉變為“先收費后退還”的模式,并根據綠通車誠信度建立分級備案機制,對誠信度高的車輛免檢、抽檢,對誠信度低的車輛必檢。牛建強等[2]建議建立鮮活農產品基準密度庫,利用光電體積測算法獲取檢查車輛的裝載體積,再對比車輛裝載密度與基準密度的偏差,判斷是否混裝。熊文磊[3]以放射源掃描綠通車形成的特殊影像作為初始數據集,建立了一個具備影像識別功能的預測模型,并通過試驗分析證明了模型的有效性與先進性。孫曉寧[4]提出建立集數據采集、分析、處理為一體的便攜綠通查驗平臺,以實現多系統多平臺同步操作、聯動存儲、多角度監控及移動監管的功能。在數據挖掘技術方面,陳浩泰[5]基于生鮮車輛的高速通行數據利用Logistic回歸模型構建了針對家禽肉的假冒綠通車分類模型,并有較好分類效果。申長春[6]針對綠通車的非均衡屬性采用機器學習的方法,并結合BP神經網絡,進一步提升了對假冒綠通車的分類效果。任文龍和申長春[6-7]針對綠通車的非均衡屬性采用機器學習的方法,利用收費記錄中的特征字段和偷逃通行費現象之間的關聯,分析并設計了用于輔助收費稽查的BP神經網絡模型,進一步提升了對假冒綠通車的分類效果。雷毅等[8]和張萌[9]對高速公路網內綠通車流量進行數據分析,確定了綠通車檢查點的規劃布設來提高綠通車檢查資源的利用率。

綜上所述,目前對高速公路綠通車稽查方面的研究內容不夠豐富,數據集和算法應用的研究十分有限,僅有Logistic回歸模型和神經網絡等算法在綠通車收費數據得到應用。

機器學習作為預測性分析的常用方法,可從歷史假冒綠通車數據中獲取規律或模型,應用到類似場景中。因此,本研究利用決策樹來建立假冒綠通車預測模型,并比較不同算法的預測準確率找出最優的算法,通過預測車輛假冒綠通車的概率,提前預警提醒稽查工作人員重點檢查,以提高綠通車稽查效率。

1 綠通車逃費行為研究

1.1 原始綠通車通行數據集

2019年1月至3月,四川高速公路建設開發集團有限公司(簡稱“川高”)查獲了3 244起假冒綠通車通行事件。本研究以聯網收費系統的3 244輛假冒綠通車數據作為研究對象,并從系統中隨機導出2019年1月至3月12 976條正常綠通車通行數據為參照對象,提取數據的特征屬性,分析假冒綠通車逃費行為特征,并建立假冒綠通車逃費行為預測模型。

1.1.1數據屬性提取原則

(1)重要度。剔除車輛信息影響較小的屬性或其他無意義屬性,保留相對重要屬性(車輛行駛路徑與地理坐標等屬性)或增添其組合屬性。

(2)可靠度。利用貨車通行正態特征,采用拉依達分析方法剔除整體離散程度較大的屬性,保證數據特征的明顯性與可靠性。

1.1.2數據屬性范圍分析

經預處理后,每條數據包含17個屬性:目標變量y,y∈{0,1},其結果表示數據車輛是否為假冒綠通車;車輛數據變量xij,包括車輛信息集合、收費站信息集合、通行過程信息集合3個方面,16個自變量,變量基本分析見表1。

表1 變量特征分析

考慮部分變量對車輛數據信息展示直觀度不強,采用變量組合運算,得到6個新增變量zi,見表2,以期從更全面的角度來分析假冒綠通車逃費行為。

表2 新增自變量基本統計分析

1.2 逃費行為特征分析

對2019年1月至3月川高查獲的3 244起假冒綠通車通行事件的通行數據進行逃費行為特征分析。

1.2.1時間特性

據圖1, 假冒綠通車通行在1周的分布差異性較大,在星期一和星期三查獲的假冒綠通車數量相對較少;入站高峰時期為18:00—24:00,出站高峰時期為凌晨1:00—7:00,且整個過程的行駛時間主要集中在4~10 h。考慮到綠通車檢查現狀是工作人員檢查記錄后放行,可能大部分假冒綠通車傾向于選擇工作人員比較疲憊和放松警惕的時間段入出收費站,如:晚上18:00—24:00、凌晨1:00—7:00。

圖1 假冒綠通車通行的時間特征Fig.1 Time characteristics of passing of fake TFLVs

1.2.2空間特性

川高在7個綠通車流量大站安裝了綠通車檢測設備,用于判斷車輛是否為綠通車。為判斷假冒綠通車的空間通行特性,針對本次采集到的假冒綠通車數據分析其OD屬性、路徑流向,得到以下特征:假冒綠通車OD屬性與行駛軌跡在空間均具有路徑集中趨勢,主要分布在鄰墊四川站-達渝四川站、棋盤關站-綿陽站、宜賓北站-大件站高速公路區間。

3 244輛假冒綠通車通過121個收費站進入、通過111個收費站離開高速公路網絡,其中僅有6個站安裝了綠通車檢測設備。基于此特征分析:假冒綠通車在進出高速公路的過程中傾向于避開安裝綠通車檢測設備的收費站,選擇稽查強度薄弱的路段通行,其可能存在的路徑選擇情況見圖2。

圖2 假冒綠通車可能存在的路徑選擇情況Fig.2 Possible routing options for fake TFLVs

1.2.3其他特性

(1)車牌省籍

據圖3,假冒綠通車屬地主要為外省,占比63.63%,原因可能是外省綠色通道政策與四川省存在差異,并且外省通行信用記錄與四川省通行信用記錄不互通。

圖3 假冒綠通車車牌省籍情況Fig.2 License plate provincial status of fake TFLVs

(2)行駛特征

根據假冒綠通車的行駛均速與行駛距離頻率分布情況繪制分布函數曲線,如圖4所示。

圖4 假冒綠通車速度Fig.4 Travel speeds of fake TFLVs

如圖4所示,車輛旅行平均速度范圍是22~150 km/h,其中,46.54%的假冒綠通車速度處于高速公路規定貨車行駛速度范圍外:40.2%低于60 km/h,6.34%超速行駛,該部分車輛可能是為尋求離開高速公路合適時間而選擇滯留于服務區或加速行駛。

圖5 假冒綠通車行駛距離分布Fig.5 Distribution of travel distances of fake TFLVs

如圖5所示, 70.28%的假冒綠通車行駛距離集中在150~500 km的范圍,小部分車輛為短途運輸,造成該情況的原因可能是高速公路通行費用是根據車輛行駛距離與載貨重量來收取,當運輸距離較長時假冒成綠通車逃繳金額較高,對駕駛員利益誘惑更大。

(3)載重分析

假冒綠通車的實際載重情況如圖6所示。實際載重分別集中在3個區間,13.62%位于12~16 t之間、53.32%位于30~40 t之間、16.28%位于45~50 t之間。假冒綠通車的滿載率如圖7所示。9.43%的假冒綠通車滿載率超過100%,61.51%的假冒綠通車滿載率超過85%。造成該情況的主要原因可能是每次假冒綠通車載貨越多,越有利可圖。此外滿載率越高,車廂貨物堆積越緊密,工作人員檢查難度增加,假冒成功率增加。

圖6 假冒綠通車實際載重Fig.6 Actual loads of fake TFLVs

圖7 假冒綠通車滿載率情況Fig.7 Full load rates of fake TFLVs

分析了高速公路假冒綠通車的時空分布特征,以及在行駛特征、載重分析等方面的表現情況。

2 綠通車通行數據集預處理

由于采集的原始綠通車通行數據集中,各類屬性的量綱不同,時空特征分布不均衡,取值范圍有一定的差異性,因此需要對綠通車數據集進行采樣、離散化、關聯項與共線性檢驗等系列預操作后,再進行建模分析。

2.1 綠通車通行數據采樣

綠通車數據集是典型的非平衡數據集,合格綠通車樣本為多數類,假冒綠通車樣本為少數類,因此本研究采用Synthetic Minority Oversampling Technique(SMOTE)對綠通車數據集進行平衡處理[10-12]。基于SMOTE算法改進形成的Borderline-SMOTE算法能很好地控制新合成的少數類樣本使其處于兩個類別的邊界附近,解決SMOTE算法導致的邊界模糊問題。

利用Borderline-SMOTE算法對12 976條正常綠通車通行數據和3 244假冒綠通車通行數據進行過采樣,得到12 976條假冒綠通車通行數據,正負比由4∶1到1∶1,基本達到均衡數據集的目的。

2.2 綠通車通行數據離散化

本研究采用考慮樣本所屬類別信息的ChiMerge方法(卡方分箱法)對連續數據離散化預處理。該方法可以考慮到目標類別的信息差異性,也被稱為全局數據離散化方法[13]。具體操作為:按照特定的排序方法對通行數據集進行排序,并對數據離散區間計算卡方統計值,對統計值不滿足閾值的區間進行合并,直到離散的區間達到預期,停止離散過程。

選擇ROC曲線用于確定綠通車通行數據中連續型屬性離散化的區間劃分數,利用曲線下面積(AUC)來表示離散區間個數,離散過程的截止條件為離散后的綠通車數據能夠有效表達原始綠通車的通行數據特征[14-15]。利用ChiMerge算法將連續變量離散化,結果如表3所示。

表3 連續變量離散化結果

2.3 關聯項檢驗

綠通車通行數據的屬性較多, 并不一定都是影響因素, 如果全部選入預測模型, 會影響運行時間和預測精度。先利用K-S檢驗檢驗連續值的正態性(sig>0.05, 服從正態分布), 再采用獨立t檢驗檢驗符合正態分布的連續值自變量與結果的關聯性(sig<0.05,有顯著性影響);采用Mann-WhitneyU檢驗,檢驗不具有正態分布特征的初始連續型屬性與結果的關聯性(U<0.05,有顯著性影響);采用Pearson卡方檢驗檢驗離散屬性與結果的關聯性(χ2<0.05,有顯著性影響)。通過檢驗各自變量與結果的關聯性,分析各自變量對結果的影響,并選取合適的自變量。

結果顯示x11(省籍類型),x12(貨車軸數),x14(限載重量),x23,x26(出入口站安裝綠通車檢查設備情況)的Pearson卡方檢驗值χ2<0.01,因此這4類屬性與車輛是否為假冒綠通車具有較大的關聯性。

2.4 共線性檢驗

為保證模型預測結果的可靠性,需要對自變量進行屬性約簡,減少合并具有共線性的屬性。首先采用容忍度和方差膨脹因子的方法來判斷屬性的共線狀態,進而得到離散數據轉化的協方差矩陣,并計算協方差矩陣的特征根與對應的特征向量,再根據特征根的貢獻程度判斷自變量的重要程度[16-17]。最后將通過關聯項檢驗和共線性檢驗的屬性選入假冒綠通車逃費行為預測模型。

根據結果,將x12(貨車軸數)、x14(限載重量)、z2(載重差)、z1(滿載率)剔除,不放入分類預測模型。

2.5 處理后綠通車通行數據集

對綠通車通行數據的22個屬性進行關聯項和共線性檢驗后,共剔除x12(貨車軸數)、x13(實際載重)、x14(限載重量)、x31(入站日期)、x33(出站日期)、z1(滿載率)、z2(載重差)7個屬性,不計入x21,x22,x24,x25(出入口站經緯度)采用其組合屬性,共得到11個屬性。

3 逃費行為預測模型建立與分析

經上述處理,再將數據集劃分為測試數據集(正常綠通車通行數據6 488條+假冒綠通車通行數據6 488條)和訓練數據集(正常綠通車通行數據6 488 條+假冒綠通車通行數據6 488條)。

3.1 決策樹模型

決策樹是一種研究對象的屬性即xij與對象的值即y之間的映射關系的樹結構模型[18]。決策樹建模流程如圖8所示。

圖8 決策樹建模流程Fig.8 Flowchart of decision tree modeling

本研究需要區分車輛是否為假冒綠通車,是一個二分類變量。因此用CART算法來構造逃費行為決策樹,將基尼系數作為最小分類標準。基尼系數的計算如下:

(1)

式中,k為車輛是否為假冒綠通車;pi為決策輸出變量屬于第k類的概率值。

據表4的決策樹模型分類結果來看,對正常綠通車的判斷能力達到97.0%,對假冒綠通車的識別效果為83.4%。總體來說對假冒綠通車逃費行為的識別效果較好,驗證數據的準確率高達90.2%。由預測結果繪制混淆矩陣見圖9。

表4 決策樹模型分類預測結果

圖9 決策樹模型的混淆矩陣Fig.9 Confusion matrix of decision tree model

決策樹模型的自變量見表5,其中連續型變量需離散化才能利用決策樹建模,前文利用ChiMerge算法對連續型變量實現離散化,并利用ROC曲線確定最優的區間劃分方式。利用基于基尼系數的CART算法來構造決策樹,按照基尼系數的大小,從小到大、從上至下生成子節點,直到決策樹不可分枝為止。

表5 選入決策樹的變量及變量的重要程度

圖10 假冒綠通車逃費行為決策樹結構Fig.10 Decision tree structure of fake TFLVs evasion behaviors

最終表5的11個變量均被納入決策樹模型,未剔除任何變量。但這11個變量對模型的貢獻程度不同,其中最重要的變量是z5(旅行時間),說明假冒綠通車與正常綠通車在高速公路上行駛的旅行時間分布有較大差別。

據圖10可知,假冒綠通車逃費行為決策樹結構中,與假冒綠通車逃費行為顯著相關的變量有z5(旅行時間)、z4(出站位置)、x35(免費金額)、x36(行駛距離)和z6(行駛均速)等,總結出假冒綠通車逃費行為特征如下。

特征1:大部分假冒綠通車逃費行為的x35(免費金額)處在中等水平,即[544, 874]和 [876, 1 060]2個范圍之內,原因可能是免費金額太低不值得犯險、免費金額太高在收費站勢必面臨更加嚴格的檢查,假冒成功的概率降低。

特征2:大部分假冒綠通車逃費行為z6(行駛均速)處在2個極端,即[0, 59.918 5]和[89.898 8,+∞],而大部分合格綠通車則處在[59.918 5, 89.898 8]。原因可能是假冒綠通車的駕駛員在等待或趕上某個時機離開收費站,這個特殊時機可能是綠色通道擁堵,大量綠通車排隊,導致工作人員只能快速檢查并放行,還可能是工作人員稽查強度的薄弱時段。

特征3:假冒綠通車與正常綠通車的z4(出站位置)也有明顯區別,原因可能是假冒綠通車行駛軌跡在空間具有路徑集中趨勢,在進出高速公路的過程中傾向于避開安裝了綠通車檢測設備的收費站,選擇稽查強度薄弱的路段通行。

3.2 模型預測結論分析

本研究采用Logistic回歸模型和隨機森林模型進行假冒綠通車逃費行為建模分析,并將其分析結果與決策樹模型的分類結果進行比較。

Logistic回歸模型是一種利用變量間相互作用的概率作為指標的預測模型,可以弱化不同量綱屬性的多類別屬性對結果的影響,因此可以用于預測車輛是否為假冒綠通車[19]。表6為Logistic模型對假冒綠通車的分類預測情況,Logistic模型對正常綠通車的判斷能力更精準,達到98.7%,但是對假冒綠通車的識別效果不是十分理想,只有61.8%。

表6 Logistic模型分類預測結果

隨機森林是目前比較流行且對回歸和分類問題有很好效果的算法[18]。將隨機森林模型應用到假冒綠通車逃費行為分類預測,結果如表7所示,其預測假冒綠通車的能力和Logistic回歸模型的預測能力相似,可以達到97.4%,但對假冒綠通車的識別效果不是十分理想,只有81%。

表7 隨機森林模型分類預測結果

利用測試數據集來驗證3個模型的分類效果,并繪出各個模型的ROC曲線(圖11),計算各個模型的AUC值,結果見表8。認為AUC值最大的模型分類效果較好,為較優的模型。

圖11 ROC曲線Fig.11 ROC curve

3個模型均能夠達到分類預測能力,但相較于分析對假冒綠通車的識別,決策樹模型對測試集數據的反映效果最佳。因此決策樹模型對假冒綠通車的識別效果優于Logistic回歸模型和隨機森林模型。

3.3 應用流程分析

實際應用中,車輛在進入高速公路時將車輛入口時間、坐標等信息錄入高速公路車輛收費系統,待綠通車到達出口收費站時,增添車輛到達收費站的出口時間、坐標等收費通行數據;利用假冒綠通車逃費行為預測模型,根據車輛行程數據預測其為假冒綠通車的概率值;工作人員可根據經驗設定概率值標準,若概率值標準為70%,則將假冒綠通車概率值高于70%的車輛列為重點嫌疑對象,提前預警工作人員,為綠通車檢查工作提供決策參考,把有限資源集中在重點對象上,提升綠通車檢查的針對性,具體操作流程如圖12所示。

表8 三種模型的ROC曲線下面積

圖12 假冒綠通車預測操作流程Fig.12 Predictive operation process of fake TFLVs

4 結論

以高速公路假冒綠通車逃費行為為研究對象,基于聯網收費系統的綠通車通行數據,建立了假冒綠通車逃費行為預測模型。

(1)利用Borderline-SMOTE算法過采樣來平衡數據集,使得正常綠通車通行數據和假冒綠通車通行數據的正負比由4∶1到1∶1,達到均衡數據集的目的。

(2)采用ChiMerge方法離散化連續型數據,選擇ROC曲線確定綠通車通行數據中連續型屬性離散化的區間劃分數。把免費金額、入站時間、出站時間、行駛距離、入站位置、出站位置、旅行時間、行駛均速8個變量,分別劃分為6至7個區間。

(3)采用K-S檢驗、獨立t檢驗、Mann-WhitneyU檢驗、Pearson卡方檢驗進行關聯性檢驗,利用容忍度和方差膨脹因子判斷自變量的共線情況,共剔除貨車軸數、實際載重)、限載重量、入站日期、出站日期、滿載率)、載重差7個屬性。

(4)對處理后的綠通車通行數據,運用決策樹來建立預測建模,得出其對假冒綠通車逃費行為的預測準確率為83.4%,優于其他模型,能為綠通車檢查工作人員提供有效決策參考,提升工作效率。

由于外界因素的約束和自身能力的限制,論文還存在一些不足和值得進一步思考和研究的問題:

(1)本研究工作是基于四川省部分綠通車2019年1月至3月的通行數據展開的,可供離散挖掘的數據體量有限,為了最大程度反映出綠通車通行特征,未來工作將擴大數據量進行研究,提高假冒綠通車逃費行為分類模型的預測效果,防止出現過擬合問題。

(2)本研究選取的高速公路綠通車通行特征的屬性還不夠全面,屬性的選取方式還不夠科學,未來將進一步優化綠通車通行數據集的結構設計。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 1级黄色毛片| 亚洲最大福利视频网| 国产免费羞羞视频| 国产激情影院| 在线播放真实国产乱子伦| www.亚洲色图.com| 久久男人视频| 亚洲精品国产首次亮相| 亚洲福利一区二区三区| 青草视频久久| 国产理论最新国产精品视频| 国产日产欧美精品| 人妻夜夜爽天天爽| 亚洲性视频网站| www.91中文字幕| 日韩精品毛片人妻AV不卡| 夜夜操天天摸| 欧洲成人在线观看| 国产极品美女在线播放| 亚洲综合经典在线一区二区| 精品国产91爱| 日本www在线视频| 久久黄色影院| 国产综合欧美| 国产美女在线观看| 天天综合亚洲| 97se亚洲综合在线天天| 视频二区国产精品职场同事| 白浆视频在线观看| 国产自在自线午夜精品视频| 亚洲最大在线观看| 亚洲综合极品香蕉久久网| 成人字幕网视频在线观看| 亚洲一区二区三区中文字幕5566| 国产成人精品在线1区| 国产成人a毛片在线| 亚洲国产成人精品无码区性色| 国产一级片网址| 亚洲黄色片免费看| 亚洲男人的天堂在线| 亚洲不卡无码av中文字幕| 无码'专区第一页| 亚洲国产精品不卡在线| 欧美日本激情| 嫩草国产在线| 老司机午夜精品视频你懂的| 中文字幕不卡免费高清视频| 99久久亚洲综合精品TS| 麻豆精品在线| 亚洲美女一区二区三区| 免费不卡在线观看av| 在线欧美日韩国产| 岛国精品一区免费视频在线观看| 18黑白丝水手服自慰喷水网站| 亚洲综合中文字幕国产精品欧美| 亚洲日产2021三区在线| 91麻豆精品国产91久久久久| 欧美亚洲国产精品久久蜜芽| 美女高潮全身流白浆福利区| 国产日韩精品欧美一区灰| 国产视频一区二区在线观看 | 国产精欧美一区二区三区| 色婷婷亚洲综合五月| 国产精品美女网站| 国产精品人人做人人爽人人添| 亚洲精品桃花岛av在线| 国产毛片高清一级国语 | 亚洲午夜天堂| 9久久伊人精品综合| 国产无套粉嫩白浆| 欧美性爱精品一区二区三区 | 亚洲一区波多野结衣二区三区| 亚洲天堂网视频| 成人精品视频一区二区在线| 亚洲久悠悠色悠在线播放| 热久久综合这里只有精品电影| 午夜不卡视频| 日韩毛片免费视频| 无码网站免费观看| 欧美综合区自拍亚洲综合绿色 | 色欲综合久久中文字幕网| 精品久久久久无码|