謝海瑩
(廣州方緯智慧大腦研究開發有限公司,廣東 廣州 511458)
卡口數據是指通過公路車輛智能監測記錄系統(簡稱卡口系統)采集獲得的數據。卡口數據包括但不限于車輛號碼、車輛類型、號牌顏色、過車時間、入庫時間、設備信息、行駛方向、車道編號等信息,如表1所示。

表1 卡口數據詳細信息示例
由于車牌識別系統在處理過程中不同環節、不同的應用類型,對卡口數據的質量要求不同,并影響到最終輸出的數據質量,因此依據車牌識別系統原理以及卡口的應用需求,可選取數據的有效性、穩定性、準確性和實時性作為數據監測的內容,并進一步確定指標進行監測[1-3]。
有效性是指滿足一定的可用性判別標準的數據所占比例。評估卡口數據的有效性主要是評估卡口數據在時間上、信息上的有效性。具體是指經剔除重復記錄、時間無效后的可以被使用的記錄。內容包括:(1)時間有效性判別,即剔除相同的設備編號、抓拍時間、車牌號碼、車輛類型的數據記錄;(2)剔除時間戳無效的數據記錄,即時間日期是很久以前的或者超出當前時間很久的數據;(3)剔除車牌號碼無效的數據。
數據穩定性是衡量數據波動性與離散性的指標,數據波動越小,離散程度越小,則穩定性越高。而卡口數據的穩定性是指統計周期內,卡口數據在時間維度上的變化程度和持續程度。卡口數據的穩定性判斷,主要有以下幾種方法:最值差值法、統計學方法、百分數衡量法[4]。
準確性又稱為精度,表明系統接收到的數據與真實情況的接近程度。準確性越高,表明系統輸出的數據質量越高,對數據后續的應用越有利。卡口數據的準確性,主要包括:(1)數據量上的準確性,即卡口識別的車輛數量與實際通行的數據越接近,則準確性越高;(2)卡口識別的車牌號碼、種類、號牌顏色、經過時間等與實際通過的車輛保持一致,尤其是車牌號碼和車輛種類,兩者合并作為車輛身份的唯一標識,錯一字則差之千里,更應該準確,大部分的應用如違法布控、個體軌跡出行分析等都需要準確的車牌號碼才能進行下一步的計算。
實時性,是指卡口數據從前端抓拍經過圖像識別后,形成的識別結果進入到對應系統的時間足夠短。時間越短,實時性越好。目前,關于卡口信息采集的實時性,根據資料,在各標準中只規定了完成一輛車的車牌識別時間在0.5~1 s以內[5],圖像捕獲、圖片合成的耗時,以及傳輸到終端系統數據庫的時間等均未有規定,因此對于整個完整采集、識別、傳輸、入庫的總過程的耗時缺乏參考標準。在實際應用當中,例如利用卡口數據進行交通運行評價、流量預測、信控評價、違法布控等均對卡口數據的實時性有著較高的要求,因此對卡口數據的實時性監測也十分重要。
數據冗余、數據不符合標準的比例越高,說明數據的質量越差,不但占用了數據存儲空間,還會影響數據的應用和效率,因此需要對數據有效率進行分析和監測,有效率低說明前端設備存在異常,應當及時排查。可以針對每個設備,選取不同的統計時段,初步統計數據的有效率。具體計算公式如下
(1)
式中:Pe為統計時段內數據記錄有效率,%;o為統計時段內入庫記錄總數,條;b為統計時段內入庫記錄數據中,車牌號碼、時間重復的記錄以及時間戳無效、車牌無效等數據記錄總數,條。
卡口數據因不同時段、不同設備、不同位置的車輛流量不同,短周期內數據量可能變化較大,如果直接采用傳統的三種方法計算,誤差較大。在參考百分數衡量法的基礎上,增加持續判斷的方法,來減小數據的誤差影響。根據卡口數據的特點,利用歷史數據計算出合理的歷史經驗均值,并將當前統計周期內的數據與歷史均值進行對比。具體計算公式如下
(2)
式中:μ為用于判斷單個時間節點數據異常、不穩定的指標,可通過分析歷史數據和經驗設置,在0到1之間;oi為第i個時間節點在統計時段內的入庫記錄總數,條;Vavg為相同日期、相同時段下的,相同統計區間內的歷史均值數據量,條;fi為第i個時間節點的異常結果,1表示正常,0表示異常;n為從第i個時間節點往前推的n個時間節點,n≥1,n說明需要連續n個連續的時間節點出現滿足不穩定指標的情況時,才會被判斷為數據不穩定,作為異常進行報警,此值的大小根據實際需要按經驗設定。
Vavg可以采用歷史一個星期內的數據平穩的卡口數據,分日期、分時段、分設備求得的歷史平均值,保存在數據庫中作為歷史均值表,該表可以定期更新。統計時段可以按照一個小時、半個小時、十五分鐘等劃分,由于夜晚流量少,不具有參考性,可以不分析夜晚時段,時段長度可以根據實際數據分析評估確定。日期按照周一至周日來劃分。如果有節假日,還需要根據節假日劃分。統計節點可以按照五分鐘統計一次,則一個小時統計12次,統計長度由統計時段確定,采用滑動統計的方式。如果當前統計時間段內的數量與歷史均值之比低于指定的閾值μ,并且持續n個時間節點,則說明數據不穩定,出現了異常,應當及時報警排查,以免影響數據應用。
實踐中,數據的準確性評價采用抽樣、視頻幀人工對比法、大數據量化計算分析法進行監測。不同的設備等級,由于其建設標準和技術不同,例如電警卡口、治安卡口、視頻結構化三種不同類型的設備,其對設備的識別精度要求就不盡相同,電警卡口要求最高,視頻結構化最低,但是都可以作為卡口數據為系統所用。因此不能要求所有的卡口設備其流水數據都使用一致的檢測標準,而是應當根據不同類型設備采用不同的閾值進行判斷。
(1)車牌檢測率。
車牌檢測率是指車輛經過卡口檢測路段時,車輛能夠被卡口設備抓拍到圖片,同時進行圖像識別、獲得一條信息記錄的數據傳輸到相應的數據存儲中,即車輛圖像捕獲識別后所記錄的有效車輛數與實際通過車輛數的百分比。正常情況下,每一輛車的經過都應當有一條數據記錄,但是由于環境、系統等因素復雜,可能會存在車輛經過后,沒有被抓拍到的情況。其中原因可能是卡口捕獲不到車輛圖像,也可能是系統傳輸過程數據丟失等,即車輛漏檢。對于卡口數據使用方來說,沒有在系統中生成對應的車輛通過記錄的就應當視作車牌漏檢。由于車牌檢測率需要對比實際通過的情況才能獲得結果,故而需要采用抽樣、人工統計的方式進行。可以抽樣選取具有監控視頻的卡口設備,通過視頻幀人工分析統計出實際通過該路口的車輛次數,然后與相同時間段內的入庫系統的記錄總數進行對比。
(3)
式中:Pdet為車牌檢測率,%;Nr為通過視頻幀人工分析出的統計時段內實際車次數,車次;Ol為通過對比視頻,在統計時段內在接收的數據庫中,未能生成數據記錄入庫的車次數量,車次。
(2)車牌識別率。
車牌識別率是指系統在抓拍圖片后,經過圖像處理,能夠準確地將圖中的車牌號碼識別出來的比率。可以采用抽樣、人工對比的方式統計車牌識別率。但是,抽樣獲得的車牌識別率具有明顯的局限性,一個中小城市,少則幾百個卡口設備,多則幾萬個設備,而且每個設備識別率的高低會受到類型、光線、角度、遮擋、比例、形變、背景等因素影響,通過抽樣、人工的方式,無法將識別率差的設備及時排查出來。隨著大數據技術應用,可以使用全量的方式,采用自動化的方法計算車牌的識別率。《中華人民共和國機動車號牌》(GA 36—2018)[6]中,對車牌有嚴格的規定,因此可以根據已有規定建立車牌合法性統計,例如從車牌長度、車牌第一個文字字符、第二第三個數字規律等進行合法性判斷,隨著新能源車牌照越來越多,歷史的車牌識別系統對新能源車牌的識別支持不夠,就更加有必要對車牌識別率進行監測。
(4)
式中:Prec為車牌識別率,%;n為根據車牌的規則判斷的不合規車牌記錄數,條;o為統計時段內入庫記錄總數,條。
這種方法計算的車牌識別率并不能百分之一百地等于實際,但也比較靠近實際,甚至可以將識別車牌與車駕管數據進行比對判斷,從而進一步提高車牌識別率的準確度。實際使用中可以按照不同設備進行計算,達到全量、全域、全時監測,能夠有效篩選出問題設備,以便及時修復和升級卡口設備,為后續應用提供保障。
影響數據實時性,導致延遲的原因非常復雜,各環節均可能存在延遲。各環節銜接過程、軟件的穩定性、軟硬件運行環境、網絡傳輸等都可能造成延遲。但對每個環節逐一檢測非常困難且沒有必要,為了盡可能簡單明確、實時、持續地對數據進行監測,以整個采集傳輸過程作為整體監測指標,采用接收數據時間(即入庫時間)與實際采集時間(圖像抓拍時間)的延誤值作為監測數據實時性的指標。具體可以分為單樣本延遲時間和單設備平均延遲時間兩種。
(1)單樣本延遲時間。
Δt=tr-tc
(5)
式中:Δt為當前記錄入庫時間與抓拍時間差,s;tr為當前記錄的入庫時間;tc為當前記錄中車輛通過路口時的圖像抓拍時間。
(2)單設備平均延遲時間。
對于大規模數據,一條記錄的延誤值并不能很好地反映數據是否出現問題。一般地,會針對同一設備統計一定時間段內的平均延誤時間,作為該設備是否存在延誤的標準。
(6)
式中:Tt為統計時間段內,該設備所有入庫記錄的平均延遲時間,s;Δt為單個樣本的入庫時間與抓怕時間差,s;n為統計時間段內入庫記錄總數,條。
在安徽省宣城市的交通大腦系統中,基于卡口數據進行質量監測的環節本屬于其中一個應用模塊,名稱為設備數據監控模塊,主要是在后臺每五分鐘計算每個卡口設備的指標數據,并實時對比指標的合理范圍閾值,如果不符合閾值范圍,則生成一條異常記錄,并將異常記錄推送展示在系統界面,從而及時提醒數據管理人員,及時排查問題。
閾值需要根據實際在后臺配置文件中設置,可根據不同地市不同的設備類型進行實際分析后設置。一般地,默認識別率閾值為80%,觸發不穩定的流量比值為50%,觸發報警延誤嚴重的閾值為120 s。可靠閾值需要根據實際情況設置,并且與統計的流水范圍匹配。默認情況下設置為50條。主要是為了減少因數據量偏小出現的計算誤差偏大的情況。表2為宣城大腦系統中部分設備的卡口監測數據結果,后臺每五分鐘對相關指標進行統計并保存到數據庫中。

表2 部分卡口設備監測數據
同時,后臺將指標數據與設定的閾值進行比較,如果不滿足合理范圍,則被推送到系統界面,進行實時預警。
系統用戶可以在系統上及時發現存在異常的設備,從而及時排查和修復設備。
基于車牌識別的卡口設備數據質量監測方法已經在多個地市的基于卡口數據應用的系統中得到使用,如上海、廣州等。項目前期,該方法可以利用歷史數據對項目使用的卡口設備進行質量分析,排查當前階段卡口是否存在質量問題,分析卡口數據應用的可行性,同時反饋有問題的卡口設備以便及時維修。項目運行中,可以實時監測卡口數據是否異常,例如是否出現數據中斷、識別率過低、數據不穩定、數據延誤等問題,采用實時報警的方式提醒廠家進行修復,縮短數據異常的時間,為后續系統的實時應用以及數據分析提供更好的支持。