張曉峰,田英杰,金典琦,畢 軍,2,王付軍
(1.北京交通大學 交通運輸學院,北京 100044;2.綜合交通運輸大數據應用技術交通運輸行業重點實驗室,北京 100044;3.深圳市城市公共安全技術研究院,廣東 深圳 518000)
近年來,隨著我國經濟社會和城市建設的快速發展,尤其是城市軌道交通、舊城改造及大批重點工程項目的開工建設,建筑廢棄物排放量呈爆炸式增長,現行的基于紙質聯單建筑廢棄物監管模式無法應對日益增長的建筑廢棄物監管需求。隨著車聯網、大數據等技術蓬勃發展,給建筑廢棄物全過程監管提供了新思路?;陔娮勇搯蔚慕ㄖU棄物全過程監管模式應運而生,根據工地和消納場的真實邊界在地圖上虛擬出電子圍欄,輔助判斷渣土車是否進入工地消納場區域。當渣土車識別到電子圍欄后,渣土車在電子圍欄內的停留時長、車載設備狀態變化情況都會進入渣土車監管系統,在渣土車離開電子圍欄時,系統會生成一條包含統計結果信息的記錄。通過判斷該記錄中渣土車在工地和消納場內是否有裝卸行為,識別渣土車運輸的起始點和終點,最終實現建筑廢棄物產生地和消納位置自動識別、自動監管,使每方建筑廢棄物都有跡可循。能體現渣土車在電子圍欄內裝卸建筑廢棄物的記錄稱為電子聯單,渣土車經過電子圍欄生成的記錄統計結果的信息被稱為節點?,F有判別電子聯單方法主要通過車載傳感器實時顯示渣土車的運輸狀態和運輸位置,當車輛到達工地電子圍欄內并有裝卸土行為即判斷聯單開始,當渣土車到達消納場并有裝卸土行為即判斷聯單結束,包含這個過程的一條記錄即為一條電子聯單。這種判別方法在試運行初期,能夠保持一定的精度。然而,在運輸行為發生一段時間后,車載設備出現故障,使采用這種判別電子聯單的方法無法保證精度,大大降低了建筑廢棄物監管效率。在此背景下,充分利用含有較多噪點的渣土車車載設備數據,制定合理的電子聯單判別策略,對提升建筑廢棄物監管水平具有現實意義。
目前,針對電子聯單判別的相關研究主要集中于人工輸入和自動識別2個方面。人工輸入方面,電子聯單就是紙質聯單電子化的一種表示形式。文獻[1]中,運輸企業在危廢管理系統中登記電子聯單,包含危險廢物的產生地和消納地等信息,通過人為記錄的方式判別電子聯單。文獻[2]中,工地申報項目時在建廢管理系統中指定運輸單位和消納場,運輸廢棄物時,運輸車輛向系統輸入起點工地,在消納場所設置車牌識別等設備,自動檢測并生成電子聯單。文獻[3]中,電子聯單每個環節設置操作人員,利用PDA設備在每個階段進行聯單錄入管理系統,渣土車消納完成以后錄入生成電子聯單。自動識別方面,利用物聯網設備自動識別渣土車。文獻[4]中,利用車載傳感器和GPS設備進行電子聯單自動判別,當渣土車GPS進入工地時檢測渣土車廂體是否變化,如果發生變化,則該工地作為電子聯單起始點,當渣土車到達消納場后,廂體狀態發生變化則該消納場為電子聯單結束點。文獻[5]中,在工地和消納場安設地磅和車牌識別模型的方法,判別車輛在工地和消納場內是否存在裝卸土行為,以此作為電子聯單的起始點和結束點。
目前,關于電子聯單人為判別策略,就是將紙質聯單電子化的過程,大多需要人為介入,比較繁瑣。而且建筑廢棄物運輸過程中,對運輸人員的管理存在較大漏洞,沒有考慮建筑廢棄物偷排偷放的問題?,F有的關于電子聯單自動判別的研究,沒有考慮渣土車車載設備的檢測精度和數據傳輸過程中的數據丟失問題。工地消納場安裝相關設備成本過高,無法監測車輛運輸過程,無法杜絕偷排偷放行為的發生。在實際應用場景中,渣土車車載設備傳回的數據存在較多噪聲和異常,僅僅依靠車載傳感器和GPS位置數據無法準確判別出電子聯單,極大影響政府監管效率和企業生產效益。本文針對渣土車車載設備傳回的數據存在較多噪聲數據,提出一種基于邏輯回歸的建筑廢棄物電子聯單自動判別模型,能夠高效準確地判別電子聯單。
本研究數據來源于深圳市建筑廢棄物智慧監管系統真實運營數據,時間跨度為2019年12月1日至2019年12月10日,共篩選出質量較好的11個工地。這10 d指定工地的數據包含了判別策略所能考慮到的所有情形,也包含了所有的常見問題,在其他時間段內,其余工地的數據存在的規律和問題能夠在這10 d的數據中找到解決方案。這10 d數據對電子聯單判別策略的研究具有代表性。
這10 d數據主要包括進出渣土車軌跡數據、工地臺賬數據。臺賬數據包含工地車輛的車牌號、進入時間和離開時間等信息。渣土車軌跡數據包含車輛車牌信息、軌跡數據、車載設備實時檢測狀態。截取2019年12月1號至2019年12月10號的全部車輛軌跡數據約7 046萬條,部分工地臺賬數據選取了對應時間段的數據共16 447條。
1.2.1 渣土車軌跡數據預處理
渣土車軌跡數據預處理主要包含2部分:節點生成和渣土車車載設備故障分析。因為本文研究目標是車載設備檢測數據不準確的情況下,電子聯單判別研究。首先對渣土車車載設備進行故障分析,明確渣土車的車載設備故障率。從設備異常次數和有聯單產生,但車載設備未檢測2個角度出發,分析10 d內渣土車舉升、載重和廂體傳感器數據和臺賬數據,得到渣土車的故障率約為54%。渣土車各配件故障率如圖1所示。
圖1 渣土車故障統計分析結果圖
在劃分節點的時候,自動識別車輛GPS定位點是否在工地圍欄內,渣土車GPS定位點進入工地時作為節點起始時間,渣土車GPS定位點離開工地時作為節點離開時間。從全部10 d的車輛軌跡數據7 046萬條數據中,按照表1所示特征進行篩選,得到83 742條節點。
表1 樣本特征
1.2.2 人工臺賬數據預處理
人工臺賬中存在較多非納管車輛、車載設備損壞和記錄錯誤等問題,這些數據都是影響模型預測精度的錯誤數據,為了保證模型訓練的精度,應剔除錯誤數據(見表2)。在16 447條臺賬數據中有254輛車屬于非納管車輛,覆蓋了1 672條臺賬數據;有1輛車當天無GPS軌跡且該車輛前后1周均無軌跡數據,覆蓋了30條臺賬數據;有273條臺賬記錄存在記錄錯誤的問題,在臺賬記錄期間,渣土車所在位置與工地圍欄不匹配。錯誤數據類型如表2所示。
表2 錯誤數據類型
1.2.3 節點數據預處理
篩選模型訓練數據集時,假設臺賬的起始時間段與節點的時間段有交叉,則認為兩者相匹配,即認為此時該節點被判別為電子聯單。利用臺賬中渣土車車牌信息篩選出臺賬記錄車輛對應的所有節點,理論上渣土車從工地到消納場運輸廢棄物的過程中最多只有一條電子聯單,再利用臺賬中渣土車進、出工地時間,匹配出電子聯單所在的節點,打成正例標簽,該車輛在這個時間段內其他節點均打成反例標簽。節點打標簽過程如圖2所示。
圖2 節點打標簽過程示意圖
邏輯回歸是一種用于解決二分類問題的機器學習方法,用于估計某種事物的可能性。邏輯回歸常用于分類預測建模中[6],在交通領域應用廣泛,但在建筑垃圾管控領域應用極少。節點的產生需要整合渣土車位置信息和車載設備信息等數據,整合過程需要進行大量計算,實現電子聯單快速識別,判別策略的計算量不宜過大。邏輯回歸算法計算時間短,分類精度高,能夠線性化展示節點每個特征的重要程度,能夠滿足電子聯單打分策略的實際應用需求。因此本文采用邏輯回歸模型作為電子聯單判別新策略。
通過分析渣土車車載設備存在較高故障率,僅僅依靠車載載重、舉升、廂體傳感器狀態變化完全不能判斷出車輛在電子圍欄內是否有拉土行為,是否產生電子聯單。通過組織建筑行業經驗豐富的管理人員參加座談會,從渣土車的申報狀態、停留時長等六大角度出發,研究得出25項影響電子聯單準確判別的影響因素,并以此作為模型的自變量。模型自變量參數如表3所示。
表3 自變量參數
續表(表3)
邏輯回歸是以線性回歸為理論支持,通過Sigmod函數引入了非線性因素,將線性回歸的值域從(-∞,+∞)處理為(0,1),解決0/1分類問題[7]。
基于邏輯回歸的電子聯單判別模型[8]假設函數如下:
式中:g(x)是Sigmod函數;x表示自變量的不同狀態;θ表示每個自變量的不同狀態的重要程度,需要通過模型訓練得出。
本文采用二項邏輯回歸模型解決二分類問題。二項邏輯回歸模型的條件概率如下:
式中:k是邏輯回歸模型中Sigmod函數劃分正反例的閾值,閾值設置為0.5,當大于閾值0.5時,y=1該節點產生電子聯單,反之則y=0,該節點不產生電子聯單。
對于給定的訓練集數據T={(x1,y1),(x2,y2),…,(xm,ym)},其中xi∈Rn+1,i=1,2,…,m。為了衡量模型預測結果h(θ)與真實值y之間的差異,構建代價函數J(θ),并采用梯度下降的方法不斷改變θ,從而得到不斷變小的J(θ),在理想情況下,當取到最小J(θ)時,得到最符合訓練樣本的模型,此時的θ即為最優參數。
在邏輯回歸中,最常用的代價函數是交叉熵。交叉熵衡量的是在知道y的真實值時的平均偏離程度,當預測為產生電子聯單,而實際就是電子聯單時,偏離程度較低,反之則較高[9]。
邏輯回歸函數的損失函數表示為
經過梯度下降方法[10]求解后,得到使J(θ)最小的參數θ為
將訓練集中的數據代入到模型參數估計式(5)中,得到邏輯回歸模型的權重系數,如表4所示。
表4 模型系數
為了進一步方便描述模型結果,做出如下定義:
電子聯單準確率=臺賬對應電子聯單數/電子聯單數
式中:Ebill_acc表示電子聯單準確率;Ebill_num表示電子聯單數,判別策略篩選出的節點數據的數目;Cor_ebill_num表示臺賬對應的電子聯單數,電子聯單中滿足臺賬的數目。因為在實際應用中,系統只篩選出符合判別策略的節點作為電子聯單,電子聯單中符合臺賬的即判別正確。用電子聯單準確率作為模型評價指標,能夠反映模型在實際應用中的準確度,符合實際應用場景的業務要求,具有較強的現實意義。模型評價指標如圖3所示。
圖3 模型評價指標示意圖
選取2019年12月11日至2019年12月31日的402 652條渣土車節點數據和56 341條臺賬數據,對提出的基于邏輯回歸的電子聯單判別策略模型進行實例驗證。根據實際應用場景設計的評價指標,當電子聯單準確率越高,則電子聯單判別模型的判別效果越好,電子聯單制度越容易被接受。深圳市建筑廢棄物智慧監管系統現有采用電子聯單判別方案,以渣土車在電子圍欄內停留時長超過5 min即認為產生電子聯單,在實例驗證中采用傳統方法電子聯單的準確率為53.24%,模型結果真值分布情況如表5所示。當以0.5作為Sigmod函數正反例概率取值時,采用基于邏輯回歸模型的電子聯單判別模型的電子聯單判別準確率為75.32%,模型結果真值分布情況如表6所示。
表5 按現有方法得出的精度情況
表6 按0.5為分閾時模型精度情況
充分考慮不同工地所屬類型不一致,如地鐵施工屬于交通類,土建工地屬于房建類。Sigmod函數對自變量預測值是個概率,邏輯回歸模型二分類的閾值為0.5,當高于0.5時,產生電子聯單類,反之則未產生電子聯單。為了進一步提升模型判別精度,對每個工地的閾值進行單獨分析,將每個工地閾值區間劃分為20份,確定出產生電子聯單數最多且電子聯單準確率最高的閾值,將此作為該工地產生電子聯單的Sigmod函數正反例概率取值。對每個工地適當降低分閾后,模型真值分布情況如表7所示。對所有節點進行判別,節點中判別為電子聯單的有55 181條,其中有臺賬對應的是45 436條,電子聯單準確率為82.34%。
表7 按工地劃分適當降低分閾后模型真值分布情況
1)提出基于邏輯回歸的電子聯單判別模型,使用深圳市12月11日至12月31日的臺賬和節點數據,對模型判別效果進行驗證,模型的準確率達75.32%。考慮不同工地間的差異性,按工地獨立劃分分閾,此時電子聯單準確率達到82.34%,相比于傳統電子聯單判別方案準確率提升29.1%,模型判別效果良好。
2)模型訓練集只選用了10 d的數據,選用的模型是使用線性決策邊界的邏輯回歸模型,訓練集數據量較小,非線性變量對模型參數整定影響較大。在以后的研究中,將進一步增加訓練集數據量,同時選用非線性機器學習算法與邏輯回歸模型進行協同判別,優化設計現有模型參數,提升電子聯單判別的客觀性和準確性。