[摘 要] 高速公路海量的聯網收費記錄匯聚了很多極具價值的交通信息,利用數據挖掘方法,實現收費數據的增值利用具有重要的理論與應用意義。交通流量是交通規劃與管理中的一項重要基礎數據,以往交通流量的預測方法依賴于交通調查與檢測數據,數據采集成本很高。本文以回歸樹理論建立起利用聯網收費數據預測交通流量的思路,并借助SQL2005提供的數據挖掘功能,建立起數據分析系統,實現利用聯網收費數據進行交通流量的預測。
[關鍵詞] 聯網收費;交通流量;數據挖掘;回歸樹分析
[中圖分類號]F270.7;TP274[文獻標識碼]A[文章編號]1673-0194(2009)02-0059-03
1 引 言
數據挖掘(Data Mining, DM)技術是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。作為一個重要的計算機應用領域,它將極大地促進信息對于人類社會進步所起的作用,產生巨大的經濟和社會效益[1]。隨著我國高速公路領域聯網收費技術的普遍推行,聯網收費中心將匯集起海量的高速公路收費系統數據,這些信息具有及時、準確的特點。對這些信息進行處理分析和挖掘,實現信息的增值與充分利用,將具有重要的理論與現實意義。但如何對這些數據進行深入挖掘,發現其中的潛在規律等的研究成果還很少。
在高速公路上估算收費站的車流量對優化管理來說十分有益,通過對流量的預測可以及時調配人力物力資源,同時也可以為交通規劃與新道路建設提供依據。以往交通流量的預測方法對前期交通量的預測往往與實際出入太大,其預測交通量指標已失去其指導意義,進行OD的重新調查不僅費時費力,而且依賴于大量實地交通調查或交通檢測設備所獲得的數據資料,需要大強度、高投入的數據采集工作。本文以時序理論建立起利用聯網收費數據預測車流量的思路,并借助SQL 2005提供的數據挖掘功能,建立起基于數據倉庫、聯機分析處理和數據挖掘的收費道路數據分析系統,實現利用聯網收費數據對車流量的預測。
2 聯網收費系統原始數據記錄以及數據的預處理
聯網收費中心的收費系統數據以記錄的形式存在,每一條記錄都對應了一輛車的出入口信息,并且還要附加眾多系統信息。因此,在進行有一定目的的數據挖掘工作前,對原始的收費系統數據進行預處理,是建立挖掘算法的分析模型的關鍵前提,這一步驟主要包括數據信息的選擇和一些必要的數據轉換工作[2]。
2. 1聯網收費系統原始數據記錄
依據地方標準《廣東省高速公路聯網收費系統》(DB44/127-2002)[3],聯網收費系統的數據記錄主要由以下數據構成(見表1)。
2. 2數據的預處理
數據預處理的目的是把海量的收費數據進行處理,轉換為適合數據挖掘的可靠精確的數據。考慮到在數據挖掘中遇到的問題,以及在高速公路收費數據挖掘中的實際過程,將數據預處理過程分為以下幾個步驟:數據清理、數據集成、數據抽取。
(1)數據清理:通過數據清理將收費員發卡時誤操作或者機器故障產生壞卡時的產生記錄進行清理;同時也將司機由于卡丟失或者進高速公路后從入口掉頭以及司機沖卡而產生的異常數據進行清理。
(2)數據集成:將表1清理后,集成到另一個表中。
(3)數據抽取:在這個表中抽取以下幾列:出(入)口流水編碼、入口站名(出口站名)、出(入)口車型、出(入)口時間(精確到小時)、車流量數。
3 基于收費數據進行車流量預測的Microsoft時間序列算法
回歸樹算法是數據挖掘中的一種分類預測算法。它結合了回歸技術和決策樹技術。
回歸樹模型的建立通過持續的(或遞推的)分層將樣本不斷細分(亦即分枝),而分枝點是能夠使得兩分枝的反應變量的變異最大的預測變量的某個值,這樣各節點內樣本的同質性不斷增強,最終達到節點內樣本同質或由于樣本數量過少無法繼續分層,這里稱終節點為葉,而分枝開始的節點被稱為根。
不失一般性,假定有p個預測變量X1,…,Xp和連續性的反應變量Y,建立回歸樹需要以下步驟[4]:
4 交通流量預測的系統實現
4. 1系統結構
系統總體結構如圖1所示,其中L0層的主要任務是存儲所有原始記錄,為數據挖掘提供所需的收費系統原始數據。L1層是對收費數據庫進行數據預處理,L1與L0間通過Database API接口實現數據的抽取和過濾,把原始數據中一些不規范的、異常的數據進行過濾,對一些空數據進行補充和填寫,生成數據倉庫。L2層是對數據倉庫里的數據進行數據挖掘和多維分析。L3層是一個用戶接口層,它主要承擔對用戶請求的理解以及對分析挖掘結果的解釋與表達等。本文引進SQL數據挖掘套件,主要用于構造L2層中的數據挖掘和多維分析。
4. 2SQL的數據挖掘功能
SQL Server 2005在數據挖掘功能方面得到了顯著改進,將高級的數據挖掘功能、工具和API與流行的數據庫一起打包。其中提供的回歸樹算法以回歸算法和決策樹為基礎,用來解決分類和回歸問題,用以執行關聯分析。簡單而強大的API技術,針對數據挖掘算法,把執行復雜的查詢簡化為開發人員所熟悉的SQL查詢中的一個連接操作,并且實現對原始數據的抽取和過濾。
4. 3回歸樹模型的訓練
為使用回歸樹算法,需要通過提供預處理后的歷史數據,選擇不同的參數訓練模型。可供選擇的參數包括:最小支持度(Minimum_Support)、歷史模型數量(Historical_Model_Count)、歷史模型間隔(Historical_Model_Gap)、模型階段性(Periodicity)。模型訓練完成后可以顯示回歸樹的訓練結果并可查看數字規則,如圖2所示。
4. 4交通流量預測的實現
訓練完模型之后,要根據車流量的回歸樹模型與數字規則,利用數據,通過選擇收費站名、時間段進行預測。參數選擇窗口如圖3所示。例如用戶選擇黎光站和12月10日起24小時的車流量,其預測結果如圖4所示,交通流量預測結果按時間順序排列,如上午10點的車流為1 665。系統還將提供支持度、置信度等其他的一些關鍵信息。
5 結 論
通過數據挖掘技術可以實現對聯網收費數據的增值利用。本文提出了一個以回歸樹算法為基礎,基于收費數據的車流量進行預測的思路,并且介紹了數據分析系統的實現。該系統在實現對收費數據的車流量進行預測的同時,將分析過程與預測結果用報表或者圖表等形式展現。另外,按照本文的思路,運用統計、數據挖掘、最優控制理論和交通分配等理論和方法,還可以進行聯網收費數據的旅行時間挖掘預測、OD關聯挖掘等眾多有益的工作,可以從高速公路收費系統數據記錄中提取大量的交通、經濟、社會信息。
本文的創新點在于將數據挖掘理論引入高速公路收費系統的營運中,在車流量預測中提出了基于收費數據進行預測和實現的新思路。
主要參考文獻
[1] Jiawei Han, Micheline Kamber. 數據挖掘概念與技術[M]. 范明,孟小峰,譯. 北京:機械工業出版社,2001.
[2] 鐘足峰,劉偉銘,葉長征. 高速公路挖掘數據預處理的研究[J]. 微計算機信息,2007(9):195-196.
[3] 廣東省質量技術監督局. 廣東省高速公路聯網收費系統,DB44/127-2002[S]. 2002.
[4] T S Lee,C C Chinu,Y C Chou,et al. Mining the Customer Credit Using Classification and Regression Tree and Multivariate Adaptive Regression Splines[J]. Computational Statistics Data Analysis,2006,50(4):1113-1130.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”