□ 文/ 吉靜 王天瑞
隨著智慧城市建設(shè)的推進(jìn)及智能交通系統(tǒng)的發(fā)展,交通數(shù)據(jù)分析需求愈加急迫。一方面,交通數(shù)據(jù)采集的范圍、廣度和深度急劇增加,正在形成以微波、線圈、GPS、車牌等交通流檢測(cè)數(shù)據(jù),交通監(jiān)控視頻數(shù)據(jù),以及系統(tǒng)數(shù)據(jù)和服務(wù)數(shù)據(jù)等為主體的海量交通數(shù)據(jù)。另一方面,在大數(shù)據(jù)環(huán)境下開(kāi)展研判應(yīng)用的數(shù)據(jù)分析需求急迫,研判應(yīng)用將有利于整合多種類型的交通數(shù)據(jù),深入挖掘分析各業(yè)務(wù)條線情報(bào),洞悉交通環(huán)境演變軌跡和機(jī)理,有利于最大程度地發(fā)揮交通數(shù)據(jù)的效能,提高交通運(yùn)輸系統(tǒng)的運(yùn)行效率和服務(wù)水平,為公眾提供高效、安全、便捷、舒適的出行服務(wù)。
如何以一種有序的方式迅速有效地管理交通大數(shù)據(jù),進(jìn)而能對(duì)研判應(yīng)用進(jìn)行標(biāo)準(zhǔn)化建設(shè)變得越來(lái)越關(guān)鍵。本文結(jié)合上海市交通大數(shù)據(jù)建設(shè)以及研判應(yīng)用建設(shè)的具體實(shí)踐經(jīng)驗(yàn),研究大數(shù)據(jù)環(huán)境下的數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)應(yīng)用的標(biāo)準(zhǔn)化流程,并根據(jù)實(shí)際案例,分析車輛研判應(yīng)用中的黑車問(wèn)題。
數(shù)據(jù)標(biāo)準(zhǔn)化主要是對(duì)數(shù)據(jù)基本單元的標(biāo)識(shí)、分類編碼、含義、表示格式等各個(gè)方面進(jìn)行規(guī)范和統(tǒng)一。經(jīng)過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)是信息系統(tǒng)的基石,它可以確保各項(xiàng)業(yè)務(wù)以完整、有效、高效的方式運(yùn)行。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化有利于數(shù)據(jù)的查詢檢索以及與其他用戶的數(shù)據(jù)交換,可加強(qiáng)數(shù)據(jù)在系統(tǒng)間及環(huán)境間的實(shí)用性和共享性,提高數(shù)據(jù)的長(zhǎng)期使用價(jià)值。可以說(shuō),數(shù)據(jù)標(biāo)準(zhǔn)化工作是信息化建設(shè)最基礎(chǔ)的工作。
數(shù)據(jù)標(biāo)準(zhǔn)化活動(dòng)主要采用“確定數(shù)據(jù)需求—提取數(shù)據(jù)元—確定數(shù)據(jù)標(biāo)準(zhǔn)化要素”的方法。首先梳理各業(yè)務(wù)領(lǐng)域的數(shù)據(jù)需求,采用“自底向上”的方法,分類、匯總數(shù)據(jù)項(xiàng),并抽象實(shí)體類,構(gòu)建實(shí)體類的層次關(guān)系和數(shù)據(jù)模型。采用“自頂向下”的方法,通過(guò)對(duì)實(shí)體類定義、屬性的規(guī)范化描述,提煉出標(biāo)準(zhǔn)化的數(shù)據(jù)元素,并將其實(shí)例化為實(shí)體元數(shù)據(jù)、數(shù)據(jù)元素元數(shù)據(jù)、類屬元素元數(shù)據(jù)。
數(shù)據(jù)集成環(huán)境以數(shù)據(jù)對(duì)象層為核心,包含多種來(lái)源的數(shù)據(jù),也包括對(duì)人、車、路的描述。數(shù)據(jù)集成環(huán)境統(tǒng)一建設(shè)基礎(chǔ)數(shù)據(jù)集、規(guī)范化數(shù)據(jù)庫(kù)、中間研判數(shù)據(jù)集,為各研判應(yīng)用提供標(biāo)準(zhǔn)化、一致的基礎(chǔ)數(shù)據(jù)源。
數(shù)據(jù)集成環(huán)境中的數(shù)據(jù)如圖1所示,包括:路網(wǎng)數(shù)據(jù)、設(shè)備數(shù)據(jù)、其他數(shù)據(jù)等。路網(wǎng)數(shù)據(jù)主要指快速路網(wǎng)、地面道路網(wǎng)、高速公路網(wǎng)數(shù)據(jù);設(shè)備數(shù)據(jù)主要指各種采集源數(shù)據(jù),包括:線圈數(shù)據(jù)、SCATS數(shù)據(jù)、卡口數(shù)據(jù)、GPS數(shù)據(jù)等;其他數(shù)據(jù)包括天氣數(shù)據(jù)、事故數(shù)據(jù)、違法數(shù)據(jù)等。各數(shù)據(jù)之間存在著相應(yīng)的關(guān)聯(lián)關(guān)系。

▲圖1:數(shù)據(jù)集成環(huán)境
路網(wǎng)數(shù)據(jù)以及設(shè)備點(diǎn)位需要在GIS圖層中進(jìn)行配置,建立相應(yīng)的關(guān)聯(lián)關(guān)系。上海市浦東新區(qū)的道路圖層與卡口圖層如圖2、圖3所示。

▲圖2:道路圖層

▲圖3:卡口圖層
數(shù)據(jù)組織是溝通輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的橋梁,是數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)中的關(guān)鍵階段,是整個(gè)研判應(yīng)用開(kāi)展的基礎(chǔ)條件。將各自管轄范圍內(nèi)的人、車和路數(shù)據(jù)按照應(yīng)用方向進(jìn)行組織,形成數(shù)據(jù)組織的標(biāo)準(zhǔn)化。
數(shù)據(jù)組織模型不僅關(guān)注數(shù)據(jù)的含義和表示,還關(guān)注數(shù)據(jù)中的各對(duì)象間的關(guān)聯(lián)關(guān)系、拓?fù)潢P(guān)系等,包括設(shè)備和道路對(duì)象從屬關(guān)系,道路對(duì)象層次關(guān)系和道路拓?fù)潢P(guān)系等。人、車、路的數(shù)據(jù)組織模型如圖4所示。

▲圖4:數(shù)據(jù)組織模型
由于大數(shù)據(jù)存在領(lǐng)域廣泛、存儲(chǔ)處理產(chǎn)品眾多,不僅大數(shù)據(jù)的定義、相關(guān)術(shù)語(yǔ)、分類、 架構(gòu)等方面缺乏統(tǒng)一描述,各種大數(shù)據(jù)產(chǎn)品的技術(shù)要求也不盡相同, 這種現(xiàn)狀一定程度上阻礙了大數(shù)據(jù)產(chǎn)業(yè)的良性發(fā)展。對(duì)于交通領(lǐng)域的大數(shù)據(jù)發(fā)展,針對(duì)研判應(yīng)用,需要建立相應(yīng)的標(biāo)準(zhǔn)化建設(shè)流程。
研判應(yīng)用根據(jù)研究對(duì)象的不同分為人、車、路三個(gè)方面。研判應(yīng)用分析框架如圖5所示。
對(duì)車的研究主要是車牌快速檢索、車牌數(shù)據(jù)分析、車牌屬地分析、套牌分析、非法運(yùn)營(yíng)車輛分析、區(qū)域出行分析、虛假號(hào)牌分析;對(duì)人的研究主要是人群密度中宏觀分析、人群密度OD分析、軌道客流分析;對(duì)路的研究主要是道路指數(shù)分析、快速路擁堵?tīng)顟B(tài)分析。

▲圖5∶研判應(yīng)用分析內(nèi)容
建立適用于城市交通領(lǐng)域的大數(shù)據(jù)分析流程和方法,能夠?qū)崿F(xiàn)簡(jiǎn)單的數(shù)據(jù)分析到工程化應(yīng)用的過(guò)渡。無(wú)論是對(duì)人、車、路進(jìn)行研究時(shí),研判應(yīng)用都需要進(jìn)行標(biāo)準(zhǔn)化研究。
在對(duì)這些研判應(yīng)用進(jìn)行研究時(shí)的標(biāo)準(zhǔn)化流程如圖6所示。

▲圖6:研判應(yīng)用標(biāo)準(zhǔn)化建設(shè)流程
數(shù)據(jù)配置
依托數(shù)據(jù)集成環(huán)境,抽取研判專題的個(gè)性化路網(wǎng)基礎(chǔ)配置、對(duì)象配置及數(shù)據(jù)表結(jié)構(gòu)和地址,生成專題配置文件。
數(shù)據(jù)預(yù)處理及質(zhì)量監(jiān)控
研判系統(tǒng)保存原始數(shù)據(jù)不進(jìn)行數(shù)據(jù)質(zhì)量檢查,但在研判應(yīng)用環(huán)節(jié),將根據(jù)精度需求對(duì)各類數(shù)據(jù)進(jìn)行預(yù)處理及質(zhì)量監(jiān)控和修補(bǔ),對(duì)接入數(shù)據(jù)的完整性、一致性和有效性進(jìn)行檢查,通過(guò)數(shù)據(jù)碰撞及數(shù)據(jù)質(zhì)量算法過(guò)濾異常數(shù)據(jù),標(biāo)識(shí)并剔除異常數(shù)據(jù)。數(shù)據(jù)預(yù)處理及質(zhì)量監(jiān)控的流程如圖7所示。

▲圖7:數(shù)據(jù)預(yù)處理及質(zhì)量監(jiān)控
分類與聚合
研判應(yīng)用所服務(wù)的業(yè)務(wù)條線,都存在按照主題、業(yè)務(wù)、時(shí)間、空間及對(duì)象分類的特征,在進(jìn)行個(gè)性化專題分析中,數(shù)據(jù)分類是前置條件;有些數(shù)據(jù)分類過(guò)于分散的情況,需要進(jìn)行歸類聚合,此功能是開(kāi)展統(tǒng)計(jì)和挖掘的前置功能單元。
參數(shù)提取
通過(guò)原始數(shù)據(jù)“物理變化”提取基礎(chǔ)模型參數(shù),如20s流量生成1min流量,單元段車速生成發(fā)布段車速等,基礎(chǔ)參數(shù)提取與研判應(yīng)用需求相關(guān),是算法模型及指標(biāo)計(jì)算的前置功能單元。
算法模型
研判指標(biāo)計(jì)算和結(jié)果輸出需要構(gòu)建獨(dú)立的算法模型,如擁堵分析、路口指數(shù)等,算法單元將完成基礎(chǔ)數(shù)據(jù)的“化學(xué)變化”,得到特定目標(biāo)參數(shù)。
統(tǒng)計(jì)分析
按照時(shí)間維度對(duì)參數(shù)、指標(biāo)及輸出結(jié)果進(jìn)行統(tǒng)計(jì),如按照天、周、月和年,早高峰、晚高峰等,以及按照地域、空間、人群、類型進(jìn)行分類統(tǒng)計(jì),統(tǒng)計(jì)分析功能是所有研判應(yīng)用的必備功能單元。
挖掘分析
挖掘分析為通過(guò)海量歷史數(shù)據(jù)創(chuàng)建規(guī)律,按照時(shí)間維度、空間維度識(shí)別規(guī)律的差異性,常規(guī)特征及異常特征,發(fā)現(xiàn)數(shù)據(jù)背后的現(xiàn)實(shí)情況,該功能是連續(xù)數(shù)據(jù)類研判應(yīng)用的必備功能單元。
關(guān)聯(lián)分析
通過(guò)數(shù)據(jù)碰撞發(fā)現(xiàn)新問(wèn)題和新特征,是研判系統(tǒng)的主要工作,關(guān)聯(lián)分析依托數(shù)據(jù)集成環(huán)境,對(duì)與目標(biāo)分析對(duì)象的研判應(yīng)用建立關(guān)聯(lián)分析,是研判應(yīng)用進(jìn)行業(yè)務(wù)方向轉(zhuǎn)換與主題遷移的必備功能單元。
可視化展示
所有的研判應(yīng)用都將創(chuàng)建可視化展示,直觀反應(yīng)研判應(yīng)用的分析結(jié)果,便于相關(guān)部門進(jìn)行執(zhí)法管理。
根據(jù)以上的研判應(yīng)用標(biāo)準(zhǔn)化建設(shè)流程,以車輛研判應(yīng)用作為具體實(shí)例,分析數(shù)據(jù)應(yīng)用情況。本節(jié)將詳細(xì)描述黑車研判應(yīng)用的流程,以及可視化展示的具體功能。
以車輛出行數(shù)據(jù)為基礎(chǔ),分析交通出行行為。基于已知?dú)v史黑車軌跡行為,創(chuàng)建黑車識(shí)別算法模型,對(duì)卡口歷史過(guò)車數(shù)據(jù)進(jìn)行疑似黑車識(shí)別與挖掘,并將黑車疑似名單交由相關(guān)部門進(jìn)行緝查。黑車研判應(yīng)用分析流程如圖8所示。

▲圖8:黑車研判應(yīng)用分析流程
黑車研判應(yīng)用可視化展示分為3個(gè)部分:疑似黑車信息、黑車活動(dòng)規(guī)律、黑車過(guò)車記錄。
疑似黑車信息
以月為單位,根據(jù)已查黑車及軌跡分析確認(rèn)疑似黑車清單,并按照疑似度排序。疑似黑車信息如圖9所示。

▲圖9:可疑黑車清單
黑車活動(dòng)規(guī)律
黑車活動(dòng)規(guī)律顯示黑車出現(xiàn)的小時(shí)統(tǒng)計(jì)表、月統(tǒng)計(jì)表、周統(tǒng)計(jì)表、黑車經(jīng)過(guò)卡口次數(shù)前十排行,如圖10所示。
按小時(shí)統(tǒng)計(jì)規(guī)律:以小時(shí)為單位,統(tǒng)計(jì)黑車在一天中主要活動(dòng)時(shí)間的小時(shí)分布,后續(xù)補(bǔ)充同類車輛的主分布時(shí)間規(guī)律,對(duì)比觀察黑車異常出行時(shí)間特征。
按天統(tǒng)計(jì)規(guī)律:以月為單位,分析疑似黑車的活動(dòng)天數(shù),黑車出行活動(dòng)具有不規(guī)律性和偶然高發(fā)日期特性。
按周統(tǒng)計(jì)規(guī)律:以周為單位,分析工作日及雙休日期間,黑車出行活動(dòng)規(guī)律不同常規(guī)車輛。
按抓拍次數(shù)由高到低(卡口前10)統(tǒng)計(jì):以卡口斷面為對(duì)象,提取被抓拍位置,按照由高到低排序。

▲圖10:黑車分析結(jié)果
黑車過(guò)車記錄顯示該車輛最近一周的過(guò)車記錄,具體包括黑車經(jīng)過(guò)地點(diǎn)、經(jīng)過(guò)時(shí)間以及過(guò)車圖片,如圖11所示。

▲圖11:黑車識(shí)別結(jié)果
本文分析大數(shù)據(jù)環(huán)境下的研判應(yīng)用標(biāo)準(zhǔn)化建設(shè),包括數(shù)據(jù)標(biāo)準(zhǔn)化、和研判應(yīng)用標(biāo)準(zhǔn)化建設(shè)流程。根據(jù)實(shí)例,對(duì)車輛研判中的黑車進(jìn)行分析,分析了黑車的可疑識(shí)別清單,以及黑車的活動(dòng)行為,為相關(guān)部門的管理、派警緝查等提供了有效幫助。大數(shù)據(jù)標(biāo)準(zhǔn)化是大數(shù)據(jù)行業(yè)良性發(fā)展的基礎(chǔ)之一,本文研究的標(biāo)準(zhǔn)化建設(shè)將為大數(shù)據(jù)的研判應(yīng)用提供技術(shù)支持。