曾幾何時,“大數據”概念在國內喧囂直上,但交通行業的大數據應用卻剛剛被引入。去年當人們還在談論著交通“大數據”的種種概念、模型、用途等,短短一年時間,再回頭看時,交通大數據技術和應用在國內已是如火如荼。交通行業的大數據應用,很是讓人著迷,眾多數據處理企業紛紛落地生根。雖然國外在大數據分析與處理方面,無論從技術到應用都早于我國,但我國會迎頭趕上,實現彎道超車。
大數據為改善交通問題提供了新的技術思路,大數據技術的應用提高了交通規劃的能力,改進了交通出行的方式,提高了交通管理和出行服務水平,同時也推動了我國交通建設科學化、交通管理智能化、交通出行智慧化地健康有序協調發展。
大數據的應用,在企業已經有多年的實踐,對企業的幫助顯而易見,大數據在企業中的應用目標是金字塔模型式的,即從數據的采集開始到大數據終極應用逐漸升級,并將該模型逐漸應用到交通行業上。
數據基礎管理,是大數據應用模型中的塔基,是大數據應用的最基本要求。完成數據的原始積累,即數據的采集、清洗、整合等,是最初數據整合、打破“信息孤島”的目標。
業務運營監控,是基于數據基礎管理對數據路徑的分析,是對業務異常的智能分析,是企業自主進行數據管控、數據集合、數據的業務對照,即企業管理與經營能力的提升內容,是實現業務層面互聯互通,整合“信息碎片”的目標。
用戶的體驗優化,是大數據使用的服務對象對大數據分析后提升服務的反饋,用戶的體驗由于大數據技術而得到優化和改善,同時又反作用于大數據本身,以充實大數據中的有效成份,是進一步實現互聯網技術業務應用的目標。
精細化運營與服務,在通過用戶體驗優化的基礎上,企業可在大數據應用反饋后,分析用戶的潛在需求,提供更加精準的服務、個性化的服務,全面掌握用戶的使用生命周期。通過數據建設,對數據進行一定程度的挖掘,進行運營方向的質量評估,改善運營策略和運營環境,提高管理水平。
在金字塔的再上一層,是通過大數據的歷史結果和趨勢分析,創造市場需求的預期,增強企業的發展潛力。這一階段是人們真正理解的“大數據”,能夠集成所有邊緣化的、關聯性的數據源,通過大數據技術分析計算,從而優化投資,是企業大數據應用的更高環節,也是人們期待的真正大數據時代。

大數據應用的金字塔模型
在大數據應用金字塔的頂端,是大數據企業應用中的最高境界也是理想狀態,即實現企業的趨勢戰略,需要足夠大、足夠多的歷史數據的積累,足夠廣泛的大數據時空分布,才能夠真正的到達金字塔的頂端。

大數據架構在云平臺之上的總體邏輯
近幾年,交通行業興起一種“政企合作模式”的信息化建設思路,由企業提供服務、政府采購的方法,充分利用企業的技術優勢,提高交通行業信息化的建設水平和應用水平。于是,國內一大批大數據平臺應運而生,許多企業都在打造自己的大數據平臺并提高大數據處理服務能力。
大數據在使用初期,主要還是通過半人工半計算機輔助化完成大量數據分析,從而得出某一方面的分析結論。數據分析和數據計算能力不斷提高,國內企業對大數據技術的研究,已經取得了突飛猛進的成果。
大數據平臺的功能目標,可以分為3個層面,即現狀分析(對現有數據的聚合、分類、再聚類等)、原因分析(通過大數據之廣泛的計算,尋找數據之關聯因素)、預測分析(大數據的時間、空間的特征,運用聚合分類能力,挖掘數據之內涵與外延)。大數據平臺的采集、管理、計算、輸出等一系列功能,形成了“大數據應用系統”。
大數據應用系統的建設,工程上也有3方面,即平臺搭建、數據管理和應用創新。平臺搭建的過程,是大數據系統建設的基礎投入階段,包括硬件環境和軟件功能的實現。數據管理是大數據平臺對數據采集、清洗、聚合、分類、管控、稽核、計算等的功能集合。大數據應用系統的建設,需要大量的資金成本來支持,主要包括硬件及運行環境成本(服務器、存儲和網絡、支撐環境等)、系統及技術實現成本(大數據平臺、傳統數據庫、大數據庫、商務智能工具、行業需求定制等)、超時空范圍實施成本(安裝和配置、數據采集、處理與主題挖掘計算方法等),特別是大數據計算模型、分析模型的研究,是無法估量的成本投入。
但是,支撐企業推出優秀大數據平臺的動力,一定是高投入產出比。大數據技術平臺的開發和建設,需要投入大量的人力物力,而企業需要通過大數據平臺的應用,給客戶帶來效益而產生利潤,彌補前期的投入與開發。而最大的成本,是數據源成本。大數據的數據源,必需有足夠的數據量,以滿足大數據分析與計算的時空特性。但現在數據已經成為了每個企業或者政府的無形資產,大數據系統的建設,必需先解決數據的互聯互通,沒有數據源源不斷的補充與積累,大數據平臺只是個空殼,沒有實際意義。
所以,由企業開發和建設的大數據平臺,與交通具體管控部門相結合,通過交通部門的大投入,以及對交通問題解決的大需求,才使得交通“大數據”應用得以迅猛發展。
大數據平臺的搭建,是整個大數據系統建設中的核心,包括兩部分,首先是大數據管控平臺,是對數據采集、梳理、數據建模、共享交換、大數據計算模型與算法進行整體管理與配置的平臺,是整個大數據系統建設的技術核心。其次是大數據分析平臺,是大數據分析展現、對外發布共享交換的平臺,是提供服務和輸出大數據分析和計算結果的平臺。
交通數據的特點是數據量大、數據結構多樣化、數據增長率高符合大數據典型特征。同時,交通數據還表現為并發量大、實時傳輸、非關系型
和對數據連續性完整性要求不高等特性,如車輛GPS數據和視頻監控數據,其數據少量丟包仍然能通過上下文數據補全其丟失的過程數據信息,這類數據流規模小、結構簡單、數據持續到達,是歸屬于大數據之上的流式數據處理的典型樣本。
交通大數據系統的建設一般架構在交通云平臺上,以架構交通數據中心,大數據與云計算之間是手心與手背的關系,缺一不可。基于一個省的交通運輸行業的所有基礎數據、業務數據、管理數據等,進行梳理、管控和服務,從技術架構上說,一般包括基礎設備層、信息資源層、應用支撐層、服務層和應用層等六大層面,以及信息系統的數據標準規范、運維服務規范和數據安全保障規范三大標準規范體系。
交通行業的業務系統、管理系統、服務系統等數據,首先按照歸口管理的原則進行整理與接入。數據中心通過數據接口對源數據進行采集與整理,而非數字化的數據資源將通過數據錄入的方式進行采集。

大數據的管控與服務基本流程

交通大數據管控平臺的結構

一種交通大數據平臺的管控平臺
數據中心根據元數據標準和資源目錄,將采集的各種中間數據按照統一的數據標準處理與整合,形成交通行業統一的信息資源目錄體系,保存在綜合數據庫中,數據目錄體系,是大數據平臺中的數據建模、數據梳理、數據服務的基礎。
綜合數據庫中的數據,通過統一的數據共享交換平臺,再提供給交通業務系統、服務系統使用,及提供公眾和其它行業需求服務。通過基于綜合數據庫的數據查詢、統計、分析等,為交通管理與服務提供輔助支持。
交通數據以每秒百萬條采集、每小時幾個G的數據量,信息龐大雜亂,必需經過大數據平臺梳理,將無序數據變為有序,將無關數據找到關聯,而交通行業數據資源目錄建設則是重中之重。
數據資源是通過信息資源描述項,記錄信息資源結構和信息資源屬性的數據體系。通過信息資源目錄的建立,為交通信息資源的采集、分類、描述、處理、展現、應用和管理提供統一的標準規范,為分散異構(各委、局、處室、各企業)的交通信息資源的共享和交換提供基礎性支撐,實現對交通信息資源的識別、導航和定位服務,從而更加有效管理和利用交通信息資源。
目錄編制的過程,是交通業務梳理、整理和挖掘數據資源、規范數據表示、摸清信息資源家底的過程,主要完成以下兩個任務,即數據資源目錄的生成,用于整體大數據平臺數據處理的基礎;數據共享交換目錄的建設,用于大數據平臺對外的共享交換服務,因為并不是所有數據都可以共享都可以交換,也不是所有數據都適合共享和交換。數據目錄管理功能主要包括元數據管理、目錄管理、共享交換管理、數據服務管理等,為實現交通信息資源目錄的梳理、管理和服務提供技術支持。
交通大數據管控中心是對數據進行綜合管理、組織與提供服務的后臺管理系統,是交通大數據發揮作用的調度中心,其功能包括數據接入、清洗、建模、計算、組織與管理等功能組成,數據管理平臺(DMP),讓數據孤島的整合變為現實。具體包括數據目錄管理、用戶/角色管理、數據日志管理、數據訂閱管理、數據分發管理、數據緩存管理、數據路由管理、數據傳輸管理、數據連接點管理、傳輸接口自動生成器等功能。
從業務功能上講,共享交換是大數據平臺的核心服務,在數據的采集整合、清洗過程中發揮重要的作用,采用統一的數據交換平臺、統一的標準規范和技術體系,有利于數據的共享和交互。
技術性能方面,除了共享交換的通用需求外,還需要具備對主流數據庫產品的支持能力,支持這些數據庫間數據的直接交換;提供對數據表進行行列變換、增量抽取、主從抽取、函數變化、統計合并、多維加載等多種數據抽取、轉換和加載;具有交換任務的監控管理能力;支持數據交換的工作流機制;抽取和裝載時能夠提供數據轉換二次開發的接口。支持異構數據庫間的數據集成與協同,并保證多數據庫(異構或同構)之間的全局事務一致性。具有數據同步/異步調用和交易沖正機制等功能。針對不同數據庫分別提供相匹配的高效數據處理引擎;支持多結果集的數據處理;支持對文件,接口等多種數據格式的讀取、更新等處理能力。
交通大數據之大,在性能上還必需考慮其執行效率。具備大并發量處理機制,支持實時與批量數據的均衡調度;對實時或批量的數據交換業務請求予以響應,支持實時與批量數據的均衡調度。對大數據包的處理,能在分鐘內完成百萬級數據的交易(從接受請求到處理完成)。

交通大數據分析系統之總體頁面

交通大數據分析系統之不同展現
在技術上,大數據綜合分析服務建立在數據服務平臺之上,數據服務平臺以企業服務總線為核心,依托ESB企業服務總線和JavaEE等應用服務器,提供數據和接口的對外服務能力。幫助用戶快速實現多個異構應用系統的互聯互通、應用集成,促進跨地域、跨部門的業務流程協作,實現業務的敏捷性。為企業級用戶創建一個可持續拓展的、松耦合的、可靠可管的SOA基礎設施環境,支撐整個組織IT可持續建設與管理,實現技術的優化。

交通大數據平臺研發成果

交通大數據平臺分析效果
綜合分析服務在業務上,主要是對交通各類數據進行集中統計、分析、預測、評估和挖掘,為日常運營管理、交通規劃、交通資產管理、安全管理及突發狀況下的指揮調度等方面提供信息支持。主要實現對多源數據集中統計、分析、挖掘,生成和管理交通營運業務的統計分析報表,為各業務系統(營運管理、安全管理、指揮調度、信息發布等)提供必要的數據支撐。
交通大數據平臺建設中,還涉及數據標準管理、數據質量管理、統一認證管理、安全與運維管理等,是一個系統化的技術整合體。
說到大數據應用之效果,不得不先說企業大數據的使用。大數據使用發源于企業對服務提升的需求,來自企業服務精準化提高的需求,來自企業提高自身管理能力的需求。
美國一些網站,5年前已經分析了大數據的作用,如整合分析大量來源的數據能力提升了82%。在大數據應用上,應對商業挑戰反應更加迅速的能力提高了87%,企業整體決策分析能力提升了80%,減少決策分析和數據研究成本達70%等。
從企業經營角度來看,大數據的應用為企業獲得了四大核心利益:投資回報率提升、產品創新、營銷模式創新、服務模式創新。因此,大數據的應用提升了企業的綜合競爭能力。當然,也為服務于交通行業的大數據公司,帶來了新一輪的機遇和挑戰。
隨著大數據平臺技術研發的不斷成熟和完善,涌現了一大批交通大數據的分析專用系統,或是交通大數據專用平臺系統,這些系統平臺,在交通行業中已經有了良好的應用,并起到了很好的作用。
從交通行業角度來看,大數據的應用,提高了政府決策和管理服務能力。交通大數據挖掘中,尋找精細管理、精準服務。有效配置交通資源,提高交通運行效率,為公共安全和社會服務提供新的理念和手段,通過歷史大數據分析,提升典型應用水平,如投資建設、交通遷徙、物流分配、出行服務等。
交通大數據分析為交通決策和管理帶來更有效的支持,目前應用最廣泛的是交通出行和交通運輸大數據分析下的交通規劃,從大量歷史規劃數據、當前已經實施和建設的交通通行情況的綜合分析,預測交通需求,從而尋找到更加合理的、能夠精準和規劃方案。
“互聯網+”背景下我國大數據交通發展水平不斷提高,應用大數據將多種先進技術融合到一個綜合平臺中,包括控制技術、計算機技術、通信工程、交通工程、移動互聯網技術等,發揮交通設施的作用,解決環境問題與交通擁堵,避免多種交通風險的發生。
大數據在交通管理系統中的應用將為交通問題的解決發揮重大的作用,將大數據管理應用到交通系統中,是對傳統管理模式的顛覆性創新,也使得公共交通管理體系呈現出全新的面貌。不僅如此,很多傳統方式無法解決的交通問題也可以迎刃而解。
大數據可以實現跨區域管理。大數據能夠處理無處不在的數據互聯特性,能夠突破行政區域的邊界限定,使各個地區在遵循相關原則的基礎上各行其是,提高管理的科學性。
大數據能夠解決信息分散問題。將所有具備分析價值的信息進行統一收集,提高信息的利用率,能夠提高交通信息體系的綜合化管理程度,完善交通管理體系。
大數據可以實現交通信息資源的合理配置。為管理人員在制定計劃、進行規劃時提供科學的指導和依據,實現信息資源的合理配置。
大數據在整合不同發展方面的基礎上,完善交通管理體系。發揮企業和政府的整體技術優勢、服務優勢,將交通管理與信息技術結合,使相關資源不再對交通問題的解決形成過多的限制。
交通大數據采集的數據來源,已經從單一行業數據,發展到全行業數據,如交通信息網、物聯網、車聯網、公眾出行網等。通過大數據集成技術,包括數據整合、數據管控、數據挖掘、情報分析等,提供交通行業應用場景。
大數據處理結果,通過交通數據歸依的最大化,發現交通問題的可能原因并評估概率;交通分析研判的科學化,通過數據相互的驗證提高數據的可靠性;交通組織管理的智能化,尋找到交通管控中的關鍵節點;交通指揮調度的精細化,從交通指揮調度中提取精準方案;交通綜合治理的一體化,找到交通綜合治理的所有渠道。
運用大數據分析貨運物流數據,找到可以減少的交通運輸環節,提高交通綜合運輸的效能。大數據分析客運遷徙數據,以輔助政府交通基礎建設,優化公眾出行方式并提高交通利用率。大數據分析交通通行能力數據,通過不同交通需求與交通運行結果,提供區域化交通組織結構的優化方案。大數據分析交通流量,可以深度地排查隱患風險等。大數據可以分析關聯的全域交通信息,發掘交通運行的規律并加以應用,合理地分配交通資源等。
但是,以上所謂的交通大數據分析方法,仍然是傳統的,僅僅是局限于人對分析技術、分析概念的一般理解上。
大數據在交通中的應用真正得到理解了嗎?比如,交通擁堵無處不在,真的是因為“車多路窄”引起的嗎?任何一個擁堵點,導致其結果的因素有千百個(天氣、路況、地理、人文、習慣、車輛、上下游、大路網……),哪種是主要的?哪些是容易解決的?現有條件下最好的緩解是什么?
再如,公路養護投資估算,養護投入與通行比沒有一個地方是一樣的嗎?任何一個位置的公路健康狀態,其決定因素也有千百個(天氣、路況、地理、人文、習慣、車輛、上下游、大路網……),哪些關鍵縱向因素影響健康結果?哪些橫向因素可以決策投入?
大數據分析與傳統數據分析有著明顯的不同。從數據的特征來看,大數據的數據選取往往無限接近于研究對象的全樣本,改變了傳統依托少量數據并利用統計學辦法獲得最多信息的做法,研究準確度上避免了樣本選取帶來的必然誤差。值得注意的是,全樣本的數據特征不是一個數據的數量概念,而是指數據與研究對象全體的相對關系。因而,一旦研究的數據對象不能視為研究對象的整體,縱使研究的數據量非常龐大,仍不能算作利用大數據的研究辦法。從研究的價值取向來看,大數據的研究往往更多注重于研究內容的時效性與對未來的預見性。沒有歷史的記錄、沒有全局的采集、沒有數據的匯集、沒有數據的鉆取、沒有大數據(具有時空特性)計算,很難得到答案。