張娟萍
(山西工程科技職業大學,山西 晉中 030619)
大數據是數字化時代的新型戰略資源,是當今信息化社會最重要的生產力要素。在全國推進“交通強國”和“數字交通”戰略實施的重要歷史時期,推動我國綜合交通運輸大數據體系發展已成為新時代交通運輸信息化、數字化發展的核心內容和關鍵所在。在利用大數據技術促進綜合交通運輸體系發展方面,一些發達國家及發展中國家都已經開展了諸多前沿研究和探索應用[1,2]。在當前我國現代綜合交通運輸體系構建的關鍵時期,借鑒已有經驗,結合交通運輸行業特點,建設和完善大數據體系對促進綜合運輸現代化發展具有非常積極的作用。
在百度百科中,大數據(big data)是IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[3]。IBM提出了大數據“5V”特點[4,5],即Volume(大量),Variety(多樣),Value(價值密度),Velocity(高速)和Veracity(真實性)。
相比于IT領域大數據特征,綜合交通運輸行業大數據具有更鮮明的特征。
1) 數據量大。各類動靜態管理對象和管理要素全周期數字化過程中,各類結構化、非結構化、半結構化數據構成了綜合交通運輸行業的大數據。隨著發展,數據量呈現出數量級式、階躍式增加。
2) 數據類型多。綜合交通運輸系統中既有自身產生的數據,也有外部交換共享所得的數據;既有靜態數據,又有動態實時數據;既有字符、數值等結構化數據,又有視頻圖像非結構化數據,數據類型多種多樣。
3) 處理速度快。在綜合交通運輸領域,各類數據數量隨時間推移而快速增長。海量、快速的數據積累,勢必要求更加高速、更加準確的數據分析與應用。只有實現快速化數據檢索和分析,才能保證數據的生命力。
4) 價值密度低。隨著行業信息化、網絡化、數字化的發展,交通運輸行業數據在大量積累,與此同時,無效數據、冗余數據也在大量增加,數值質量問題愈發突出,數據價值密度的高低與數據總量呈現出反比關系。
5) 真實性較差。由于各種原因,綜合交通運輸行業仍然存在“數出多源”、“一數多源”的現象,數據的唯一性、準確性、完整性、真實性仍有待提高。數據“質”與“量”的矛盾仍然存在。
大數據是信息技術發展的必然產物[6],更是行業數字化、信息化發展不可逾越的新階段。伴隨著數字化、網絡化和智能化發展的新態勢,綜合交通運輸大數據的發展也體現出了更加豐富的內涵。
1) 交通要素數字化。利用物聯網感知、數字建模等技術,推動交通運輸基礎設施、交通運輸載運裝備、交通運輸管理服務對象與事項的全面數字化,實現各類交通要素的數字化構建,打造“數字化交通要素”[7]。
2) 多網融合互聯化。利用光纖網、移動通信網、無線傳感網、衛星通信網等多種信息通信技術,通過“有線+無線”、“公網+專網”等多種模式組合,促進各類交通運輸業務與信息系統互聯互通和聯網運行。
3) 綜合應用智能化。在數據開放與應用層面,不同業務領域實現了數據的深度挖掘應用,推動了綜合交通運輸行業管理、公共服務更加精準化、智能化和科學化,支撐了業務協同和融合創新應用。
“十三五”時期以來,交通運輸部在大數據頂層規劃與指引方面出臺了多個綱領性文件和相關政策性文件,為行業大數據發展指明了發展方向和路徑,從管理和技術兩個方面不斷完善制度體系,為綜合交通運輸大數據發展奠定了良好基礎。從體制機制來看,交通運輸部、各省(市)交通運輸主管部門都設有專職信息中心、職能部門或者委托省級政務信息化主管部門承擔大數據發展規劃、建設等相關職能。在多方有利因素的保障下,交通運輸行業數據建設取得了理想成果:交通運輸基礎設施及載運工具數字化監測水平顯著提高,為行業現代化進程奠定了扎實基礎;國家綜合交通運輸信息平臺建設取得新進展,行業管理水平和管理效率得到了大幅提高,基于大數據的決策和監管水平明顯提升;在公共服務領域、物流服務方面,數字化進程明顯加快,運輸效率和服務水平顯著提升。
經過多年的努力,在交通運輸信息化建設方面,我們取得了較為理想的成績,也積累了很多寶貴經驗,但在大數據建設、應用管理方面仍存在一些問題。信息系統建設需求貼合度不高,應用系統與數據建設相對分散,信息孤島仍然存在;數據和信息系統建設中標準采用不夠理想,數據共享困難;數字質量不高,缺乏統一的數據治理體系,數字資源未能實現向數據資產的良性轉化。大數據整合、共享、開放、應用,特別是涉及數據安全、增值應用等方面相關標準規范有待進一步完善;此外,涉及大數據全壽命周期的管理體制機制有待完善,亟需建立完善有效的跟蹤監督和激勵約束機制。
綜合交通運輸大數據體系是復雜系統,在具體建設中涉及到很多問題。主要的建設內容包括大數據中心、支撐保障體系和大數據支撐技術平臺建設。
綜合交通運輸大數據體系基于大數據標準及規范體系、運維及安全管理體系兩個保障體系,由數據源和數據治理及交換共享體系構建大數據中心,通過大數據支撐技術,實現大數據應用。

圖1 交通運輸大數據體系總體架構
3.2.1 大數據中心
基于云計算架構,接入、整合、融合交通運輸行業內外部綜合交通大數據,并提供數據存儲、預處理等服務,建成行業全要素數據的數據資源匯聚共享池;梳理行業內外綜合交通大數據資源,形成統一的省級綜合交通大數據資源目錄;建設綜合交通大數據治理系統,實現“交換共享、資源目錄、質量管控、平臺監控”四位一體的數據治理體系,保障數據資源可查詢、可追溯、可共享、可管理。
3.2.2 支撐保障體系
1) 在國家、行業、省級相關標準規范體系框架下,建立省級綜合交通運輸信息化建設標準規范體系,加強關鍵標準規范研究,加大標準規范宣傳貫徹力度,開展標準規范符合性檢測和考核評估工作。
2) 在行業、省級政務信息化運維和安全管理框架體系下,針對行業信息化運維與安全管理特殊需求,建立運維管理系統及安全監測管理工作機制,完善運維及安全管理制度,加強運維及安全管理。
3.2.3 大數據支撐技術平臺
數據處理是大數據產生價值的關鍵環節。數據處理要完成大數據采集、大數據預處理、大數據存儲及管理,以及大數據分析及挖掘。
1) 大數據采集技術,主要有基于開源系統Flume、Scribe的日志采集系統;基于Apache Nutch、Crawler4j、Scrapy等框架和MySQL和Oracle數據庫技術的網絡數據采集系統。
2) 大數據預處理技術,通過ETL處理,包含抽取Extract、轉換Transform、加載load,將采集的各類結構和類型的復雜數據轉化為單一的或者便于處理的構型;對數據進行“過濾”和“去噪”,從而高效、快速獲得有效數據。
3) 大數據存儲及管理技術,可采用Shared Nothing架構,結合MPP架構的高效數據庫集群和基于Hadoop的技術擴展和封裝來實現對互聯網大數據存儲、分析、調用和管理的支撐。
4) 大數據分析及挖掘技術,基于數據挖掘和機器學習技術,采用MapReduce、Hive、Pig、Spark、Flink、Storm、MLlib等大數據分析與挖掘技術,從海量數據中獲得信息和知識,服務于交通運輸行業,提高行業運行效率和集約化水平。
綜合交通運輸大數據體系在發揮積極作用的同時,也面臨著一些挑戰。相關標準規范、數據治理體系、數據共享開放應用等都是在建立綜合交通運輸大數據體系中需要重點關注的課題。伴隨著管理和技術進步,大數據在綜合交通運輸中的應用將從根本上緩解傳統交通運輸治理面臨的各種壓力問題,為數字交通發展帶來新的機遇。我們相信,隨著新時期“數字交通”、“新基建”等戰略的推進,交通運輸大數據體系發展必將為現代綜合交通運輸體系的建立提供更多動能。