張凡
摘要:隨著云計算、物聯網等的發展,數據已經呈現出爆炸式的增長現象,人們的生活正在被各種數據包圍,大數據時代已經到來。軌道交通企業作為近年來全國的城市青睞的優質交通工具提供者,每天也產生者各種數據信息,這些數據有何特點,以及在使用這些大數據時又會帶來哪些挑戰,本文做出簡要的探討。
關鍵詞:大數據;應用;軌道交通
中圖分類號:TP3;U23 文獻識別碼:A 文章編號:1001-828X(2017)013-0-01
進入新世紀以來,隨著博客、微信、移動設備以基于位置服務的LBS服務的新型信息發布方式的發展,數據的種類和數量正在以幾何級的速度增長和積累,人們的生活已經被各種各樣的數據包圍,大數據時代的到來給人們帶來了更多生活上的便利和行為習慣的改變。學術界、工業界、政府機構早已對大數據開始了各種研究。然而大數據的火熱并不意味著對大數據的深刻理解,反而可能影響了大數據的真正含義的理解。
一、大數據的基本概念
大數據本身的概念比較抽象,但有一點是確定的,即他表示數據的規模龐大,但是僅從數量上難以區分與海量數據(massive data)、超大規模數據(very large data)的差別,大數據目前的定義并沒有一個公認的說法,但從不同的定義中可以歸納試圖給出定義,而最有代表性的要數3V定義。即認為大數據需滿足三個特點:規模性(volume)、多樣性(variety)、和高速性(velocity).對于提出4V定義的有國際數據公司的價值性(value)和IBM認為的實用性(veracity)。維基百科對大數據的定義則更簡單明了:Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them. 大數據時指利用常用軟件應用工具已經不能夠處理的龐大且復雜的數據集。
作者認為,大數據的概念不必拘泥于某一個,在面對實際問題時,把握4V(規模性、多樣性、高速性、價值性)特點的基礎上適當的考慮數據處理的可容忍時間即可。
二、軌道交通企業大數據特點
軌道交通領域涉及專業多而廣,其中土木、車輛、機電、供電、維保、通信、信號、環控、AFC等,這些專業通過人工或自動傳輸等方式采集產生的數據數以百萬計,應用大數據處理技術,深入探索軌道交通系統的運行規律,對于提升軌道交通的運營服務質量和水平有著重要的理論指導意義和實踐管理作用。
1.數據種類
根據軌道交通企業數據產生的來源,將大數據分為內部大數據和外部大數據。內部數據包括客流數據、各類型設備反饋的數據、物資材料消耗數據、內部管理數據(財務、人力、效率數據);外部數據包括天氣數據、大型活動數據、其他相關公共數據等。按照數據的產生的過程分為直接數據和間接數據。大數據研究的基本都是直接數據,對直接數據加工處理產生的間接數據,根據其家公的程度來確定該數據是否還需再處理。亦或是用來指導管理決策。
2.數據特點
(1)數據動態性強
以重慶軌道交通開收班時間計算,軌道交通系統每天運轉將近17個小時,在運行的這段時間各種數據時刻變化,且各數據動態性強、隨機性強、個體間差異明顯,變化粒度多樣,各數據間相互聯系,每一個數據的變化都可能帶來其他方面的影響或變化。
(2)數據關聯性強
在列車晚間進站到早班發車的間隔時間內,相關的其他工作維保、公務、供電、道岔、橋隧等檢修工作也差生這各種不同的數據,而這些數據將直接影響著第二天軌道交通系統的運轉情況。
(3)數據分布呈現廣泛的異構性
首先數據來源廣泛,軌道交通系統涉獵專業繁多,業務復雜,每個部門都產生這各種各樣的數據;其次,數據種類繁多,非結構化數據占比較大;再次,數據產生方式多樣,隨著移動終端的快速發展,數據的產生模式也由被動提取轉變為主動產生進而發展為自動發送、上傳的模式。
(4)數據規律性強
軌道交通系統每天能夠正常運轉主要依賴于完善的工作計劃,如列車運行計劃、人員排班計劃、列車檢修計劃、客流組織計劃、設備設施巡檢、檢修計劃等,而完美的計劃需要依賴于對數據規律的掌握。
(5)數據的安全保密性要求高
作為支撐企業長久發展的核心信息,如新技術的研發、外來技術的國產化、核心技術、核心指標、管理方法的創新、安全技術的應用、盈利模式的創新、關鍵的財務數據等都需要較高的保密性。
三、軌道交通企業的大數據應用挑戰
1.數據集成挑戰
軌道交通數據的采集方式的多樣性和數據類型的多樣性使得數據集成成為大數據應用面臨的巨大挑戰。首先數據得廣泛異構性表現在數據類型從結構化數據為主轉向結構化、半結構化、非結構化,其次數據采集方式的多樣性體現在傳統固定設備的數據轉向移動設備的快速變動數據,且產生的數據呈爆炸式增長,并有著明顯的時空特性。不同類型、不同方式、不同緯度的各種數據形成的大數據需要新的集成方法才能發揮其大數據的作用。
2.數據清洗挑戰
數據量巨大并不代表數據的價值大,數據量的增加導致數據質量低劣,噪聲增多,反而會影響有用數據的篩選和使用。一方面很難由單個幾系統容納下不同數據源集成的海量數據,另一方面數據集成并不是簡單的將數據聚集在一起而不作任何清洗,這樣有用數據就會被大量的干擾數據淹沒。大數據時代的數據清洗需要更加謹慎,因為有限的、細微的有用信息需要從巨量的數據中清洗出來,如果清洗粒度選擇不合適,或大或小,都將無法達到真正的清洗效果。
3.數據解釋挑戰
數據解釋旨在更好的呈現大數據的分析結果,不恰當的解釋方法可能導致解釋結果晦澀,難以理解。然而傳統的數據解釋方式并不能應對大數據的分析結果,尤其是在面對類型復雜、數量巨大的軌道交通企業大數據時更為如此,外部的大數據與內部的管理數據以何種技術呈現解釋結果,需要提出全新的大數據解釋方式。云計算的發展為大數據的應用奠定了基礎,但是對于大數據去粗取精、內外數據互聯融通的過程,云計算猶如大海撈針,仍顯得無力。
四、軌道交通企業大數據應用現狀
目前軌道交通系統對大數據的應用都尚處于起步階段,查詢知網數據庫,也發現目前的研究應用較少,在少有的應用中主要提及的是地鐵耗能仿真和節能操縱研究、地鐵乘務技術管理、車在信號設備主動維護研究、地鐵票制創新、地鐵車輛牽引系統故障診斷等,從以上文獻不難發現,行業內真正的大數據研究應用還很缺乏,這些數據仍處于專項數據的集成處理研究,數據尚不夠“大”,對于管理決策的支撐研究也很少。
五、結語
本文通過大數據概念,結合軌道交通行業目前的數據特點、應用挑戰及應用現狀提出簡單的分析,希望助力于大數據在軌道交通行業的深入、廣泛、恰當的應用,促進大數據的良性發展。
參考文獻:
[1]維基百科:大數據.(2017-5-22)https://en.wikipedia.org/wiki/Big_data
[2]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[3]李得偉,張天宇,周煒騰,尹浩東.軌道交通大數據應用現狀及發展趨勢研究[J].都市快軌交通,2016,12:29(6).