寧芳奇
[提要] 信息技術的快速發展對民眾的日常生活產生了巨大的影響,公交車作為使用最多的交通工具已經發生了巨大變革,各種新技術的使用使其在日常運行過程中產生了海量數據,如何對這些數據進行科學有效地采集和深入挖掘分析利用成為當前各個公交系統平臺共同的難題。本文通過對智慧公交平臺的大數據現狀調查分析,提出一些解決方法,以便為智慧公交系統平臺的建設和完善提供建議。
關鍵詞:物聯網;大數據;智慧公交;平臺;Hadoop
本文受到遼寧省社會科學規劃基金項目(項目編號:L16BJY001)、遼寧省自然基金項目(項目編號:20170540005)的支持
中圖分類號:F49 文獻標識碼:A
收錄日期:2017年9月12日
引言
隨著互聯網、物聯網等信息技術的高速發展,其影響已經輻射至我們生活的方方面面,而公交車作為普通民眾出行最常用的工具,每時每刻都在產生著大量的數據,其數據量級已經超越TB達到PB,并以指數級持續增長。如何對這些數據進行科學合理高效的采集,以及在這種大數據下,如何從如此龐大的公交數據中高效、準確地挖掘出有用的信息進行分析,從而達到為公交公司、政府和民眾進行服務的目的,成為當前公交系統急需解決的重大問題。
一、大數據的定義及其特征
大數據是一個相對比較抽象的概念,學術界一直沒有統一公認的概念。簡單來說,就是隨著互聯網的高速發展,互聯網中的各種信息急劇增加,數據規模愈來愈大,進而由量變引起質變的一種現象。大數據并不是一種全新的技術和概念,只是因為數據產生方式的改變,造成數據量級的巨大增長,使得軟件工具處理和管理所花費的時間超過容忍,需要探索新的方式才能進行處理的一種海量、多樣化、高增長率的數據集。針對這種海量的數據集合,IBM提出了大數據的五項特征(簡稱5V):Volume:數據規模龐大,蘊含豐富的信息;Velocity:產生信息的速度十分迅速;Variety:信息的種類豐富多樣;Value:由于數量的巨大使得價值密度偏低;Veracity:由實時產生具有真實性。
二、智慧公交平臺基本構架
本文通過對現有的公交系統平臺的調查分析,重新將公交平臺架構進行組合,將其分成了基礎硬件模塊、大數據處理架構模塊、應用呈現模塊三個部分,具體如下:
(一)基礎硬件模塊。公交系統的基礎設施主要包括公交車、車載終端和站牌路線系統,其中車載終端業是數據信息的主要獲取和輸出通道,其主要包括GPS車載定位系統、車載網絡WiFi系統、視頻監控系統、智能刷卡系統、自動報站系統和車載視頻系統等。盡管現如今的公交系統已經相對完善,但也存在著一些其他問題。如因部分車輛老舊沒有GPS系統或系統老舊不能準確定位,報站系統報站延遲,除了報站系統基本沒有與車輛路線相關的信息輸出通道,站牌僅僅只有標識地點作用等。這些問題都對乘客的乘車體驗以及相關的數據收集利用產生了不好的影響。而這些問題總的來說是兩個方面:(1)車載系統的不先進或缺失問題;(2)站牌系統的作用單一及落后。
因此,一個智慧公交平臺想要擁有一個良好的基礎設施。必須解決這兩個方面,車載系統可以對其中的硬件進行合適的替換,定期對其附帶的軟件升級換代;對于站牌應該進行升級,用電子顯示屏進行替代原先的固定印刷站牌,電子站牌顯示可以分為兩部分,一部分是靜態的顯示路線信息,另一部分通過動態的顯示輸出時間、天氣和車輛到達時間預計等信息,以及通過播放廣告來增加收益等。
(二)大數據處理架構模塊。通過對智慧公交的大數據特征和處理所需要的技術要求進行分析,本文提出了與公交系統相適應的數據處理架構,該架構主要包括應用層、挖掘分析層、數據存儲層、數據采集層。其整體構架圖如圖1所示。(圖1)
1、數據采集層。公交系統的數據采集,主要通過車載設施如刷卡系統、視頻監控系統、GPS系統等,在公交車運行過程中通過車載WiFi或其他數據網絡發送至數據存儲中心。此外,還可通過網絡網站或郵件等方式對來自公眾的反饋意見進行收集并存儲。
2、數據存儲層。對通過采集層采集到的海量信息,一般的計算機很難達到如此大的計算量,而超級計算機又價值昂貴,不適合使用,因此嘗試使用更多的計算機系統來處理這些數據也就勢在必行。而Hadoop架構正是這樣一種利用計算機群,進行大數據的存儲和計算的架構。
Hadoop的最底層是HDFS,也就是分布式文件系統,主要通過多臺設備提供統一的存儲空間,但卻不會造成用戶的察覺。而其本身對硬件要求不高,卻可以進行高吞吐量的數據訪問,可以使其部署在比較廉價的設備上,卻能高效地完成數據存儲。
HDFS文件系統之上是HBase分布式數據庫,HBase采用列存儲,依據不同的存儲特性分別進行數據存儲,十分符合大數據對處理時效性的要求。此外,由于HBase對存儲形態沒有特殊要求,因此公交系統中收集的各種各樣的半結構化和非結構化數據也能很好的存儲。HBase中的冗余多備份機制,能夠減少單點故障的發生,提升HBase數據庫的容錯性。
MapReduce具有很強大的數據處理能力,面對公交系統產生的大數據,可以通過需求的不同,自行將大數據彈性分發給計算機集群中的計算機,這些計算機對接收到的數據進行并行運算,并以一定的周期將處理信息返回,使其可以及時高效地完成對大數據的分析和處理。而對于一些比較困難的問題,也可以將其按類拆分進而對其進行并發運算,從而實現所需要的處理結果。
同時,一個好的MapReduce系統需要一個良好的數據布局,而一個好的數據布局要滿足數據量公平性和數據值域公平性,只有這樣才能在各個節點上查詢任務數據和運算階段的時間相等,從而達到節約時間和降低能耗的目的。而達到數據量公平性和數據值域公平性,要滿足以下兩個公式:
3、挖掘分析層。公交數據繁復龐雜,來源十分廣泛,形式和種類也是多種多樣,信息量龐大,想要從這些信息中找到我們需要的數據,進而為我們提供幫助。傳統的統計和多維數據分析方法已經無法完成對這些復雜海量數據的處理分析,因此我們應該結合新興的數據挖掘技術進行分析處理,常用的大數據挖掘方法有:粒子群算法、遺傳算法、決策樹算法、神經網絡等。本文通過對這些相關的技術進行運用將挖掘分析層分為五個模塊,分別是數據篩選模塊、可視化分析模塊、數據挖掘模塊、預測分析模塊、展現模塊。
數據篩選模塊:由于公交數據的來源廣泛,因此極易受到環境設備等因素的影響,進而產生一些無用或者錯誤的信息,在進行數據分析前通過該模塊對收集到的公交信息進行篩選剔除,減少因無用信息和錯誤信息造成的資源浪費,提升數據的質量。
可視化分析模塊:智慧公交系統的數據大致可以分為三類:半結構化數據、結構化數據和非結構化數據。由于這些數據的數量大、結構不統一、信息分布比較分散,所以很難將數據調入相應的應用系統中形成固定的分析模式,但可以借助可視化數據分析平臺的強大功能,再輔以人工操作對海量的數據進行相關分析,進而完成分析任務。該模塊具有兩個優點:其一,具有良好的交互功能,不但能夠看到相關的數據,而且能隨時開發和管理數據;其二,直觀,可以通過二維的各種圖像或者三維的各種模型和動畫來進行展示結果。
數據挖掘模塊:該模塊主要通過一些數據挖掘方法如:聚類分析、遺傳算法、決策樹算法等,將得到的海量公交數據進行分析處理,尋找其中隱藏尚未被人們發現利用的信息,挖掘這些信息背后所隱含的知識和用途,為公交公司和各個信息使用者們提供幫助。即該模塊通過一系列的大數據挖掘算法,將隱藏在大數據背后的有用信息,以人們熟知的方式進行呈現出來。
預測分析模塊:以數據信息的特征與聯系,以及從歷史大數據中總結的行業規律為基礎,建立科學有效的數據模型,將來自數據挖掘模塊和可視化分析模塊的結果進行分析運算,從而達到預測性分析的目的。
展現模塊:將不同分析的結果及其來源依據以合理的方式呈現出來,為不同的信息需求者提供適合其理解和使用的方式進行展示,從而達到為其提供數據分析支撐的目的。
三、應用呈現模塊
(一)調度與指揮系統。該系統主要從三個方面進行考慮:其一,路線優化,公交公司通過對來自公交系統的大數據和公眾的呼聲建議進行處理,對現有的公交線路情況進行分析,找尋其中的不合理地方,對其進行優化升級,形成科學、合理有效的新路線;其二,智能調度,通過對同一天的不同時段,工作日與休息日和節假日的信息進行對比統計分析,對公交班次進行智能調度,節假日高峰期,工作日高峰期班次相對密集一些,而其他時段按固定時間班次相對少一些,在排班數量變化不大的情況下,優化其運行班次,實現便民服務;其三,安全運營,對線路的歷史安全數據進行分析,分析安全事故的原因,進行合理規避。
(二)社交應用APP。與百度地圖、114等信息平臺聯合對公交大數據進行分析,開發公交專用APP,通過該軟件可以對不熟悉的地方進行路線規劃,通過GPS導航尋找站點,自帶目標站點附近推薦,可以讓你在不熟悉的地方也能如魚得水,毫無陌生感;此外,在公交車上還可以進行實時地理位置查詢,讓你清晰的知道自己所處方位,而不用擔心錯過報站而不能及時下車。而這些都只是基礎功能,作為一個軟件,不能只局限于簡單的數據查詢服務,應充分發揮出其互聯網的虛擬、分享、互動的特質,因此其社交功能尤其重要,通過其社交功能我們可以知道每天都有哪些人和你一同坐在同一輛公交車上,無形間拉近人與人之間的距離,方便與其他人交流,甚至還可以通過軟件定期舉辦活動,增進關系,緩解日益冷漠的人際關系。
(三)人群聚集分析。公交車作為我們每個人幾乎都能用到的交通工具,不僅僅是我們出行的方式,它背后還隱藏著不同地區的人口分布和人口動向等,通過對這些人流的屬性和動向等進行分析,為政府的城市規劃和公共安全作出貢獻。如通過對人流量大的地方的監控分析,防范非法集會和踩踏事件的發生;通過旅游區的客流量變化,及時做好相關應對,以及在哪些地方修建公共設施都極具參考意義。
四、結語
隨著互聯網的高速發展,大數據時代已經悄然來臨,大數據在公交系統中的應用,既為公交運行解決了一些問題,同時又帶來了新的挑戰,我們不能僅僅注重于技術的提升,要同時對公交運行中產生的大數據進行深入挖掘分析,利用互聯網大數據時代特有的優勢,為民眾、政府和企業帶來新的發展和便利。
主要參考文獻:
[1]蘇穎,樊重俊.智慧交通中大數據應用面臨的挑戰與對策研究[J].物流科技,2016.39.6.
[2]李凱,程潔.探究大數據時代的城市規劃[J].價值工程,2016.35.
[3]鄂旭,畢嘉娜,侯建,蘇憲利,馮冠.一種車牌智能定位方法研究[J].計算機技術與發展,2014.24.10.
[4]朱安平.基于大數據的智慧交通探析[J].中國管理信息化,2016.19.12.
[5]鄂旭,楊明婧,勵建榮,毛玫靜,譚艷.能量均衡的數據融合隱私保護算法研究[J].計算機工程,2016.42.4.
[6]邵良杉,趙琳琳.區間直覺模糊信息下的雙向投影決策模型[J].控制與決策,2016.31.3.
[7]汪玚.公交信息化:有“大腦”更智慧[J].交通建設與管理(上半月),2014.12.
[8]姬倩倩.公共交通大數據平臺架構與服務模式研究[D].西安電子科技大學,2014.