朱嘉斌
(蘇州市軌道交通集團(tuán)有限公司,215004,蘇州∥高級(jí)工程師)
城市軌道交通線(xiàn)網(wǎng)大數(shù)據(jù)中心統(tǒng)一收集、處理和儲(chǔ)存各類(lèi)數(shù)據(jù),實(shí)現(xiàn)對(duì)線(xiàn)網(wǎng)內(nèi)各個(gè)生產(chǎn)系統(tǒng)的監(jiān)督、協(xié)調(diào)、監(jiān)控、統(tǒng)計(jì)、分析和管理等。城市軌道交通數(shù)據(jù)來(lái)源廣泛、數(shù)量龐大、類(lèi)型多樣、更新快,具有異構(gòu)、量多、類(lèi)雜和自組織等的特點(diǎn)。
在城市軌道交通大數(shù)據(jù)中心建設(shè)過(guò)程中,面臨的主要挑戰(zhàn)為:①建設(shè)成本:數(shù)據(jù)中心處理的數(shù)據(jù)量大、處理要求高,且后續(xù)新建線(xiàn)路也需要接入數(shù)據(jù)中心,所以一次性建成數(shù)據(jù)中心的投資巨大,初期成本難以控制。②業(yè)務(wù)擴(kuò)展:隨著新線(xiàn)不斷建設(shè),以及技術(shù)不斷創(chuàng)新和發(fā)展,數(shù)據(jù)中心應(yīng)用軟件系統(tǒng)也要不斷升級(jí),導(dǎo)致業(yè)務(wù)形態(tài)有很大的不確定性。③數(shù)據(jù)分析:大數(shù)據(jù)中心的數(shù)據(jù)分析旨在提取、挖掘海量數(shù)據(jù)背后的各種規(guī)律。核心問(wèn)題在于如何有效地對(duì)海量數(shù)據(jù)進(jìn)行組織、學(xué)習(xí)、計(jì)算、表達(dá)。設(shè)計(jì)同時(shí)適用于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的組織管理系統(tǒng)是巨大挑戰(zhàn)。④程序性能:如何構(gòu)建高效自動(dòng)化索引,如何優(yōu)化組織、管理數(shù)據(jù)的工作流程,以便盡可能自動(dòng)化處理各類(lèi)事務(wù),減少額外的資源占用,提高效率,是面臨的重要挑戰(zhàn)。
大數(shù)據(jù)中心處理的數(shù)據(jù)類(lèi)型多樣,業(yè)務(wù)廣泛,彼此有千絲萬(wàn)縷聯(lián)系,數(shù)據(jù)中心需要結(jié)合各專(zhuān)業(yè)信息對(duì)多種維度數(shù)據(jù)進(jìn)行綜合分析才能產(chǎn)生有價(jià)值的成果。本文針對(duì)以上挑戰(zhàn),結(jié)合大數(shù)據(jù)中心的現(xiàn)實(shí)需求,提出了基于Hadoop+MPP技術(shù)架構(gòu)的大數(shù)據(jù)中心建設(shè)方案。
Hadoop(一種分布式系統(tǒng)基礎(chǔ)架構(gòu))是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop的整體優(yōu)勢(shì)是數(shù)據(jù)處理能力強(qiáng)、成本低、高可靠性和靈活的可擴(kuò)充性。Hadoop核心內(nèi)容為:①HDFS(分布式文件系統(tǒng))——是一種新型分布式文件系統(tǒng),可提供高可靠、高擴(kuò)展、高吞吐能力的海量文件存儲(chǔ)業(yè)務(wù)。 ②Map/Reduce(映射/化簡(jiǎn))模型——并行計(jì)算方式遵循Map/Reduce模型就可以實(shí)現(xiàn)分布式并行計(jì)算。③HBase數(shù)據(jù)庫(kù)——是非關(guān)系型數(shù)據(jù)庫(kù),主要依靠橫向擴(kuò)展,通過(guò)不斷增加PC服務(wù)器就可增加計(jì)算和存儲(chǔ)能力。
MPP(一種海量數(shù)據(jù)實(shí)時(shí)分析架構(gòu))是通過(guò)一定的互聯(lián)網(wǎng)節(jié)點(diǎn)連接多個(gè)SMP(對(duì)稱(chēng)多處理)服務(wù)器協(xié)同完成工作任務(wù)。MPP數(shù)據(jù)庫(kù)將任務(wù)并行地分散到多個(gè)服務(wù)器和節(jié)點(diǎn)上,在每個(gè)節(jié)點(diǎn)計(jì)算完成后,將各自的結(jié)果匯總在一起從而得到最終結(jié)果。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,MPP在數(shù)據(jù)處理方面的優(yōu)勢(shì)為:①分布式架構(gòu)。②處理數(shù)據(jù)量大,能處理PB(千萬(wàn)億)級(jí)數(shù)據(jù)。③更大的I/O(輸入/輸出)能力。因?yàn)椴捎猛耆珶o(wú)共享的并行處理架構(gòu),所以能充分利用資源。④擴(kuò)展能力好。⑤采用列存儲(chǔ),能節(jié)省更多的存儲(chǔ)空間。
考慮到Hadoop和MPP的特性,將兩者結(jié)合搭配使用是最佳方案。利用x86服務(wù)器搭建分布式數(shù)據(jù)庫(kù),利用Hadoop+MPP架構(gòu)管理處理匯總的各類(lèi)數(shù)據(jù)。Hadoop+MPP架構(gòu)的優(yōu)點(diǎn)是:初期投資低、硬件方便擴(kuò)展、容錯(cuò)性高、處理能力強(qiáng);用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,充分利用集群功能進(jìn)行高速運(yùn)算和存儲(chǔ);可以同時(shí)對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行在線(xiàn)交互處理。其缺點(diǎn)是:對(duì)系統(tǒng)及軟件開(kāi)發(fā)人員的要求高。
選擇批量的x86服務(wù)器搭建分布式的數(shù)據(jù)中心硬件平臺(tái),采用Hadoop+MPP架構(gòu)交互處理各類(lèi)實(shí)時(shí)和離線(xiàn)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),能大大降低初始建設(shè)成本,控制預(yù)算,而且能夠較為貼切地解決城市軌道交通數(shù)據(jù)中心數(shù)據(jù)量大、關(guān)聯(lián)性強(qiáng)、非結(jié)構(gòu)化數(shù)據(jù)多等痛點(diǎn),能很好實(shí)現(xiàn)數(shù)據(jù)挖掘分析,并在后期的發(fā)展過(guò)程中能根據(jù)業(yè)務(wù)需要靈活擴(kuò)展硬件和系統(tǒng)軟件以增加處理能力和升級(jí)業(yè)務(wù)。蘇州軌道交通大數(shù)據(jù)中心項(xiàng)目就采用了該方案。
根據(jù)城市軌道交通大數(shù)據(jù)中心的業(yè)務(wù)特點(diǎn)設(shè)計(jì)的大數(shù)據(jù)中心系統(tǒng)邏輯框架如圖1所示。

圖1 城市軌道交通大數(shù)據(jù)中心系統(tǒng)邏輯架構(gòu)圖Fig.1 Logic architecture of urban rail transit big data center system
城市軌道交通大數(shù)據(jù)中心系統(tǒng)包含采集層、存儲(chǔ)層、處理層、分析層和輸出層,各層功能主要如下:
1) 采集層:系統(tǒng)通過(guò)接口服務(wù)器與ATS、ISCS、LC、通信集中告警、CCHS線(xiàn)網(wǎng)清分中心等業(yè)務(wù)系統(tǒng)進(jìn)行通信,對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和校驗(yàn)。
2) 數(shù)據(jù)處理層:是大數(shù)據(jù)中心系統(tǒng)的核心,可將業(yè)務(wù)系統(tǒng)各類(lèi)數(shù)據(jù)進(jìn)行有效集成,滿(mǎn)足海量數(shù)據(jù)管理需求。
3) 數(shù)據(jù)分析層:按照行車(chē)、設(shè)備、能耗、客流等專(zhuān)業(yè)劃分進(jìn)行數(shù)據(jù)挖掘、智能分析,從數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,以此作為預(yù)測(cè)、決策的數(shù)據(jù)支撐。
4) 數(shù)據(jù)輸出層:主要由各開(kāi)源大數(shù)據(jù)查詢(xún)引擎構(gòu)成,對(duì)外提供數(shù)據(jù)庫(kù)查詢(xún)服務(wù)。
在蘇州和青島的軌道交通項(xiàng)目中,根據(jù)數(shù)據(jù)的流向,將大數(shù)據(jù)中心的處理架構(gòu)設(shè)計(jì)為帖源層、基礎(chǔ)層、匯總層和集市層。數(shù)據(jù)處理平臺(tái)主要采用模塊化、高可擴(kuò)展的技術(shù),如并行計(jì)算、并行裝載、MPP數(shù)據(jù)庫(kù)、分布式存儲(chǔ)等。應(yīng)用平臺(tái)獲取大數(shù)據(jù)中心集市層的數(shù)據(jù),展現(xiàn)方式采用基于J2EE的多層客戶(hù)/服務(wù)器模型。通過(guò)靈活的集成框架,不同的第三方插件、產(chǎn)品能夠有效地集成到數(shù)據(jù)處理平臺(tái)。數(shù)據(jù)處理的核心區(qū)域?yàn)榛A(chǔ)層、匯總層和集市層,其在整個(gè)數(shù)據(jù)架構(gòu)中處于數(shù)據(jù)服務(wù)層,如圖2所示。

圖2 城市軌道交通大數(shù)據(jù)中心系統(tǒng)數(shù)據(jù)架構(gòu)圖Fig.2 Data architecture diagram of urban rail transit big data center system
1) 貼源層:實(shí)現(xiàn)采集到的文件數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的映射,為基礎(chǔ)層數(shù)據(jù)的加工做好準(zhǔn)備。
2) 基礎(chǔ)層:是數(shù)據(jù)服務(wù)層中最重要的一個(gè)區(qū)域,按照數(shù)據(jù)標(biāo)準(zhǔn)的要求對(duì)貼源層數(shù)據(jù)進(jìn)行統(tǒng)一加工和整合,存儲(chǔ)明細(xì)粒度的歷史數(shù)據(jù)區(qū)域,可為各個(gè)業(yè)務(wù)部門(mén)的不同業(yè)務(wù)需求提供一致規(guī)范的數(shù)據(jù)。同時(shí),基礎(chǔ)層數(shù)據(jù)可作為匯總層、集市層的數(shù)據(jù)源,并可直接向高級(jí)數(shù)據(jù)分析人員開(kāi)放,進(jìn)行深度靈活查詢(xún)、數(shù)據(jù)挖掘和數(shù)據(jù)分析。
3) 匯總層和集市層:其數(shù)據(jù)是提供面向需求應(yīng)用的、提供共享數(shù)據(jù)訪問(wèn)服務(wù)的公共數(shù)據(jù)。其數(shù)據(jù)流向是從基礎(chǔ)層抽取數(shù)據(jù),經(jīng)過(guò)有針對(duì)性匯總加工后,滿(mǎn)足上游應(yīng)用的數(shù)據(jù)展示需求。
為優(yōu)化數(shù)據(jù)處理效率,將數(shù)據(jù)處理細(xì)分為實(shí)時(shí)數(shù)據(jù)流處理和離線(xiàn)數(shù)據(jù)流處理。對(duì)不同的數(shù)據(jù)流,根據(jù)其特點(diǎn)進(jìn)行優(yōu)化設(shè)計(jì),利用數(shù)據(jù)庫(kù)中不同的組件進(jìn)行數(shù)據(jù)處理。如:對(duì)于實(shí)時(shí)數(shù)據(jù),是采用kafka的方式將數(shù)據(jù)發(fā)送到處理層,再存儲(chǔ)至Redis(一種數(shù)據(jù)庫(kù))內(nèi)存庫(kù);對(duì)于離線(xiàn)數(shù)據(jù),是先將數(shù)據(jù)存入HDFS,經(jīng)大數(shù)據(jù)處理程序處理后再存入MPP數(shù)據(jù)庫(kù)。
為提升任務(wù)管理的效率,考慮充分利用分布式系統(tǒng)的相關(guān)功能,如Hadoop中的Map/Reduce可以把一個(gè)任務(wù)分解為很多可以并行化處理的子任務(wù),這些子任務(wù)被分配到不同服務(wù)器上進(jìn)行并行計(jì)算,最后再把結(jié)果聚合到一起形成一個(gè)最終結(jié)果。
大數(shù)據(jù)分析的重點(diǎn)是對(duì)行車(chē)數(shù)據(jù)、客流數(shù)據(jù)、設(shè)備數(shù)據(jù)和能耗數(shù)據(jù)進(jìn)行分析。
1) 行車(chē)大數(shù)據(jù)分析:主要功能是行車(chē)指標(biāo)體系優(yōu)化分析、運(yùn)輸計(jì)劃調(diào)整分析、分時(shí)開(kāi)行對(duì)數(shù)表分析、首末班車(chē)開(kāi)行銜接分析、行車(chē)交路方案分析和停車(chē)方案分析。
2) 客流大數(shù)據(jù)分析:該項(xiàng)數(shù)據(jù)分析主要用于降低人均運(yùn)輸成本、引流提高運(yùn)營(yíng)收入、降低設(shè)備故障影響、大修計(jì)劃安全評(píng)估、事故搶修及綜合調(diào)度、應(yīng)急故障方案、高峰集散方案、一日組織方案、特殊保障組織方案、降低建設(shè)成本、乘客行為分析與公共安全分析等方面。
3) 設(shè)備大數(shù)據(jù)分析:主要功能是可靠度分析、故障統(tǒng)計(jì)與回溯、智能維保、設(shè)備知識(shí)圖譜分析和故障原因挖掘。
4) 能耗大數(shù)據(jù)分析:主要功能是空調(diào)通風(fēng)能耗分析、制冷系統(tǒng)能耗分析、牽引能耗分析、照明能耗分析、電梯能耗分析和能耗預(yù)測(cè)。
未來(lái),大數(shù)據(jù)挖掘的可能發(fā)展方向?yàn)槎鄬?zhuān)業(yè)相關(guān)性分析、客流預(yù)測(cè)、設(shè)備維修周期、狀態(tài)監(jiān)測(cè)和趨勢(shì)預(yù)測(cè)等。
1) 制定數(shù)據(jù)源接口標(biāo)準(zhǔn)。大數(shù)據(jù)中心的數(shù)據(jù)來(lái)源于各條線(xiàn)路的各專(zhuān)業(yè)系統(tǒng),連接、開(kāi)發(fā)各專(zhuān)業(yè)間的接口和通信中間件十分重要。對(duì)于數(shù)據(jù)源的接口標(biāo)準(zhǔn),建議在數(shù)據(jù)中心項(xiàng)目建設(shè)開(kāi)始階段就制定完成。
2) 保證數(shù)據(jù)的安全性。大數(shù)據(jù)中心是城市軌道交通的上層系統(tǒng),有些城市甚至肩負(fù)著連接外部政府及互聯(lián)網(wǎng)的重任,大數(shù)據(jù)中心系統(tǒng)的安全性至關(guān)重要。建議符合信息網(wǎng)絡(luò)安全等保三級(jí)要求。在系統(tǒng)設(shè)計(jì)初期,建議請(qǐng)專(zhuān)業(yè)的信息安全咨詢(xún)單位評(píng)估系統(tǒng)安全性,并嚴(yán)格按信息安全標(biāo)準(zhǔn)進(jìn)行建設(shè)。
本文分析了Hadoop+Mpp技術(shù)架構(gòu)的優(yōu)缺點(diǎn)。基于蘇州軌道交通大數(shù)據(jù)中心項(xiàng)目的實(shí)踐經(jīng)驗(yàn),分析了大數(shù)據(jù)中心的技術(shù)方案。蘇州軌道交通的項(xiàng)目實(shí)踐表明,基于Hadoop+Mpp架構(gòu)的大數(shù)據(jù)中心建設(shè)方案能夠達(dá)到預(yù)期效果。