沈鳳嬌,余曉敏
(1.湖北省基礎(chǔ)地理信息中心,湖北 武漢 430070)
習(xí)近平總書記在黨的十九大報告中提出,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合,建設(shè)數(shù)字中國、智慧社會,城市是人口聚集、社會發(fā)展最活躍的地區(qū),因此智慧城市建設(shè)是建設(shè)智慧社會的重要組成部分,而時空大數(shù)據(jù)平臺是智慧城市建設(shè)與運行的基礎(chǔ)支撐[1]。時空大數(shù)據(jù)平臺的構(gòu)成包含了時空大數(shù)據(jù)和云平臺,其中云平臺通過云計算等技術(shù),為時空大數(shù)據(jù)的存儲、管理、可視化、應(yīng)用等提供基礎(chǔ)支撐。
時空大數(shù)據(jù)平臺是基礎(chǔ)時空數(shù)據(jù)、公共專題數(shù)據(jù)、物聯(lián)網(wǎng)實時感知數(shù)據(jù)、互聯(lián)網(wǎng)在線抓取數(shù)據(jù)根據(jù)本地特色擴展數(shù)據(jù)及其獲取、感知、存儲、處理、共享、集成、挖掘分析、泛在服務(wù)的技術(shù)系統(tǒng),連同云計算環(huán)境、政策、標準、機制等支撐環(huán)境,以及時空基準共同組成的時空基礎(chǔ)設(shè)施,其結(jié)構(gòu)如圖1所示[1]。

圖1 時空大數(shù)據(jù)平臺構(gòu)成
空間云計算是時空大數(shù)據(jù)平臺建設(shè)最基礎(chǔ)的支撐。通過云計算技術(shù),一方面能實現(xiàn)資源共享,通過資源管理實現(xiàn)計算資源的統(tǒng)一管理,達到資源共享、規(guī)模效應(yīng);另一方面,還能基于智能化、自動化的資源調(diào)度,實現(xiàn)資源的按需調(diào)取和負載均衡[2]。
空間云計算支撐一方面依托空間數(shù)據(jù)云存儲,使用多個位于虛擬機的計算節(jié)點,構(gòu)建高性能并行計算框架,可實現(xiàn)子任務(wù)級的快速處理;另一方面,提供適合空間數(shù)據(jù)的多粒度并行計算模型與插件框架,為上層服務(wù)開發(fā)算法插件提供基礎(chǔ)支撐。如圖2所示為空間云計算支撐的原理圖[3]。

圖2 空間云計算支撐原理圖
空間云計算支撐的業(yè)務(wù)流程如圖3所示。

圖3 空間云計算支撐業(yè)務(wù)流程圖
空間云計算支撐提供子任務(wù)級批處理計算服務(wù)與算法插件框架,主要包括并行任務(wù)調(diào)度,空間計算插件框架與集群狀態(tài)監(jiān)控等功能模塊,如圖4所示。

圖4 空間云計算支撐功能模塊組成
并行任務(wù)調(diào)度模塊用于接收任務(wù)、分解任務(wù),為任務(wù)分配計算資源,并將任務(wù)信息傳遞給計算插件框架,由計算插件框架調(diào)用具體算法插件實施處理過程。
空間計算插件框架提供包含插件執(zhí)行、管理、注冊、并行計算接口、影像處理鏈的基礎(chǔ)框架,為插件算法編寫提供支持。
集群狀態(tài)監(jiān)控模板提供任務(wù)與節(jié)點狀態(tài)監(jiān)控功能。
借助成熟的開源分布式計算平臺Hadoop生態(tài)圈和Tensorflow深度學(xué)習(xí)框架來構(gòu)建時空信息云平臺的云計算平臺。主要包括3方面內(nèi)容:一是通過Apache Ambari web管理平臺hadoop生態(tài)圈,增加accumulo、HBASE分布式索引數(shù)據(jù)庫,打通空間大數(shù)據(jù)與HDFS、HBase等列存儲結(jié)構(gòu)壁壘——快速地跨多臺機器處理大型數(shù)據(jù)集合,實現(xiàn)海量數(shù)據(jù)索引的快速檢索存儲;二是增加Storm流式處理框架,基于內(nèi)存計算,擴展云計算平臺在實時數(shù)據(jù)接入的時空數(shù)據(jù)的處理能力;三是引入Tensorflow分布式深度學(xué)習(xí)框架,用于支持神經(jīng)網(wǎng)絡(luò)密集型計算應(yīng)用開發(fā),并結(jié)合Kubernetes和Docker容器技術(shù),注冊Tensorflow服務(wù)到Kubernetes框架的POD單元,實現(xiàn)計算節(jié)點的彈性伸縮,實現(xiàn)容器的集群資源管理、容器部署彈性伸縮,容器運行的狀態(tài)管控,并支持GPU集群深度學(xué)習(xí)計算應(yīng)用。如圖5所示為本時空大數(shù)據(jù)平臺的云計算基礎(chǔ)平臺架構(gòu)實現(xiàn)。

圖5 云計算基礎(chǔ)平臺架構(gòu)
底層為基礎(chǔ)設(shè)施,為云計算平臺提供基礎(chǔ)硬件服務(wù)資源。中間層為云計算平臺的基礎(chǔ)構(gòu)成,主要包括四部分:即①Hadoop分布式計算生態(tài)圈,主要包括了HDFS分布式文件系統(tǒng)、Yarn資源管理器、MapReduce分布式計算框架、Spark計算框架、Hive數(shù)據(jù)倉庫、Zookeeper分布式協(xié)調(diào)服務(wù)、Kafka消息系統(tǒng)、Ambari安裝部署配置管理工具等;②Storm分布式流計算框架;③Tensorflow分布式深度學(xué)習(xí)計算框架;④Kubernetes集群調(diào)度管理框架。
云計算應(yīng)用服務(wù)指的是基于云計算基礎(chǔ)平臺的接口進行應(yīng)用服務(wù)開發(fā),如離線塊數(shù)據(jù)計算、實時流計算、數(shù)據(jù)挖掘等,后文將要介紹的典型云計算應(yīng)用服務(wù),如多尺度影像的快速切片、位置數(shù)據(jù)路網(wǎng)實時匹配、視頻數(shù)據(jù)典型目標動態(tài)檢測就是基于該基礎(chǔ)平臺接口進行的擴展開發(fā),使用空間云計算的組件接口來達成數(shù)據(jù)的實時性、高效性、安全性處理。
采用hadoop大數(shù)據(jù)分布式計算框架,基于高性能地理信息數(shù)據(jù)處理引擎Geotrellis,對多尺度海量遙感影像大數(shù)據(jù)進行導(dǎo)入,利用Spark RDD任務(wù)并行特性、高可用性對原始影像進行快速瓦片分割計算;采用Accumulo分布式列式索引數(shù)據(jù)庫對瓦片進行存儲,并支持瓦片柵格服務(wù)發(fā)布時進行的高速大數(shù)據(jù)查詢,實現(xiàn)影像發(fā)布的高可用。解決了傳統(tǒng)方式在大影像數(shù)據(jù)從磁盤加載比較耗時、IO效率存在瓶頸、程序處理異常不可恢復(fù)、服務(wù)遷移不便的問題,增強數(shù)據(jù)處理效率吞吐量,提高用戶體驗以及影像發(fā)布的實際應(yīng)用價值,服務(wù)流程如圖6所示。

圖6 遙感影像快速切片服務(wù)流程
海量的移動位置傳感器位置數(shù)據(jù)接入平臺后,實時消息Kafka服務(wù)將原始位置信息導(dǎo)入Storm流式接收器,將城市中的海量交通設(shè)備位置流式數(shù)據(jù)通過高效實時的Storm計算框架進行分發(fā)調(diào)度,分布至各個運算節(jié)點進行運算;根據(jù)初始定位結(jié)果,利用路網(wǎng)數(shù)據(jù)庫,實時計算處理,將每次移動目標點的位置坐標進行糾正,投影到實際道路位置,并實時反饋至外部消費服務(wù)用戶,從而使用戶獲取精度更高的實時位置,減少位置信號噪聲所帶來的干擾,服務(wù)流程如圖7所示。

圖7 位置數(shù)據(jù)路網(wǎng)實時匹配計算服務(wù)業(yè)務(wù)流程圖
為了克服傳統(tǒng)圖像識別對視頻這類隨機復(fù)雜數(shù)據(jù)的環(huán)境識別能力弱、誤報率高、計算實時性差的問題,采用分布式深度神經(jīng)網(wǎng)絡(luò)計算技術(shù)平臺框架,通過構(gòu)建圖像卷積目標分割模型,對視頻傳感器實時流進行處理,實現(xiàn)對當前環(huán)境的人、車等典型對象內(nèi)容實時高準確率的識別與分割,達到典型視頻圖像內(nèi)容識別分類的目的,服務(wù)流程如圖8所示。

圖8 視頻數(shù)據(jù)典型動態(tài)目標檢測服務(wù)流程圖
智慧城市時空大數(shù)據(jù)平臺建設(shè)是提升城市治理能力、解決城市問題的具體舉措,也是全面履行好自然資源部職責的切實行動,對于促進城市政務(wù)信息資源整合共享、實現(xiàn)信息資源深度應(yīng)用、支撐政府科學(xué)決策具有重要意義[14]。