于海燕
摘? 要:社會治理是國家治理的重要方面。堅持和完善共建共治共享的社會治理制度,保持社會穩定、維護國家安全是社會治理的長遠目標。當前由數字技術驅動的社會治理創新已經從信息化走向了智能化,其首要面臨的問題就是海量多源異構的社會治理數據的存儲與融合。本文采用混合數據庫技術,基于Hadoop框架,提出了一套多源社會治理數據的分布式存儲與融合技術方案,并利用國產化大數據產品落地建設在深圳市龍崗區。
關鍵詞:社會治理智能化? 混合數據庫? Hadoop? 分布式數據存儲與融合
中圖分類號:TP311.13 ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ?文章編號:1674-098X(2021)04(c)-0138-05
Distributed Storage and Integration of Multi-Source Social Governance Data Based on Hybrid Database
YU Haiyan
(Shenzhen Zongdi Software Engineering Co.,Ltd., Shenzhen, Guangdong Province, 518057 China)
Abstract: Social governance is an important aspect of national governance. Adhering to and improving the social governance system of co-construction, co-governance and sharing, maintaining social stability and maintaining national security are the long-term goals of social governance. The current social governance innovation driven by digital technology has moved from informatization to intelligence. The first thing it faces is the storage and integration of massive multi-source heterogeneous social governance data. Based on hybrid database technology, This article uses hybrid database technology, based on the Hadoop framework, and proposes a set of distributed storage and fusion technology solutions for multi-source social governance data, and uses localized big data products to be implemented in Longgang District, Shenzhen.
Key Words: Intelligent social governance; Hybrid database; Hadoop; Distributed data storage and fusion
社會治理是社會建設的一項重大任務,也是國家治理的重要組成部分。《中共中央關于堅持和完善中國特色社會主義制度、推進國家治理體系和治理能力現代化若干重大問題的決定》指出:“必須加強和創新社會治理,完善黨委領導、政府負責、民主協商、社會協同、公眾參與、法治保障、科技支撐的社會治理體系。”以大數據、云計算、物聯網、5G、人工智能等信息技術為代表的新一代科學技術作為完善社會治理體系的先進手段,為社會治理創新提供了重要的技術支撐,在創新社會治理理念和治理體制,改進治理方式等方面提供了社會治理創新的新動力,并推動社會治理創新從信息化走向了智能化。
社會治理涉及人、事、物、情等各類社會治理要素。這些數據分散存儲在各個職能部門和應用系統中,各類數據的結構和存儲多樣化。隨著社會治理和綜合服務的應用深入,數據量也在急速增長。因而,社會治理智能化面臨的首要問題就是如何對多樣化的社會治理數據的有效存儲與融合,并在此基礎上實現海量數據的高效查詢和檢索。
本文采用混合數據庫技術,針對海量多源異構的社會治理數據,設計提出了一套基于Hadoop的分布式數據存儲與融合技術方案,在深圳市龍崗區的社會治理智能化項目中進行應用實踐,并獲得良好的成效。
1? 混合數據庫是社會治理數據存儲與融合的必然選擇
進入大數據時代,社會治理從信息化步入智能化。社會治理智能化的基礎是建立社會治理大數據中心。建設社會治理大數據中心:首先,需要匯集轄區內社會治理和綜合服務相關的基礎數據和業務數據,包括與各業務系統對接獲取的社會治理和綜合服務相關數據,以及通過網格員、志愿者、人民群眾等社會治理基層力量進行上報獲取的相關數據;其次,再通過構建數據資源目錄、建立數據標準,經過數據清洗、數據稽查等對數據進行規整治理,形成質量較高的社會治理數據;最后,通過按照社會治理相關業務進行數據主題庫、立體化網格劃分等處理,形成服務于社會治理的大數據中心,支撐社會治理業務系統、決策分析系統以及可視化系統等上層應用。
匯集在社會治理大數據中心的數據來源于多個相關職能部門和各種渠道,大致可以分為以下 5類。
(1)由社會治理基層力量(網格員、樓棟長、志愿者等)采集的業務基礎數據,包括人口數據(戶籍人口、實有人口、常住人口、流動人口、外籍人口等)、房屋數據(住宅、廠房、寫字樓、臨時建筑等)和法人數據(國營、集體、私營、個體等)。其中,多數是記錄表格形式的結構化數據,也有部分證照圖片形式的非結構化數據。
(2)由社會治理的業務工作平臺產生的各類社會治理和綜合服務核心業務數據,包括工作網格劃分數據、矛盾糾紛和問題隱患事件處置數據、社會治理基層力量分布數據、特殊區域(工 業區、花園小區、公共配套、城中村等)劃分數據、特殊群體(敬老優待對象、殘疾、精神疾病等)等。其中,既有表示空間實體的位置、形狀、分布等特征的空間數據,也有表示實體對象的性質、現狀、處理流程、結論等特征的結構化、半結構化和非結構化數據。
(3)與政府區域空間基礎信息平臺對接獲取的基礎空間數據,包括二/三維的電子地圖、行政區劃、房屋圖形、地理網格圖形、遙感影像圖等,是同時具有結構化和非結構化特征的地理數據。
(4)與政府區域數據交換共享平臺對接獲取的業務關聯數據,包括政法委的塊數據、公安的戶籍人口登記信息、社保的參保人口登記信息、工商的商事主體登記信息、稅務的納稅主體登記信息等。該類數據以結構化數據為主。
(5)與轄區物聯監測平臺對接獲取的實時監測數據,比如與轄區公安部門對接的雪亮工程的位置分布和相關視頻數據、與街道社區門禁系統對接的門禁位置和視頻數據等。此類數據主要是非結構化數據。
綜合來看,上述數據中既有結構化的表格數據,也有非結構化的圖片數據,還有實時的GPS位置數據以及視頻和音頻數據等。數據來源多樣,結構各異,數量龐大。并且,隨著時間的推移和業務的辦理,數據體量還會不斷增長。無論是經典的關系型數據庫還是傳統GIS的空間數據庫都已經無法滿足社會治理大數據中心的存儲和應用需求。因而,SQL和NoSQL相結合的混合數據庫[1]存儲成為大數據時代建立社會治理大數據中心的必然選擇。
2? 多源社會治理數據的存儲與融合設計
2.1 社會治理大數據中心的技術架構
針對社會治理數據海量多源異構的特性,本文利用基于Hadoop分布式文件系統[2]、HBase分布式數據庫、Spark分布式內存計算框架等相關分布式技術框架來構建社會治理大數據中心(如圖1)。
在數據獲取和存儲環節,本文基于大數據的相關存儲技術,設計采用了混合數據庫的數據存儲與融合方案[3]。在HDFS(Hadoop Distributed File System,分布式文件系統)和HBase(Hadoop Database,非結構化數據存儲的開源數據庫)框架基礎上,綜合傳統的RDBMS(Relational Database Management System,關系型數據庫管理系統)和NoSQL(Not Only SQL,泛指非關系型的數據庫)的優勢,使用圖數據庫(Graph Database)[4]、HBase列式數據庫、Hive數據倉庫、MongoDB[5]、Elasticsearch集群[6]和Redis集群[7]等多種存儲管理方式,在一個物理空間或行政區域(包括市、區、街道、社區等)內對涉及社會治理和綜合服務的人、事、情等各類數據(包括社會治理的基礎數據、業務數據、附件文本、工作數據、地圖底圖矢量和影像文件等)提供一體化、高性能的存儲和管理,通過各類多源數據匯聚、比對、評估、治理、建庫,構成社會治理大數據中心,提供社會治理和綜合服務所需的數據底板,為業務模型引擎和空間大數據服務引擎提供基礎數據,為各類業務功能模塊、大數據分析應用、可視化分析決策應用等提供數據支撐。
2.2 各類存儲方式的特點及區別
Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。HDFS有著高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上,提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集的應用。HBase是基于HDFS實現的分布式的、面向列的開源數據庫,提供快速隨機訪問海量結構化數據的功能,彌補了HDFS對小數據量隨機讀寫的缺點。Hive是基于Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載。這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制,即HDFS為HBase提供了高可靠性的底層存儲支持,它存儲 Hadoop集群中所有存儲節點上的文件。Hive則為HBase提供了高層語言支持,使得在HBase上進行數據統計處理變的非常簡單。
圖數據庫是一種NoSQL數據庫,它的關注點是“關聯關系”形成的圖,其目標是對現實世界中的實體與實體之間的關聯關系進行存儲與分析,能直觀、自然地表達萬物關聯的世界,同時解決復雜關聯關系深層檢索的性能問題。
MongoDB是一個介于關系數據庫和非關系數據庫之間的分布式文件存儲的數據庫。它采用面向集合(Collection-Oriented)存儲,非常適宜存儲對象類型的數據。
Elasticsearch是一個分布式、高擴展、高實時的搜索與數據分析引擎,能很方便地使大量數據具有搜索、分析和探索的能力。
Redis是一個高性能的內存級的key-value數據庫,具有查詢速度快、存放數據量大、支持高并發的特點,非常適合高頻次的查詢。
2.3 社會治理數據的存儲和融合方案
綜合上述存儲技術的優勢和特點,本文設計采用PostgreSQL存儲管理海量的空間位置、矢量圖形,以及業務分析的結果數據等結構化數據;采用HDFS存儲管理大規模的人口、房屋、法人、事件等結構化數據,以及居住人口照片、企業法人證照、隱患治理文本圖集等非結構化數據;采用Elasticsearch存儲管理海量的業務實時采集數據、物聯監測視頻數據和工作位置軌跡數據;采用MongoDB存儲管理社會治理和綜合服務的區域地圖底圖矢量圖層瓦片數據;采用Redis存儲管理有高訪問需求的業務分析過程數據;采用圖數據庫存儲管理元數據。
3? 龍崗區社會治理數據的存儲與融合處理
3.1 龍崗區社會治理數據的現狀
龍崗區地處深圳市東北部,轄區總面積388.21km2(不含大鵬新區)。截至2018年,常住人口238.64萬人,其中戶籍人口72.78萬人。2018年龍崗區生產總值4287.86億元,總量居全市第二。從2008年開始探索社會治理至今,深圳市龍崗區一直在不斷推進社會治理工作,已完成了社會綜合管理、網格信息化管理、社會隱患治理、網格隊伍管理、網格管理可視化平臺等一系列的業務工作平臺和隊伍管理平臺的建設,為參與社會治理和綜合服務的政府部門和社會公眾提供了高效的社會治理機制和服務模式,跑出了社會治理的時代新速度,也迎來了社會治理智能化的新挑戰。
截至2019年底,社會治理各業務系統產生和管理的數據包括:460多萬實有人口;17萬多棟樓宇280多萬間出租屋;19萬多家法人企業;近120多萬件矛盾糾紛和問題隱患事件;覆蓋龍崗區11個街道、111個社區、3823個工作網格;管理3600多個網格員和3800多臺網格終端設備;以及通過龍崗區時空信息云平臺、龍崗區數據共享超市、深圳市社區網格管理信息系統和廣東省綜治信息系統,對接獲取的轄區內二/三維電子地圖、遙感影像、工商、社保、4個實有數據(人、房、法、事件)、雪亮工程視頻及門禁視頻等數據。
3.2 MapGIS DataStore構建龍崗區社會治理大數據中心
為解決龍崗區社會治理大數據中心的數據存儲與融合問題,我們選用了中地數碼集團的MapGISDataStore產品[8]。MapGISDataStore是一個國產化的基于分布式數據庫引擎的混合地理數據庫。
如圖2所示,MapGISDataStore分布式存儲全面支持目前的主流商用或開源分布式數據庫平臺,包括MongoDB、Elasticsearch、HDFS和HBase等,支持存儲和管理關系型、瓦片緩存型、實時數據以及非結構化數據等常用數據類型。PostgreSQL能夠單圖層管理億級矢量數據;MongoDB能夠存儲管理百億級瓦片,提供高并發響應能力;ElasticSearch管理海量實時數據,提供高效的檢索能力;HDFS存儲大規模影像、文本等非結構化數據;其與傳統的空間數據引擎MapGIS SDE進行無縫融合,通過基于規則的數據目錄實現各類空間、非空間數據的一體化存儲和管理,實現多源異構數據物理上的分布,邏輯上的統一。MapGIS DataStore同時提供安裝部署工具、ETL工具和管理維護工具,實現各種數據庫的安裝部署和維護。
如圖3所示,以MapGIS DataStore產品為基礎構建的龍崗區社會治理大數據中心實現了空間數據、實時數據以及社會經濟數據等多種數據的快速接入,整合本地、HDFS、MapGIS GDB、ElasticSearch和PostgreSQL等多種數據來源,形成大數據管理目錄,提供大數據集及元數據基礎信息達成了多源社會治理數據的存儲與融合的目的。
4? 結語
智能化是社會治理創新的新動力。采用混合數據庫技術,通過對社會治理工作中歷史積累及實時采集的數據進行統一存儲和融合分析,將人口數據、法人數據、房屋數據、矛盾糾紛和問題隱患事件數據,與地圖數據相結合,深入挖掘數據潛力和價值,革新傳統社會治理方式,輔助社會治理主體進行創新,將進一步提升社會治理的專業化水平。
參考文獻
[1] 陳娟,李煒.非關系型數據庫與關系型數據庫技術綜述[J].電子技術與軟件工程,2020(18):147-148.
[2] 洪漪,趙棟祥,趙一鳴.大數據環境下的信息架構與數據模型[J].信息資源管理學報,2018,8(1):29-38.
[3] 肖光昭.基于SQL和NoSQL的混合存儲系統的設計與實現[D].北京:北京理工大學,2016.
[4] 楊振,萬為清.圖數據庫的研究和應用[J].電腦編程技巧與維護,2020(12):91-93.
[5] 李紀偉,段中帥,王順曄.非結構化數據庫MongoDB的數據存儲[J].電腦知識與技術,2018,14(27): 7-9.
[6] 徐偉杰,王挺,薛婉婷. 基于ElasticSearch的搜索引擎設計與實現[J].智庫時代,2019(23):218,240.
[7] 陳忠菊.NoSQL數據庫的研究和應用[J]. 電腦編程技巧與維護,2020(9):81-83.
[8] 中地數碼,MapGIS大數據與云平臺產品白皮書[Z].2019(5).