王勤
上海市環境保護信息中心
上海市環保大數據建設實踐與探索
王勤
上海市環境保護信息中心
基于TOGAF企業架構和HADOOP大數據架構方法,結合“云物移大智”等新技術,提出了上海市環保大數據建設“一中心、兩平臺三應用、三體系”的總體架構,為上海市環保大數據建設提供頂層設計闡述了數據資源中心建設實踐和大數據在空氣質量預測預報、污染源精準管理等方面的應用探索,為環保大數據建設提供了思路和借鑒。
環保大數據;總體架構;數據資源中心;創新應用
Abstract: Based on TOGAF enterprise architecture and HADOOP big data rchitecture method, the author puts forward ‘one center, two platforms, three applications, three systems’ overall architecture for Shanghai environment protection big data construction combined with‘cloud thing mobile big intelligence’ etc new technologies as top level design of Shanghai environment protection big data construction.The article introduces data resource center construction practice and application exploration of big data on air quality prediction, pollution source precision management and gives ideas and reference to environment protection big data construction.
Key words: Environment Protection Big Data Construction, Overal Architecture, Data Resource Center, Innovative Application
大數據是以數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)為特征的數據集合,其本質是用嶄新的思維和技術對海量數據進行整合分析,從中發現新知識、創造新價值、提升新能力,帶來“大知識”“大科技”“大利潤”和“大發展”[1],已成為政府運作方式轉變的一個熱點[2]。
黨中央、國務院高度重視大數據在推進生態文明建設中的地位和作用。《促進大數據發展行動綱要》等文件明確要求:構建“互聯網+”綠色生態,實現生態環境數據互聯互通和開放共享,促進大數據的創新應用。習近平總書記指示,要推進全國生態環境監測數據聯網共享,開展生態環境大數據分析。李克強總理強調,要在環保等重點領域引入大數據監管,主動查究違法違規行為。環保部印發的《生態環境大數據建設總體方案》,強調要以改善環境質量為核心,統一基礎設施建設,集中管理數據資源,推進系統整合關聯和數據開放共享,促進業務協同[3]。
上海市環保順應大數據時代發展趨勢,根據國家、市和環保部的總體要求,運用頂層設計、“互聯網+”等新思維,結合“云物移大智”等新技術,對上海市環保大數據建設進行了深入研究、認真實踐和積極探索。

圖1 上海市環保大數據建設總體架構圖
上海市環保基于TOGAF企業架構[4]和HADOOP大數據架構方法,以改善環境質量為核心,以推動信息資源整合共享和開放、促進業務協同聯動、加強大數據綜合應用和集成分析能力為目標,從業務架構、應用架構、數據架構、技術架構4方面開展深入研究,提出了“一中心、兩平臺、三應用、三體系”的上海市環保大數據建設總體架構,為大數據建設提供了頂層設計(見圖1)。
1.1 數據資源中心
一中心即數據資源中心,涵蓋基礎設施層和數據資源層。
基礎設施層包含一體化建設的IT機房、環保云、物聯網等基礎設施,為大數據處理和應用提供統一的基礎硬件支撐環境。
數據資源層包含數據來源、數據采集、數據存儲、數據共享4個子層和數據資源管理平臺5部分,為大數據應用提供數據支撐服務。環保大數據主要來源為環保內部業務系統、各委辦局共享數據和互聯網數據;數據采集層包含統一的數據傳輸交換平臺,將源數據采集傳輸交換到數據存儲層;數據存儲層承擔數據存儲和計算處理職能,包含污染源、環境質量、環境政務3個主題核心庫和關系型數據庫、分布式文件兩大管理系統,平時關系型數據存儲于關系型數據庫,進行高效的查詢和更新,需進行大數據分析時,再納入分布式文件管理系統,與非結構化、流數據等分別進行計算處理和存儲;數據共享層通過統一的數據共享服務平臺與環保部、市各委辦局、各區環保局和局各應用系統進行數據共享;數據資源管理平臺包含資源目錄、數據質量、數據清洗整合、數據資源監控等管理系統,實現對數據采集、傳輸、存儲、共享全過程管理。
1.2 綜合業務平臺和公眾服務平臺
二平臺即綜合業務平臺和公眾服務平臺,是大數據界面訪問層。綜合業務平臺構筑于政務外網之上,為環保系統內部業務辦公的統一門戶,集成整合日常辦公功能和各業務系統,實現一站式登錄,業務協同辦理。公眾服務平臺,即上海環境網站+微博+微信+APP,構筑于互聯網上,是上海市環保服務公眾的主渠道,具備網上辦事、信息公開、投訴舉報等功能。
1.3 環境質量、污染源和環境政務三應用體系
三應用即根據環境管理對象確立的污染源、環境質量和環境政務三應用體系,是大數據業務應用層,為大數據在各領域應用提供綜合服務。根據環境要素,各應用體系可分為水、氣、聲、土壤、生態、核與輻射等,針對各環境業務,還有監測、監察、監管和應急等業務領域,“十三五”期間,污染源監管、生態環境監測、環境監察執法、環境應急、環境影響評價管理和網站被定為六大環保大數據創新應用領域。
應用支撐層,主要包括分布式搜索引擎、大數據分析模型和工具、可視化工具、身份認證、權限管理、工作流引擎等公共的應用開發服務,支撐各大數據應用開發建設。
1.4 大數據建設保障體系
三個保障體系分別為標準規范體系、信息安全體系和運維管理體系,為大數據規范建設、安全穩定運行提供全面保障。
大數據建設中數據資源中心建設是基礎,更是核心,上海市環保率先以環境數據資源中心建設為突破,強化建設實踐,有效推動信息資源整合共享和開放,為深化大數據綜合應用和集成分析奠定了堅實的基礎。
2.1 標準規范體系建設
編制了《上海市環保信息化建設總體技術要求》,明確了上海市環保大數據建設將采用統一規劃、統一標準、集約建設、集中管理,市區分級使用的建設模式,數據集中存儲于市環保數據資源中心,屬地數據可共享到各區縣數據中心。研究確立了上海市環境數據資源標準規范體系,制定了數據庫設計、數據傳輸交換、數據共享服務、數據質量控制、運維管理等技術規范,形成環保數據資源中心建設和管理有標可循、有標引領、有標支撐的局面,有效促進了大數據建設的規范性、數據資源整合的有效性、數據質量的可靠性和數據更新維護的可持續性。
2.2 基礎設施建設
建設了150 m2的市環保中心機房,采用冗余設計。具備政務外網、政務內網、互聯網和環境監測4套網絡,其中,依托政務外網實現部、市、區、街鎮四級縱向聯通及與各委辦局橫向互聯,接入帶寬100 M,桌面帶寬10 M;基于互聯網,建立市、區二級無線為主的在線監控網絡;擁有服務器132臺,存儲近200 T,近期,利用20臺核心服務器和100 T存儲進行虛擬化、資源池化建設改造,構建上海市環保云。
2.3 數據資源梳理
環保數據主要有內外兩個來源。內部數據來源于環保業務,按環境管理對象分為污染源、環境質量和環境政務3大系列。環境質量數據包含對區域水、氣、聲、土壤、生態、核與輻射等各環境要素質量的自動監測、人工監測、預測預報等數據近20套。
數據類型包括關系型結構化數據,本文、圖片、視屏等非結構化或半結構化數據,以及在線監測等流數據。
2.4 資源目錄體系建設
建立了資源目錄體系,制定了環境信息資源分類方法、標識符編碼、核心元數據管理等規則,明確了應用模式和多權限多角色管理要求,按業務和組織架構相結合的雙重分類模式,對各類型數據分別進行編目;建立了資源目錄管理系統,實現了環境資源目錄收集整理、編制注冊、審核、查詢、瀏覽、共享應用的信息化、規范化管理。
2.5 核心數據庫建設
根據環保管理對象和管理特點,按照數據庫設計規范,建立污染源、環境質量、環境政務3大主題核心庫,存儲按主題整合處理后的各類數據,具有列式存儲、鍵值存儲、文件存儲、圖存儲、XML等多種存儲方式,其中,污染源主題核心庫存儲的是通過污染源統一編碼,關聯整合13套污染源監測、監察、監管數據后形成的污染源核心數據,目前核心庫數據存儲量約為50余T。
2.6 數據傳輸交換與共享服務系統建設
基于ESB總線,以前置庫方式為主、Web Service接口為輔構建數據傳輸交換和共享服務系統。數據傳輸交換系統按照資源目錄定位各信息資源,實時將業務系統產生的異地、異構數據及文件等信息,根據數據質量控制規范要求,采用ETL工具進行抽取、清洗、結構轉換等規范化處理后存入前置庫,再將各前置庫中數據按污染源、環境質量等主題整合后,集中存儲于數據中心各主題核心庫,進行管理;數據共享服務系統則將數據資源中心的數據資源,按共享權限分別為環保部、各區縣環保局、內部各業務應用、市各部門提供信息共享服務。目前配置的數據交換和共享服務共涉及34類業務近400項,并以每年約30%的速度增長。
2.7 資源監控系統建設
建立了數據資源監控系統,對基礎設施、數據資源、數據交換和服務任務、虛擬化環境安全等方面進行全面監控,形成監控日志,通過可視化界面實時、直觀反映監控情況,發現問題及時通過微信、短信、郵件、系統告警頁等多種形式進行告警;建立故障處理知識庫,輔助快速排除故障;實行監控數據統計分析,輔助軟硬件配置優化、掌握數據資源利用情況。
2.8 安全保障體系建設
從安全管理策略、信息安全監控、信息安全應急和信息安全評估4個環節保障信息安全。采用防火墻、入侵檢測、網絡安全審計、漏洞掃描及計算機病毒防殺等技術實現全面安全防范;規范數據備份,相對穩定的備份異地存放;建立統一的用戶授權機制,不同用戶擁有不同的訪問權限,對數據訪問提供日志跟蹤審計手段,采用三重DES加密算法,對信息加密后進行傳輸、存儲;建立安全管理制度和應急預案,定期進行安全評估和應急演練。
上海市環保以空氣質量預測預報和污染源精準管理為試點,開展大數據創新應用探索,為在多領域開展大數據綜合分析應用提供思路和借鑒。
3.1 大數據在空氣質量預測預報中的應用
近年來,秋冬季霧霾時有發生,準確預報空氣質量、及時采取應急措施是保障公眾身體健康、生產生活正常開展的重要舉措。
上海空氣質量預測預報數據來源主要包括4類,第1類是美國國家環境預報中心的全球預報系統(GFS) 氣象數據,數據量每天5 G左右;第2類是全國空氣質量監測數據,包括常規AQI數據及超級站的監測數據;第3類是背景數據,主要是東亞地形地貌數據及氣候特征數據、污染排放特征數據,數據量每天2 G左右;第4類是大氣污染物排放源清單數據,包括城市排放清單和區域排放清單數據。將這四類數據,結合NAQPMS、CMAQ、CAMx、WRF-Chem等 大 氣化學模型構成的多模式結合數值預報模型,產生不同的預報值,供環境管理者最終預報參考。
空氣質量預測預報后臺需要復雜的計算和判斷過程,隨著后臺數據量的累計和大數據等各項技術發展,預報準確度及能力均有大幅提升,從2013年的24 h預報提升到今年6月5日起的72 h預報,且2016年預測相關系數已達到70%以上。
3.2 大數據在污染源精準監管中的應用
根據最近一次污染源普查,上海市有污染源9萬余家,為加強對污染源的監管,促進企業、政府和公眾對環境管理的共識共治,建立基于標簽體系的企業環境行為評價。在整合污染源管理13套數據、互聯網輿情數據和企業經濟活動數據等環境行為數據基礎上,建立并運用排放模式識別、合規性規則識別、環境行為輿情情感識別等模型,以及動態環境行為標簽標定技術,實現企業環境行為等級評估及分析,繪制企業環境行為畫像,實現企業環境行為特征分析,輔助識別高風險企業,實施精準執法,為綠色金融和綠色信貸奠定基礎。
上海市環保基于TOGAF企業架構和HADOOP大數據架構方法,研究提出了“一中心、兩平臺、三應用、三體系”的上海市環保大數據總體架構,為上海市環保大數據建設提供頂層設計。以數據資源中心建設為突破,開展大數據建設實踐,實現了統一基礎設施建設,集中數據資源管理,數據資源整合共享開放,為深化大數據應用建設奠定了堅實的基礎。并以空氣質量預測預報、污染源精準管理等為試點,進行了創新應用探索,取得了良好效果。下一步,將以加強大數據綜合應用和集成分析能力建設、強化六大領域的創新應用開發為重點,更好地為推進環境管理轉型、提升環境治理能力提供支撐。
[1]涂子沛. 大數據[M]。桂林:廣西師范大學出版社,2012
[2]徐繼華. 馮啟娜,陳貞如。智慧政府:大數據治國時代的來臨[M]。北京:中信出版社, 2014.
[3] 生態環境大數據建設總體方案環辦廳[2016]23號
[4]趙捷.企業信息化總體架構[M]。北京:清華大學出版社,2011-1
Practice and Exploration of Environment Protection Big Data Construction in Shanghai
Wang Qin
Shanghai Environment Protection Information Center
10.13770/j.cnki.issn2095-705x.2017.09.002
王勤:(1968-),女,碩士研究生,高級工程師,上海市環境保護信息中心副主任,長期從事上海市環境信息化發展規劃編制、標準規范制定、數據中心建設、應用系統開發和項目管理等工作。