王娜娜 喬英合 牟 斌 王 偉
1(中國科學院青島生物能源與過程研究所 山東 青島 266101) 2(青島海防工程局 山東 青島 266101) 3(中國科學院水利部成都山地災害與環境研究所 四川 成都 610041)
?
基于反演模式的碳排放數據集成管理系統的設計與實現
王娜娜1喬英合1牟 斌2王 偉3
1(中國科學院青島生物能源與過程研究所 山東 青島 266101)2(青島海防工程局 山東 青島 266101)3(中國科學院水利部成都山地災害與環境研究所 四川 成都 610041)
針對“能源消費與水泥生產的排放”項目中所采集、生產的各類數據,設計并構建基于反演模式的碳排放數據集成管理系統,提供采樣數據的預處理、錄入導入、分析挖掘及反演預測等功能。著重解析了系統設計開發中的架構設計、數據預處理和反演預測模型等關鍵模塊。實踐結果表明,這些模塊在碳排放數據集成管理系統中的應用,有利于實現多源數據的統一管理展示,有利于精準確定我國能源消費和水泥生產過程的碳排放系數。
碳排放 數據預處理 數據挖掘 反演 預測
近年來,以溫室氣體排放為核心的氣候變化問題已經成為國際社會、科技界和社會公眾關注的焦點,且已深入到國際政治和外交層面[1]。但總體來說,我國在碳排放這方面的研究基礎較為薄弱,且零星分散,不能形成合力。在基礎數據收集、方法論、關鍵論斷、模型構建等方面都參照甚至照搬國外CO2研究機構或專家的研究成果,缺少創新性成果,導致我國碳排量長期被高估[2],面臨著巨大的減排壓力[3]。與此同時,我國各領域各行業間測算方法的不同、碳排放系數的標準不統一,使得碳排放測算結果不一致[4],難以為我國進行CO2減排決策提供數據支撐和理論依據。為此,2011年中科院啟動了戰略性先導科技專項“應對氣候變化的碳收支認證及相關問題”(簡稱“碳專項”)。期望科學系統地研究我國在能源消費、土地利用、自然過程等領域的CO2、CH4和N2O3種主要溫室氣體排放,建立我國溫室氣體基礎參數及排放數據庫[5]。
本文以 “能源消費與水泥生產碳排放”項目為研究背景,探討碳排放數據集成管理系統的總體流程、架構設計、數據庫設計、功能模塊設計等。并詳細闡述關鍵技術如數據預處理宏程序、異地容災技術和反演預測模型等。提出系統具體實現的解決方案,構建能源消費與水泥生產過程碳排放的可視化數據庫。
總體設計主要是指在系統分析的基礎上,對整個系統的劃分(子系統)、機器設備(包括軟、硬設備)的配置、數據的存貯規律以及整個系統實現規劃等方面進行合理的安排[6],是構建信息系統的基礎。本系統采用分布式主從互備架構、MVC三層分離技術,利用Power Design設計數據庫E-R圖,并根據具體業務需求,將系統劃分為六大功能模塊。
1.1 系統總體流程

圖1 系統總體流程
“能源消費與水泥生產碳排放”項目針對全國范圍內“煤”、“油”、“氣”、“水泥”等領域的采樣數據、歷史數據、工廠數據等進行收集、過濾、分析、反演與預測等。因此將系統分為五個模塊:一個總數據庫和四個子數據庫,其中總數據庫負責綜合各個子數據庫信息,用于數據展示、數據挖掘與報表生成。子數據庫負責保留原始數據及經過ETL處理后的數據。系統總體流程如圖1所示。
1.2 系統架構
系統架構設計是在需求分析的基礎上,深入綜合地考慮信息系統的目標、技術要求和約束,擴展和細化需求分析階段的模型。秉承高內聚低耦合的設計原則,實現系統從整體到部分的最高層次劃分。本節主要從物理架構、邏輯架構、數據庫架構及模塊劃分四方面進行闡述碳排放數據集成管理系統的架構設計。
1.2.1 物理架構
物理架構明確系統硬件選擇、拓撲結構,軟硬件映射等。本系統采用“一主兩翼”物理架構,設置太原主節點、青島和上海兩個災備節點。在每個節點系統均采用應用服務器與數據庫服務器兩層結構設計,數據庫服務器提供數據資源與公網隔離,以增加系統安全性,應用服務器應答客戶訪問請求,具有良好的實時性。系統物理架構如圖2所示。

圖2 系統物理架構
太原主節點使用的是RMAN實現本地數據每天增量備份和每周全量備份。RMAN是一種用于備份、還原和恢復Oracle 數據庫的系統自帶工具。可以備份整個數據庫或數據庫部件,如表空間、數據文件、控制文件、歸檔日志文件等[7]。主節點Oracle RAC 數據庫各節點共享數據文件、控制文件,并存儲于存儲設備中。數據復制引擎跟蹤數據庫日志,當應用系統操作數據庫時,系統首先把這些信息存儲在日志中; 然后數據復制引擎通過對數據庫日志的分析,獲得本次操作的指令和數據,形成備份目錄;最后系統將主節點備份目錄通過網絡文件系統共享備份數據中心,使備用主機能正常讀取RMAN 備份數據。
災備節點均使用的是Data Guard實現異地人工全庫備份。Data Guard主要是通過日志文件的傳送、分析和應用來實現數據庫復制[8]。在應用事務發生后主數據中心通過數據復制引擎將日志傳輸到備份數據中心,備份數據中心的數據庫對日志中記載的事務執行重演操作,實現對備份數據中心數據庫數據的更新。保障太原數據中心同青島和上海容災中心間的數據安全、數據同步、高效并發訪問等。
1.2.2 邏輯架構
邏輯架構描述系統功能,進而指導系統測試。本系統采用MVC分層架構,由數據層、業務層、展示層組成,如圖3所示。各層之間具有較強的獨立性,各層采用標準接口為上一層進行服務[9],實現了系統各層間的分離,在一定程度上降低了軟件系統的開發周期和維護成本,使系統具有較高的靈活性、伸縮性和可擴展性[10]。

圖3 系統邏輯架構
1.3 數據庫設計
數據架構指導數據庫、實體模型及數據存儲的設計。按業務需求,經過詳細的需求分析,共設計185個數據庫實體,其中主表173個,輔助表11個,統計表1個。某課題E-R圖如圖4所示。

圖4 某課題E-R圖
1.4 功能設計
根據用戶需求,將系統劃分為六大功能模塊:用戶管理、數據預處理、數據錄入導入、數據展示、數據反演預測與重要信息監測等功能。
1.4.1 用戶管理
根據用戶實際需求設計用戶管理模型,使用基于角色的訪問控制RBAC策略完成了數據庫系統的角色管理功能,實現了分層角色,資源權限控制以及動態角色變更等功能。針對用戶需求中存在人員兼任多個職務的實際情況,設置了用戶多組多角色支持,并實現了權限與用戶登錄菜單的多級聯動功能。對未經授權的用戶嚴格控制其訪問。并在系統內部實現了用戶的增、刪、改、查等功能,支持創建臨時用戶,及臨時用戶訪問時間控制等功能。
1.4.2 數據預處理
數據預處理欲從大量的數據屬性中提取對目標有重要影響的屬性來降低數據維數,并甄別錯誤或不匹配數據,以改善數據質量、提高進一步數據分析的速度[11]。系統針對用戶實際需求,設計基于VBA的Excel校核模板,能夠實現離線環境中對數據的校驗精確到字段。
同時,利用科學的方法,對測量所得的一次數據,進行科學計算,獲得碳排放過程核心參數。利用測試所得到的各樣品精確的組成、溫度、壓力、流量等數據,通過公式計算獲得標準狀況下,各樣品的低位發熱量和碳含量值。
1.4.3 數據錄入導入
系統支持采樣數據的單條錄入和批量導入功能。為適應表結構變化,實現了數據導入過程中自動解析表結構、自動建表、自動校驗等功能。除數據文件外還支持文檔數據及圖像數據的上傳,在數據文件上傳過程中提供對數據內容的校驗功能,支持重復數據忽略、錯誤信息提醒等功能。
1.4.4 數據展示
數據入庫后自動生成新建表的檢索界面,提供統一格式的檢索界面。針對每組數據的檢索,檢索條件中列出了所有的數據字段以供篩選,同時還可以針對每個字段設置檢索條件,實現了復雜的數據檢索功能。檢索結果以表格的形式在同一個頁面中展示,實現了檢索結果分頁。同時對檢索得到的結果支持動態生成圖形展示等功能,生成的圖形包括曲線圖、柱狀圖、餅圖、地理信息圖等。
1.4.5 數據反演預測
參考IPCC重疊法反演我國二氧化碳排放量。同時,尋找替代變量構建其他反演模型,如多元回歸模型,修正我國以往年份能源消費與水泥生產過程的二氧化碳排放量數據。針對歷年各省市地區的反演數據存在缺失情況,設計并開發部分碳排放過程的缺失反演數據插值算法,估計并填充缺失的部分反演數據。
同時根據反演數據的統計公式開發由總課題到課題以及由課題到子課題的挖掘功能,逐層遞進的展示項目數據以及追蹤數據來源。
1.4.6 重要信息監測
使用網絡爬蟲技術,借助信息抽取、自動分類、自動摘要、文本挖掘等方法,對指定網站的指定新聞模塊進行定期跟蹤,實現了新聞信息的及時追蹤與集中展示功能。由此實現國內及國際碳排放領域相關信息的匯總及展示功能。
根據業務的定義,在系統設計開發過程中采用不同的技術滿足用戶需求。本系統采用Excel VBA宏程序、IPCC重疊法、ARIMA模型、異地災備、行級數據管理等技術來實現數據預處理、反演、預測及安全保障。
2.1 數據預處理
由于采樣過程不可逆,而采樣人員不規范的操作可能會造成采樣數據雜亂、無效、缺值等情況,因此需要對采樣數據進行實時離線校驗,避免人為因素對采樣結果造成影響。
項目組基于以上需求,開發了基于EXCEL VBA宏程序的數據模板。實現了數據的范圍校驗、非空校驗、一致性校驗等,規范化了數據導入格式,同時備注了各個字段在數據庫中的數據類型、數據范圍、關鍵字等必要信息,提升了數據質量,方便了數據采樣與導入。系統預處理模板如圖5所示。

圖5 數據預處理模板
數據類型校驗:在本系統Excel文件中可支持的數據類型包括整型、小數型、日期型、字符串、關聯型,根據實際采樣數據的需要預先對記錄字段的類型進行設定。數據類型規范如表1所示。

表1 數據類型規范表
對于不符合類型約束或范圍約束的情況,填寫過程中會自動提示錯誤。
對于唯一值約束和非空約束,會以特殊顏色標識。對提示框內部數據進行修正后提示色彩會自動消失。
2.2 反演與預測模型
從二氧化碳排放的物理模型出發,基于對IPCC排放因子法的詳細研究,選取氣體、標準狀態及熱值作為假設條件,以采樣數據為基礎,計算碳含量、氧化因子及二氧化碳排放量。在此基礎上構建假設檢驗模型、回歸模型、Monte Carlo模型、方差分析模型,確定不同假設組合對檢驗參數(碳含量、熱值及二氧化碳排放量)影響的顯著性,根據模型驗證結果確定對參數具有顯著影響的假設組合,其組合中包含的假設條件即為必要假設條件。
《2006 IPCC國家溫室氣體清單指南》中介紹的接合技術為數據反演提供理論指導[12],利用重疊法反演我國二氧化碳排放量。同時,尋找替代變量構建其他反演模型,如多元回歸模型,將反演結果與利用IPCC缺省值的計算結果進行對比,修正我國以往年份能源消費與水泥生產領域的二氧化碳排放量數據。
在反演模型基礎上構建ARIMA時間序列預測模型[13],搜集替代變量,構建與二氧化碳排放的聯系模型,并利用各因素的變化反演和預測十年跨度二氧化碳排放量。
2.3 數據集成
由于能源消費與水泥生產過程中涉及到的采樣數據、工廠數據、測試數據、設備數據及歷史數據等,其數據內容、數據格式和數據質量可能千差萬別,需要按照新的數據設計導入到新庫中。因此采用開源ETL工具Kettle[14]實現異構數據集成。
由于不同用戶提供的數據可能來自不同的途徑,根據數據采樣測試分析實際需求,對不同途徑來源數據進行抽取、過濾,采用事實表—維度表的多維模型構建了星型數據倉庫,實現對各主題域維度數據和事實數據的轉換與加載,最終形成碳排放數據集成平臺。多源數據抽取如圖6所示。

圖6 多源數據抽取
2.4 數據安全管理
數據作為信息的重要載體,其安全問題在信息安全中占有非常重要的地位。本系統采用數據備份恢復、權限管理及防SQL注入等策略,保障數據的保密性、可用性、可控性和完整性。
2.4.1 數據備份策略
基于分布式Oracle數據庫系統,在現有Data Guard系統上二次開發,實現太原主中心向青島分中心和上海分中心的數據異地容災功能。保障兩個分中心與主中心數據的一致性,實現主中心的數據災難恢復功能。同時基于RMAN模塊開發各中心內部的數據備份子系統,實現定期數據備份,保障數據安全性。
2.4.2 權限管理策略
采用基于RBAC的權限管理模式。用戶可以訪問并且只能訪問自己被授權的數據資源,有效地保護了敏感數據,提高數據安全性。
采用Shiro框架實現數據級權限管理,細分角色和權限,并將用戶、角色、權限和資源均采用數據庫存儲,實現數據庫行列級彈性控制。
2.4.3 防止SQL注入
通過設置系統訪問安全控制功能,修訂后臺訪問過濾規則,通過對用戶輸入的數據進行嚴格過濾、部署Web應用防火墻、對數據庫操作進行監控等策略嚴防SQL注入和跨站攻擊等入侵行為。
碳排放數據集成管理系統對實地采樣數據進行分析測試的基礎上,采用Oracle 11g 平臺,基于Spring、Struts2、Hibernate框架,使用J2EE 平臺進行開發,前端頁面采用基于jQuery的easyUI框架。根據項目任務書要求,緊密結合能源消費與水泥生產過程中的數據存取展示需要,建立了以數據采樣、預處理、導入建表、反演預測為主線的數據處理流程。并提供良好的用戶界面,以期讓用戶更加方便、高效地使用系統。系統集成展示界面如圖7所示。

圖7 系統集成展示界面
根據歷年采樣數據,基于IPCC重疊法,構建二氧化碳的反演模型,實現反演數據導入及動態展示功能,某課題反演圖片如圖8所示。

圖8 某課題反演圖
本系統自2015年在“能源消費與水泥生產的排放”項目組內部投入使用以來,輔助完成調查采樣數據共兩萬余條。在此基礎上,構建二氧化碳的反演和預測模型,分析我國10年時間跨度二氧化碳排放趨勢,為國家溫室氣體清單的編制和減排政策的制定提供理論支持。
本系統建設歷時五年,構建了集采樣數據預處理、錄入導入、分析挖掘、領域信息動態監測、信息展示網站于一體的碳排放數據集成管理系統,實現了對全國范圍內能源消費與水泥生產的10年時間跨度的二氧化碳的排放量反演與預測的動態模型。目前系統運行狀況良好,各功能模塊均可正常訪問,并已順利通過專家驗收,較好地完成了項目總體目標和預期成果。
[1] 丁仲禮, 傅伯杰, 韓興國,等. 中國科學院“應對氣候變化國際談判的關鍵科學問題”項目群簡介[J]. 中國科學院院刊, 2009, 24(1):8-17.
[2] Liu Z, Guan D, Wei W, et al. Reduced carbon emission estimates from fossil fuel combustion and cement production in China[J]. Nature, 2015, 524(7565):335-338.
[3] 呂達仁,丁仲禮.應對氣候變化的碳收支認證及相關問題[J]. 中國科學院院刊,2012,27(3) :395-401.
[4] 謝守紅,王利霞,邵珠龍.國內外碳排放研究綜述[J].干旱區地理,2014(4):720-730.
[5] 魏偉, 任小波, 蔡祖聰,等. 中國溫室氣體排放研究——中國科學院戰略性先導科技專項“應對氣候變化的碳收支認證及相關問題”之排放清單任務群研究進展[J]. 中國科學院院刊, 2015(6):839-847.
[6] 張海藩,牟永敏.軟件工程導論[M]. 6版. 北京: 清華大學出版社,2013.
[7] Oracle. Using RMAN to Back Up and Restore Files [EB/OL]. http://docs.oracle.com/cd/E11882_01/server.112/e25608/rman.htm.
[8] Oracle. Introduction to Oracle Data Guard[EB/OL]. http://docs.oracle.com/cd/E11882_01/server.112/e25608/concepts.htm.
[9] 陳俊寧.海上試驗場綜合數據集成與管理系統設計與實現[D].山東:中國海洋大學,2015.
[10] 趙偉,王志華,周兵.基于MVC的e-ERP系統的設計與實現[J].計算機應用與軟件,2013,30(2):106-109.
[11] 王藝霖,金澈清,王曉玲.公交數據管理系統的設計與實現[J].計算機應用,2016,36(S1):240-242,248.
[12] The Intergovernmental Panel on Climate Change (IPCC).2006 IPCC Guidelines for National Greenhouse Gas Inventories [R/OL].2006. http://www.ipcc-nggip.iges.or.jp/public/2006gl/.
[13] 張利平,于貞杰,張建華,等.六種時間序列組合建模及應用[J].統計與決策,2016(14):71-73.
[14] Matt Casters, Roland Bouman, Jos van Dongen,等. Pentaho Kettle解決方案:使用PD構建開源ETL解決方案[M]. 北京: 電子工業出版社,2014.
DESIGNANDIMPLEMENTATIONOFCARBONEMISSIONDATAINTERGRATIONMANAGEMENTSYSTEMBASEDONINVERSIONMODEL
Wang Nana1Qiao Yinghe1Mu Bin2Wang Wei3
1(QingdaoInstituteofBioenergyandBioprocessTechnology,ChineseAcademyofScience,Qingdao266101,Shandong,China)2(QingdaoCoastalEngineeringBureau,Qingdao266101,Shandong,China)3(InstituteofMountainHazardsandEnvironment,ChineseAcademyofSciences,Chengdu610041,Sichuan,China)
We designed and constructed the integrated management system of carbon emission data based on inversion model, considering the data in the "energy consumption and carbon emissions of cement production" project. The system provides the sample data pre-processing, input, analysis, mining and inversion prediction and other functions. This paper focuses on the analysis of the system design and development of the architecture design, data preprocessing and inversion prediction model and other key modules. The practices show that the adoption of these modules in carbon emissions data integrated management system, is conducive to the unified management of multi-source data display, and to precisely determine the coefficient of carbon emissions of China’s energy consumption and cement production process.
Carbon emission Data preprocessing Data mining Inversion Forecast
2016-08-24。中國科學院戰略性先導科技專項(XDA05010000)。王娜娜,工程師,主研領域:科研信息化。喬英合,工程師。牟斌,工程師。王偉,本科。
TP311
A
10.3969/j.issn.1000-386x.2017.08.008