劉永紅,郭 松,林苑柔,趙春生
(1.中山大學 智能工程學院,廣東 廣州 510275;2.北京大學 環境科學與工程學院,北京 100871;3.廣東省交通環境智能監測與治理工程技術研究中心,廣東 廣州 510275;4.北京大學 物理學院 大氣與海洋科學系,北京 100871)
大數據時代下,科學數據共享對推動科技創新研究、促進國家經濟社會發展發揮著越來越重要的作用[1-3]。在美國,數據共享平臺發展早、投資大、且具有完備的法律體系等優勢,目前已建成著名數據中心包括美國航空航天局(NASA)分布式最活躍數據檔案中心群(DAACs)、美國國家大氣研究中心(NCAR)數據歸檔中心等[4-5]。近年來我國不斷加強對信息資源的利用,從2001年正式啟動“科學數據共享工程”起,科技部、財政部先后在多個領域支持建成了國家科技資源共享服務平臺[6-11],累計投資經費上億元[12]。我國科學數據共享程度不斷深化,相關政策制度逐步完善,但在數據內容、管理標準及安全、共享范圍、服務多樣性、可持續機制上仍有較大的發展空間[13-15]。
我國東部城市正面臨著多污染物疊加、復雜物理化學反應機理下的大氣復合污染的問題。為揭示污染物成因,各地相繼開展長期的綜合觀測[16-17]。與此同時,大量觀測數據分散在監測站、氣象局以及高校和科研機構,涉及數據類型、格式復雜多樣、數據質量良莠不齊,導致數據利用率低,不利于大氣復合污染的研究以及決策管理[18-19]。為解決“數據數量與質量問題、推動共享”技術難題與機制創新問題,由北京大學、中山大學等單位共同研發,建立了中國東部大氣環境數據庫和分析共享服務網(Ministry of Scienceand Technology of the People's Republic of China Database of Air Pollution in East China,簡稱MOST DAPEC)。平臺圍繞“全引入、全共享、可交流學習、可持續發展”的原則,旨在建成行業領先的國際性大氣環境數據、技術工具及研究成果的共享交流平臺。
平臺技術路線的選擇以成熟可靠為首要考慮條件,以保障軟件系統長時間無故障穩定運行為目標進行搭建。平臺使用專業的商業數據庫軟件對數據進行存儲,方便系統用戶對數據進行查詢、搜索、同步、分析等操作。Web應用服務器承擔相關的業務數據處理、Web服務響應等任務。采用千兆以太網為骨干網搭建局域網,實現各類服務器、客戶端之間的聯接,向其他相關職能部門、公眾等提供數據服務和信息發布。根據不同的業務需求,配置不同等級和數量的硬件平臺。預報預警信息交換系統建設使用B/S模式(Browser/Server,瀏覽器/服務器模式)和C/S模式(Client/Server,客戶/服務器模式)相結合的結構,使得整個系統與Windows操作系統有著極大的兼容性,最大限度保障了環境監測使用人員以及公眾發布服務的實用性和易用性。
為了保證數據安全,基于RBAC數據存儲與訪問控制模型設計多級用戶系統和實施模式,以隔離集中式業務管理模式帶來的系統故障風險[20]。除此之外,同時采用了防火墻、存儲冗余設計、訪問隔離、訪問驗證等技術,輔以嚴格的平臺系統安全管理規范,定期巡檢及修復漏洞等處理手段防止黑客攻擊及病毒入侵。
針對我國目前大氣環境數據來源多樣、維度多、涉及數據提供單位的數據格式各不相同,硬軟件系統及通信傳輸協議各不相同的問題,研發標準化、通用化的數據采集和傳輸技術是共享平臺重點攻克的難題之一。
結合當前各業務部門、科研機構的大氣復合觀測現狀,本平臺支持三種數據接入模式:一是手工(離線)上傳。數據提供方按照模板形成標準化上報文件,將其手工錄入系統;二是自動監測直連傳輸;三是通過中間層轉接傳輸。第二、第三種模式基于不同監測子站的建設情況進行選擇,以滿足不同數據來源接入的要求。對標準化監測子站,既可以通過標準直連協議實現實時數據上報和平臺控制指令的接收和執行,也可以通過生成標準XML格式文件上傳。而非標準化的監測站則需要升級系統實現自動生成XML文件,或開放數據結構,由標準化監測子站或標準化軟件系統對數據格式化后上傳。整體拓撲如圖1所示。
圖1 多源數據接入及質控拓撲圖
目前平臺已實現包括空氣質量監測常規站及超級站的數據接入。數據采集內容包括監測子站、時間、因子的編碼、監測數據、數據狀態編碼(數據標識)、儀器狀態(參數)等,實現了從傳統單一數據采集到采集數據狀態數據等質控數據采集的轉變。
目前我國大氣環境多源數據存儲管理缺少統一的規范,導致全國多數科研部門和業務部門的數據割裂化、碎片化。同時,大氣環境監測數據涵蓋結構化、非結構化、半結構化等多種類型的數據,要更好地使用、挖掘上述數據,必須要形成統一的數據存儲規范。因此,MOST DAPEC基于多源融合關聯的數據管理大數據模型,以關系數據庫、文件存儲系統和空間數據存儲系統為存儲結構,建立了多時空尺度、不同污染組分及多類型污染源的高精度區域大氣環境管理的關系型與NoSQL組合數據庫。采用GeoHash和Hilbert曲線相結合的數據多級劃分策略,針對包含豐富的時間、空間和語義信息的數據進行劃分及統一編碼后存入數據庫。通過設計空間索引,多源數據保存在數據庫時以經緯度作為索引,轉化為地理空間問題,實現海量數據的快速檢索與分析。
根據平臺面向公眾、政府、科研機構、行業(四個面向)的目標,平臺圍繞分級分類管理、用戶權限控制與數據全面共享三個方面管理平臺數據訪問。分級分類管理指根據不同用戶的需求,對數據、工具和論文等資料進行分類管理;用戶權限控制即不同級別的用戶,所對應的可獲取數據范圍及時空精度等情況不同;全面共享的數據則是根據不同用戶需求,最終實現所有共享數據不同層次的全面共享。
為了盤活數據資源,深度挖掘數據基礎特征,平臺開發了十余個快速分析工具,形成專題軟件工具包。用戶可基于已接入的監測數據或自行上傳數據,進行數據后處理和再分析。快速分析工具可對空間、時序、成因診斷、特性、組分、氣象/環境關聯等內容的分析,從而獲取污染來源、污染成因、傳輸規律等初步分析結果,為精細化污染評估、防治提供便捷準確的科學支撐。
平臺嵌入了多個成熟應用的模型代碼,圍繞PM2.5和O3污染監測參數展開綜合分析。例如,PMF受體模型、潛在源貢獻因子模型(PSCF)、濃度權重估計分析模型(CWT)等,從受體角度、污染氣流等多角度解析污染源的貢獻情況。
在線分析工具還實現了數據統計及可視化處理。一是分析工具對原始數據進行計算處理,得出關鍵分析指標。如目前比較成熟的顆粒物二次關鍵指標算法,可實現關鍵分析指標的自動計算,其中包括重要比值如陰/陽離子摩爾濃度、SO42-/NO3-等。臭氧生成潛勢模型(OFP)、二次有機氣溶膠生成潛勢模型(SOA)則可對VOCs成分譜進行分析,識別出關鍵的貢獻物種。二是對分析后的數據可視化展示,顯示數據時空或其他方面的特性,也可依據用戶個性化需求,形成并下載分析結果示意圖。例如污染日歷算法的開發,實現了以日歷圖的形式,用不同顏色渲染監測值,從而展示不同監測因子隨時間變化的特征。
另外,平臺簡報生成系統也是滿足用戶個性化需求的另一設計。系統可自動生成觀測期間空氣質量、各污染物水平變化情況等總結報告,分析邊界層氣象條件,解析污染物物理、化學和光污染變化情況,得出初步結論。用戶則可根據自身研究目標在線編輯分析簡報,并存儲、下載。
由于數據產品豐富、面向用戶群體多元,因此可持續的共享機制的設計至關重要。共享機制的構建從數據共享技術的研發開始,首先,根據數據的內容、特點、現狀等因素,確定共享的方式、要求、流程、質量管理要求等。常用的共享技術包括元數據集中式共享以及數據集、數據庫分布式共享等。其次,要設立與之匹配的數據共享機制,設置共享數據管理辦法、安全保密協議等。最后,建立共享數據管理指標體系,以達到提高數據來源的質量、鼓勵科研單位和業務部門開放數據的效果[21-22]。數據共享成效評價可考慮對數據和社會效益評價兩方面進行評價,其中,數據評價以數據提供者的等級評價和用戶給予的評價或評分獲取數據的綜合性評分;社會效益評價將從應用規模、關注程度、決策支持、學術成果等方面進行考查。整體的共享機制與規范框架如圖2所示。
圖2 數據共享機制與規范框架
結合前文對我國科學數據管理數據庫與共享平臺的發展現狀的研究,本項目創新形成“數據-分析工具-方法學”三層共享模式。共享結構如圖3所示。
圖3 平臺共享結構示意圖
數據層面目前接入了涵蓋環境監測、氣象監測、氣象預報、超級站數據、綜合觀測數據、遙感反演數據、閉合數據七大數據集。數據類型包括基礎(原始)數據,日、周、月、季度等統計數據,成因診斷等深度挖掘產品,用于綜合業務分析展示專題產品數據。分析工具層面,平臺根據業務和科研不同需求,設計了氣溶膠專題、氣象分析專題、常規分析專題、光化學專題、垂直觀測專題、氣象預污染綜合分析專題及簡報專題七大分析產品包,包含十余個快速分析算法。另外,平臺正在接入包括觀測、閉合技術、質控方法、以及數據分析報告、實驗報告、學術論文等來自國內領先高校科研機構的最新研究成果。通過共享前沿研究成果,實現成果再現和轉化,形成研究人員自由交流、傳遞與共享知識學術的社交平臺。
目前數據庫和平臺集成了國內超過5億條的大氣環境復合污染觀測的數據、方法、分析報告、學術論文等多種資源,數據總量超過100TB。數據來源于全國1498個空氣質量自動國控點、100余個國家氣象站、國內外9個主流氣象預報模式等公開數據,德洲超級站、項目內及其他合作方多套空氣質量外場觀測/長期基礎觀測數據以及其他第三方來源數據信息的接入。
在數據共享方面,平臺不斷與多個單位合作并將數據“引進來”的同時,也正在大力推進數據的對外共享。目前已與廣東省環境監測中心、長三角環境氣象預報預警中心簽訂了數據共享協議,實現“環保、氣象、科研”三大源頭全引入,保障可持續的數據來源。與此同時,平臺已向南京大學等科研單位和多個省市級環境監測部門提供了穩定的接口式數據共享(見圖4)。研發的數據分析工具包已在全國產業化應用,服務于中國環境監測總站以及廣東、福建、湖北、四川等十多個省市環境監測中心站,為廈門金磚五國會議、北京“一帶一路”高峰論壇等重大活動提供保障。
圖4 中國東部大氣環境數據庫與分析共享服務網(http://202.104.69.206:8090/)
針對目前大氣環境監測數據利用問題及日益增長的需求,中國東部大氣環境數據庫與分析共享服務網應用成熟平臺建設技術,輔以完善數據標準管理規范,保證海量數據接入基礎上,提高數據質量及利用率,是在大數據發展趨勢下推動大氣污染研究及決策管理的重要平臺。
目前平臺已向公眾開放,并朝著國家科學數據中心的發展目標奮進:建立和推廣可持續的運行模式,完善數據及產品設計,提升數據資源共享成效。以打造資源共享、學術社交、研究再現、成果轉化、統計評估“五位一體”的PaperHub學術社交平臺為定位,豐富共享的內容及形式。以更多元化的可持續共享機制,面向不同用戶形成不同等級、層級的開放共享,開啟數據驅動下的大氣環境研究與管理新范式。