謝穎斯
(廣東省環境科學研究院 廣東廣州 510000)
隨著生態環境保護工作的日益重視,生態環境管理部門積累了豐富的數據資源。[1][2]但由于數據來源不一、標準不一等問題,造成數據資源以離散、毫無關聯的方式沉淀在各部門業務系統之中,數據價值大打折扣,“僵尸系統”“失效數據”等現象大量存在,甚至有些數據資源仍以紙質方式存檔,造成數據資源的極大損失。[3][4]同時,對照國家和省關于“互聯網+監管”的改革要求,事權下放、監管后置對生態環境“管”提出的更高要求,[5]特別是當前生態環境監管方法手段還不夠豐富,沒有充分利用數據共享、數據挖掘技術進行生態環境業務異常分析和預警,此外,數據資源價值尚未充分利用,未能為業務管理綜合決策提供智慧數據支撐,因此,亟需對生態環境數據資產進行有效治理,充分發揮數據資源價值,健全大數據驅動下的生態環境監管新機制。
生態環境數據資產治理工作應以數據應用為導向,貫穿于生態環境業務數據流轉的所有環節,因生態環境數據資產治理范圍涉及多業務領域,需要業務主管部門、數據使用部門以及治理團隊人員通力協作,強化對生態環境數據的關聯性理解,共同明確數據資產治理的有效范圍及標準。數據資產范圍跨部門跨業務跨層級,涉及省市多個單位多級部門,需要多方面權衡生態環境數據資產標準制定的維度,分析業務管理、系統運行層面的數據需求,在充分理解生態環境業務需求的基礎上,借助專門的數據治理相關專業工具,結合濾波去噪法等多種技術手段進行生態環境數據預處理,實現數據資產有效整理。
完成治理后的生態環境數據資產將直接用于支撐生態環境上層業務應用體系的建設,必須確保治理前后數據的一致性和準確性,通過建立完善的生態環境數據評估規則體系來保障數據質量,通過建立數據質量監測機制,持續評估各環節生態環境數據資產質量狀況并及時形成數據質量反饋報告,為各部門各地市生態環境部門數據質量提供保障。
生態環境數據治理工作首先須厘清生態環境數據資源體系,對生態環境數據資產進行數據梳理和整理,根據生態環境基礎數據資源相關業務屬性,對數據來源、數據屬性、數據注冊申請、數據標簽、數據使用等數據脈絡進行綜合管理。面對多源異構割裂的生態環境結構化數據,結合業務理解,著重開展數據去噪、數據清洗、數據標準化等預處理,質量規則管理與分析評估,數據異常檢測等流程,形成統一的生態環境數據資產質量管理體系和規范,提供包含規范性、唯一性、完整性、一致性、精確性等多種業務系統間數據質量評估指標,實現對生態環境數據質量的全面檢測,同時自定義生態環境數據業務規則進行多維度數據質量檢查。建立生態環境數據質量評估流程實現數據質量管控機制,實現對數據質量問題進行歸因分析,并通過多個維度統計的方式生成數據質量評估報告,更大程度提高生態環境數據質量,梳理形成高質量、高可用的生態環境數據資產,支撐生態環境大數據創新應用體系建設。具體數據資產治理服務流程如圖1 所示。
圖1 數據資產治理服務流程圖
圍繞生態環境數據資源體系,按照不同業務域分類的方式進行信息資源的梳理。深入梳理現有相關業務管理系統,整理生態環境信息資源,基于生態環境信息資源分類體系,將需要處理的生態環境相關數據進行匯總整理與分類編目,形成生態環境數據資產目錄。定期根據數據源更新情況實時同步生態環境數據資產目錄,確保數據治理及管理工作的規范統一。數據資產目錄管理具體包括目錄編制、目錄審核、目錄注冊和目錄發布4 個過程。
圖2 信息資源目錄編制流程示意圖
根據生態環境數據資源分類、元數據業務屬性描述和業務系統代碼規則,采用人工編目、在線編目和自動編碼等多種方式開展數據目錄編制工作。對生成的數據信息資源列表和信息項表單,采用統一電子表格的方式采錄進入信息資源清單庫,同時,對于已經標準化的部分信息資源,可通過數據庫抽取、轉換等方式,直接由計算機進行自動編目進入信息資源清單庫。對于生成的生態環境信息資源清單,借助信息資源目錄管理系統,由業務經辦人員進行編目的審核及校驗工作,并根據具體的業務邏輯,設定詳細的數據審核規則,對數據唯一性、完整性、關聯性、表述性等特征屬性進行校驗,確保信息資源的準確和有效。對生成的生態環境信息資源目錄,依據統一共享開放的需求,在生態環境管理部門內部數據共享交換平臺和省一體化大數據中心進行數據資源目錄掛接,為相關部門應用提供數據資源目錄參考。完成生態環境信息資源登記掛接后,按照信息發布流程和相關要求,對目錄進行定期更新管理,其中,包括信息資源新增掛接、信息變更、信息注銷、信息審計等內容。
2.2.1 數據標準化
生態環境數據標準化是針對各業務系統數據標準不一致等情況,將生態環境業務數據按標準進行轉化,使之落入一個小的特定數據范圍區間。例如針對省市不同環境影響評價審批系統的審批數據,去除數據的單位屬性,將其轉化為無量綱的純數據或者統一單位及格式的數據,便于不同業務系統數據指標能夠進行比較和加權,為后續的數據分析應用奠定基礎。再如生態環境監測類數據的標準化,主要包括數據同趨化處理和無量綱化處理,既保證業務邏輯運算的邊界,又突顯出監測數據的本質含義。
基于不同的業務場景及不同的數據字段,數據標準化處理需采用不同的處理算法及處理方式。例如針對監測設備自動采集獲得的監測指標數據,基于數據分析建模的需要,可以使用標準化算法對元數據進行自動化預處理。
此外,部分數據字段的標準化處理仍需以手工方式為主進行,比如針對1-3-5 公里污染源數據的企業污染源坐標信息字段,對于坐標以不同單位表示,可以以自動換算的方式進行統一轉化,而不同坐標系表示的數據格式統一,則需要人工介入處理。
2.2.2 數據去噪處理
大氣和水質等監測設備采集數據,極易出現有噪聲的、不完整的和不一致的低質量數據,比如短時環境影響或者人為因素導致。為能滿足高質量生態環境數據分析建模需求,需要對原始數據進行去噪處理,以方便需要補充缺失值,另一方面通過基本的常規使用數據統計技術和數據可視化方法來區別離群點,從而糾正不一致數據。
匯聚后的生態環境相關數據存在大量冗余性不一致數據,即相同的信息沒進行一致性的同步更新。如圖3 所示。
圖3 數據不一致現象
在收集的信息表中同一個企業單位對應的ENT_CODE 存在兩個,但是在單位信息表中CODE 只有一個,信息不一致,如圖3 就是屬于上下文依賴沖突,上下文依賴的沖突是指不同數據源的數據由于不同業務應用系統間自建的數據設計規則和表達因素造成的,這種數據上的沖突需要用數據轉換規則或者由數據管理運營人員核對核實該錯誤數據后報送業務應用管理人員后對數據進行修正。
2.2.3 業務數據偏移校正處理
在實際的業務開展中,經常會遇到數據采集源頭信號強度抖動的太厲害等問題,特別是監測類數據,架設及部署在外部自然環境的監測設備,極易受到環境以及人為因素的影響,造成采集數據抖動偏差,使數據偏離正常合理范圍,致使錯誤數據現象出現,影響數據的分析應用。此時,需要結合實際業務情況,運用一些滑動平均算法對這類偏移數據進行偏移校正處理。基于滑動平均法、SG 濾波法、指數平均法等算法來構造合適的平滑方式,通過抖動偏移校正處理提高業務數據的可用性。
2.2.4 數據轉換清洗
數據轉換清洗的目的是對生態環境數據資產進行清洗整理,具體包括數據清洗、轉換與加載三大部分,目的是在數據治理過程中,對發現的問題數據,結合業務邏輯進行甄別與篩選,再通過清洗與轉換,并重新加載到生態環境匯聚庫,從而保證用于后續業務專題建庫和分析時數據的完整性、準確性和一致性,從而從根本上提高生態環境數據質量,提高數據準確率。
2.3.1 數據質量監控
數據質量管理監控是基于監控工具,通過配置、執行數據質量檢查規則,持續監控各個業務系統的數據質量情況,生成各業務系統數據質量報告,隨時掌握數據質量異常信息。對照數據質量檢測及管理工作,數據質量監控包括數據質量檢測規則管理、數據質量檢測任務執行、數據質量評價監控管理、數據質量分析結果管理。
數據質量檢測規則管理,定義數據質量審核的業務邏輯,是數據質量審核和監控管理的基礎,對數據質量規則進行定義和管理,包括檢查范圍、檢查時間、檢查規則、評分規則、評估報表等。
數據質量檢測任務執行,包括任務執行配置和任務執行監控,通過實時執行的結果輔助用戶調整規則的定義,及時發現任務未響應或任務執行失敗等異常情況并進行異常原因排查,以修正任務配置,確保修改配置后的任務可重新正常執行。
數據質量評價監控管理,評價采用完整性評價、規范性評價、邏輯性評價、及時性評價、重復性評價、外鍵關聯性等多種評估維度,基于業務自定義各項規則權重,實現數據質量綜合評價。
數據質量分析結果管理,自動生成每個質量檢測方案的明細結果表,并根據分析需要對明細結果表字段及數據質量分析報告樣式進行自定義。檢查結果可以通過郵件等方式告警,反饋至相應主管部門督促系統改進或者業務操作規范要求,形成數據管理的閉環。
2.3.2 生態環境數據質量分析評估
數據質量的好壞直接關系到后期生態環境專題應用及數據分析、挖掘、應用的效果和結論。因此,數據質量管理模塊充當生態環境業務應用“數據醫生”的角色,診斷并發現生態環境相關業務系統中的數據質量問題和狀況,并將數據質量評估結果以多種可視化形式生成相應的數據質量報告,簡易明了地呈現給系統數據管理人員。
針對生態環境數據資產質量檢查形成的評估分析應通過多維度角度進行質量管控,例如可從系統質量對比以及業務應用系統在特定時間范圍內的質量趨勢對比等角度進行管控。數據資產質量對比分析主要按照既定的業務數據質量技術標準規則及生態環境業務規則對指定業務系統的信息表及信息字段進行質量評估,通過評估業務系統數據資產的綜合質量指數,多系統對比分析發現數據資產質量優劣差別及平均水平;數據資產質量趨勢分析則是按照既定的生態環境數據質量技術規范及對應的業務規則,對業務系統的信息表級信息字段進行質量評估,通過在一段時間范圍內的持續監測,對每個監測點的數據綜合質量指數進行趨勢分析,發現數據資產的質量演變趨勢。整體思路如圖4 所示。
圖4 數據質量分析評估整體思路圖
首先從各類生態環境業務系統中接入業務數據同步到匯聚中間庫中,實現對匯聚中間庫中生態環境業務數據資源目錄和元數據管理。
再通過數據抽樣算法從匯聚中間庫中抽取部分業務數據樣本至樣本庫中,對樣本數據進行具體的數據質量檢測和評估。
根據數據質量分析結果對有問題的業務數據導入到異常庫中;同時對沒有問題的業務數據進行實體刻畫和關聯分析,形成不同類別的分類存儲庫。
2.3.3 異常檢測和問題反饋
通過數據質量評估,數據質量管理方將存在的問題反饋給數據源頭的業務應用系統管理人員。源數據系統管理方根據反饋的質量問題,進一步改進業務系統及生產數據。業務經辦人員也可根據數據質量反饋情況,進一步改進業務流程的推進業務運行以及數據質量。
通過上述反饋,新的數據再次進入內控管理系統,數據管理運營方進一步監控業務數據質量變化情況,定期再進行業務數據質量反饋,如此形成一個質量良性的生態環境數據管理閉環循環,從數據質量的角度不斷提升生態環境領域政務服務質量和效率。
本文圍繞生態環境數據資產治理,初步提出了一種數據治理方法,在厘清生態環境數據資源體系的基礎上,對生態環境數據資產進行數據梳理和整理,開展數據標準化、數據去噪、數據清洗等預處理、質量規則管理與評估分析、數據異常檢測等服務,形成統一的數據資產質量管理體系和規范,并提供數據質量評估檢測,梳理形成高質量、高可用的生態環境數據資產。經治理后的數據資產可有效促進省市生態環境數據規范管理,提高生態環境數據質量水平,為生態環境大數據創新應用體系建設提供強有力的數據支撐,助力生態環境智能化應用體系構建。