李志華
(甘肅省定西生態(tài)環(huán)境監(jiān)測中心 甘肅定西 743000)
環(huán)境污染治理事關國家發(fā)展,相關部門提高了環(huán)境污染監(jiān)測標準、加大了對環(huán)境監(jiān)測力度。然而在環(huán)境監(jiān)測過程中仍然存在一些問題,比如監(jiān)測數(shù)據(jù)造假、監(jiān)測力度不夠。這些問題直接影響了環(huán)境污染治理問題。如何解決當前環(huán)境污染治理中存在的問題,是相關部門急需解決的問題。近年來隨著移動互聯(lián)網(wǎng)的不斷發(fā)展,無線傳感器應用到環(huán)境監(jiān)測中發(fā)揮了重要作用,馬冬[1]使用大數(shù)據(jù)技術研究了中國再用車排放情況,結果表明中國再用車合格率為89.5%、中國合資與自主品牌車之間合格率差異性較高。李蔚[2]研究了大數(shù)據(jù)解析技術在環(huán)境監(jiān)測中應用,使用神經(jīng)網(wǎng)絡算法進行PM2.5 濃度、氣象條件、交通情況、人群流動等特征分析,為環(huán)境監(jiān)測提供了新思路。
熊麗君[3]詳細研究了大數(shù)據(jù)技術在生態(tài)環(huán)境領域的應用現(xiàn)狀,指出當前大數(shù)據(jù)技術在環(huán)境監(jiān)測管理中中國還處于發(fā)展階段。目前大數(shù)據(jù)環(huán)境監(jiān)測管理主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析,數(shù)據(jù)采集主要使用地面監(jiān)測、遙感監(jiān)測、無線傳感器監(jiān)測;數(shù)據(jù)處理主要包括數(shù)據(jù)存儲管理、數(shù)據(jù)預處理管理、數(shù)據(jù)深度處理管理以及數(shù)據(jù)挖掘管理;數(shù)據(jù)分析包括各種人工神經(jīng)網(wǎng)絡算法、預測算法應用。關于大數(shù)據(jù)技術在環(huán)境污染治理中的應用目前國內(nèi)研究較少,本文進行詳細大數(shù)據(jù)污染治理研究。
環(huán)境保護是指人類未解決環(huán)境存在問題,協(xié)調(diào)人類與環(huán)境發(fā)展關系,保護人類生存資源以及經(jīng)濟可持續(xù)發(fā)展的總稱。目前環(huán)境保護主要有大氣污染、水污染、土壤污染等。
環(huán)境保護手段主要有環(huán)境監(jiān)測、環(huán)境治理,環(huán)境監(jiān)測是對環(huán)境指標進行檢測,根據(jù)檢測結果進行環(huán)境污染情況進行評價;環(huán)境治理是采用各種技術對已污染的環(huán)境進行修復降低環(huán)境污染程度。本文重點分析環(huán)境監(jiān)測在環(huán)境保護中作用。環(huán)境監(jiān)測在環(huán)境保護中的作用體現(xiàn)在:(1)能為環(huán)境保護提供數(shù)據(jù)支撐,目前環(huán)境保護制定了國家標準、行業(yè)標準、企業(yè)標準,這些標準中規(guī)定了環(huán)境污染的指標,環(huán)境監(jiān)測為環(huán)境污染指標提供數(shù)據(jù)。(2)為環(huán)境規(guī)劃提供決策數(shù)據(jù),隨著國民經(jīng)濟不斷發(fā)展,中國環(huán)境保護工作不斷提升,對環(huán)境規(guī)劃提出了更高要求。環(huán)境監(jiān)測為環(huán)境規(guī)劃提供了數(shù)據(jù)源[4]。
本文在現(xiàn)有的環(huán)境污染基礎上進行問卷調(diào)查,得到基于大數(shù)據(jù)的環(huán)境污染治理系統(tǒng)包含功能主要有:環(huán)境污染治理系統(tǒng)管理、環(huán)境污染治理設備管理、環(huán)境污染治理數(shù)據(jù)采集管理、環(huán)境污染治理數(shù)據(jù)預處理、環(huán)境污染治理數(shù)據(jù)分析管理、環(huán)境污染預警管理、環(huán)境污染數(shù)據(jù)統(tǒng)計管理、環(huán)境污染決策管理。環(huán)境污染治理系統(tǒng)包含功能有:環(huán)境污染治理系統(tǒng)權限管理、環(huán)境污染治理系統(tǒng)人員管理、環(huán)境污染治理數(shù)據(jù)安全管理;環(huán)境污染治理設備管理包括環(huán)境設備信息添加、環(huán)境設備信息查看、環(huán)境設備信息刪除、環(huán)境設備信息修改、環(huán)境設備使用添加管理、環(huán)境設備使用修改管理、環(huán)境設備使用挖掘管理;環(huán)境污染治理采集管理包括傳感器采集管理、人員采集管理、大數(shù)據(jù)存儲管理;環(huán)境污染數(shù)據(jù)預處理包括預處理規(guī)則設置、預處理分析;環(huán)境污染治理分析包括智能算法應用、分析結果顯示;環(huán)境污染預警管理包括預警提示、預測設置;環(huán)境污染治理統(tǒng)計包括信息查詢、信息分析;環(huán)境污染決策管理包括決策信息添加、決策信息生成。
環(huán)境污染治理中數(shù)據(jù)存儲是關鍵技術,目前常見的開源數(shù)據(jù)存儲框架為Hadoop,該框架中核心功能模塊為HDFS、MapReduce,HDFS 主要用于存儲環(huán)境污染數(shù)據(jù),使用非結構化數(shù)據(jù)結構;MapReduce 是分布式計算,非常適合環(huán)境監(jiān)測數(shù)據(jù)管理,兩者結合使用提高了環(huán)境監(jiān)測管理數(shù)據(jù)存儲能力。圖1 為基于大數(shù)據(jù)的環(huán)境污染架構圖。

圖1 基于大數(shù)據(jù)的環(huán)境污染架構圖
圖1 可知基于大數(shù)據(jù)的環(huán)境污染包括了數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)分析等功能。數(shù)據(jù)源是將分布在各地的環(huán)境監(jiān)測設備采集信息獲取存儲,進行分析,從而獲取有價值的數(shù)據(jù)為后續(xù)數(shù)據(jù)分析提供數(shù)據(jù)源。數(shù)據(jù)采集結構包括結構數(shù)據(jù)、非結構化數(shù)據(jù)(主要有平臺運行日志、設備采集日志、設備采集文字、圖片等信息)。數(shù)據(jù)存儲層中是構建分布式文件系統(tǒng)(HDFS),能實現(xiàn)海量的環(huán)境監(jiān)測數(shù)據(jù)存儲,滿足非結構化存儲,此外還具有強大的容量可擴展性,能夠實現(xiàn)文件自動備份、遷移。數(shù)據(jù)計算層中使用MapReduce 框架進行分布式計算,采用單元計算,最后合并結果,實現(xiàn)了快速計算、吞吐量大、擴展性計算強的功能。此外利用Spark 技術能夠降低內(nèi)存讀取效率,提高數(shù)據(jù)分析效率。數(shù)據(jù)服務層是進行數(shù)據(jù)挖掘功能,利用實時決策、機器學習等技術進行環(huán)境監(jiān)測數(shù)據(jù)分析,為環(huán)境治理提供決策。
環(huán)境監(jiān)測設備分布在各地,使用分布式管理系統(tǒng)非常適合,HDFS 用于環(huán)境監(jiān)測數(shù)據(jù)存儲具有較高的容錯性和可用性。HDFS 系統(tǒng)中使用一個主控節(jié)點NameNode 和多組DataNode 節(jié)點,NameNode 節(jié)點主要進行環(huán)境監(jiān)測數(shù)據(jù)文件名管理,DataNode 主要存儲環(huán)境監(jiān)測數(shù)據(jù),圖2 為環(huán)境監(jiān)測HDFS 結構圖。所設計的環(huán)境監(jiān)測分布式系統(tǒng)提供文件操作類,可進行文件讀寫、文件關閉等功能。所設計的存儲管理類中提供Path 路徑類,實現(xiàn)數(shù)據(jù)存儲路徑管理。Path 類中提供參數(shù)配置變量,變量值存儲于開源數(shù)據(jù)庫SQLite 數(shù)據(jù)庫中。Path 中提供文件讀函數(shù),能夠進行設備檢測數(shù)據(jù)讀操作,為提高設備讀效率本文使用Java 多線程技術進行數(shù)據(jù)讀操作。Path 類中提供文件寫操作,完成操作后使用CloseStream()方法進行數(shù)據(jù)流關閉。

圖2 環(huán)境監(jiān)測HDFS結構圖
所設計的環(huán)境監(jiān)測數(shù)據(jù)預警系統(tǒng)是由權限管理、安全認證、技術層組成。技術層中主要包括環(huán)境監(jiān)測場景應用、運行數(shù)據(jù)層、核心能力層以及數(shù)據(jù)采集層組成,圖3 為環(huán)境監(jiān)測數(shù)據(jù)預測管理結構體系。

圖3 環(huán)境監(jiān)測數(shù)據(jù)預測管理結構體系[5]
環(huán)境監(jiān)測場景應用主要進行數(shù)據(jù)網(wǎng)關管理;運行數(shù)據(jù)層主要進行數(shù)據(jù)清洗、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)查詢;核心能力層主要包括Hadoop 集群、云存儲、數(shù)據(jù)庫管理;數(shù)據(jù)采集層主要包括歷史數(shù)據(jù)管理、監(jiān)測數(shù)據(jù)管理。安全認證管理使用iPaas 認證管理技術。權限管理采用權限管理機制進行管理。
環(huán)境監(jiān)測數(shù)據(jù)異常數(shù)據(jù)方法可使用文獻[5]中提供樣本數(shù)據(jù)處理公式進行處理。
假設存在n 個環(huán)境監(jiān)測數(shù)據(jù)屬性值,用符號m 表示環(huán)境監(jiān)測數(shù)據(jù)維度,用符號S(t0)表示設備tk時刻采集數(shù)據(jù)的樣本。根據(jù)設備性能,得到剔除異常數(shù)據(jù)方法可使用公式1 所示方法。

式中:SC(t-1)表示-1時刻設備運行數(shù)據(jù);r(SC(t-1))表示設備采集數(shù)據(jù)結果。
大數(shù)據(jù)應用以環(huán)境污染治理為目的。環(huán)境污染治理中應根據(jù)國家、人民需求進行大數(shù)據(jù)應用方法制定,從而實現(xiàn)環(huán)境污染治理信息傳播、交流。綜合各地環(huán)境因素、經(jīng)濟指標等進為環(huán)境污染治理提供準確的治理信息。