*雷敏珊張金碧
( 1.廣州市番禺區環境監測站 廣東 511483 2.廣東誠浩環境監測有限公司 廣東 511483)
關于環境監測數據中的異常數據分析與處理
*雷敏珊1張金碧2
( 1.廣州市番禺區環境監測站 廣東 511483 2.廣東誠浩環境監測有限公司 廣東 511483)
環境監測數據是環境管理與環境執法的主要依據,數據準確、可靠與否直接影響環境執法與環境管理的公正性與合理性,因而正確鑒別和處理異常數據是環境監測工作中的關鍵環節,鑒此,本文對環境監測異常數據的類型、產生原因、鑒別與處理方法進行了分析。
環境監測數據;異常數據;分析;處理
環境監測數據是環境管理、環境執法的基石,離開了準確可靠的數據支持,環境管理與環境執法也失去客觀有效的依據。但環境監測數據的獲得要經歷采樣、運輸、儲存、分析、數據處理等多個環節,任何一個環節的差錯都可能導致監測數據異常,所以正確分析和處理異常數據在環境監測工作中非常重要。環境監測異常數據一般是指環境監測中的失實數據,即顯著偏離環境實際質量、無法準確反映環境污染狀況的數據。但要從大量監測數據中鑒別并剔除異常數據并非易事,有些看似異常的數據背后可能隱藏著不為人知的因素,貿然剔除會失去深入了解和挖掘這種因素的機會,因此必須從技術上找到產生異常數據的原因,然后再采取正確的處理方法。
(1)環境監測異常數據的類型
異常數據分為離群數據、不合理數據、不符合實際的數據。所謂離群數據是指與全部監測數據平均值相差較大、按一定規則或經驗判為無效的數據,例如《飲食業油煙排放標準(試行)》(GB 18483-2001)第6.5節規定,5次采樣分析結果中的任何數據小于最大值的1/4,則為無效數據。不合理數據是指不符合日常監測邏輯的數據,例如環保治理設施進出口污染物濃度倒置。不符合實際的數據是指與長期監測結果形成的共識差距較大的數據,例如環境質量監測中的污染物濃度較高,而排污口濃度卻較低。
(2)環境監測數據異常的原因
如前所述,環境監測數據異常的原因與形成數據的過程有關,也就是由采樣誤差、運輸與存儲過程中樣品受到污染、分析誤差引起,當然也包括其他一些原因。采樣誤差是由采樣不規范、采樣位置不符合標準引起。運輸與存儲過程中樣品受到污染主要是由存放樣品容器受到污染、樣品存放過久而變質、儲藏條件不符合要求、樣品交叉污染等原因引起。分析誤差包括儀器未檢定、試劑失效、分析過程受到污染等原因。其他原因如監測工況不符合要求、采樣時間不符合規范等。當然,異常數據有些確實反映環境質量的實際變化情況,還有些是由于監測誤差和代表性不足所引起,更有一些無法明確數據異常的確切原因。
(1)環境監測異常數據的鑒別方法
①基于歷史數據的鑒別。各級環境監測站會對其管理區域的環境質量進行長期跟蹤監測并積累了大量數據,同時也掌握了各種監測數據的規律,憑此可判斷數據是否異常。因為歷史數據能反映污染物時空分布與變化規律、各種污染物與工藝流程的關系等情況。例如河道閘口下游不遠處的采樣點,若趕上開閘期間采樣就可能導致SS異常偏高。
②基于監測因子之間的邏輯關系的鑒別。各種監測因子之間存在一定的邏輯關系,例如污染物處理設施進出口濃度之間正常情況下應當是出口濃度低于進口濃度,如果數據倒置就可能存在異常。同一份樣品不同監測指標之間也存在一定關系,例如水環境監測中各監測項目之間存在比較固定的關系,DO與CODCr之間為負相關,BOD5與CODCr、CODMn與CODCr、NH3-N與CODCr之間均為正相關,偏離這個規律的數據可能存在異常。又如空氣自動監測系統也存在類似關系,PM2.5與PM10之間一般有相近的變化規律,當其中一個站點某一時段PM2.5突然下降,而PM10并無明顯變化時,PM2.5數據可能異常,例如下雨使空氣潮濕而堵塞濾芯。
③基于相關統計資料和物料衡算的鑒別。受監測條件、技術手段等因素的限制,加上有些企業排污設施不完善,廢水流量測量不準確,這種情況下可利用同類監測對象的統計資料進行類比分析,因為產品相同、工藝條件相似的生產企業,其排放的污染物成分、數量及變化趨勢有相似的規律可循,再結合物料衡算和其他環境要素的分析,則有助于鑒別監測數據的準確性。
④基于數理統計方法的鑒別。上述鑒別方法,主要針對監測數據平均值異常或個別監測數據偏離較遠的情況,當監測數據平均值正常而個別監測數據有一定偏離時,這些數據是否異常可通過數理統計方法進行鑒別。這方面的研究和方法比較多,例如拉依達(Pauta)法、肖維納(Chauvenet)法、格拉布斯(Grubbs)法、狄克遜(Dixon)法、奈爾(Nair)法、t檢驗法、偏度-峰度法等。決定采用哪種方法之前,先應確定樣本的分布類型,再采用適當的方法進行鑒別。一般取樣合理、合乎規范的數據應符合正態分布,否則要考慮取樣問題,例如數據是否來自同一樣本、數據量是否足夠、監測過程是否穩定等。確定數據是否符合正態分布,《數據的統計處理和解釋正態性檢驗》(GB/T 4882-2001)介紹了圖方法、矩檢驗、回歸檢驗和特征函數檢驗。圖方法是比較常用的方法,利用正態概率紙進行檢驗,如果觀測值累積分布函數近似為一條直線,說明數據符合正態分布。當樣本數量3≤n≤50時,可采用Shapiro-Wilk檢驗(簡稱W檢驗);n≥50時,可采用偏度-峰度(skewness kurtosis)法。下面將結合實例介紹數理統計方法的應用。
(2)環境監測異常數據的處理方法
如果監測數據異常是由企業排污和環境質量變化所引起的,就不能隨便刪除,而應就異常原因進行分析和說明,并將超標數據反映給環境管理部門,以督促企業進行整改。如果由于監測誤差、代表性差而引起數據異常,應對數據進行處理,這些數據不能和其他正常數據放在一起分析。當監測數據數量≥5個時,應將異常數據剔除,只要剩余有效數據≮3個,就用剩余數據進行分析評價;如果剩余有效數據<3個,應采取補充監測措施。如果不能確定監測數據異常的原因,就必須對污染源重新監測,并嚴格控制監測工況、儀器設備和環境因素等條件,以確保監測數據可追溯。
(3)環境監測異常數據的數理統計分析與處理實例
表1為某河道天然水樣總氮監測的一組數據,試檢驗數據是否符合正態分布,然后分別采用拉依達法、格拉布斯法、狄克遜法、t檢驗法判斷離群值。

表1 天然水樣總氮監測數據(mg/L)
①正態性檢驗。由于n=10<50,所以采用W檢驗方法。計算公式如下:

式中xi為按x1≤x2≤…≤xn排序的樣本數據;ai為待估常量,可查表計算;X為樣本數據平均值。
經計算W=0.860>0.842=Wp,P=0.077>0.05,接受正態性假設。
③格拉布斯法。確定置信概率α=0.05。算術平均值=0.2604,剩余誤差△X7=0.0156,標準偏差σ=0.0071。查表臨界值T0(10,0.05)=2.176,T0σ=0.01546。因△X7>T0σ,按格拉布斯準則應剔除。對剩下9個數據進行同樣檢驗,無異常值檢出,故只剔除7#數據。
④狄克遜法。確定置信概率α=0.05。將10個數據由小到大排列。然后按Dn=(Xn-Xn-1)/(Xn-X2)和Dn'=(X2-X1)/(Xn-1-X1)計算高端離群值和低端離群值,結果Dn=0.3636,=0,即Dn>Dn'。查表獲得臨界值D095(10)=0.53。因Dn<D095(10),無異常值檢出。
⑤t檢驗法。確定置信概率α=0.05。將10個數據由小到大排列。暫時去除Xn后算得'=0.2587,σ'= 0.004796,∣Xn-'∣=0.01733。臨界值K(10,0.05)=2.43,所以K(10,0.05)σ'=0.01165。因∣X1-'∣>K(10,0.05) σ',所以判定0.276為異常值,應予剔除。對剩下9個數據進行檢驗,剔除0.268。再對剩余8個數據進行檢驗,無異常值檢出,所以共剔除0.276、0.268兩個數據。
綜上,t檢驗法最嚴格,其次為格拉布斯法,拉依達法和狄克遜法較寬松。實際上小樣本時選擇格拉布斯法和t檢驗法較優。
“錯誤的數據比沒有數據更糟糕”,所以提供準確可靠的環境監測數據遠比僅僅提供數據要重要的多。為了提高環境監測數據質量,一方面要提高監測人員的職業素養,減少技術誤差;另一方面也要加強數據審核工作,并通過建立數據追溯制度,及時發現問題并找出數據異常的原因,以便不斷改進和完善監測工作,并為環境管理和環境執法提供科學有效的依據。
[1]李志明.環境監測數據審核及異常數據的處理[J].新疆環境保護,2013,35(2):41-44.
[2]牟永銘.環保驗收監測異常數據的分析與處理[J].環境監測管理與技術,2013,25(2):4-6.
[3]蔡同峰.現場監測數據審核方法及異常數據的判別研究[J].環境科學與管理,2014,39(10):60-62.
[4]張發兵,張明旭,韓中豪等.大樣本水環境監測數據中異常數據的篩選方法研究[J].中國環境監測,2007,23(2):54-57.
[5]管擎宇.環境空氣自動監測數據審核中異常數據判斷和處理[J]. 環境監控與預警,2016,8(5):59-63.
[6]王秋璐,周燕遐,陳斐等.基于SPSS的數理統計方法在海洋重金屬環境背景值計算中的應用[J].海洋通報,2012,30(1):100-103.
雷敏珊(1984~),女,廣州市番禺區環境監測站,研究方向:環境監測與監測數據綜合分析工作。
張金碧(1985~),女,廣東誠浩環境監測有限公司,研究方向:環境監測與實驗室管理工作。
(責任編輯 王恒)
Abnormal Data Analysis and Processing of Environmental Monitoring data
Lei Minshan1,Zhang Jinbi2
(1.Environmental Monitoring Station in Panyu District of Guangzhou,Guangdong,511483 2.Guangdong Chenghao Environmental Monitoring Co.Ltd,Guangdong,511483)
The environmental monitoring data is the main basis of environmental law enforcement and environmental management, whether t he data is accurate and reliable or not directly affect the impartiality and rationality of environmental law enforcement and environmental manageme nt, thus correctly identifying and processing abnormal data is the key link of environmental monitoring work, for which reason, this paper takes analy sis of the types, causes, identification and treatment methods of the environmental monitoring abnormal data.
environmental monitoring data;abnormal data;analysis;processing
T
A