閆鵬魏+張永亮
摘 要:在水質分析時,經常會存在一些可疑值,對可疑數據處理常用方法有:拉依達法、Dixon法、Grubbs法。文章對這三種方法的計算方法,使用條件,方法優點以及多個可疑值出現時的處理問題做出探討。
關鍵詞:可疑值;3s法;Dixon法;Grubbs法
在水質分析時,異常值可能是因為各種隨機誤差的影響,也有可能因為其他因素。對可疑值的處理,可通過一些方法進行統計檢測。本文列出了三種方法,下面對這三種方法分別做出討論。
1 拉依達法
由于該方法是以3倍標準偏差作為判別標準,所以亦稱3倍標準偏差法,簡稱3S法。
適用條件:當測量數據較多時,且成正態分布時可選用此方法。
檢驗方法:檢測公式|x-xd|>3S (1)
x:樣本平均數xd:可疑數據S:樣本標準偏差,若xd滿足(1)式,則為離群值,應舍去。
取3S的理由:根據隨機變量的正態分布規律,在多次試驗中,測量值落在xd-3S與xd+3S之間的概率為99.73%,出現在此范圍之外的概率僅為0.27%,也就是在近400次試驗中才能遇到一次,這種事件為小概率事件,出現的可能性很小,幾乎是不可能。因而在實際試驗中,一旦出現,就認為該測量數據是不可靠的,應將其舍棄。
另外,當測量值與平均值之差大于2倍標準偏差(即|x-xd|>2S)時,則該測量值應保留,但需存疑。
方法優點:拉依達法簡單方便,不需查表,但要求較寬,當試驗檢測次數較多或要求不高時可以應用,當試驗檢測次數較少時(如n<10)在一組測量值中即使混有異常值,也無法舍棄。
2 Dixon法
適用條件:用于一組測量值的一致性檢驗和剔除離群值,本法中最小可疑值和最大可疑值進行檢驗的公式因樣本的容量(n)不同而異。
檢驗方法:(1)將一組數據從小大大排列為X1,X2,X3,…,Xn,X1和Xn分別為最小和最大可疑值;(2)按下表1求Q值。(3)通過顯著性水平以及n值,查出Q值。若Q≤Q0.05,則可疑值為正常值;若Q0.05Q0.01,則可疑值為離群值。
方法優點:相對比較嚴密,對一組數據中只有一個可疑值存在時較為適用。
注意問題:用該方法剔除一個可疑值時,若剩余數據還有可疑值存在,經過檢驗又被剔除,則說明該方法對此組數據檢驗存在誤差,不能再使用此方法,可使用Grubbs法。
表1 Dixon檢驗法計算公式和臨界值Qn表樣本數n 統計計算公式 顯著性水平(α)
檢驗最小異常值 檢驗最大異常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用條件:用于多組測量值均值的一致性和剔除多組測量值中的離群均值,也可以用于檢驗一組測量值的一致性和剔除一組測量值中的離群值。
檢測方法:對L組測量值,將每組n個測量值的均值記為x1 計算所有均值的總均值,標準偏差 若可疑值為最小值x1,則T=,若可疑值為最大值為x1,則T=。根據T值和L值對比臨界值表: 若T≤T0.05,為正常均值;若T0.05 表2 Grubbs檢驗臨界值(Ta)表 L 顯著性水平α L 顯著性水平α L 顯著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法優點:較Dixon法更為嚴密,能對一組數據中多個可疑值進行檢測,可進行多次可疑數據的剔除,提高數據處理的準確度。 注意問題:當可疑數據有兩個或兩個以上時,且均勻分布在同一側(即為x1,x2或xL-1,xL) 此時在檢測時,要先檢測靠近的可疑值(即為x2或xL-1),然后通過計算T= 來檢驗x2是否舍去,若x2離群,則x1必然離群,應當注意的是此時總均值=,不包括x2。同理檢驗xL-1,即T=,此時=,然后對照T值表,檢驗xL-1是否離群,若xL-1離群,則xL必然離群。當可疑數據在總均值兩側時,要先檢驗離均值遠的可以數據,若剔除了一個數據,在檢驗下一個時,此時總均值的求解為剩余L-1個均值的算術平均值。 通過這三種方法,我們可以在水質分析數據處理過程中提高我們檢測結果的準確度,從而相對客觀的反映水質情況,為水質鑒定,水污染防治提供可信資料。 參考文獻 [1] 奚旦立,孫裕生,劉秀英.環境監測[M].北京:高等教育出版社,2010. [2] 劉國華,呂曉柯,石晨,劉曉蕾,王鵬.初速數據判別方法研究[J].火炮發射與控制學報, 2013(3):01-0008-03. [3] 華東理工大學分析化學教研組,四川大學工科化學基礎課程教學基地編.分析化學[M].北京:高等教育出版社,2009,7. 作者簡介:閆鵬魏(1991- ),男,漢族,河南項城人,鄭州大學2011級給水排水工程本科生;張永亮(1991- ),男,漢族,河南長垣人,鄭州大學2011級給水排水工程本科生。
摘 要:在水質分析時,經常會存在一些可疑值,對可疑數據處理常用方法有:拉依達法、Dixon法、Grubbs法。文章對這三種方法的計算方法,使用條件,方法優點以及多個可疑值出現時的處理問題做出探討。
關鍵詞:可疑值;3s法;Dixon法;Grubbs法
在水質分析時,異常值可能是因為各種隨機誤差的影響,也有可能因為其他因素。對可疑值的處理,可通過一些方法進行統計檢測。本文列出了三種方法,下面對這三種方法分別做出討論。
1 拉依達法
由于該方法是以3倍標準偏差作為判別標準,所以亦稱3倍標準偏差法,簡稱3S法。
適用條件:當測量數據較多時,且成正態分布時可選用此方法。
檢驗方法:檢測公式|x-xd|>3S (1)
x:樣本平均數xd:可疑數據S:樣本標準偏差,若xd滿足(1)式,則為離群值,應舍去。
取3S的理由:根據隨機變量的正態分布規律,在多次試驗中,測量值落在xd-3S與xd+3S之間的概率為99.73%,出現在此范圍之外的概率僅為0.27%,也就是在近400次試驗中才能遇到一次,這種事件為小概率事件,出現的可能性很小,幾乎是不可能。因而在實際試驗中,一旦出現,就認為該測量數據是不可靠的,應將其舍棄。
另外,當測量值與平均值之差大于2倍標準偏差(即|x-xd|>2S)時,則該測量值應保留,但需存疑。
方法優點:拉依達法簡單方便,不需查表,但要求較寬,當試驗檢測次數較多或要求不高時可以應用,當試驗檢測次數較少時(如n<10)在一組測量值中即使混有異常值,也無法舍棄。
2 Dixon法
適用條件:用于一組測量值的一致性檢驗和剔除離群值,本法中最小可疑值和最大可疑值進行檢驗的公式因樣本的容量(n)不同而異。
檢驗方法:(1)將一組數據從小大大排列為X1,X2,X3,…,Xn,X1和Xn分別為最小和最大可疑值;(2)按下表1求Q值。(3)通過顯著性水平以及n值,查出Q值。若Q≤Q0.05,則可疑值為正常值;若Q0.05Q0.01,則可疑值為離群值。
方法優點:相對比較嚴密,對一組數據中只有一個可疑值存在時較為適用。
注意問題:用該方法剔除一個可疑值時,若剩余數據還有可疑值存在,經過檢驗又被剔除,則說明該方法對此組數據檢驗存在誤差,不能再使用此方法,可使用Grubbs法。
表1 Dixon檢驗法計算公式和臨界值Qn表樣本數n 統計計算公式 顯著性水平(α)
檢驗最小異常值 檢驗最大異常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用條件:用于多組測量值均值的一致性和剔除多組測量值中的離群均值,也可以用于檢驗一組測量值的一致性和剔除一組測量值中的離群值。
檢測方法:對L組測量值,將每組n個測量值的均值記為x1 計算所有均值的總均值,標準偏差 若可疑值為最小值x1,則T=,若可疑值為最大值為x1,則T=。根據T值和L值對比臨界值表: 若T≤T0.05,為正常均值;若T0.05 表2 Grubbs檢驗臨界值(Ta)表 L 顯著性水平α L 顯著性水平α L 顯著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法優點:較Dixon法更為嚴密,能對一組數據中多個可疑值進行檢測,可進行多次可疑數據的剔除,提高數據處理的準確度。 注意問題:當可疑數據有兩個或兩個以上時,且均勻分布在同一側(即為x1,x2或xL-1,xL) 此時在檢測時,要先檢測靠近的可疑值(即為x2或xL-1),然后通過計算T= 來檢驗x2是否舍去,若x2離群,則x1必然離群,應當注意的是此時總均值=,不包括x2。同理檢驗xL-1,即T=,此時=,然后對照T值表,檢驗xL-1是否離群,若xL-1離群,則xL必然離群。當可疑數據在總均值兩側時,要先檢驗離均值遠的可以數據,若剔除了一個數據,在檢驗下一個時,此時總均值的求解為剩余L-1個均值的算術平均值。 通過這三種方法,我們可以在水質分析數據處理過程中提高我們檢測結果的準確度,從而相對客觀的反映水質情況,為水質鑒定,水污染防治提供可信資料。 參考文獻 [1] 奚旦立,孫裕生,劉秀英.環境監測[M].北京:高等教育出版社,2010. [2] 劉國華,呂曉柯,石晨,劉曉蕾,王鵬.初速數據判別方法研究[J].火炮發射與控制學報, 2013(3):01-0008-03. [3] 華東理工大學分析化學教研組,四川大學工科化學基礎課程教學基地編.分析化學[M].北京:高等教育出版社,2009,7. 作者簡介:閆鵬魏(1991- ),男,漢族,河南項城人,鄭州大學2011級給水排水工程本科生;張永亮(1991- ),男,漢族,河南長垣人,鄭州大學2011級給水排水工程本科生。
摘 要:在水質分析時,經常會存在一些可疑值,對可疑數據處理常用方法有:拉依達法、Dixon法、Grubbs法。文章對這三種方法的計算方法,使用條件,方法優點以及多個可疑值出現時的處理問題做出探討。
關鍵詞:可疑值;3s法;Dixon法;Grubbs法
在水質分析時,異常值可能是因為各種隨機誤差的影響,也有可能因為其他因素。對可疑值的處理,可通過一些方法進行統計檢測。本文列出了三種方法,下面對這三種方法分別做出討論。
1 拉依達法
由于該方法是以3倍標準偏差作為判別標準,所以亦稱3倍標準偏差法,簡稱3S法。
適用條件:當測量數據較多時,且成正態分布時可選用此方法。
檢驗方法:檢測公式|x-xd|>3S (1)
x:樣本平均數xd:可疑數據S:樣本標準偏差,若xd滿足(1)式,則為離群值,應舍去。
取3S的理由:根據隨機變量的正態分布規律,在多次試驗中,測量值落在xd-3S與xd+3S之間的概率為99.73%,出現在此范圍之外的概率僅為0.27%,也就是在近400次試驗中才能遇到一次,這種事件為小概率事件,出現的可能性很小,幾乎是不可能。因而在實際試驗中,一旦出現,就認為該測量數據是不可靠的,應將其舍棄。
另外,當測量值與平均值之差大于2倍標準偏差(即|x-xd|>2S)時,則該測量值應保留,但需存疑。
方法優點:拉依達法簡單方便,不需查表,但要求較寬,當試驗檢測次數較多或要求不高時可以應用,當試驗檢測次數較少時(如n<10)在一組測量值中即使混有異常值,也無法舍棄。
2 Dixon法
適用條件:用于一組測量值的一致性檢驗和剔除離群值,本法中最小可疑值和最大可疑值進行檢驗的公式因樣本的容量(n)不同而異。
檢驗方法:(1)將一組數據從小大大排列為X1,X2,X3,…,Xn,X1和Xn分別為最小和最大可疑值;(2)按下表1求Q值。(3)通過顯著性水平以及n值,查出Q值。若Q≤Q0.05,則可疑值為正常值;若Q0.05Q0.01,則可疑值為離群值。
方法優點:相對比較嚴密,對一組數據中只有一個可疑值存在時較為適用。
注意問題:用該方法剔除一個可疑值時,若剩余數據還有可疑值存在,經過檢驗又被剔除,則說明該方法對此組數據檢驗存在誤差,不能再使用此方法,可使用Grubbs法。
表1 Dixon檢驗法計算公式和臨界值Qn表樣本數n 統計計算公式 顯著性水平(α)
檢驗最小異常值 檢驗最大異常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用條件:用于多組測量值均值的一致性和剔除多組測量值中的離群均值,也可以用于檢驗一組測量值的一致性和剔除一組測量值中的離群值。
檢測方法:對L組測量值,將每組n個測量值的均值記為x1 計算所有均值的總均值,標準偏差 若可疑值為最小值x1,則T=,若可疑值為最大值為x1,則T=。根據T值和L值對比臨界值表: 若T≤T0.05,為正常均值;若T0.05 表2 Grubbs檢驗臨界值(Ta)表 L 顯著性水平α L 顯著性水平α L 顯著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法優點:較Dixon法更為嚴密,能對一組數據中多個可疑值進行檢測,可進行多次可疑數據的剔除,提高數據處理的準確度。 注意問題:當可疑數據有兩個或兩個以上時,且均勻分布在同一側(即為x1,x2或xL-1,xL) 此時在檢測時,要先檢測靠近的可疑值(即為x2或xL-1),然后通過計算T= 來檢驗x2是否舍去,若x2離群,則x1必然離群,應當注意的是此時總均值=,不包括x2。同理檢驗xL-1,即T=,此時=,然后對照T值表,檢驗xL-1是否離群,若xL-1離群,則xL必然離群。當可疑數據在總均值兩側時,要先檢驗離均值遠的可以數據,若剔除了一個數據,在檢驗下一個時,此時總均值的求解為剩余L-1個均值的算術平均值。 通過這三種方法,我們可以在水質分析數據處理過程中提高我們檢測結果的準確度,從而相對客觀的反映水質情況,為水質鑒定,水污染防治提供可信資料。 參考文獻 [1] 奚旦立,孫裕生,劉秀英.環境監測[M].北京:高等教育出版社,2010. [2] 劉國華,呂曉柯,石晨,劉曉蕾,王鵬.初速數據判別方法研究[J].火炮發射與控制學報, 2013(3):01-0008-03. [3] 華東理工大學分析化學教研組,四川大學工科化學基礎課程教學基地編.分析化學[M].北京:高等教育出版社,2009,7. 作者簡介:閆鵬魏(1991- ),男,漢族,河南項城人,鄭州大學2011級給水排水工程本科生;張永亮(1991- ),男,漢族,河南長垣人,鄭州大學2011級給水排水工程本科生。