實驗室間比對是通過實驗室間測試結果比對評價實驗室進行某種特定檢測或測量的能力,是一種較好對實驗室持續檢測能力監控手段[1]。但在對各實驗室測試結果評價時,一般應對各實驗室測試結果進行判斷是否為離群值,若是離群,應剔除后再對剩下的實驗室測試結果進行評價。目前,檢驗實驗室間比對活動中測試結果是否離群的方法多種多樣,對于不同的測試項目及不同的數據類型應選擇一個恰當的方法進行檢驗。
本文以某次紡織品化學項目檢測實驗室間比對測試結果為例,介紹曼德爾(Mandel)h/k統計量檢驗[2]、柯克倫(Cochran)檢驗[2]、格拉布斯(Grubbs)檢驗[2]和迪克遜(Dixon)檢驗[3]在實驗室間比對檢驗離群實驗室中的應用。探討4種檢驗離群值方法的特點,以期給實驗室間比對活動中檢驗離群實驗室提供借鑒。
一般紡織品化學項目檢測均會對同一樣品進行多次測試,結合具體要求,最終出具測試結果。
本文選擇的是某次紡織品化學項目檢測實驗室間比對,共38家實驗室參加比對,各實驗室均按要求對同一樣品進行了兩次測試,測試結果匯總見表1。
針對此次紡織品化學項目檢測實驗室間比對測試結果,分別用曼德爾h/k統計量檢驗、柯克倫檢驗、格拉布斯檢驗和迪克遜檢驗進行統計分析。其中,曼德爾h統計量檢驗、格拉布斯檢驗和迪克遜檢驗是對實驗室間測試結果的準確度[7]進行檢驗,而曼德爾k統計量檢驗和柯克倫檢驗是對實驗室內測試結果的精密度[4]進行檢驗。
據一些研究表明[5-7],采用曼德爾h/k統計量檢驗既可以檢驗實驗室間的測試結果準確度,又可以檢驗實驗室內的測試結果精密度,相比其他檢驗方法更顯得直觀。
2.1.1 曼德爾h統計量
曼德爾h統計量是實驗室間測試結果的準確度,確定是否有實驗室的測試數據離群。某個實驗室的h值越大,表明其測試結果準確度越低。
假設有p家實驗室(i)參加比對,各實驗室測試結果為各實驗室的h值計算,見公式(1)。
hcrit,α是衡量某個實驗室測試結果準確度的檢驗臨界值,由公式(2)[8]計算可得,當h值小于等于5%的臨界值時,認為該值為可信值;當h值大于5%的臨界值且小于等于1%的臨界值時,認為該值為歧離值;當h值大于1%的臨界值時,認為該值為離群值。
其中,t值可通過t分布表獲得,也可由Excel函數“=TINV(α,v)”獲得,t的自由度v=p-2,α為檢驗水平。
2.1.2 曼德爾k統計量
曼德爾k統計量是檢驗室內測試結果的精密度,是對各實驗室測試結果進行離散性統計分析。某個實驗室的k值越大,表明其實驗室測試結果精密度越低。
假設有p家實驗室(i)參加比對,n是單個實驗室內重復測試次數[x1i,x2i,…,x(n-1)i,xni],各實驗室的k值計算,見公式(3)。
其中,Si為各個實驗室內測試結果標準偏差。
表1 38家實驗室測試結果匯總
kcrit,α是衡量某個實驗室內測試結果精密度的檢驗臨界值,由公式(4)[8]計算可得,當k值小于等于5%的臨界值時,認為該值可信值;當k值大于5%的臨界值且小于等于1%的臨界值時,認為該值為歧離值;當k值大于1%的臨界值時,認為該值為離群值。
其中,F值可通過F-F分布表獲得,也可由Excel函數“=FINV(α,v1,v2)”獲得,F值的自由度v1=n-1,v2=(p-1)(n-1),為檢驗水平。
由以上公式,對各實驗室測試結果進行首次檢驗,其分布直方圖如圖1所示。
圖1 各實驗室測試結果曼德爾h/k統計量首次檢驗
從圖1中可看出,曼德爾h統計量檢驗,Lab12為離群值實驗室,Lab24和Lab32為歧離值實驗室;曼德爾k統計量檢驗,Lab02與Lab35為離群值實驗室。
經過曼德爾h/k統計量檢驗多次剔除,最終剔除實驗室結果見表2。
表2 曼德爾h/k統計量檢驗結果
該檢驗是對各實驗室內測試結果標準差中的最大值進行檢驗,屬于單側檢驗。假設有p家實驗室(i)參加比對,各實驗室內測試結果標準偏差為,S1,S2,…,Si,…,Sp-1,Sp,各實驗室的C值計算,見公式(5)。
Ccrit,α是衡量某個實驗室內測試結果精密度的檢驗臨界值,通過與同一顯著性水平下的臨界值比對,判定最大標準偏差是否為離群值。由公式(6)[8]計算可得,當Cmax值小于等于5%的臨界值時,認為該值可信值;當Cmax值大于5%的臨界值且小于等于1%的臨界值時,認為該值為歧離值;當Cmax值大于1%的臨界值時,認為該值為離群值。
其中,F值可通過F-F分布表獲得,也可由Excel函數“=FINV(α,v1,v2)”獲得,F值的自由度v1=n-1,v2=(p-1)(n-1),α為檢驗水平。
由以上公式,對各實驗室測試結果進行檢驗,結果見表3。
表3 柯克倫檢驗結果
表3檢驗結果表明,此方法檢驗各實驗室內測試結果均無離群值和歧離值。
格拉布斯檢驗分為單個值循環檢驗和兩個值循環檢驗。
2.3.1 單個值檢驗
格拉布斯單個值檢驗用于判斷一組數據中最大值或最小值是否為離群值,屬于雙側檢驗。假設有p家實驗室(i)參加比對,先將各實驗室測試結果按由小到大的規律排列:x1,x2,…,xi,…,xp-1,xp。然后統計G值,見公式(7)和(8)。
Gcrit,α是衡量某個實驗室測試結果準確度的檢驗臨界值,通過與同一顯著性水平下的臨界值比對,判斷最大值或最小值是否為離群值。由公式(9)[8]計算可得,當Gmax或Gmin小于等于5%的臨界值時,認為Gmax或Gmin可信值;當Gmax或Gmin大于5%的臨界值且小于等于1%的臨界值時,認為Gmax或Gmin為歧離值;當Gmax或Gmin大于1%的臨界值時,認為Gmax或Gmin為離群值。
其中,t值可通過t分布表獲得,也可由Excel函數“=TINV(α/p,v)”獲得,t的自由度v=p-2,α為檢驗水平。
由以上公式,對各實驗室測試結果進行檢驗,結果見表4。
表4 格拉布斯單個值檢驗結果
表4檢驗結果表明,Gmax介于G0.05,38與G0.01,38之間,則測試結果最大的實驗室(Lab12)為歧離值。
2.3.2 兩個值檢驗
格拉布斯兩個值檢驗用于判斷一組數據中最大兩個值或最小兩個值是否為離群值,屬于雙側檢驗。假設有p家實驗室(i)參加比對,先將各實驗室測試結果按由小到大的規律排列:x1,x2,…,xi,…,xP-1,xP。然后統計G值,見公式(10)和(11)。
其中,Sx——各實驗室間測試結果標準偏差,Sp-1,p——除了兩個最大值后余下實驗室間測試結果標準偏差,S1,2——除了兩個最小值后余下實驗室間測試結果標準偏差。
查閱格拉布斯臨界表,通過與同一顯著性水平下的臨界值比對,判斷最大值或最小值是否為離群值。當Gmax或Gmin大于等于5%的臨界值時,認為Gmax或Gmin可信值;當Gmax或Gmin小于5%的臨界值且大于等于1%的臨界值時,認為Gmax或Gmin為歧離值;當Gmax或Gmin小于1%的臨界值時,認為Gmax或Gmin為離群值。
由以上公式,對各實驗室測試結果進行檢驗,結果見表5。
表5 格拉布斯兩個值檢驗結果
表5檢驗結果表明,此次測試結果最大的兩家實驗室(Lab12、Lab24)為離群值。
迪克遜檢驗根據實驗室數量不同,判斷一組數據中幾個最大值或幾個最小值是否為離群值,屬于雙側檢驗。假設有p家實驗室(i)參加比對,先將各實驗室測試結果按由小到大的規律排列:x1,x2,…,xi,…,xp-1,xp。
根據參加實驗室數量不同,應選擇不同的計算公式,共分為以下4種情況[3]:
查閱迪克遜臨界表,通過與同一顯著性水平下的臨界值比對,判斷最大值或最小值是否為離群值。當Dmax或Dmin小于等于5%的臨界值時,認為Dmax或Dmin可信值;當Dmax或Dmin大于5%的臨界值且小于等于1%的臨界值時,認為Dmax或Dmin為歧離值;當Dmax或Dmin大于1%的臨界值時,認為Dmax或Dmin為離群值。
此次參加比對的實驗室共有38家,選用第4種情況的公式進行計算。對各實驗室測試結果進行檢驗,結果見表6。
表6 迪克遜檢驗結果
表6檢驗結果表明,Dmax介于D0.05,38與D0.01,38之間,則測試結果最大的3家實驗室(Lab12、Lab24、Lab25)為歧離值。
由以上檢驗方法對某次紡織品化學項目檢測各實驗室間比對測試結果進行檢驗,其檢驗結果見表7。
由表7可看出,對此次實驗室間比對測試結果準確度的檢驗,曼德爾h統計量相比格拉布斯檢驗和迪克遜檢驗都要嚴格,檢驗出的離群值實驗室和歧離值實驗室的數量相對較多;精密度的檢驗,曼德爾k統計量相比柯克倫檢驗嚴格,檢驗出的離群值實驗室和歧離值實驗室的數量相對較多。
一般情況下在組織實驗室間比對時,對于一組測試結果,既要檢驗實驗室間測試結果的準確度,也要檢驗實驗室內測試結果的精密度。
上述中,曼德爾h/k統計量檢驗既可以檢驗實驗室間測試結果的準確度,同時也可以檢驗實驗室內測試結果的精密度,而且可以做出直方圖,更簡潔明了地看出各個實驗室測試結果偏離程度;而格拉布斯檢驗和迪克遜檢驗僅是檢驗實驗室間的準確度,柯克倫檢驗僅是檢驗實驗室內測試結果的精密度。
除了曼德爾h/k統計量檢驗能滿足準確度和精密度均檢驗外,其余3種檢驗方法均為單一檢驗,此3種方法應組合使用,如格拉布斯與柯克倫組合檢驗,迪克遜與柯克倫組合檢驗。此外,需根據比對項目的不同及得到的數據特點不同選擇恰當的檢驗方法,建議優先選用曼德爾h/k統計量檢驗。
表7 各檢驗方法對檢驗結果匯總表