黃 歡,張 哲,張春艷
(華測檢測認證集團股份有限公司,標準物質(zhì)研究中心,廣東 深圳 518000)
能力驗證(proficiency testing,PT)作為檢驗機構檢測能力評估的外部手段,既可以保證檢驗機構測試數(shù)據(jù)的可比性和有效性,又可以甄別不同檢驗機構間存在的差異、了解其在行業(yè)內(nèi)的檢測水平。統(tǒng)計評價是能力驗證計劃的重要環(huán)節(jié),不同的統(tǒng)計方法和評價方式,最終得到的實驗室能力評定結果也會存在差異。而統(tǒng)計方法和評價方式主要由能力驗證目的、數(shù)據(jù)分布情況、離群比例、測試方法特性、經(jīng)驗參考值等因素決定的。因此,如何根據(jù)實際情況選擇合適的結果統(tǒng)計方法和評價方式是能力驗證計劃成功的關鍵。
目前國內(nèi)的能力驗證計劃主要參照GB/T 28043-2019進行統(tǒng)計和評價,涉及到的主要統(tǒng)計方法有經(jīng)典統(tǒng)計方法、穩(wěn)健統(tǒng)計方法(迭代算法A、四分位法、Q方法/Hampel估計量)、經(jīng)驗模型法(Horwitz函數(shù))、自助法等[1-5]。經(jīng)典統(tǒng)計方法、穩(wěn)健統(tǒng)計方法(迭代算法A、四分位法)要求統(tǒng)計的數(shù)據(jù)先要符合(或近似符合)正態(tài)分布,如果數(shù)據(jù)服從(近似服從)正態(tài)分布,為避免離群值干擾,經(jīng)典統(tǒng)計方法用格拉布斯(Grubbs)準則等統(tǒng)計方法剔除離群值后計算指定值和能力評定標準差,而迭代算法A和四分位法一般具有不錯的穩(wěn)健性(效率和崩潰點),離群值對總體結果偏離影響權重較小,無需先剔除離群值[1]。Q方法/Hampel估計量、經(jīng)驗模型法(Horwitz函數(shù))、自助法對于數(shù)據(jù)的正態(tài)分布情況沒有要求,可適用于一些特殊或者數(shù)據(jù)非正態(tài)分布的情況。實驗室測試結果計算得到的指定值和標準差通常采用Z或Z’比分數(shù)進行能力評定,根據(jù)|Z|或|Z’|的大小來判斷結果的滿意情況。也有一些能力驗證采用百分相對差來評價結果,依據(jù)百分相對差是否在測試方法的最大允許誤差來判斷結果的滿意情況。
本文把2020年華測檢測認證集團股份有限公司標物中心組織的水質(zhì)氨氮的測定能力驗證(GZSCJ-2020-03)作為實例,比較了環(huán)境檢驗領域能力驗證常用的統(tǒng)計方法及其統(tǒng)計學特點,探究了水質(zhì)氨氮的測定能力驗證結果評價方式,為環(huán)境監(jiān)測領域的能力驗證計劃設計、實施、統(tǒng)計分析和結果評價等提供依據(jù),同時促進實驗室建設與質(zhì)量管理能力、環(huán)境領域檢測水平的提升。
本次能力驗證(GZSCJ-2020-03)依據(jù)ISO/IEC 17043:2010[6]中的一般要求進行方案設計。承辦方向每個參加實驗室發(fā)放2個樣品:A樣和B樣。發(fā)樣前均已進行樣品均勻性和穩(wěn)定性檢驗,樣品均勻性和穩(wěn)定性均符合要求[7]。為保證測試方法的一致性,參加實驗室被要求使用HJ 535-2009[8]或GB/T 5750.5-2006[9](9.1方法)進行樣品測試。本次計劃共有120家實驗室參加,最終所有實驗室均反饋測試結果。
為了解水質(zhì)氨氮測試結果的正態(tài)分布情況,作出了A、B樣測試結果核密度圖(圖1、圖2)。根據(jù)圖1、圖2可知,Q-Q圖均不呈直線,故可認為A、B樣測試數(shù)據(jù)不符合正態(tài)分布。同時,由圖1、2中核密度曲線可以看出,A、B樣核密度曲線均成近似對稱分布,分別在0.990 mg/L和2.50 mg/L附近各有一個明顯主峰,在主峰兩側有少許不明顯的小峰,由此可認為A、B樣測試結果都是近似服從正態(tài)分布的[10]。因此,本次能力驗證測試結果可使用經(jīng)典統(tǒng)計或穩(wěn)健統(tǒng)計等方法進行統(tǒng)計分析。

圖1 A樣結果核密度圖Fig.1 Kernel density plot of determined resultsfor sample A

圖2 B樣結果核密度圖Fig.2 Kernel density plot of determined resultsfor sample B
經(jīng)典統(tǒng)計方法通常對測試數(shù)據(jù)直接計算平均值和標準差,以平均值和標準差作為指定值和能力評定標準差。但由于測試常受到人員、方法、儀器等因素的影響,造成測試數(shù)據(jù)中存在一定比例的偏離數(shù)據(jù)主體的結果,需采用格拉布斯(Grubbs)準則等統(tǒng)計方法剔除離群值后再計算平均值和標準差。表1為測試數(shù)據(jù)采用經(jīng)典統(tǒng)計方法統(tǒng)計分析得到的結果。由于數(shù)據(jù)整體比較集中且近似服從正態(tài)分布,剔除離群值前后結果均值差異不大,但結果標準差明顯變小。

表1 經(jīng)典統(tǒng)計方法計算結果Table 1 Calculations of classical statistics
2.3.1 四分位法
四分位法是將中位值和標準化四分位距(nIQR)作為數(shù)據(jù)總體均值和標準差的穩(wěn)健估計的統(tǒng)計方法。對一組由小到大排列的數(shù)據(jù),居于中間位置的數(shù)據(jù)為中位值,居于下四分之一位置的數(shù)據(jù)為低四分位數(shù)(Q1),居于上四分之一位置的數(shù)據(jù)為高四分位數(shù)(Q3),nIQR等于四分位距(IQR,Q3-Q1)乘以0.7413(標準差校正因子)。四分位法只使用總體數(shù)據(jù)中段50%的數(shù)據(jù),崩潰點為25%,易于操作和計算,因此在許多能力驗證中得到應用。此外,四分位法的計算是假設數(shù)據(jù)服從正態(tài)分布的基礎上進行的,若數(shù)據(jù)不服從正態(tài)分布,則計算結果可能存在偏差[11]。表2為四分位法計算結果。

表2 四分位法計算結果Table 2 Statistical results of quartile method
2.3.2 迭代算法A
迭代算法A主要依靠winsorisation縮尾法進行原始數(shù)據(jù)轉換,以中位值和nIQR作為初始值,通過不斷迭代使其逐漸收斂而得到總體均值和標準差的估計,崩潰點為25%。在多次迭代過程中,離群值被逐步替換,降低了離群值的權重系統(tǒng),同時充分利用了數(shù)據(jù)信息,提升了統(tǒng)計量的效率和耐抗性[12]。該方法對于有拖峰或少數(shù)小峰的近似正態(tài)分布數(shù)據(jù)仍有不錯的效果。具體計算過程可參考GB/T 28043-2019計算公式,再利用EXCEL軟件實現(xiàn)計算。迭代算法A計算結果可參見表3。

表3 迭代算法A計算結果Table 3 Statistical results of robust algorithm A
2.3.3 Q方法/Hampel估計量
Q方法是使用基于數(shù)據(jù)集成對差計算的估計量Q或Qn作為數(shù)據(jù)總體標準差的估計值的算法。其具有較高的效率和崩潰點,當預期離群值比例大于20%或存在多峰分布時,使用Qn算法或Q算法估計標準差十分有效[11]。Qn算法可適用于每個參加實驗室的單一結果(包括重復測試的均值和中位值),而Q算法可適用于每個參加實驗室的單一結果(包括重復測試的均值和中位值)和重復測試結果[1]。Hampel估計是不同參加者測試結果均值的高效估計,基于測試數(shù)據(jù)和標準差(Q、Qn)計算得來。Qn/Hampel法的統(tǒng)計結果可使用R語言編程計算得到,Q/Hampel法可通過Q/Hampel方法網(wǎng)絡應用程序來實現(xiàn)統(tǒng)計量的計算[13]。Q方法/Hampel估計量計算結果可參見表4。從統(tǒng)計結果來看,B樣數(shù)據(jù)采用三種穩(wěn)健方法得到的CV值基本一致,但A樣數(shù)據(jù)使用四分位法算得的CV值較Q方法/Hampel估計量算法和迭代算法A有一定偏離。從圖1中可以看出,A樣Q-Q圖的線性較差,數(shù)據(jù)正態(tài)分布性差,因而四分位法算得的CV值較Q方法/Hampel估計量算法和迭代算法A存在偏離。而Q-Q圖的線性更好的B樣數(shù)據(jù),其四分位法算得的CV值與另外兩種穩(wěn)健方法基本一致。

表4 Q方法/Hampel估計量計算結果Table 4 Statistical results of Q/Hampel method
Horwitz函數(shù)描述了測試濃度與再現(xiàn)性標準差之間的關系,是一種經(jīng)過大量數(shù)據(jù)驗證的經(jīng)驗模型。能力驗證中常用的經(jīng)驗模型法,即是將測試數(shù)據(jù)的中位值帶入到Horwitz函數(shù)中,計算出測試方法的再現(xiàn)性標準差作為總體標準差,而中位值作為總體均值[14]。經(jīng)驗模型法可以根據(jù)GB/T 28043-2019相關計算公式進行計算。經(jīng)驗模型法計算結果可參見表5,經(jīng)驗模型法計算的結果標準差高于經(jīng)典方法和穩(wěn)健方法。經(jīng)典方法和穩(wěn)健方法主要是通過測試數(shù)據(jù)來估計標準差,計算結果會受到樣品特性、測試方法和測試水平等因素的影響,而經(jīng)驗模型法作為一種經(jīng)驗方法,總體標準差主要由測試結果的中位值代入經(jīng)驗公式進行估算。根據(jù)文獻報道,一些測試數(shù)據(jù)表明測試結果的中位值與標準差不一定服從Horwitz函數(shù)[15-16]。因此,經(jīng)驗模型法和其他統(tǒng)計分析方法的計算結果是可能存在差異的。

表5 經(jīng)驗模型法計算結果Table 5 Calculations of empirical model method
自助法一種再抽樣的過程,通過對原始數(shù)據(jù)有放回抽取n次,作為一個樣本,再重復抽樣R次,得到R個樣本。計算樣本均值抽樣分布的均值和標準差作為測試結果的指定值和評定標準差[5,17]。自助法對于數(shù)據(jù)的正態(tài)分布情況沒有要求,可適用于一些數(shù)據(jù)非正態(tài)分布的情況,而計算過程可以通過R語言編程來實現(xiàn)。表6為測試數(shù)據(jù)采用自助法統(tǒng)計分析得到的結果,其與經(jīng)典統(tǒng)計方法(未剔除)的結果基本一致。

表6 自助法計算結果Table 6 Statistical results of Bootstrap method
本次能力驗證計算結果指定值的不確定度(upt)均小于0.3倍的能力評定標準差(0.3σpt),無需使用Z’值進行能力評價[1]。同時,指定測試方法中無相關測試誤差的要求,故本計劃也未使用百分相對差來評價結果。而Z比分數(shù)作為能力驗證中一種經(jīng)典的能力評定方式,可用于經(jīng)典統(tǒng)計方法、穩(wěn)健統(tǒng)計方法、經(jīng)驗模型法(Horwitz函數(shù))、自助法等統(tǒng)計方式的結果評價。Z比分數(shù)按公式(1)計算:
(1)
式中:x為實驗室測試結果;X為指定值;σ為能力評定標準差。|Z|≤2.0為滿意結果,2.0<|Z|<3.0為可疑結果, |Z|≥3.0為離群結果。由于能力驗證發(fā)雙考核樣,故只有當兩個樣品結果均滿意時才能評價實驗室考核結果為滿意。如表7所示,不同統(tǒng)計方法得到結果統(tǒng)計量使用Z比分數(shù)進行評價。在本機構近四年組織的水質(zhì)氨氮的測定能力驗證項目中,樣品濃度范圍為0.5~3.0 mg/L,結果滿意率在83.0~89.2%左右。本次計劃中經(jīng)典統(tǒng)計方法(未剔除)、自助法和經(jīng)驗模型法(Horwitz函數(shù))法的總體滿意率均超過94%,表明這三種方法放寬評判范圍,可能造成取偽的情況。而四分位法的CV值最小,相應的總滿意率也低于80%,可能出現(xiàn)棄真的情況。迭代算法A和Q方法/Hampel估計量算法的CV值接近,且總滿意率較為合適。此外,HJ 535-2009[8]中精密度測試數(shù)據(jù)顯示 1.21 mg/L和1.47 mg/L標準樣品測得的實驗室間相對標準偏差分別為2.0%和1.4%,因此采用穩(wěn)健統(tǒng)計方法計算的CV值是可以接受的。由于數(shù)據(jù)離群值比例低于20%,且計算容易實現(xiàn),本研究最終選擇了迭代算法A作為本次能力驗證的統(tǒng)計分析方法[1]。

表7 不同統(tǒng)計方法Z比分數(shù)能力評定結果Table 7 Evaluation results of robust statistical Z-score for diverse statistical methods
當采用分割水平樣品(樣品對)的形式來考核實驗室能力時,根據(jù)每個實驗的測試數(shù)據(jù)(XA和XB)計算出樣品對Z比分數(shù),即實驗室內(nèi)Z比分數(shù)(ZW)和實驗室間Z比分數(shù)(ZB),來評價實驗室的測試水平[1,18]。首先,樣品對(A/B樣)的標準化和為XS,標準化差為XD,按公式(2)、(3)計算:
(2)
(3)
再由每一個參加實驗室的XS和XD,分別算得XS的中位值Med(XS)和標準四分位數(shù)間距nIQR(XS)、XD的中位值Med(XD)和標準四分位數(shù)間距nIQR(XD)。最后,按公式(4)、(5)計算ZB和ZW:
ZB=(XS-Med(XS))/nIQR(XS)
(4)
ZW=(XD-Med(XD))/nIQR(XD)
(5)
常規(guī)的Z比分數(shù)只能表示測試結果與指定值之間的偏離情況,不能區(qū)分實驗室內(nèi)差異和實驗室間差異,也無法說明造成結果差異的原因(室間系統(tǒng)誤差或室內(nèi)隨機誤差)。而對于樣品對Z比分數(shù),ZB的正負和大小代表實驗室的XS與Med(XS)的偏離方向和程度,它反映了實驗室檢測結果的系統(tǒng)誤差;ZW的正負和大小代表實驗室的XD與Med(XD)的偏離方向和程度,它反映了實驗室檢測結果的隨機誤差。因此,樣品對Z比分數(shù)可以用于評價結果與指定值的偏離情況,也能解釋數(shù)據(jù)的離散和異常情況。
本計劃按CNAS-GL002[18]要求,只有當|ZB|≤2且|ZW|≤2時,實驗室結果才判定為滿意。對A、B樣品數(shù)據(jù)的XS和XD統(tǒng)計結果評估見表8,ZB為可疑結果(2<|ZB|<3)的有2家(實驗室代碼為001、112),不滿意結果(|ZB|≥3)的有3家(實驗室代碼為045、098、102);ZW為可疑結果(2<|ZW|<3)的有9家(實驗室代碼為001、003、035、047、050、059、072、078、094),不滿意結果(|ZW|≥3)的有8家(實驗室代碼為025、028、046、079、098、101、102、112)。最終結果滿意率為85%,這與迭代算法A結果采用單一樣品Z比分數(shù)判定得到的總滿意率一致。

表8 樣品對Z比分數(shù)評價結果Table 8 Evaluation results of sample pairs Z-score
本研究對采用單一樣品Z比分數(shù)評價的結果和樣品對Z比分數(shù)進行比較。結果發(fā)現(xiàn),當采用單一樣品Z比分數(shù)進行評價時,代碼為001、025、035、047、072、078的6家實驗室結果均為滿意(雙樣品),但其ZW比分數(shù)結果表明這些實驗室的室內(nèi)重復性可能存在問題。因此,在能力驗證中使用分割水平樣品,對于實驗室潛在問題的分析具有積極的作用。
不同的統(tǒng)計分析方法,因其假設條件和計算原理的不同,數(shù)據(jù)計算結果可能存在差異。能力驗證組織者需根據(jù)實際條件、數(shù)據(jù)分布情況、方法特性、經(jīng)驗值和能力驗證目標等因素,選擇最合適的統(tǒng)計方法。本研究中測試數(shù)據(jù)近似服從正態(tài)分布,且離群值比例低于20%,因此使用計算易于實現(xiàn)的迭代算法A進行計算,統(tǒng)計結果采用單一樣品Z比分數(shù)進行能力評定。
使用分割水平樣品進行能力驗證,既可以評價結果與指定值的偏離情況,也能解釋數(shù)據(jù)的離散和異常情況。本研究嘗試采用樣品對Z比分數(shù)評價的結果和單一樣品Z比分數(shù)進行比較。結果表明普通Z比分數(shù)判定滿意的部分實驗室,樣品對Z比分數(shù)認為其室內(nèi)重復性可能存在問題。樣品對Z比分數(shù)對數(shù)據(jù)不同維度的分析,有利于實驗室潛在問題的發(fā)掘。