馬文麗,林立民,孫艷勤,宋曉東
(內蒙古蒙牛乳業(集團)股份有限公司,內蒙古 呼和浩特 011500)
數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。利用穩健(Robust)統計法、格拉布斯檢驗法(Grubbs)、科克倫(Cochran)檢驗法三種統計方法對實驗室間比對的檢測數據進行統計分析,發現在計算過程特別是離群值判斷方面存在較大差異,現將三種統計方法進行詳細介紹與分析,對結果進行客觀的評價。
采用穩健統計法進行統計分析的前提是假設分析的結果服從正態分布。在開始進行統計分析之前,應確保所采集的數據是正確、合理的,并對數據中的粗大誤差和潛在問題進行識別。通常在數據統計過程中需要統計結果數、中位值、標準四分位間距(標準化IQR)、穩健CV、最小值、最大值和極差七種統計量。這些統計量的計算是進行實驗室結果統計評價的基礎。其中最重要的統計量是中位值和標準化IQR,它們是數據集中和分散的量度,屬于穩健統計量,不受數據中離群值的影響。
對實驗室檢測結果應使用基于穩健總計統計量的Z比分數(中位值和標準化IQR)進行評價。對于分割水平對樣品a和樣品b應統計計算兩個Z比分數——實驗室間Z比分數(ZB)和實驗室內Z比分數(ZW)。它們分別基于結果對的標準化和(S)和標準化差(D)來進行計算,標準化和(S)和標準化差(D)的計算公式如下:
(1)
(2)
通過計算各實驗室的標準化和(S)和標準化差(D),可統計出所有參加實驗室的S和D的中位值和標準化IQR,再根據公式(3)和公式(4)計算實驗室間Z比分數(ZB)和實驗室內Z比分數(ZW)。
(3)
(4)
實驗室結果依據Z比分數(包括ZB和ZW)進行評定。|Z|≥3的結果為離群值,2<|Z|<3時為可疑值。正的實驗室間離群(即ZB≥3)表明該樣品對的兩個結果太高,負的實驗室間離群值(即ZB≤-3)表明其結果太低,而實驗室內離群值則表明其兩個結果間的差值太大。
科克倫檢驗法應用于所有標準差都是在重復性條件下,且由相同數目(n)的測試結果計算得出的情形。實際中由于數據的缺失或剔除,測試結果數可能不同。所以假定在正常組織的試驗中,每個實驗室的測試結果數目不同所造成的影響是有限且可以忽略的,科克倫檢驗中所用的n可取多數實驗室的測試結果數。
該統計方法是對標準差的最大值進行評定,屬于單側檢驗。統計過程為先將全組實驗室檢測結果標準差從小到大排列,然后根據標準差的最大值計算科克倫檢驗的統計量,見公式(5)。查閱科克倫檢驗臨界值表,通過比較相同顯著水平下的臨界值來判定該最大標準差是否為離群值。如果標準差的最大值是離群值,則將該值舍去后對剩余的標準差重新計算科克倫檢驗的統計量。
(5)
式中,si為實驗室的標準差,smax是si中最大值。
離群值的判斷:
(a)當統計量小于等于5%的臨界值時,認為該值是正常值。(b)當統計量大于5%的臨界值且小于等于1%的臨界值時,該值為可疑值。(c)當統計量大于1%臨界值時,認為該值是統計離群值。
格拉布斯檢驗法適用于判定一組檢測結果中最大值或最小值是否為離群值,此方法通過計算平均值和標準偏差(s)然后再計算統計量(G),見公式(6)、公式(7)。通過查閱Grubbs檢驗臨界值表獲得一定顯著性水平(α)下的臨界值,比較統計量(G)與查到的臨界值。當統計量(G)大于臨界值時,此數據即為離群值,并對剩余數據繼續檢驗,直到數據中無異常值為止。
Grubbs檢驗的統計量計算公式為:
(6)

最小值x1的統計量計算公式為:
(7)
式中,x1為一系列數據xi(i=1,2,…,p)中的最小值。
離群值的判斷:
(a)當統計量小于等于5%的臨界值時,認為該值是正常值。(b)當統計量大于5%的臨界值且小于等于1%的臨界值時,該值為可疑值。(c)當統計量大于1%臨界值時,認為該值是統計離群值。
樣品檢測結果見表1。

表1 實驗室間比對結果
本次牛奶中營養元素指標實驗室間比對采用“分割水平”的樣品設計,脂肪的樣品分為A、B兩組,蛋白質的樣品分為C、D兩組。在對實驗室檢測能力進行評定時,不出具“合格”與否的結論,而是使用“滿意”、“可疑”或“離群”的概念。如果一個結果被評定為離群值,這意味著從統計上看它明顯地不同于同組的其他結果。
用穩健統計法計算各參加實驗室的實驗室間Z值(ZB)和實驗室內Z值(ZW)。通過對檢測結果進行統計分析,本次脂肪檢測項目發現實驗室間離群4家,實驗室間可疑0家,實驗室內離群4家,實驗室內可疑0家;對于蛋白質檢測項目,此次有實驗室間離群4家,實驗室間可疑1家,實驗室內離群0家,實驗室內可疑4家。將實驗室Z值(ZB和ZW)合并統計,本次脂肪項目共有91.11%的實驗室結果滿意,8.99%的實驗室離群;蛋白質項目共有90%的實驗室結果滿意,5.56%的實驗室可疑,4.44%的實驗室離群。具體穩健統計如表2。

表2 實驗室間比對穩健統計結果
由統計數據可見,實驗室內的離群與可疑明顯多于實驗室間離群與可疑,說明實驗室內部檢測過程中的隨機誤差比較多,而實驗室間的系統誤差要少一些。
用科克倫檢驗法進行數據統計時,需要計算統計量C,再與臨界值進行比較判定離群值。科克倫檢驗法是對檢測結果的標準偏差進行統計以剔除離群值。經過統計計算,本次實驗室比對活動中,樣品A、樣品B、樣品C、樣品D均無可疑值和離群值。

表3 實驗室間比對柯克倫檢驗統計結果
根據科克倫統計原理,采用此方法時,參與實驗室數量越多,其對應的臨界值越小,即要求標準偏差的離散程度要小。參與實驗室數量少時,對應的臨界值大,那么對于數據標準偏差離散程度的要求就不是那么嚴格。因此,在此次實驗室間比對活動參與實驗室較多,而數據的離散程度偏大的情況下,科克倫檢驗法評定剔除的離群值相對較多。
在此次實驗室間比對中,對同一種樣品的檢測結果呈兩端離散的形式,所以在采用格拉布斯檢驗法進行數據統計時,需要同時對最大值和最小值計算統計量Gp和G1,再與臨界值G(α)比較。如果Gp>G1且Gp>G(α),則評定最大值為離群值;如果G1>Gp且G1>G(α),則評定最小值為離群值。對于樣品A,計算發現離群值1個;對于樣品B,計算發現可疑值1個,離群值2個;對于樣品C,計算發現離群值2個;對于樣品D,計算發現離群值1個。
格拉布斯檢驗法是對實驗室檢測結果的平均值進行統計,從而剔除離群值。在數據量較少時,其對應的臨界值越小,那么剔除離群值的概率就較大。在數據量較大時,其對應的臨界值越大,那么剔除離群值的概率就較低。
對于本次實驗室間比對樣品的參考值,不同的統計方法依據不同的統計量來反映。穩健統計法采用中位值反映樣品的參考值,而科克倫檢驗與格拉布斯檢驗則采用總平均值。總平均值并不是對一組數據計算其平均值得到的,而是首先通過科克倫檢驗法對標準偏差進行評價剔除離群值,然后通過格拉布斯檢驗法剔除平均值的離群值,之后再對剩余的數據計算平均值即為總平均值。

表4 實驗室間比對格拉布斯統計結果
通過對本次實驗室間比對數據的計算,得到的參考值與離群情況見表5、表6。

表5 實驗室間比對參考值比較

表6 實驗室間比對結果統計
由表5、表6可以看出,雖然通過穩健統計法判定出的可疑值與離群值數量與通過科克倫檢驗法和格拉布斯檢驗法剔除的可疑值與離群值數量有較大的差別,但是兩種統計方法計算的樣品參考值是很接近的。由此可以看出,穩健統計法和由科克倫檢驗法與格拉布斯檢驗法組合檢驗這兩種檢驗方法的統計參數受極端值的影響都不大。
通過對此次實驗室間比對數據的分析統計,可以看出,穩健統計法不受數據量多少的影響,而且受極端值的影響也不大。由科克倫檢驗法與格拉布斯檢驗法組合檢驗的統計方法,受數據量多少的影響較大,而受極端值的影響較小。不過兩種統計方法相比較,穩健統計法在數據處理和計算程序上更加科學、直觀和簡潔方便。