鄭 蓓,張雯雯,王 新,李紅巖,龔迪慧,趙 星
1.中國科學院生態環境研究中心環境水質學國家重點實驗室,北京 100085
2.農業農村部規劃設計研究院,北京 100125
發現是阻斷的基礎,監測是治理的保障[1]。開展水質監測是實現水生態環境污染管控的前提。能力驗證作為國際通行的質量控制措施,是確保水質監測數據不發生偏離的必要手段[2-4],是檢驗檢測機構進行質量管理、確保結果有效性的內在需要,也是檢驗檢測市場中的相關機構開展交流合作的窗口[5-7]。z值評價是對參加者反饋的檢測結果進行評價的常用方法,其中指定值是進行z值評價的關鍵參數,通常采用穩健統計中的穩健平均值或經典統計中的樣本平均值[6-8]。在進行穩健統計和經典統計分析時,樣本量的多少會對統計結果產生影響。如果參加者的數量低于17家,就會被認定為低樣本量;如果參加者的數量少于12家,就不可以開展統計計算,否則極易導致極端評價結果[9-10]。在組織實施“一帶一路”共建國家能力驗證工作中發現,在低樣本量下,當指定值與樣品真值的相對誤差較大時,存在數據質量差的參加者仍能獲得“滿意”評價結果的可能。此時,引起數據“不準確”的風險點會被評價結果掩蓋,使得參加者不能及時對質量管理體系進行改進,從而為檢驗檢測市場的整體良性發展埋下隱患。國內對上述問題的解決方案目前仍處于空白狀態,因此,能力驗證組織機構對適合低樣本量的評價體系的需求極為迫切。
為此,本文建立了“z值評價-風險評估-技術核驗”統計評價模型。該模型對低樣本量參加者以同濃度“樣品對”的形式進行考核,根據z值評價結果,對獲得“滿意”評價結果的參加者進行風險評估,即實驗室內z比分數計算。隨后,對于存在數據“不準確”中/高風險的機構,依據其反饋的檢測方法原文對原始記錄進行技術核驗,以發現問題(即風險點)并向參加者反饋。為證實該模型的可行性,選取“一帶一路”共建國家檢驗檢測機構“水中鐵和氟化物的檢測”國際能力驗證項目數據,按國內、國外、國內外混合3種方式形成不同樣本量的數據組,開展同組數據中的不同樣本量對z值評價的影響分析,并進行技術核驗。
“一帶一路”共建國家檢驗檢測機構“水中鐵和氟化物的檢測”國際能力驗證項目參加者中,國內參加者共60家,涉及遼寧、廣東、河北、湖北、湖南、吉林、江蘇、黑龍江、安徽、江西、四川、浙江、山東、山西、甘肅、陜西、海南、貴州、青海、河南等20個省,北京、上海、重慶、天津等4個直轄市,以及西藏、廣西、新疆等3個自治區,代碼為201~260;國外參加者共22家,涉及新加坡、緬甸、斯里蘭卡、尼泊爾、印度尼西亞、埃塞俄比亞、尼日利亞、突尼斯、布隆迪、肯尼亞、委內瑞拉、俄羅斯共計12個國家,屬于低樣本量,代碼為101~122。能力驗證樣品的設計濃度水平參考《地表水環境質量標準》(GB 3838—2002)、《地下水質量標準》(GB/T 14848—2017)和《生活飲用水衛生標準》(GB 5749—2006,項目啟動時GB 5749—2022尚未發布)中的限值,并參照美國國家環境保護局2018EditionoftheDrinkingWaterStandardsandHealthAdvisoriesTables(EPA 822-F-18-001)、世界衛生組織GuidelinesforDrinking-WaterQuality(2022年版)中的要求,選擇同濃度“樣品對”開展工作。樣品的制備、定值、均勻性檢驗、穩定性檢驗以及不確定度評定均委托中國計量科學研究院完成,詳見表1。

表1 “樣品對”定值結果及均勻性與穩定性
將國內參加者設為A組,國外參加者設為B組,國內外參加者混合設為A+B組。選用穩健統計方法(算法A)和正態分布經典統計法分別計算3組數據的指定值和能力評定標準差,同時計算指定值與樣品真值間的相對誤差。正態分布經典統計法是將數據按分布頻率繪制成直方圖,若呈正態分布則可采用經典統計方法[11]。穩健統計方法(算法A)是將數據進行迭代統計,直至穩健平均值和穩健標準差的第3位有效數字在兩次迭代中不變[12-14]。
z值評價中的z比分數的計算方法如公式(1)所示:

(1)

當兩個樣品的計算結果為|z|≤2.0時,評價結果為“滿意”;當兩個樣品中的任一樣品的計算結果為2.0<|z|<3.0時,評價結果為“有問題”;當兩個樣品中的任一樣品的計算結果為|z|≥3.0時,評價結果為“不滿意”。
風險評估針對的是獲得“滿意”評價結果的機構,借鑒了《能力驗證結果的統計處理和能力評價指南》(CNAS-GL002)中的實驗室內z比分數的計算方法,但不做合格評定,詳見公式(2)和公式(3)。z比分數的數值越大,代表參加者對同濃度“樣品對”的檢測結果的離散程度越高。本文在z值評價的基礎上,對樣本量小、數據質量差的B組數據進行了風險評估。
假設檢測結果是從“樣品對”A、B中獲得的,按照公式(2)計算每個參加者的檢測結果的標準化差(D,保留正負號):
(2)
通過計算每個參加者的“結果對”的標準化差,可以得出所有參加者標準化差的中位值(Dmed)和標準化四分位距(DNIQR)。按照公式(3)計算實驗室內z比分數(ZW):
(3)
數據“不準確”的低風險線為|ZW|<2.0,數據“不準確”的中風險線為|ZW|>2.0,數據“不準確”的高風險線為|ZW|≥3.0。
技術核驗是對風險評估結果的驗證,包括檢測方法核驗與原始記錄篩查。檢測方法核驗是梳理出方法原文中的儀器、試劑、質控和檢出限等方面的要求,原始記錄篩查是依據梳理結果對參加者反饋的記錄作逐一確認的過程。本文的技術核驗范圍為B組中獲得“滿意”評價結果的數據“不準確”高風險參加者。
z值評價是通過對參加者反饋的數據進行統計,從而在獲得指定值的基礎上得到計算值,因此,指定值決定著z值評價結果。關于數據統計方法是否會影響指定值的大小,需要通過數據證實。文獻[15-16]指出,指定值與樣品真值的相對誤差(以下簡稱相對誤差)可以反映參加者的數據質量,相對誤差越大表示參加者反饋的數據質量越差。關于樣本量是否會對相對誤差產生影響,也需通過數據證實[17]。由圖1可知,無論采用哪種統計方法,A組數據的相對誤差范圍為-0.7%~1.1%,B組數據的相對誤差范圍為-4.3%~7.3%。相對于A組數據,B組數據的質量相對較差。但當兩個樣本組混合后,A+B組的相對誤差范圍為-0.7%~0.9%,數據質量整體得到提升,說明此時B組數據的真實質量已被較大的樣本量掩蓋。結合表2可知,對于同一數據組,不同統計方法對指定值量值的影響不大,因此,本文后續選用穩健統計方法(算法A)進行z值計算。

注:a、b表示兩個不同的樣品。圖1 指定值與樣品真值的相對誤差

表2 數據組的統計方法、指定值和能力評定標準差
已有研究報道分析了樣本量對z值評價結果的影響[10,18],但未揭示低樣本量時參加者的z值評價結果的真實性被掩蓋的問題。圖2為同一數據組在不同樣本量下的z值評價結果。A、B兩組數據混合從而增大樣本量后,A組參加者的評價結果改變不大,而B組的評價結果受影響顯著。在低樣本量下,B組鐵檢測項目中獲得“不滿意”評價結果的參加者的數量為2家,代碼分別為103和120;氟化物檢測項目中獲得“不滿意”評價結果的參加者的數量為2家,代碼分別為103和105。將其混入大樣本量數據組后,B組鐵檢測項目中獲得“不滿意”評價結果的參加者的數量增加至6家,代碼分別為103、106、117、118、119和120;氟化物檢測項目中獲得“不滿意”評價結果的參加者的數量增加至8家,代碼分別為102、103、104、105、109、110、116和120。


圖2 同一數據組在不同樣本量下的z值評價結果
上述結果說明,樣本量對評價結果的影響真實存在。A組數據樣本量大,相對誤差小于1.5%,評價結果能真實反映參加者的檢測能力。B組數據為低樣本量數據,相對誤差的絕對值大于4%,評價結果與參加者的真實能力水平不一致。例如,119號參加者的鐵檢測項目的樣品a檢測結果為29.66 mg/L,與指定值的相對誤差為-12.2%,與樣品真值的相對誤差為-15.5%,不符合分析化學對數據準確度的要求,但在低樣本量下,該參加者卻獲得了“滿意”評價結果。為彌補z值評價方法的不足,需進一步對B組獲得“滿意”評價結果的機構進行風險評估。
風險評估是在同濃度“樣品對”的形式下,利用實驗室內z比分數對獲得“滿意”評價結果的機構再次進行評定。實驗室內z比分數表達的是實驗室內部的隨機誤差。研究表明[19-20]:隨機誤差不能通過修正或采取某種技術措施的方式來消除;隨機誤差是造成參加者內部數據“不準確”的風險因素,應及時發現并予以糾正。
圖3為B組數據中獲得“滿意”評價結果的參加者的風險評估結果。鐵檢測項目數據“不準確”中/高風險參加者有5家,代碼分別為106、117、118、119和122,在大樣本量下的評價結果均為“不滿意”。氟化物檢測項目數據“不準確”中/高風險參加者有7家,其中代碼為102、104、109、110、116和120的參加者在大樣本量下的評價結果為“不滿意”,115則為“有問題”。風險評估結果證實了樣本量低、相對誤差較大時,z值評價結果不能真實反映參加者的能力水平,存在數據“不準確”風險。為驗證風險評估結果的可靠性,需對數據“不準確”高風險參加者進行技術核驗。

圖3 B組數據中獲得“滿意”評價結果的參加者的風險評估結果
2.3.1 檢測方法核驗
檢測方法和檢出限核驗結果詳見表3。方法來源主要為國際標準化組織方法、美國方法和俄羅斯方法。鐵檢測項目采用的檢測方法有國際標準化組織方法WaterQuality—DeterminationofSelectedElementsbyInductivelyCoupledPlasmaOpticalEmissionSpectrometry(ICP-OES)(ISO 11885-2007)、美國方法StandardMethodsfortheExaminationofWaterandWastewater(23rdEdition)(SMWW-3500-Fe-B)和俄羅斯方法Количественный Химический Анализ Вод(ПНД Ф 14.1:2:4.135-98、ПНД Ф 14.1:2:4.139-98);氟化物檢測項目采用的檢測方法為美國方法StandardMethodsfortheExaminationofWaterandWastewater(APHA 4500-F-D)、PotentiometricDeterminationofFluorideinAqueousSampleswithIon-SelectiveElectrode(SW-846 Test Method 9214)、HachCompanySPADNS2(Arsenic-Free)FluorideMethod10225-SpectrophotometricMeasurementofFluorideinWaterandWastewater(HACH Method 10225 SPADNS Method),以及俄羅斯方法МВИ Масс.Конц.Хлорид-Ионов,Нитрит-Ионов,Сульфат-Ионов,Нитрат-Ионов,Фторид-Ионов И Фосфат-Ионов В Пр.Пр-Х,Пить-Х И Оч-Х Сточн.Вод С Прим.Сист.Капилл.Электр.Капель(ПНД Ф 14.1:2:4.157-99)。以上方法的檢出限均適用于能力驗證樣品。

表3 檢測方法溯源結果
原始記錄是對影響數據質量的關鍵步驟的重要復現依據,當數據出現問題時可作為原因追溯的憑證。原始記錄內容根據國際/國內檢測方法框架的共同點設定,包括標準曲線、質量控制過程、試劑配制過程和儀器關鍵參數等[21]。原始記錄篩查是對上述內容的核驗。標準曲線是定量工作的基礎,數據點越多代表樣品檢測結果的不確定度越小。標準曲線斜率會隨試劑批次、儲存時間和人員配制手法的變化而改變,因而需要予以記錄,便于追溯原因。質量控制過程是為保證數據可靠而采取的預防措施,需要完整記錄,以備溯源。試劑配制過程是記錄標準曲線(容量法或稱量法)以及有特殊要求的試劑(如顯色劑)的配制過程,便于數據追溯。儀器關鍵參數是指波長、氣體流量等對數據質量有影響的儀器條件,需完整記錄。檢測方法中的各項要求是數據質量的重要保障,應嚴格執行并進行記錄,以備數據核查。本研究根據參加者采用的檢測方法的要求,分別進行技術核驗。
2.3.2 鐵檢測項目原始記錄篩查
鐵檢測項目的檢測方法對標準曲線數據點的數量有明確要求。ISO 11885-2007規定至少需要6個點,且檢測前需驗證最高或最低濃度數據點的實際值(濃度值與實際值的偏差不超過±5%)。SMWW-3500-Fe-B和ПНД Ф 14.1:2:4.139-98規定至少需要5個點,ПНД Ф 14.1:2:4.135-98規定至少需要3個點。各方法對質量控制過程也均有要求。相關方法規定,應記錄標準曲線中間點核驗結果(濃度值與實際值的偏差不超過10%)、試劑空白檢測數值(小于0.01 mg/L)、質控樣品驗證結果(測定值與實際值的偏差不超過±10%)、平行樣檢測結果、相對標準偏差和加標回收率計算結果。試劑配制方面,應按方法要求記錄特殊試劑(如顯色劑)的配制條件,如無特殊試劑則僅需記錄標準曲線容量法中的相關稀釋過程。儀器關鍵參數應根據檢測方法對儀器的要求進行記錄,如分光光度計的波長和比色皿光程長度,電感耦合等離子體光譜儀的分析譜線、高頻發射器功率、氣體流量觀測軸向等,原子吸收光譜儀的原子化溫度、波長等。
鐵檢測項目原始記錄篩查結果詳見表4,反映出的風險點詳見表5。共性風險問題包括:原始記錄中的標準曲線數據點未體現或數量不足,相關系數未體現或達不到方法要求;質量控制過程僅有檢測頻次,未見方法要求的其他計算結果;未見有特殊要求的試劑的配制人員和配制過程信息;未見儀器關鍵參數。風險點一旦轉化為現實因子,將對數據質量造成嚴重影響,因此,需要參加者提升管理水平,盡早預防和消除各類風險。

表4 原始記錄篩查結果

表5 風險點歸納
2.3.3 氟化物檢測項目原始記錄篩查
氟化物檢測方法對標準曲線數據點數量、質量控制過程和試劑配制過程的內容記錄要求與鐵檢測項目相似,但也有不同。ПНД Ф 14.1:2:4.157-99規定了標準曲線相關系數的允許范圍(大于0.99),未對數量作要求;HACH Method 10225 SPADNS Method的標準曲線為儀器內置,并且所采用的試劑為商品化的試劑包,無需記錄。儀器關鍵參數方面,除分光光度法與鐵檢測項目相同外,其他方法還應記錄離子選擇電極的電位讀數(mV)、電極平衡時間(24 h)、電極接觸樣品時間(5 min以內)等,以及毛細管電泳儀的分離溫度、分離時間、分離壓力等。
氟化物檢測項目原始記錄篩查結果詳見表4,反映出的風險點詳見表5。其共性風險問題與鐵檢測項目一致,主要是原始記錄的可追溯性不理想,主要原因是參加者的質量管理體系在溯源性管理方面存在缺失。這也進一步證實了在低樣本量下對獲得“滿意”評價結果的參加者進行風險評估的必要性。
目前,能力驗證項目組織者反饋給參加者的信息是一種反映檢測結果與指定值的偏離程度的指標,未必能真實反映參加者的檢測能力,不利于參加者質量管理體系的改進。本文證實了在低樣本數量下,指定值與樣品真值的偏離程度較大時,使用z值進行評價會掩蓋參加者的真實檢測能力,即便得到“滿意”的評價結果,也會存在數據“不準確”的風險,并且僅靠z值評價無法發現相關風險點。“z值評價-風險評估-技術核驗”統計評價模型的應用,可使能力驗證的作用得到充分發揮。當參加者數量小于17家,經穩健統計或經典統計得到的指定值與樣品真值的相對誤差的絕對值較大(如大于4%)時,可針對獲得“滿意”評價結果的評價機構進行風險評估,對存在數據“不準確”中/高風險的參加者進行技術核驗,挖掘風險點并以技術建議的形式反饋給參加者,輔助參加者消除即將出現或已經出現的數據“不準確”隱患。該統計評價模型打破了傳統能力驗證工作中組織者和參加者只注重評價結果的局限性,形成了識別數據風險的新型能力驗證評價體系,豐富了檢驗檢測市場的數據質量保障手段,可為檢驗檢測市場管理決策提供評估考核依據。