摘要:正確判斷異常值是進行科學統計分析的前提,而在實際數據分析過程中,常常忽略對異常值的處理,或對異常值重視不夠,甚至不清楚各種判別方法的適用條件。該文綜述了異常值的來源、常用的異常值判別方法的特點、分析步驟及判別標準。
關鍵詞:異常值,判別方法,藥品,質量控制。
異常值通常是指實驗中與預期有較大差距的值。USP中對異常值有明確的規定,記任何反常、不一致、可疑或模糊的觀察值均可稱為異常值。在藥品檢驗過程中經常會出現異常值,拒絕或保留一個明顯的異常值往往會導致資料處理困難,重者可能產生嚴重偏差。對異常數據進行合理的發現和處理,對于保證藥品檢驗結論的科學性、嚴謹性,從而保證人們使用藥物的安全性具有極為重要的意義。
1 異常值的來源
異常值來源一般有4種:①由實驗設備不準確、不穩定造成的數據嚴重偏離真實值,不符合實際;②由操作技術、讀數習慣等人為客觀因素造成的數據不一致;③由數據記錄不清楚、感覺計數等人為主觀過失造成的假觀察值;④由實驗中出現的小概率事件引起的數據不一致。
2 異常值檢測方法及其特點
異常值的檢驗方法大多數屬于距離法, 常見的有奈爾檢驗法、拉依達準則法、肖維勒準則法、羅曼諾夫準則、格拉布斯檢驗法、狄克遜檢驗法、偏度-峰度檢驗法、漢佩爾準則、四分位數法以及魯棒回歸分析法。選擇合適的異常值檢驗方法取決于樣本量大小和分布的假設。下面我們簡要介紹各種異常值判斷法的適用情況及應用優缺點。
1)奈爾檢驗法
奈爾檢驗法適用于樣本量n>3,且要求數據集符合正態分布,該法的優點是使用簡便,缺點在于需要知道總體的標準差。
2)拉依達準則法
拉依達準則法適用于樣本量n>10,且要求數據集符合正態分布,優點是使用簡單,不需要查表,當樣本量較大時適用。缺點是樣本量n≤10時不適用。
3)肖維勒準則法
肖維勒準則法適用于樣本量n>16,不需要數據集符合正態分布,它是拉依達準則法改進按本,該法的缺點是沒有概率理論,當樣本量n過大時會失效。
4)羅曼諾夫準則法
羅曼諾夫準則法適用于樣本量n<20,要求數據集符合正態分布,其優點是檢驗效率高,缺點是隨著樣本量n的增大,靈敏度會逐漸降低。
5)格拉布斯檢驗法
格拉布斯檢驗法適用于樣本量n>6,要求數據集符合正態分布,其優點是檢驗效率高,缺點是樣本量n較小時或存在多個異常值接近時不適用。
6)狄克遜檢驗法
狄克遜檢驗法適用于樣本量3 7)偏度-峰度檢驗法 偏度-峰度檢驗法適用于樣本量n>3,要求數據集符合正態分布,其優點時重復使用檢測多個異常值時具有非常好的效果,缺點是極端值英較為明顯的偏離樣本主體。 8)漢佩爾準則法 漢佩爾準則法適用于樣本量n>3,要求數據集符合正態分布,其優點是使用簡單,不需要查表,檢驗效果很高,缺點是對異常值不夠敏感,判斷較為保守。 9)四分位數法 四分位數法適用于樣本量n>4,不要求數據集符合正態分布,其優點是使用簡單,不需要查表,檢驗效果能夠控制,缺點是對樣本量要求較大,一般n>10時才具有較好的效果。 10)魯棒回歸分析法 魯棒回歸分析法適用于樣本量n>10,要求數據集符合正態分布,優點是能夠同時檢驗出樣本中的多個異常值,缺點是只適用于大樣本。 3 異常值判定標準和檢驗步驟 異常值的準確判別是確保數據分析正確,得到結果合理的首要前提,也是研究數據可靠的重要保障。所以科學地判斷異常值對各種實驗尤為重要。怎樣把握異常判斷的標準?對于這一問題,目前尚無確切結論。 對于異常值的判斷,首先應該對數據的來源進行調查,如果可以確定是人員故障還是儀器故障等導致了異常值,則不論檢驗結論是否為異常,均應直接排除該值,不得用于后續的計算。但是,這類研究通常是不能確定的,這時,再借助一些異常值的判斷,來找出這些異常值。但由于不同方法的精確度不一樣,對于一般的實驗人員,也無法判斷應采用哪種方法,對于這種兩難問題,處理的原則是:看減少一個或幾個異常數值對實驗結果的影響究竟有多大;如果確定所測數據的反常值對原始結果的影響很大,則多項判別結果也一致,一般認為該數值為異常值。 一般情況下,用反常值檢驗法來判定異常值,需要采取以下步驟:①計算樣本容量,確定樣本量的大小;②對數據樣本從小到大進行排序,找出兩端的極值;③確定數據是否為正態分布,或將其轉化為正態分布;④判斷數據是否需要轉換,然后再進行反常值判斷;⑤選取1種常用或敏感程度較高的判別標準進行判別;⑥根據判別結果的共性,判斷其是否為異常。 對于異常值檢驗,通常采用α為0.05或0.01這兩種標準,但也有學者認為應采用更嚴格的α為0.01或0.005這兩種標準。不管α的大小如何,判斷結果是否認為數據是異常值是不可避免的錯誤。第1類錯誤是指將正常數值視為不正常值而被拒絕,其發生概率為α(棄真存偽);第2類錯誤是指將不正常值視為正常值而被接受,其發生概率為β(棄偽存真),其概率通常為β<(1-α),又稱α作用函數。通常情況下,進行異常值檢驗時,主要是為了減少犯第1類錯誤的概率,所以在實際判別時,應正確選擇α值,以使結果更加合理。 4 小結 在藥品質量控制中, 通過符合實驗原理基礎上轉換的符合正態分布數據集, 一般選用 格拉布斯檢驗、狄克遜檢驗(極小樣本) 、漢佩爾準則方法(大樣本)和四分位數法等,其他方法可輔助參考使用。 參考文獻: [1]曹玲,吳莉,王玉,吳越.藥品檢驗中常用的統計學方法及其應用[J].中南藥學,2019,17(09):1508-1513. [2]李曉斌. 中藥臨床試驗肝腎功能指標異常值的分析與評價[D].遼寧中醫藥大學,2013. [3]牛曉輝. 新農合住院費用的分析及異常值篩檢方法研究[D].華中科技大學,2012. 作者簡歷:鐘蓓蓓(1994/01),女,江蘇省連云港人,本科,研究方向:質量控制,風險管理,GMP (正大天晴藥業集團南京順欣制藥有限公司 江蘇南京 211100)