通遼市產(chǎn)品質(zhì)量計量檢測所 王 瑩 劉 佳 王 欣 劉 宇 王曉東
計量檢測中異常數(shù)據(jù)剔除的有效方法
通遼市產(chǎn)品質(zhì)量計量檢測所 王 瑩 劉 佳 王 欣 劉 宇 王曉東
對于計量測量這項工作來說,它對數(shù)據(jù)精確性的要求非常高,當計量測量獲得的大量數(shù)據(jù)被通過以后,需要科學合理的對數(shù)據(jù)進行整理,從而有效剔除可能出現(xiàn)的異常信息,使數(shù)據(jù)的有效性和實踐性得到不斷提升。基于此,本文主要對計量檢測中異常數(shù)據(jù)剔除的有效方法進行了探討。
計量測試;異常數(shù)據(jù);剔除;有效方法
計量測量這項工作對數(shù)據(jù)準確性的要求非常高,當計量測量獲得大量的數(shù)據(jù)以后,需要對這些數(shù)據(jù)進行科學處理,發(fā)現(xiàn)并剔除其中的數(shù)據(jù)異常值,使數(shù)據(jù)的準確性得到不斷提升,進而使相關(guān)活動可以獲得科學、合理的參考信息。因此,下面將對計量測量中異常數(shù)據(jù)出現(xiàn)的各種原因進行分析,獲得四種剔除異常數(shù)據(jù)的方法,這四種辦法各有特點,不僅可以進行針對性使用,還可以綜合在一起使用,從而異常數(shù)劇被及時發(fā)現(xiàn)并剔除。
在日常的各類生產(chǎn)實踐活動中都會涉及到計量測試工作,為了使各種數(shù)據(jù)的使用需求得到滿足,需要重新評估檢測儀器的測量結(jié)果,通過認真分析評估結(jié)果,從而使檢測儀器的狀態(tài)是否達到正常使用的標準進行有效的判定。檢測數(shù)據(jù)具有十分重要的意義,在對各環(huán)節(jié)半成品和最終成品的所有參數(shù)、生產(chǎn)技術(shù)的穩(wěn)定性進行評判的時候,需要以此為主要的參考數(shù)據(jù),同時也是提升產(chǎn)品質(zhì)量和指導技術(shù)變革和進步的最為行之有效的辦法。要想讓人對數(shù)據(jù)信服,就要對其進行精準的計量,因此,要想對工藝流程進行控制、對產(chǎn)品質(zhì)量進行評定、對產(chǎn)品質(zhì)量進行有效改變是不可能得以實現(xiàn)的。
從統(tǒng)計學的角度上來說,可疑數(shù)據(jù)主要是指在一組反復測量的數(shù)據(jù)里,個別數(shù)據(jù)與其他組數(shù)據(jù)存在著比較明顯差異。可疑數(shù)據(jù)的主要特征就是與組內(nèi)的其他數(shù)據(jù)有著比較明顯的不同,也就是說數(shù)據(jù)發(fā)生了改變,然而這種改變是不是發(fā)生在合理的范圍之內(nèi),有待于進行深層次的分析和研判,從而實現(xiàn)科學、有效的確定。
計量儀器隸屬于高精密儀器的范疇,對外界環(huán)境的要求非常高,如果外界環(huán)境出現(xiàn)了比較大的改變,就會使計量儀器的精準度受到影響,從而使檢測儀器的檢測結(jié)果出現(xiàn)一定范圍的誤差。造成計量儀器出現(xiàn)誤差的原因主要有四點:第一,檢測儀器受到外界震動或者是機械沖擊;第二,受電磁干擾和電網(wǎng)供電不穩(wěn)而使得檢測儀器正常工作受到影響;第三,檢測人員熟練程度不夠、工作經(jīng)驗不足、主觀測量失誤以及工作疏忽導致的檢測誤差;第四,儀器內(nèi)部電子元件損壞、零件松動等本身故障導致的檢測誤差。
異常值與合理值之間存在著很大的偏差,假如參與到判定過程和計算中,就會給測量結(jié)果造成巨大的影響,使人們的正確決策受到影響。所以一定要將異常值剔除掉,然而使用的剔除辦法不正確,就會給異常值消除造成嚴重的影響,易于導致測量重復性較好的假象出現(xiàn),給數(shù)據(jù)真實性的判定帶來了嚴重的阻礙,使人們提升檢測儀器的等級被嚴重誤導。假如不剔除異常值,就會使測量數(shù)據(jù)的重復性被降低,使檢測儀器的等級受到了嚴重的影響。綜上所述,只有使用正確的剔除方法,才能使最后的測量結(jié)果滿足人們的使用需求。
在對實踐活動進行計量的時候,經(jīng)常使用的異常值判定準則有四種:第一,3Σ準則;第二,t 檢驗法;第三,肖維勒準則;第四,格拉布斯準則。上述的幾種準則存在著一定的差別,在實際判斷的時候,置信概率會被使用到。置信概率主要是指“置信區(qū)間”高于隨機變量的概率,使用X來表示置信區(qū)間測量數(shù)據(jù)取值范圍,其表達式如下:
(1)3Σ準則:
把測量的數(shù)據(jù)帶入到表達式中,與判定值相一致,可以將該測量結(jié)果判定為異常值,需要將其進行剔除。
(2)t 檢驗法
數(shù)據(jù)集合總體是指檢驗方法為可疑數(shù)值 xi外的數(shù)值,將該數(shù)據(jù)集假設(shè)成一種正態(tài)分布模式,把可疑數(shù)值 xi當做成樣本容量特殊總量,用1來表示。經(jīng)過對兩個總體進行認真比較,其結(jié)果顯示它們隸屬于相同的總體,得出的最終結(jié)論為,二者之間沒有比較明顯的不同,因此其統(tǒng)計量計算公式為:
(3)肖維勒準則:
通過對真實案例進行認真仔細的分析,從而使異常值判定更加的科學、合理。例如,在對某組數(shù)據(jù)進行精度測量以后,得出的數(shù)據(jù)值分別為10.347、10.343、10.321、10.313、10.231、10.229、10.221、10.219、10.205和10.003。使用上述的異常值判定法來進行判定,從而使判定操作具有較強的針對性,最終得出的結(jié)論都是一樣的,異常值的最終判定值為10.346。其中,10.003-10. 347與比較接近,這也充分的體現(xiàn)出,在這樣的情況里使用格拉布斯準則對異常值進行判定的效果非常好,其準確性也比較高。通過對這一案例的仔細判定,可以使異常值判定的思想得到較好的體現(xiàn)。首先設(shè)定好一個統(tǒng)計量,假如該統(tǒng)計量正好處于規(guī)定的范圍之內(nèi),則說明這個統(tǒng)計量與正態(tài)分布比較吻合。反之,則表明統(tǒng)計量與正態(tài)分布不相吻合,說明該數(shù)據(jù)值中有誤差存在。要想使異常值被準確、快速的判斷出來,可以將數(shù)據(jù)按照從大到小的順序進行排列,先對最小值和最大值進行懷疑,假如這兩個極值不是異常值,那么其他的數(shù)值也不會成為異常值。在上面的四種判定準則里,3Σ準則是需要進行查表的,其他的三種準則不需要進行查表,把計算值和參考值進行認真比較,分析3Σ準則,從公式的角度來看,如果測量次數(shù)N比較大,它所對應的標準差σ就會比較小,此時3Σ準則就會非常精準。通過使用貝塞爾公式得出的標準差σ需要在公式中進行反復測量,測量次數(shù)N的最小值為10,假如測量的次數(shù)在50以上,那么使用3Σ準則就會在最短的時間之內(nèi)將異常值測量出來。通過使用狄克遜準則計算公式可以發(fā)現(xiàn),使用該準則可以將多個異常值在一次測量中被全部剔除,因此在對多個異常值進行判定的時候,可以使用該準則進行快速判定,從而使異常值判定的速度得到不斷加快,使其準確性得到較好保障。
綜上所述,在進行實際測量的時候,可以綜合使用上述的四種辦法,從而使測量的準確性得到不斷提高,使誤判的現(xiàn)象得到有效控制。假如結(jié)論都是一樣的,將異常值剔除以后,會使測量的準確性得到較大程度的提高。相反,假如判定的結(jié)果不一樣,就需要進行認真的分析和思考,使用其他的辦法重新進行判定,直到數(shù)據(jù)信息達到統(tǒng)一的標準為止。
[1]王元明,熊偉.異常數(shù)據(jù)的檢測方法[J].重慶工學院學報(自然科學版),2009(02).
[2]吳展,蔡萍.一種改進的動態(tài)過程測量數(shù)據(jù)預處理方法[J].傳感技術(shù)學報,2010(04).
[3]徐丹,王中禹.計量測試中異常數(shù)據(jù)剔除的措施[J].科技經(jīng)濟導刊,2016(20).