郭 斌 李超群 劉立平 禹蓮玲 龍 亮
(湖南省地質(zhì)測(cè)試研究院,長(zhǎng)沙 410007)
數(shù)理統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)的理論基礎(chǔ),它根據(jù)人們對(duì)偶然現(xiàn)象的統(tǒng)計(jì)規(guī)律的認(rèn)知,制定出解決各種數(shù)據(jù)問(wèn)題的具體統(tǒng)計(jì)方法。地球化學(xué)樣品分析是根據(jù)地球化學(xué)及地球化學(xué)探礦工作的需要而發(fā)展起來(lái)的一門(mén)應(yīng)用學(xué)科,它是地球化學(xué)及地球化學(xué)探礦工作者取得地球化學(xué)樣品物質(zhì)組成、成分或存在形式等信息資料的重要環(huán)節(jié),是地質(zhì)科學(xué)研究和地質(zhì)調(diào)查工作的重要技術(shù)手段之一,其產(chǎn)生的數(shù)據(jù)是地質(zhì)科學(xué)研究、礦產(chǎn)資源及地質(zhì)環(huán)境評(píng)價(jià)的重要基礎(chǔ)。我國(guó)開(kāi)展區(qū)域地球化學(xué)調(diào)查工作以來(lái),對(duì)地球化學(xué)樣品分析數(shù)據(jù)質(zhì)量的監(jiān)控方案不斷補(bǔ)充與完善,逐漸形成了地質(zhì)礦產(chǎn)行業(yè)規(guī)范[1-4]。全國(guó)地質(zhì)實(shí)驗(yàn)室除了按照相應(yīng)規(guī)范進(jìn)行了內(nèi)部和外部質(zhì)量監(jiān)控外,還與現(xiàn)行的其他行業(yè)分析方法(環(huán)保或者農(nóng)業(yè))的質(zhì)量控制管理方案比較,額外采取了一些其他措施來(lái)提高地球化學(xué)樣品分析質(zhì)量[5-6]。在這些質(zhì)量控制的措施中應(yīng)用數(shù)理統(tǒng)計(jì)知識(shí),分析出原始數(shù)據(jù)中蘊(yùn)藏的大量特征信息、關(guān)系信息以及分類信息,科學(xué)地發(fā)掘出隱藏在這些原始數(shù)據(jù)中的經(jīng)驗(yàn)規(guī)律,對(duì)區(qū)域地球化學(xué)樣品分析水平和質(zhì)量的提高起到了促進(jìn)作用。本文使用Excel2013、Minitab這兩種常用且易上手的軟件,采用描述性統(tǒng)計(jì)、正態(tài)分布、背景值與異常3種方法對(duì)廣西某縣地球化學(xué)樣品的實(shí)驗(yàn)室分析數(shù)據(jù)進(jìn)行整理分析,綜合運(yùn)用上述技術(shù)方法對(duì)地球化學(xué)樣品的分析數(shù)據(jù)進(jìn)行了質(zhì)量評(píng)價(jià),比較發(fā)現(xiàn),樣品中CaO含量分析數(shù)據(jù)對(duì)數(shù)轉(zhuǎn)換后比原始數(shù)據(jù)的分布更趨于正態(tài)分布,通過(guò)探討數(shù)理統(tǒng)計(jì)方法對(duì)地球化學(xué)樣品分析質(zhì)量控制的影響和作用,有助于地質(zhì)實(shí)驗(yàn)室在樣品分析過(guò)程中及時(shí)發(fā)現(xiàn)問(wèn)題、采取有效措施、選擇最佳分析方法、制定最佳配套方案,保證分析數(shù)椐的準(zhǔn)確性和可靠性。
選取我院實(shí)驗(yàn)室承擔(dān)的廣西某地地球化學(xué)樣品及分析數(shù)據(jù)為研究對(duì)象,依據(jù)多目標(biāo)區(qū)域地球化學(xué)調(diào)查規(guī)范和批量樣品質(zhì)量控制方法,以不超過(guò)100個(gè)樣品為一組,每組樣品插入8個(gè)外控標(biāo)準(zhǔn)物質(zhì)、8個(gè)內(nèi)控標(biāo)準(zhǔn)物質(zhì)、不少于5個(gè)平行樣品,以確保分析系統(tǒng)處于受控狀態(tài)。采用了電感耦合等離子體發(fā)射光譜(ICP-OES)法和X射線熒光光譜(XRF)法來(lái)進(jìn)行本次樣品測(cè)試分析。必須指出的是:在用數(shù)理統(tǒng)計(jì)方法分析實(shí)際樣品結(jié)果數(shù)據(jù)時(shí),為了反應(yīng)實(shí)際樣品的概率分布,分別剔除了上述重復(fù)樣和質(zhì)量控制樣。本文后續(xù)所有統(tǒng)計(jì)樣本也都剔除了監(jiān)控樣和重復(fù)樣。
地球化學(xué)樣品中測(cè)試元素較多,本文選取1 300個(gè)樣品中CaO的測(cè)定進(jìn)行質(zhì)量控制數(shù)理統(tǒng)計(jì)分析。圖 1和圖2分別是ICP-OES法和XRF法分析廣西某縣地球化學(xué)樣品中CaO含量的頻率直方圖。

圖1 ICP-OES法測(cè)定CaO結(jié)果直方圖(正態(tài))

圖2 XRF法測(cè)定CaO結(jié)果直(正態(tài))
描述性統(tǒng)計(jì)是指運(yùn)用制表和分類,圖形以及計(jì)算概括性數(shù)據(jù)來(lái)描述數(shù)據(jù)特征的各項(xiàng)活動(dòng)。常用的指標(biāo)有平均值、中位數(shù)、四分位數(shù)、方差、標(biāo)準(zhǔn)差等。數(shù)據(jù)的集中趨勢(shì)一般采用平均值、中位數(shù)表示;數(shù)據(jù)的離散程度一般采用方差、標(biāo)準(zhǔn)差表示。
Excel2013的數(shù)據(jù)分析工具能快速地對(duì)數(shù)據(jù)作出描述性統(tǒng)計(jì),方法是:打開(kāi)Excel2013,從數(shù)據(jù)欄中的數(shù)據(jù)分析模塊選擇描述統(tǒng)計(jì)(圖3),然后選擇需要分析的數(shù)據(jù)區(qū)域,確定后得到描述性統(tǒng)計(jì)結(jié)果。

圖3 Excel2013數(shù)據(jù)分析向?qū)?/p>
表1是分別用ICP-OES法和XRF法對(duì)廣西某縣地球化學(xué)樣品中CaO分析數(shù)據(jù)的統(tǒng)計(jì)結(jié)果。通過(guò)對(duì)CaO的分析結(jié)果原始數(shù)值取對(duì)數(shù),能降低分析數(shù)值之間的差距,從而使處理后的數(shù)據(jù)趨于正態(tài)分布[7];為了避免對(duì)數(shù)結(jié)果為負(fù)值,將CaO單位換算成mg/kg再取對(duì)數(shù)。

表1 ICP-OES法和XRF法對(duì)地球化學(xué)樣品中CaO的測(cè)定數(shù)據(jù)統(tǒng)計(jì)結(jié)果
表中參數(shù)的涵義為:平均值反映了數(shù)據(jù)的平均水平;標(biāo)準(zhǔn)誤差是指樣本平均值的“抽樣誤差”;中位數(shù)是對(duì)數(shù)據(jù)趨中性的一種描述,是樣本中數(shù)據(jù)從小到大排列后的中間值;眾數(shù)是樣本數(shù)據(jù)中出現(xiàn)頻率最高的數(shù)值;標(biāo)準(zhǔn)差是所選樣本的標(biāo)準(zhǔn)偏差,是衡量數(shù)值相對(duì)于其平均值的離散程度的指標(biāo);方差是標(biāo)準(zhǔn)偏差的平方,同樣是描述數(shù)據(jù)離散程度的指標(biāo);峰度是刻畫(huà)測(cè)度數(shù)據(jù)分布陡緩程度的指標(biāo);偏度也就是偏態(tài)系數(shù),也稱不對(duì)稱度,是測(cè)度數(shù)據(jù)分布的偏斜方向和程度的指標(biāo);最大值為整個(gè)數(shù)據(jù)系列中數(shù)值最大的一個(gè),最小值為數(shù)據(jù)系列中數(shù)值最小的一個(gè),它們刻畫(huà)了數(shù)據(jù)的離散狀況,最大值與最小值之差稱為極差,它反映了樣本數(shù)據(jù)整體涵蓋的范圍大小;
置信水平表示樣本數(shù)據(jù)的數(shù)值落在某一區(qū)間的概率,置信度則為在一定置信水平的情況下,樣本平均值可能出現(xiàn)的最大偏差,此時(shí),總體平均值的置信區(qū)間即為樣本平均值±置信度,求解置信區(qū)間實(shí)際上是置信度的求解過(guò)程。
描述性統(tǒng)計(jì)能直觀地展示數(shù)據(jù)的特征。從表1可以明顯發(fā)現(xiàn)幾組數(shù)據(jù)中最小值有區(qū)別,用ICP-OES法檢測(cè)樣品中CaO結(jié)果的最小值是0.018%,而XRF檢測(cè)結(jié)果是0.040%,即XRF檢測(cè)樣品中CaO的最小結(jié)果是ICP-OES檢測(cè)結(jié)果的2.22倍,這是因?yàn)閮煞N不同的方法檢出限不一樣,檢出最低結(jié)果值不一樣。
峰度常用來(lái)檢驗(yàn)分布的正態(tài)性,從表1峰度結(jié)果看,兩種分析方法得到的結(jié)果大于3,因此,分析數(shù)據(jù)分布具有過(guò)度的峰度。從兩種分析方法得到的標(biāo)準(zhǔn)差來(lái)看,比較接近,而峰度值相差較大,因此,峰度更大的XRF檢測(cè)樣品中CaO結(jié)果數(shù)據(jù)分布就有更多的極端值,那么其余值必然要更加集中在眾數(shù)周?chē)浞植急厝痪透佣盖汀?/p>
從偏度結(jié)果來(lái)看,兩種分析方法得到的偏度值均大于0,且算術(shù)平均數(shù)>中位數(shù)>眾數(shù),因此數(shù)據(jù)分布具有正偏離,即數(shù)據(jù)位于均值右邊的比位于左邊的少,直觀表現(xiàn)為右邊的尾部相對(duì)于左邊的尾部要長(zhǎng),因?yàn)橛猩贁?shù)變量值較大,使曲線右側(cè)尾部拖得較長(zhǎng);同時(shí)XRF分析數(shù)據(jù)偏度絕對(duì)值更大,說(shuō)明分布的偏移程度越嚴(yán)重。
從圖1和圖2也可以看出,就本次實(shí)驗(yàn)結(jié)果而言,無(wú)論是ICP-OES法還是XRF法對(duì)地球化學(xué)樣品中CaO分析數(shù)據(jù)分布均出現(xiàn)正偏離,曲線右側(cè)出現(xiàn)明顯拖尾,原始數(shù)據(jù)都不符合正態(tài)分布,這與峰度和偏度得到的結(jié)果是一致的。
正態(tài)分布又名高斯分布,是數(shù)理統(tǒng)計(jì)中最重要、最基本的一種概率分布。在地球化學(xué)的研究中,地質(zhì)體中元素含量概率分布形式主要是正態(tài)分布,其次是對(duì)數(shù)正態(tài)分布[8]。地球化學(xué)樣品分析中,常用正態(tài)分布模型對(duì)數(shù)據(jù)進(jìn)行研究分析[9]。
在對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理的時(shí)候,需要先進(jìn)行正態(tài)性檢驗(yàn)。檢驗(yàn)偏離正態(tài)分布有多種方法,如圖方法、有方向檢驗(yàn)、無(wú)方向檢驗(yàn)[9]。有方向檢驗(yàn)方法中,有偏度和峰度檢驗(yàn)。無(wú)方向檢驗(yàn)有Shapiro-Wilk檢驗(yàn)(W檢驗(yàn))、Epps-Pulley檢驗(yàn)、Kolmogorov-Smirnov檢驗(yàn)(D檢驗(yàn))、Anderson-Darling AD檢驗(yàn)、Ryan-Joiner檢驗(yàn)。
檢驗(yàn)正態(tài)分布可以用Minitab軟件,通過(guò)菜單:統(tǒng)計(jì)>基本統(tǒng)計(jì)量>正態(tài)性檢驗(yàn),然后選擇檢驗(yàn)方法。Minitab提供了三種方法,如圖4所示。檢驗(yàn)結(jié)果看P值,P>0.05就基本可以認(rèn)為數(shù)據(jù)呈正態(tài)分布。

圖4 Minitab正態(tài)性檢驗(yàn)向?qū)?/p>
選擇Kolmogorov-Smirnov對(duì)CaO對(duì)數(shù)結(jié)果進(jìn)行檢驗(yàn),兩種儀器檢驗(yàn)結(jié)果如圖5所示。從概率圖5分析,ICP-OES法測(cè)定CaO結(jié)果的P值為0.079,大于0.05,因此可判定ICP-OES法測(cè)定結(jié)果成對(duì)數(shù)正態(tài)分布,而XRF法測(cè)定結(jié)果的P值為小于0.010,比0.05小,因此其測(cè)定結(jié)果數(shù)據(jù)是非正態(tài)分布。
用Minitab圖形功能作直方圖,選擇包含擬合,兩種儀器結(jié)果如圖6。從圖6明顯看出,ICP-OES法測(cè)定CaO結(jié)果的對(duì)數(shù)變換后符合正態(tài)分布,而XRF法測(cè)定的結(jié)果與正態(tài)分布曲線有較大差異。
綜合分析概率圖和直方圖,可以得出結(jié)論:ICP-OES法測(cè)定結(jié)果成對(duì)數(shù)正態(tài)分布,XRF法測(cè)定結(jié)果非正態(tài)分布;XRF法測(cè)定結(jié)果中低值集中在0.04、0.05,ICP-OES法測(cè)定結(jié)果在低值與正態(tài)分布曲線擬合很好。這是因?yàn)閄RF法的檢出限只有0.05,而ICP-OES法的檢出限能達(dá)到0.025,故在低含量段上ICP-OES分析結(jié)果比XRF更合理。最后在質(zhì)量控制時(shí),選擇報(bào)出ICP-OES法檢測(cè)的CaO結(jié)果。
對(duì)于勘查地球化學(xué)數(shù)據(jù)而言,一般認(rèn)為:常量元素服從正態(tài)分布,微量元素服從對(duì)數(shù)正態(tài)分布,這一觀點(diǎn)被眾多的化探工作者認(rèn)知[10]。通常情況下,土壤中的氧化鈣是常量組分,但從我們本次樣品分析結(jié)果來(lái)看,由于所分析的地球化學(xué)土壤樣品中氧化鈣含量較低,因此,原始數(shù)據(jù)不符合標(biāo)準(zhǔn)正態(tài)分布,而是服從對(duì)數(shù)正態(tài)分布,這與文獻(xiàn)[9]中所報(bào)道的結(jié)果一致。
地球化學(xué)背景值是指地球化學(xué)背景范圍內(nèi)的元素呈正態(tài)分布時(shí),其平均值為背景值(對(duì)數(shù)正態(tài)分布的元素背景值是幾何平均值),其最大值為背景上限或異常下限。確定背景值及異常下限常用的有長(zhǎng)剖面法、圖解法和計(jì)算法[11]。
圖解法包括直方圖解法和概率格紙圖解法。本文用Excel2013按《區(qū)域地球化學(xué)勘查規(guī)范》的要求,以ICP-OES法測(cè)得的CaO結(jié)果對(duì)數(shù)值做直方圖,見(jiàn)圖7。

圖5 ICP-OES法和XRF法分別測(cè)定樣品中CaO數(shù)據(jù)對(duì)數(shù)值正態(tài)概率圖

圖6 ICP-OES法和XRF法分別測(cè)定樣品中CaO數(shù)據(jù)對(duì)數(shù)值分布直方圖


圖7 CaO對(duì)數(shù)直方圖

拉依達(dá)準(zhǔn)則是從數(shù)組中剔除大于平均值加上2倍(或3倍)標(biāo)準(zhǔn)偏差和小于平均值減去2倍(或3倍)標(biāo)準(zhǔn)偏差的數(shù)據(jù),然后重新計(jì)算新數(shù)組的平均值和標(biāo)準(zhǔn)偏差。重復(fù)多次上述步驟,直到?jīng)]有可被剔除的數(shù)據(jù)。地球化學(xué)樣品分析中,常用3倍標(biāo)準(zhǔn)偏差來(lái)計(jì)算[4]。
在地球化學(xué)樣品分析質(zhì)量管理規(guī)范中[1-4],要隨機(jī)抽查2%~3%重復(fù)性檢驗(yàn)樣品,異常值和極低值可以從圖7中極低值區(qū)和高異常值區(qū)中查找。也可以用拉依達(dá)準(zhǔn)則找出3倍標(biāo)準(zhǔn)偏差外的數(shù)據(jù),當(dāng)作異常值去抽查重復(fù)。
利用常用的Excel和Minitab軟件的數(shù)據(jù)分析功能,將數(shù)理統(tǒng)計(jì)知識(shí)應(yīng)用在地球化學(xué)樣品分析質(zhì)量控制中,可以系統(tǒng)準(zhǔn)確高效地對(duì)數(shù)據(jù)進(jìn)行質(zhì)量控制。
1)描述性統(tǒng)計(jì),利用Excel2013的數(shù)據(jù)分析功能,快速給出一組數(shù)據(jù)的詳細(xì)信息,方便了解該組數(shù)據(jù)的特征。
2)正態(tài)分布,利用地球化學(xué)中元素含量正態(tài)分布或者對(duì)數(shù)正態(tài)分布的特性,對(duì)數(shù)據(jù)作正態(tài)分布擬合圖。Minitab軟件可以方便地檢驗(yàn)數(shù)據(jù)是否正態(tài)分布,然后作出正態(tài)分布擬合的直方圖。從中可以分析地球化學(xué)樣品實(shí)驗(yàn)室數(shù)據(jù)的準(zhǔn)確性,通過(guò)比對(duì)可以選擇更好的方法來(lái)分析測(cè)試樣品。
3)在地球化學(xué)樣品中,元素正態(tài)分布的前提下,可以找出元素的背景值和異常值。利用直方圖法、Grubbs法或者拉依達(dá)準(zhǔn)則剔除異常值。Excel2013可以按《區(qū)域地球化學(xué)勘查規(guī)范》要求作直方圖,從中找出數(shù)據(jù)異常值進(jìn)行重復(fù)抽樣。