李曉暉,袁 峰,白曉宇,張明明,賈 蔡,周濤發
(合肥工業大學資源與環境工程學院,安徽合肥230009)
典型礦區非正態分布土壤元素數據的正態變換方法對比研究
李曉暉,袁 峰,白曉宇,張明明,賈 蔡,周濤發
(合肥工業大學資源與環境工程學院,安徽合肥230009)
對于銅陵礦區這類變異性強、偏度大、不符合正態分布的土壤元素樣品數據,直接進行空間變異及插值分析會產生較大誤差,需首先選擇合適的正態變換方法進行穩健處理。該文以銅陵礦區表層土壤中的Pb元素數據為例,采用不同的正態變換方法進行數據正態變換,并通過變異函數對其變換效果進行分析。對比研究顯示:對數變換無法使銅陵礦區土壤元素數據服從正態分布;Box-Cox變換雖使數據的正偏度有所減少,但仍難以通過 K-S正態檢驗;而Johnson變換結果最優,其通過了 K-S檢驗,對于異常數據的處理效果更優。Johnson變換與Box-Cox變換均可使變異函數表現出更好的形態,其中Johnson變換具有更強的正態變換能力,對于研究區土壤元素的變異函數穩定形態具有一定優勢,是數據變異性強的成礦區地統計學數據正態變換的理想工具。
地統計學;正態變換;土壤;元素;銅陵
地統計學作為研究空間變異和結構分析、空間預測、空間模擬的工具,被廣泛應用于地質[1,2]、土壤[3,4]、環境[5]、氣象[6,7]、生態[8]等諸多領域。由于地統計學理論與方法建立在固有假設或內蘊假設的基礎上,所以要求進行分析計算的數據服從正態分布[9]。但在實際應用中,數據常具有的異常值、高偏度以及非正態分布性質對于變異函數擬合及插值穩健性有著極大的影響[10]。異常值引起的偏度過大雖然會保持變異函數的一般形狀,但卻會使塊金值、拱高和塊金/拱高等指標升高[11];而數據的非正態性分布則會產生比例效應,將使克里格插值無法達到無偏最優的特性,這些都將直接影響到變異函數模型的擬合、分析以及克里格插值的精度。為了解決異常值和數據非正態分布對地統計學分析的影響,地統計學家采取了多種有效的措施以提高空間分析與估值的穩健性,其中較為常見的一是利用穩健的變異函數及穩健的克里格估值方法來適應實際數據, Genton等[12-15]從不同角度提出的穩健變異函數模型,Haw kins等[16]提出的穩健克里格方法,均能有效地提高地統計分析的穩健性;二是對實際數據進行穩健處理,使數據逼近正態分布以滿足地統計學的理論前提,通常包括異常值的剔除以及數據正態變換。剔除異常值的方法由于減少了樣本數量,也有可能刪棄正確或有意義的數值,對于空間變異性強烈的地區如成礦區弊端非常明顯;而數據正態變換方法則可以在有效保留原有數據信息的基礎上使數據服從正態分布。目前常用的數據正態變換有對數變換(Logarithmic)和Box-Cox變換,其中Box-Cox變換由于其可以針對不同的數據選擇最優的冪參數,所以對于某些無法應用對數變換的數據有較好的變換效果[17,18];近年來,Johnson變換作為一種高級數據變換方法,在工業產品質量控制領域應用廣泛[19,20],Johnson變換包含了一組復雜的變換曲線,理論上具有更強的正態變換能力。
本文以銅陵礦區表層土壤中的Pb元素數據為例,分別采用不同的正態變換方法進行數據正態變換,并通過變異函數對其變換效果進行分析,以期為更合理有效地在空間變異性強烈的成礦區應用地統計學方法提供定量依據。
本文的Pb土壤元素含量數據來源于安徽省地質調查院“安徽省江淮流域多目標區域地球化學調查”資料,土壤樣品為較穩定地塊的表層土壤,按間距為2 km網格采樣所得,覆蓋了銅陵礦區的主要礦田,樣本數共計204件。
(1)對數變換。其公式如下:

(2)Box-Cox變換。其屬于冪變換[17,18],且包含了對數變換(λ=0)、平方根變換(λ=1/2)和倒數變換(λ=-1)等常用變換,但其作用有限。公式為[21]:

式中:λ可按極大似然估計得到[22]。
(3)Johnson變換[23]。其包含一組變換曲線,用于將不同類型分布的數據轉化為標準正態分布,一般可由下式表示:

其中:Z為標準正態分布變量,X為非正態分布變量;參數γ和δ控制X分布的形狀;ξ為位置因子,λ為尺度因子。根據不同的偏度和峰度,變換函數將從Johnson函數曲線系統中選擇(表1)。Johnson函數曲線系統中的參數γ、δ、ξ和λ可參照 Hill[24]、Chou等[25-27]提出的理論與算法。

表1 Johnson變換系統中的變換函數Table 1 Transformation functions of Johnson transform system
Kolmogorov-Smirnov(K-S)是正態分布檢驗常用而有效的方法,其原理是將樣本數據的經驗累積分布函數與假設數據呈正態分布時期望的分布進行比較,如果實測差異足夠大,該檢驗將否定總體呈正態分布的原假設[28]。本文設置信度α=0.05,若檢驗的P<0.05,則否定原假設,斷定總體呈非正態分布。
為將各種變換的變異函數圖統一到同一尺度進行對比,可對變異函數進行標準化處理。標準變異函數γs(h)計算式為[29]:

式中:S2為樣本方差。標準變異函數與變異函數的形狀基本相同,因此可以通過判斷標準變異函數的形狀與擬合情況進而類推到普通變異函數。
對Pb元素樣品數據進行基本統計分析,統計結果(表 2)顯示 Pb元素樣品數據的變異系數達152.92%;根據土壤性質變異程度的分類[30],說明其空間變異性較強,數據中極可能存在很大的樣本值。同時,Pb元素數據的K-S檢驗值 P小于0.01,說明數據總體不符合正態分布,且Pb元素的濃度頻率分布都表現出一定程度的正偏(偏度大于0),這在其直方圖中(圖1)有更直觀的表現。此外,在Pb元素數據直方圖右側存在較長的拖尾,表明數據中存在異常值。鑒于Pb元素數據的基本統計特征,地統計分析前的數據穩健處理不可或缺。

表2 銅陵礦區土壤元素含量基本統計Table 2 The statistical results of the soil element contents in Tonglingm ining area

圖1 銅陵礦區土壤Pb元素濃度頻率直方圖Fig.1 The frequency histogram of soil Pb element contents in Tonglingm ining area
由于對數變換的正態變換能力較弱,無法使Pb元素數據服從正態分布,同時Box-Cox變換已包含對數變換的能力,故下文只對Box-Cox及Johnson正態變換的效果進行正態性檢驗。本文首先統計了兩種變換后的偏度、峰度并進行了 K-S檢驗(表3),發現Box-Cox變換雖使數據的正偏度有所減少,但難以使數據通過 K-S正態檢驗(P<0.01),而Johnson變換結果明顯好于Box-Cox,其變換值順利通過了K-S檢驗(P>0.15)。

表3 原數據的Box-Cox與Johnson變換及正態分布檢驗結果Table 3 The Box-Cox and Johnson transformations of raw data and results of normality test
為更直觀的反映兩種變換結果的正態效果,本文給出了變換結果的正態分布概率圖(圖2),同時劃出置信區間為95%的分布線。可見,Box-Cox變換后的數據雖然大部分點都依附于正態分布線周圍,但仍有頭尾兩端的數據出現在95%的置信區間以外; Johnson變換后的數據不僅使中間(均值周圍)的數據更加吻合正態分布線,而且使更多兩端的數據落在95%置信區間之內。因此,Johnson正態變換方法更能使數據接近正態分布,尤其對于兩端的數據(右端常為異常數據)效果明顯優于Box-Cox變換。

圖2 Box-Cox和Johnson變換正態分布概率Fig.2 The normal distribution frequency after Box-Cox and Johnson transformations
為對比不同正態變換方法對變異函數形狀和趨勢的影響,本文分別計算了研究區土壤Pb元素原數據(Raw Date)、對數變換(Logarithm)、Box-Cox變換及Johnson變換結果的標準變異函數,結果見圖3。

圖3 標準變異函數對比Fig.3 Comparison among different standard variograms
可見,用原數據直接計算的變異函數趨勢混亂、躍動明顯,塊金效應與基臺值較高,無法很好地描述數據空間變異的趨勢,且變異函數在達到基臺值后出現下降,出現所謂的“漂移”現象。因此,采用原數據直接計算的變異函數難以進行有效的空間變異分析,也無法擬合出理想的變異函數模型,這將直接影響進一步的克里格插值分析。相比而言,對數、Box-Cox及Johnson變換后的數據計算得到的變異函數則具有明顯優勢;特別是Box-Cox和Johnson變換,其變異函數表現出較小的塊金值、基臺值,明顯優于對數變換和無變換的結果。總體而言,Box-Cox與Johnson變換的變異函數較為接近,但Johnson變換的變異函數趨勢更加平滑穩定,更有利于理論變異函數的擬合。
對于銅陵礦區這類變異性強、偏度大、不符合正態分布的土壤元素樣品數據,直接進行空間變異及插值分析會產生較大誤差,需首先選擇合適的正態變換方法進行穩健處理。對數變換無法使銅陵礦區的Pb土壤元素數據服從正態分布,Box-Cox變換雖可使數據的正偏度有所減少,但仍難以通過 K-S正態檢驗。Johnson變換能夠使數據很好地符合正態分布,并可以順利通過K-S正態檢驗,其對于異常數據的正態變換效果更優。Johnson變換與Box-Cox變換可以使變異函數表現出更好的形態,其中Johnson變換具有更強的正態變換能力,對于變異函數穩定形態具有一定優勢,是空間變異性強烈的成礦區地統計學數據正態變換的理想工具,其正態變換結果可為隨后的理論變異函數擬合與克里格插值奠定良好的基礎。
[1] JOURNEL A,HU IGBREGTSC.礦業地質統計學[M].北京:冶金工業出版社,1982.1-586.
[2] 孫洪泉.地質統計學及其應用[M].徐州:中國礦業大學出版社,1990.1-282.
[3] 張長波,李志博,姚春霞,等.污染場地土壤重金屬含量的空間變異特征及其污染源識別指示意義[J].土壤,2006,38(5):526 -533.
[4] 師榮光,趙玉杰,周啟星,等.蘇北優勢農業區土壤砷含量空間變異性研究[J].農業工程學報,2008,24(1):80-84.
[5] 李蒙文,戰明國,趙財勝,等.穩健估計方法在內蒙古新忽熱地區水系沉積物測量異常評價中的應用[J].礦床地質,2006,25 (1):27-35.
[6] 魏鳳英,曹鴻興.地統計學分析技術及其在氣象中的適用性[J].氣象,2002,28(12):3-5.
[7] 岳文澤,徐建華,徐麗華.基于地統計方法的氣候要素空間插值研究[J].高原氣象,2005,24(6):974-980.
[8] 王政權.地統計學及在生態學中的應用[M].北京:科學出版社,1999.1-195.
[9] 張仁鐸.空間變異理論及應用[M].北京:科學出版社,2005.1 -188.
[10] KRIGE D,MAGRI E.Studies of the effects of outliers and data transformation on variogram estimates for a base metal and a gold ore body[J].Mathematical Geology,1982,14(6):557-564.
[11] OL IVER M,FROGBROOK Z,WEBSTER R,et al.A rational strategy for determining the number of cores for bulked sampling of soil[A].Precision Agriculture[C].UK Oxford:BIOS Scientific Publishers Ltd,1997.155-162.
[12] GENTON M.Highly robust variogram estimation[J].Mathematical Geology,1998,30(2):213-221.
[13] MARCHANT B,LARK R.Robust estimation of the variogram by residualmaximum likelihood[J].Geoderma,2007,140 (1-2):62-72.
[14] CERIOL I A,RIAN IM.Robust methods for the analysis of spatially autocorrelated data[J].Statistical Methods and Applications,2002,11(3):335-358.
[15] CRESSIE N,HAW KINS D.Robust estimation of the variogram:I[J].Mathematical Geology,1980,12(2):115-125.
[16] HAWKINS D,CRESSIE N.Robust kriging——a p roposal[J]. Mathematical Geology,1984,16(1):3-18.
[17] ZHANG C,SEL INUSO,SCHEDIN J.Statistical analyses for heavy metal contents in till and root samples in an area of southeastern Sweden[J].The Science of the Total Environment,1998,212(2-3):217-232.
[18] ZHANGC,ZHANGS.A robust-symmetricmean:A new way of mean calculation for environmental data[J].GeoJournal, 1996,40(1):209-212.
[19] 王少熙,賈新章.半導體質量控制中的非正態工序能力指數計算模型[J].半導體學報,2007,28(2):227-231.
[20] 周群艷,田澎,田志友.基于Johnson轉換體系的非正態過程能力指數估計[J].系統工程,2004,22(5):98-102.
[21] BOX G,COX D.An analysisof transformations[J].The Royal Statistical Society.Series B(Methodological),1964,26(2): 211-252.
[22] JOBSON J.Applied Multivariate Data Analysis:Regression and Experimental Design Categorical and Multivariate Methods[M]. New York:Sp ringer,1991.
[23] JOHNSON N.Systems of frequency curves generated by methods of translation[J].Biometrika,1949,36(1):149-176.
[24] H ILL I,H ILL R,HOLDER R.Fitting Johnson curves by moments[J].Applied Statistics,1976,25(2):180-189.
[25] CHOU Y,POLANSKY A,MASON R.Transforming non-normal data to normality in statistical p rocess control[J].Quality Technology,1998,30(2):133-141.
[26] SLIFKER J,SHAPIRO S.The Johnson system:Selection and parameter estimation[J].Technometrics,1980,22(2):239-246.
[27] MANDRACCIA S,HALVERSON G,CHOU Y.Control chart design strategies for skewed data[A].Process,Equipment,and Materials Control in Integrated Circuit Manufacturing II[C]. USA Austin:TX,1996.196-205.
[28] L ILL IEFORS H.On the Kolmogorov-Smirnov test for normality with mean and variance unknow n[J].The American Statistical Association,1967,62(318):399-402.
[29] PANNA TIER Y.Variow in:Software for Spatial Data Analysis in 2D[M].New York:Sp ringer,1996.1-91.
[30] MULLA D,MCBRA TNEY A.Soil Spatial Variability[M]. Boca Raton,FL:Soil Physics Companion CRC Press,2002.343 -373.
Abstract:Fo r the strongly variable,large skewed and non-no rmal distributed soil samp le data,such as those in Tongling mining area,spatial variability analysis and interpolation directly w ill lead to considerable erro rs,so it needs to select an app rop riate no rmal transfo rmation method to perfo rm the robust p rocessing firstly.In thispaper,Pb element dataof surface soil in Tongling mining area was taken fo r examp le,the raw data were transformed by different normal transfo rmation methods and the effects was analyzed by variogram,expecting to p rovide a mensurable basis fo r app lying geostatisticsmore reasonable and effective in the strong spatial variability metallogenic region.Comparison study showed that the logarithmic transfo rmation could notmake the soil element data in Tongling mining area obeying normal distribution,although Box-Cox transformation could decline the skew ness of the data,it still didn′t pass the K-S test.Johnson transfo rmation is an op timalmethod and the results passed the KS test successfully,especially for non-normal distributed data.Both Johnson transfo rmation and Box-Cox transfo rmation could make the variogram shape better,and Johnson transfo rmation had stronger no rmalization capacity and advantage fo r stabilizing the shape of variogram.Johnson transfo rmation is an ideal geostatistics normalization tool fo r the strong spatial variability metallogenic region.
Key words:geostatistics;no rmal transformation;soil;elements;Tongling
Comparison of Normalization Methods for Non-Normal Distributed Soil ElementsData in Typical M ining Area
L IXiao-hui,YUAN Feng,BA IXiao-yu,ZHANGM ing-ming,JIA Cai,ZHOU Tao-fa
(School of Resources and Environmental Engineering,Hefei University of Technology,Hefei 230009,China)
P628+.1
A
1672-0504(2010)06-0102-04
2010-07-20;
2010-10-18
新世紀優秀人才支持計劃項目(NCET-10-0324);安徽省科技攻關計劃項目(08010302200);安徽省公益性地質(科技)工作項目(2009-13);安徽省優秀青年科技基金項目(08040106907、04045063)
李曉暉(1986-),男,博士研究生,主要從事多維分形及地質體三維建模預測研究。E-mail:lxhlixiaohui@163.com