高艷芳, 柳青青 , 王 瑋 , 王文君
(1.國土資源部 地球化學探測技術重點實驗室,廊坊 065000; 2.中國地質科學院 地球物理地球化學勘查研究所, 廊坊 065000; 3.河南省地質礦產勘查開發局 第四地質勘查院, 鄭州 450001)
正態分布和對數變換在化探數據處理中存在問題的討論
高艷芳1,2, 柳青青1,2, 王 瑋1,2, 王文君3
(1.國土資源部 地球化學探測技術重點實驗室,廊坊 065000; 2.中國地質科學院 地球物理地球化學勘查研究所, 廊坊 065000; 3.河南省地質礦產勘查開發局 第四地質勘查院, 鄭州 450001)
長期以來,常量元素大多服從正態分布、微量元素大多服從對數正態分布的觀點,被廣大的化探工作者所認同,利用對數變換進行異常下限的分析和利用對數0.1間隔進行地球化學圖色階值的設定也是基于這一理論基礎。但是在實際的應用中發現,化探數據中的元素概率分布特征并非如此,利用對數進行異常下限的確定和色階的設定會出現異常下限過高和色階分布不均勻的問題。利用計算機技術和可視化技術,利用大量的實測數據,對元素的統計分布特征和利用對數確定異常下限的過程進行了詳細地探討和分析,認為化探數據由于具有鮮明的空間性,所以并不一定具有正態分布的固有屬性,同時確認,利用對數變換獲得的異常下限過高是因為對標準離差的誤用引起的。
正態分布; 對數變換; 異常下限; 標準離差; 色階
化探人員從接觸化探數據起,就要涉及正態分布的概念及相應的數據處理問題[1]。多年來一直在沿用的,利用算數平均值(背景值)加上n倍標準離差來確定異常下限的方式,就是建立在元素服從正態分布的理論基礎之上。從經典統計學的角度來講,利用多元統計方法對化探數據進行分析的前提是元素服從正態分布?;诖耍瑢嶋H工作中,為了使不呈正態分布的元素變為正態分布,應進行對數變換,所以“對數”這一名詞在化探數據處理中多處被引用(如:地球化學圖的色階值按0.1對數間隔進行劃分;地球化學圖中對數值直方圖的制作)。同時包含了“正態分布”和“對數”這兩個名詞的一個觀點是:常量元素服從正態分布,微量元素服從對數正態分布,這一觀點被眾多的化探工作者認知。實際科研生產中獲得的化探數據中的各元素究竟服從什么樣的概率分布?對數變化及對數值的應用過程又帶來了什么樣的結果?筆者利用計算機技術及可視化技術對這兩個方面的問題進行了深入的剖析。
1.1 正態分布
正態分布(高斯分布)是連續型隨機變量概率分布的一種形式,由中心極限定理推論而來。由于客觀世界中的許多自然現象、社會現象都可以看作是正態分布或者是近似正態分布,并且可以利用其分布狀態來進行預測、判斷和推理,所以它在數理統計的理論與實際應用中占有重要的地位[2-5]。正態分布的密度函數為:
(1)
其中:x為隨機變量,定義域為:[-∞,∞];μ為平均值;σ為標準離差;y為概率密度。根據此公式繪制出概率密度分布曲線。在正態分布狀態下,此曲線呈現中間高、兩端逐漸下降且左右完全對稱的幾何形狀,稱之為正態分布曲線或鐘形曲線(圖1)。當μ等于“0”,σ等于“1”時稱為標準正態分布曲線。
從圖1中可以看出,正態分布的數據一半以上都集中在(μ-1σ,μ+1σ)區間范圍內,占有68.27%的頻率[6-9],此部分為基區;在(μ-2σ,μ+2σ)的范圍內占有95.64%的頻率,即此范圍內的數據量占總數的絕大多數,也可以說,在μ±2δ范圍外的數據占有不到5%,該數據稱為特殊的數據,此范圍為異常區,此為確定化探異常下限的理論依據;此外,可以發現,在μ±3σ范圍之外僅有不到0.3%的數據量,此范圍內的數據為極端異常區(統計學上,稱為不可能事件區)。這就是化探數據迭代剔除時去除3倍標準離差時的理論依據,即3倍標準差原理或3σ法則[10-11]。

圖1 正態分布的鐘形曲線Fig.1 The graph of normal distribution
自然界、人類社會、人文教育中的大量現象均按正態形式分布,所以調查研究時,可以利用某一現象的正態分布曲線進行分析對比。在化探中,可以利用μ±3σ范圍之外為不可能事件的結論,推斷此范圍的數據為極端的正負異常數據。
1.2 地球化學數據的正態分布
關于化探數據的概率分布形式,通用的觀點是:地質體元素含量的概率分布一般均表現為正態分布或對數正態分布形式,不同的分布形式分別代表著不同的地球化學意義[11-13]?;镜恼J知如下:
1)礦物、巖石中的常量元素大多服從正態分布,微量元素大多服從對數正態分布。
2)當元素近似均勻地分散在各種礦物中時,元素在巖石中呈正態分布,當元素集中在某種礦物中時,元素在巖石中則呈對數正態分布。
3)單一地球化學作用下,元素多數呈對數正態分布,多次地球化學作用綜合產物中元素分布形式趨向于正態分布(如新鮮花崗巖中,親硫元素呈對數正態分布,而在多次表生作用所形成的土壤中則呈正態分布)。
4)對數正態分布可能代表一種混合體,換言之,對數正態總體不一定是在一次地質作用過程中形成的,而是多次地質作用疊加的結果。
基于以上的觀點,以及經典統計學中聚類分析、因子分析、相關分析等都是以正態分布為條件,所以長期以來,在化探科研和生產中,在數據處理時,首先關心和關注的是所獲數據中各元素的概率正態分布的特征,以用于進行異常下限的確定、異常圖的制作和多元統計分析。
1.3 正態分布的應用探討
地球化學元素正態分布觀念已被業內認知和認同了多年,但是從實際的數據來看,微量元素呈對數正態分布,常量元素呈現正態分布,這一規律并不適用于目前以各種方法獲得的化探數據。無論是1∶200 000區域化探數據中的39種元素,還是1∶50 000普查數據中的十幾種成礦元素,以及大比例尺詳查數據中的成礦元素;無論是對水系沉積物還是對土壤樣品進行分析獲得的數據中的各元素;無論是全國范圍內的[14]還是一個成礦帶上的數據集中的各元素,很難得到一套數據符合以上的概率分布規律。不成正態分布的微量元素,即使變換為對數也無法達到對數正態分布。區域化探數據中的常量元素幾乎也不符合正態分布的描述。有的元素,甚至在經過一個迭代剔除過程后都未必能夠滿足近似正態分布。如圖2中,某圖幅1∶200 000區化數據中的Ag的對數值,經過4次迭代后也達不到近似對數正態分布。
實際科研生產中獲得的地球化學元素的概率分布并不遵循正態分布,而是呈明顯的正向偏斜(右偏)或表現為一種冪形的拖尾分布,這是多年來隨著方法技術的發展獲得一個明確的結論[15]。其實國外也早有學者對五十年代提出的這個理論給予了質疑和否定[16]。實際上,具有空間依賴性的數據是不能滿足經典統計學中樣品相互獨立的假設的。地球化學數據首要的屬性是空間依賴性,因此,它并不具備正態分布的固有屬性。

圖2 某圖幅1∶200 000 化探數據Ag迭代剔除過程中概率分布圖Fig.2 The Ag graph of normal distribution in iteration process(a)原始數據;(b)第1次迭代;(c)第2次迭代;(d)第3次迭代;(e)第4次迭代
鑒于以上的普遍現象,在對化探數據進行概率分布分析時,根據約定成俗的認識就對元素進行正態分布、對數正態分布的統一描述是不恰當的。對于不符合正態的分布的元素,在確定其異常下限時,可以采用EDA的5參數法或分形分析等處理方法。
2.1 對數變換的意義
在對各門類的科學數據進行數據處理時,需引入對數變換這種變換方式。其理論基礎是對數函數在其定義域內是單調增函數,取對數后不會改變數據的相對關系,但是可以做到:
1)把數據壓扁,縮小數據的絕對數值,方便計算。
2)讓方差恒定,數據相對集中,即波動相對穩定。
3)減少原始數據中的奇異值的出現。
4)能夠簡化計算,把乘法計算轉化為加法,將除法計算轉為減法計算(計算機對n個元素幾何平均值的計算就是采用取對數后相加再取真值獲得的)。
5)對不符合正態分布的數據,利用對數變換可以使得數據接近正態分布。
地球化學數據在處理時應用對數變換,是由于微量元素不符合正態分布而符合對數正態分布的觀點所致。所以在異常下限的確定、色階值的選取及直方圖的制作過程中都引入了對數的概念。
2.2 對數變換的應用探討
2.2.1 確定異常下限
確定某元素的異常下限一個通用的方法是在數據符合正態分布的前提下[17-19],其平均值即為該元素的背景值,異常下限則為平均值+n(通常取2)倍的標準離差[20-21]。微量元素不符合正態分布而符合對數正態分布這個觀念,使在化探數據處理過程中,在對數據取對數后,利用獲得對數的平均值和對數的標準離差,求得(對數的平均值+2倍對數標準離差)對數值的異常下限,再轉換為真值,即為該元素的異常下限。在實際應用的時候,發現通過這種方式獲得的異常下限值過高,這是因為對對數變換中獲得的對數標準離差的誤用引起的。

(2)
(3)
由式(2)和式(3)可以看出:對數平均值的真數等于原始數據的幾何平均值,但是對數的標準離差的真數并不和原始數據的標準離差相吻合,也就是說與原始數據的標準離差是不相等的。所以利用對數的平均值和2倍標準離差求和后再取真值,由于是呈指數數量級的變換,所獲異常下限超出了預期。在實際應用中發現,以對數方式計算,有的元素的異常下限值最大超過按真值計算所獲異常下限的1/3。這樣的結果是由于對對數標準離差的誤用而引起的。如果利用幾何平均值和對數變換后對應的真值的標準離差來獲得異常下限,就沒有如此大的差異或偏頗,應該是可靠的或可用的異常下限值(表1和表2)。由表1 和表2可以看出,異常下限值分別是經歷了迭代過程接近于正態分布或對數正態分布時的取值。

表1 1∶50 000數據真值剔除和對數剔除過程結果對比表
*:表明數據為對數值.數據單位:Au為ng/g,其他為μg/g。

表2 1∶200 000數據真值剔除和對數剔除過程結果對比表
*表明數據為對數值,數據單位:Au、Ag為ng/g,氧化物為%,其他元素為μg/g。
表1~表2中的數據是利用GeochemStudio1.5系統進行統計的。實現原理是按雙精度的字段分別進行統計,然后按表達精度進行了小數位的取舍獲得的。另外,按“對應的真值的統計”結果中的標準離差是按著真值計算獲得的,所以不對應“按對數統計”中標準離差的真值,也恰好說明兩個值的不一致。
2.2.2 確定等值線的色階值
在地球化學圖的制作過程中,標準規定了根據0.1lg對數間隔和累頻對應值設置色階的方式。若采用對數0.11g間隔的方式,即采用真值為1、 1.2(1.3)、1.5(1.6)、2、2.5、3(3.2)、4、5、6(6.3)、8、10、12、15等這樣的數字序列。這是來自于微量元素呈對數正態分布的思路。經過實踐證明這樣的設置是不妥的:①目前看來,實際科研生產中已經獲得的區域化探數據、普查或詳查數據中的微量元素并不符合對數正態分布;②在制作地球化學圖時,利用的并不是原始數據而是網格數據,所以色階的設置要根據網格數據的特征來進行。0.11g間隔設置色階后其直方圖如圖3和圖4所示,從圖4中可以看出,即使常量元素按0.11g的對數間隔設置的色階也不合適。在實際制作地球化學圖時,按標準設定色階后再進行比較大刪減改動過程也證明了這一點。鑒于對數色階的不合理性,目前,地球化學圖的制作,其色階的設置選用累頻的方式更為方便和合理。

圖3 Ag元素按對數0.1間隔設置后的色階分布直方圖Fig.3 Ag levels distribution histogram by 0.1 log interval

圖4 Al2O3元素按對數0.1間隔設置后的色階分布直方圖Fig.4 Al2O3 levels distribution histogram by 0.1 log interval
2.2.3 制作直方圖
無論是區域地球化學勘查的新舊規范,還是地球化學普查新舊規范,皆要求在各元素地球化學圖的左側,繪制全圖幅與各主要地質單元的對數直方圖,并標注地質符號、樣品數、平均值、標準離差和變異系數CV。而以對數坐標制作獲得的直方圖,圖上要標記原始數據的平均值、標準離差和變異系數,矛盾在此顯現。對數的算數平均值的真值和原始數據的幾何平均值相對應,原始數據和對數變換后的數據,標準離差和變異系數是不同的。所以此部分將出現圖和參數不一致的情況(圖5)。
另一方面,對數變換后是沒有物理單位的。直方圖的坐標單位卻標記為log(ng/g)或log(μg/g),這樣的標記也是有歧義的。
從上可知,地球化學圖中直方圖的制作需要數和圖的統一。
地球化學數據的處理技術,隨著計算機科學技術的發展而發展。業界在上世紀80、90年代的一些觀點(如認為對幾十種元素同時進行統計和處理都是不可能;將點位數據圖的制作當作保存數據的唯一可靠的方式等),已經成為過去式。這也充分地說明計算機技術的進步及其帶來的影響,在各行各業已經超出了人們的預期和想象。當今,地球化學數據處理技術的進步,必將促使對化探數據本身蘊含的規律有新的理解和認識,從而應用于實際的科研生產中。如:地球化學元素正態分布理論;地球化學圖中直方圖的形和數的不統一;通過對數平均值加上n倍標準離差再轉為真數(此方法在DZ/T0167-2006標準上曾給予特別的說明)確定異常下限的方式是不正確的;地球化學圖的制作,數據利用的是網格化數據,色階的制作要和網格化數據緊密結合等。但是在新修訂的普查規范(DZ/T 0011-2015),在對地球化學圖的基本要求中,仍然要求以原始數據直接勾繪等量線圖[20]的規定顯然會引起異議;新規范中雖然略去了利用對數變換計算異常下限的實例,但是此方法還有許多人仍然習慣性地在利用。鑒于此,筆者將獲得的化探數據既不服從正態分布,也不符合對數正態分布;對數變換求異常下限標準差的誤用等新認識給予論述,以供業界參考。

圖5 某元素的對數直方圖Fig.5 Log histogram of an element
[1] 林存山.地球化學正態分布悖論[J].物探化探計算技術,1994,16(4):288-291. LIN C S .The paradox of normal distribution in geochemistry [J].Compputing techniques for geophysical and geochemical exploration 1994,16(4):288-291.(In Chinese)
[2] 周富臣.正態分布及其應用[J].上海計量測試,2001,28(4):41-43. ZHOU F C. Normal distribution and its application[J].Shanghai Measurement and Testing,2001,28(4):41-43. (In Chinese)
[3] 李洪成.數據的正態性檢驗方法及其統計軟件實現[J].統計與決策,2009(12):155-156. LI H C.The Method of normal distribution test and implement of software [J] . Statistics & Decision, 2009(12):155-156.(In Chinese)
[4] 羅春玲.正態分布的性質及應用[J].科技天地,2010 (17):64-66. LUO C L.The Attribution and application of normal distribution [J].Ability and Wisdom,2010(17):64-66. (In Chinese)
[5] 鄭文兵.正態分布的哲學本質及世界觀意義研究[J].畢節學院學報,2012,30(1):72-76. ZHENG W B.A research of the normal distribution’ s philosophical nature and its world view meaning [J].Journal of Guizhou University of Engineering Science ,2012,30(1):72-76. (In Chinese)
[6] 鄭文兵.正態分布的哲學本質及其社會經濟應用意義[J].統計與決策,2012,35(7):23-26. ZHENG W B.The normal distribution’ s philosophical nature and meaning in social economy [J].Statistics & Decision 2012,35(7):23-26. (In Chinese)
[7] 朱春浩.正態分布與統計學的關系史研究[J]. 武漢船舶職業技術學院學報,2010(6):117-121. ZHU C H.The research for relational history of normal distribution and statistics [J].Journal of Wuhan Institute of Shipbuilding Technology,2010(6):117-121. (In Chinese)
[8] 陳魁.應用概率統計[M].北京:清華大學出版社,2000. CHEN K.The application of probability and statistics [M].Beijing: tsinghua university press, 2000. (In Chinese)
[9] 地文.數理統計在地球化學探礦中的應用簡介(一)[J]. 地質與勘探,1973(02):25-27. DI W.The introduction of application of mathematical statistics in the geochemical exploration(1)[J].Geology and Exploration,1973(02):25-27. (In Chinese)
[10]姜啟明,魯挑建.地學數據常用數理統計[M].哈爾濱:哈爾濱工程大學出版社,2010. JIANG Q M,LU T J. Mathematicla statistics in geological data [M]. Harbin:Harbin engineering university press,2010.(In Chinese)
[11]地文.數理統計在地球化學探礦中的應用簡介(二)[J].地質與勘探,1973(3):25-27. DI W.The introduction of application of mathematical statistics in the geochemical exploration(2)[J].Geology and Exploration,1973(03):25-27. (In Chinese)
[12]羅先熔,文美蘭,歐陽菲,等.勘查地球化學[M] .北京:冶金工業出版社,2012. LUO X R,WEN M L,OU Y F,et al.Exploration geochemistry [M].Beijing:Metallurgical industry press,2012.(In Chinese)
[13]吳錫生.化探數據處理方法[M].北京:地質出版社,1993. WU X S.The processing methods of geochemical data [M]. Beijing:Geological publishing house,1993.(In Chinese)
[14]史長義,梁萌,馮斌.中國水系沉積物39種元素系列背景值[J].地球科學,2016,41(2):234-251. SHI C Y,LIANG M,FENG B. Average backgruound values of 39 chemical elements in stream sedments of China [J].Earth Science,2016, 41(2):234-251. (In Chinese)
[15]季菱姒.地球化學不均勻性與后生疊加作用[J].物探與化探,1992,16(5):385-386. JI L S. Geochemica inhomogeneity and epigenetic superimposition[J].Geophysical and Geochemical Exploration,1992,16(5):385-386. (In Chinese)
[16]C.REIMANN.P.FILZMOSER .Normal and Lognormal data distribution in geochemistry:death of a myth.Consequences for the statistical treatment of geochemical and environmental data[J].enviromental Geology,1999,39(9):1001-1014.
[17]俞鐘行.地球化學元素概率分布型式[J].地質科技情報,1993,12(1):6-7. YU Z X.The pattern of probability distribution of geochemical elements[J].Geological Science and Technology Information,1993,12(1):6-7.(In Chinese)
[18]楊大歡,郭敏,李瑞,等.一種求地球化學異常下限的新方法[J].物探化探計算技術,2009,31(2):154-157. YANG D H, GUO M,LI R,et al.A new method to determine geochemical anomaly threshold[J].Computing Techniques for Geophysical and Geochemical Exploration,2009,31(2):154-157.(In Chinese)
[19]NGUYEN TIENTHANH ,劉修國,陳春亮,等.基于穩健統計學和EDA技術的地球化學下限的確定[J].物探化探計算技術,2013,35(3):307-312. NGUYEN TIENTHANH,LIU X G,CHEN C L,et al.Robust statistics and EDA technique for identification of the geochemical anomaly [J].Computing Techniques for Geophysical and Geochemical Exploration,2013,35(3):307-312.(In Chinese)
[20]曹園園,李新虎.地球化學綜合異的圈定及找礦效果[J].物探與化探,2017,41(1):58-64. CAO Y Y ,LI X H.Delineation of synthetic geochemical anomaly and evaluation of its effectiveness in ore prospecting [J].Geophysical & Geochemical exploration,2017,41(1):58-64.(In Chinese)
[21]李歡,徐國志,劉宏哲,等.利用襯度法繪制化探綜合異常圖[J].現代礦業,2016,566(6):158-160. LI H,XU G Z,LIU H Z. Using contrast value to draw geochemical comprehensive anomaly map [J].Morder Mining,2016,566(6):158-160. (In Chinese)
The discussing of normal distribution and log value in geochemical exploration
GAO Yanfang1,2, LIU Qingqing1,2, WANG Wei1,2, WANG Wenjun3
(1.Key Laboratory of Geochemical Exploration, Ministry of Land and Resources, Langfang 065000,China; 2.Institute of Geophysical and Geochemical Exploration, CAGS, Langfang 065000,China; 3.The Fourth Geology Institute of Minal Development Bureau of Henan,Zhengzhou 450001,China)
The view of many macroelements being normal distribution and trace elements being lognormal distribution has been applying in research and production of geochemical exploration for a long time .Getting anomaly threshold using log transformation and setting color levels using log value space are also based on the theory . In actual work ,the appreances of geochemical elements are not normal distribution .Anomaly threshold through log is higher and color value is unreasonable. By utilizing computing and visual technologhy and basing on mass data ,the researching about statistics distribution and anomaly threshold has been done in this paper. The result is the geochemical element data don't have normal distribution and the high anomaly value coming from the misusing of log transfer.
normal distribution; log transfer; anomaly threshold; standard deviation; color value
2016-07-08 改回日期:2017-03-10
中國地質調查局地質礦產調查專項(IGGE 02016023)
高艷芳(1965-),女,教授級高級工程師,從事GIS技術的應用和軟件開發工作,E-mail:gaoyanfang@igge.cn。
1001-1749(2017)03-0404-07
P 631.4
A
10.3969/j.issn.1001-1749.2017.03.17