周吉晨,李隨民,張詩敏,焦 建
河北地質大學,河北 石家莊 050031
數據處理與解釋是勘查地球化學工作的重要環節,在化探數據的處理中,背景值及異常下限的確定對地球化學異常的圈定與解釋具有重要的意義。土壤是在已風化基巖之上巖石(礦石)風化作用的殘留疏松物[1],對原巖具有繼承性,土壤數據會因受到原巖的影響而出現異常,若不能準確確定背景值,就無法客觀的反映地質信息。許多學者對消除背景值的影響進行了研究,提出了多種解決方法[2-7],這些方法對于強異常的發現和提取有較好的效果,但對低弱異常的識別效果不佳。目前針對低弱異常識別的方法有:子區中位數襯值濾波法[8]、趨勢面法[9-10]、等。低弱異常的識別對找礦具有重要的意義。
論文利用內蒙古阿木牛林場地區1∶5萬化探數據,通過k均值聚類方法實現對研究區樣品的分類,每一類可視為一個單獨的個體。然后對每個子類中的數據進行標準化和分析,從而達到突出低弱地球化學異常的目的,為進一步找礦提供參考。
調查區位于大興安嶺北段東坡,大興安嶺主脊在西北部通過。地勢西高東低,山脈走向以近南北向、北西向、北東向為主,總體構造線方向為北東向、北東東向,其中北東向構造控制著地層和侵入巖的展布方向,次之為北西向構造,褶皺構造不太發育。地層自下而上劃分為古生界下奧陶系銅山組、侏羅系滿克頭鄂博組、瑪尼吐組、白音高老組,第四系全新統沼澤堆積物和沖洪積物等。其中侏羅系分布最廣,奧陶系少量分布,第四系沿溝谷、河床分布。古生界下奧陶系銅山組的巖石組合以變質砂巖、變泥質粉砂巖、變細砂巖、變砂質泥巖為主,中間夾有變中酸性火山熔巖和大理巖。滿克頭鄂博組為一套酸性火山熔巖、火山碎屑巖噴發沉積組合,多數直接噴發不整合覆蓋與古生界地層和中侏羅世侵入巖之上。瑪尼吐組是以中性火山巖—火山碎屑巖噴發沉積為主的一套地層,巖石組合以安山巖、安山質含角礫熔結凝灰巖、英安巖、多斑角閃安山巖為主,局部以安山巖與火山碎屑巖互層出現。白音高老組地層是一套偏堿性酸性火山巖—火山碎屑巖夾少量中酸性火山巖等特征的巖石組合,其巖石組合顏色整體偏淺,多呈現灰白色,為灰白色流紋巖與灰白色流紋質凝灰巖互層產出為特征。區內侵入巖十分發育,主要有中三疊紀二長花崗巖,中侏羅世二長花崗巖,早白堊紀二長花崗巖、花崗斑巖、石英二長斑巖、石英正長巖等,其中中侏羅世二長花崗巖在研究區發育大面積出露,主要分布在研究區中部和東部(圖1)。

圖1 研究區地質概略
聚類是數據挖掘的一種重要的手段,k均值聚類算法是一種得到最廣泛使用的基于劃分的聚類算法,該算法簡單、快速,對處理大數據集,該算法是相對可伸縮和高效的[11]。論文利用該方法對數據進行分類,然后進行正態轉換,對異常樣品進行剔除,將剩余數據進行標準化。該方法可形成一個突出低弱地球化學異常的標準化數據集,作為進一步計算和編圖的基礎數據。
在整個數據集中,隨機選擇k個數據,每個數據作為一個簇的中心,然后計算其它數據與這個中心的距離,跟據距離將這些數據劃分到最近的簇。所有數據劃分好后,再計算每個簇的平均值,并以該平均值為中心重新聚類,以此往復,直至滿足收斂函數的要求,即:

輸入:n個數據對象,數量為k
輸出:k個滿足收斂函數的簇
(1)從n個對象中任意選擇k個對象,每個對象作為初始聚類中心;
(2)計算每個對象與聚類中心的距離,根據距離把每個數據劃分到距離最近的簇;
(3)重新計算每個簇中的平均值,重新選定聚類中心;
(4)計算收斂函數,滿足收斂條件則結束,否則回到第(2)步。
本次土壤測量采樣密度為8.90點/km2,采集樣品2 518個,所有樣品均采集為基巖風化產物中的殘積層或巖屑,且為多點采集,組合成為一個樣品。采樣時避開了各種污染、廢石堆和河床堆積物,不能取樣時棄點在記錄中進行了注明;采樣后留有明顯標志。土壤測量以-4~+20目為采樣粒級。通過對數據的預處理,剔除特異值后,本次分類的有效數據為1 675個。
分類主要依據來源為內蒙古阿木牛林場地區地質單元的數目和k均值聚類法的輪廓系數。
最優分類數k的選取對于k均值聚類方法至關重要,最優分類數可以通過輪廓系數確定[12]。輪廓系數的下公式計算如下[13]:
其中,Si代表第i個變量的輪廓系數;ai代表一個簇中第i個變量到其它所有變量的平均距離;bi代表到其它所有變量的最小距離。通過給定的初始分類數可以計算出相應的平均輪廓系數,輪廓系數的值在-1至1之間,值越大則代表聚類效果越好。同時選取的類數不應過小。
根據內蒙古阿木牛林場地區的地質單元數目和K均值聚類的輪廓系數,該地區可分為5大類。(圖2)

圖2 研究區分類圖
首先檢測每個子類內元素是否符合正態分布,對于近似正態分布的數據,采用3S法剔除異常值,直至符合正態分布。剔除異常值后,通過檢測,近似正態分布的元素按照以下公式進行均值和標準差的運算,即:
呈近似對數正態分布的元素按照以下公式進行均值和標準差的運算,即:
其中,μ為數據的自然對數值;σ為數據的自然對數標準離差。
根據各類數據的均值和標準差,計算異常下限值和襯度值,然后將所有子類數據合并為一個數據集。
內蒙古阿木牛林場地區1:5萬化探數據可分為5類,論文選取研究區潛在成礦元素Pb、Zn元素與傳統方法圈定的異常進行對比。首先,對每類數據正態化后進行3S檢驗,將異常值剔除,然后計算標準差、方差和異常下限值,如表1、表2所示:

表1 k均值聚類法Pb元素異常下限值
根據各類的異常下限值,利用Excel表分別計算5類中Pb、Zn元素的襯度值,即Pb、Zn元素與該元素異常下限的比值。將得到的襯度值合成為一個數據集,并用surfer軟件制作等值線圖。
將未分類原始數據中的Pb、Zn元素進行特異值剔除,使其符合或近似符合正態分布,然后采用平均值加2倍標準差的方法確定Pb、Zn元素的異常下限值,作為傳統方法圈定元素異常的依據(表3)。

表3 傳統方法Pb、Zn元素異常下限值
從傳統方法和k均值分類法(圖3、圖4)圈定的異常可以看出,Pb、Zn元素的分布受到了巖性地層分布的控制,大部分異常區與中侏羅世花崗巖相對應。若研究區內巖性變化較大,按統一的異常下限確定元素異常可能僅是對巖性的反映,不能真實反映異常情況。因此,傳統方法圈定異常并不是適用地質條件較復雜的地區。而k均值聚類法不僅使原有的北北西方向的Pb異常得到了加強,而且顯示出Pb、Zn的低弱異常(實線圈定區)。若使用傳統方法,這些異常往往被忽略。

圖3 Pb元素異常圈定對比圖

圖4 Zn元素異常圈定對比圖
論文利用k均值聚類法對研究區元素進行分類,并對每個子類的數據進行標準化,計算其均值、方差和襯度值。以Pb、Zn元素為例,在與傳統方法圈定地球化學異常的對比中發現,分類處理可以有效的強化原有異常,識別低弱地球化學異常。與傳統方法(全地區統一異常下限值)圈定異常不同的是,分類方法和傳統方法圈定異常的區域有所差異,分類方法可以消除巖性對異常的影響,顯示出一些低弱異常的區域,而傳統方法圈定的異常可能因巖性的影響而出現偏差。