孫文潔,楊 恒,徐陳超,張恩雨
(1.中國礦業大學(北京) 國家煤礦水害防治工程技術研究中心,北京 100083;2.東華理工大學 核資源與環境國家重點實驗室,江西 南昌 330013;3.華北科技學院 河北省礦井災害防治重點實驗室,北京 101601)
水害是煤礦五大自然災害之一,目前仍是威脅我國煤礦安全生產的第二殺手[1-4]。因此,有效減少與防治礦井水害事故對保障礦區安全生產具有重要的實際意義。如何精準、快速地判別礦井突水水源是礦井水害防治的前提條件和核心工作。近些年來,許多專家學者基于水化學檢測結果,運用多種方法判別礦井突水水源[5]。琚棋定、胡友彪等學者基于主成分分析和貝葉斯判別構建礦井突水水源判別模型,通過在潘二礦區的實際應用,準確快速地識別出潘二礦區的突水水源類型[6]。許蓬與王明運用同位素技術成功判別出巴彥高勒礦井的突水水源,為該礦制定礦井防治水措施提供了科學依據[7]。上述模型和方法雖均具有較高的實用價值,但各種研究方法在實際應用中都存在一定的局限性,如貝葉斯判別法的結構受樣本限制,其假設了樣本之間相互獨立,若樣本關聯,其判別結果較差;同位素判別法的經濟成本過高。基于此,筆者采用因子分析及距離分析相結合的方法構建礦井突水水源判別模型,以期提高判別精度。利用降維方法的因子分析可以有效地消除水樣判別指標之間因信息互相疊加對突水水源判別的影響,能夠更加有效地表征不同含水層的水源特征[8-10]。距離分析能夠以數值的方式精確地反映出水樣判別指標之間線性相關強弱程度。二者相耦合的方式能夠降低各因子之間信息交互的影響,并以數值的方式展現出判別結果。運用該模型對東歡坨礦礦井突水水源進行識別,以期為礦井突水水源快速準確判別提供科學理論依據。
當數據變量較多、維度較高時,變量之間常存在一定相關性,無法準確反映出樣本主要信息,且變量太多會提高分析問題的難度,而因子分析及主成分分析以最少的信息丟失為前提,運用彼此相互獨立的幾個因子來反應原有變量的主要信息。魯金濤和李夕兵等學者運用主成分分析成功提取出新莊孜礦的礦井突水水源判別指標[11];宮鳳強等學者運用因子分析法有效地消除了判別指標之間因信息相互疊加對突水水源判別的影響[12]。可見,因子分析及主成分分析法能夠在礦井突水水源判別中發揮重要作用。
其數學模型如下:設原有n個變量xi(i=1,2,3…n),每個變量(或是經標準化處理后)的均值為0,標準差均為1,將n個變量xi進行坐標轉換線性組合,得到新變量yi,其表達式如下:
y1=μ11x1+μ12x2+μ13x3+…+μ1nxn+ε1
y2=μ21x1+μ22x2+μ23x3+…+μ2nxn+ε2
y3=μ31x1+μ32x2+μ33x3+…+μ3nxn+ε3
?
yn=μn1x1+μn2x2+μn3x3+…+μnnxn+εn
式中,xi與yi為兩變量對應的樣本值;μij為因子載荷,其含義為第i個變量在第j個因子上的負荷(j=1,2,3,…,n);ε為特殊因子,其含義為原有變量不能被因子解釋的部分。
將k個因子的累計貢獻率Sk定義為:
式中,Sp為第p個因子的方差貢獻;D為總方差[9]。
當Sk﹥0.85時,確定因子數量k(k﹤n),得到新樣本yp(p=1,2,3,…,k)。
距離分析法是研究變量彼此之間關系緊密程度的數學統計方法,包括馬氏距離、歐氏距離、Pearson相關系數和平方歐式距離分析等。史秀志和施龍青學者分別用馬氏距離和歐式距離分析成功構建礦井突水水源距離判別模型[13,14]。Pearson相關系數分析以數值的方式精準地反映出變量之間線性關系的強弱程度,相關系數的取值范圍在-1~1之間。當相關系數的絕對值大于0.8時,表明兩個變量之間具有較強的線性關系,計算公式如下:

東歡坨礦位于華北石炭-二疊紀煤田巖溶-裂隙水害區,屬華北型沉積。各含水層之間水力聯系密切,水文地質條件復雜[15,16]。礦井內賦存有第四系沖積層孔隙承壓含水層、石炭-二疊系砂巖裂隙承壓含水層和中奧陶系灰巖巖溶裂隙承壓含水層。目前主采5、8、9、11、12-1和12-2煤層。水文地質勘察結果表明:沖積層強含水層組、煤5頂板強含水層組及煤12-2底板強含水層組對煤層開采構成水害威脅,而奧灰含水層對煤層開采影響不顯著[17,18]。該礦與山東新汶礦區地質條件相似,施龍青等學者運用Matlab因子分析及距離分析成功構建新汶礦區突水水源判別模型。因此,筆者結合東歡坨礦構建礦井突水水源判別模型。


表1 東歡坨礦訓練樣本

表2 東歡坨礦測試樣本
2.3.1 構建因子分析模型
將兩組訓練樣本數據導入SPSS軟件,采用因子分析進行主成分提取。兩組KMO指數(檢驗統計量)分別為0.732和0.624,均滿足因子分析前提條件,即KMO≥0.60。對兩組數據進行因子分析處理后,得到兩組水樣的解釋數據,見表3和表4。

表3 Ⅰ類訓練樣本因子特征值、方差貢獻率及累計貢獻率

表4 Ⅱ類訓練樣本因子特征值、方差貢獻率及累計貢獻率
由表3和表4可知,前兩個主成分因子的累計貢獻率分別達到了92.379%和92.751%,均滿足Sk﹥0.85,確定因子個數為2,即兩個主成分因子可以對樣本進行很好的概述。由累計方差貢獻率可以看出,第一個主成分因子對變量的解釋貢獻更高,因此,選取與第一類主成分因子有密切關系的離子成分作為判別礦井突水水源的水質指標。兩類訓練樣本的六種離子在兩個因子上的旋轉載荷提取結果見表5。


表5 主因子提取結果
2.3.2 構建距離分析模型
將兩類訓練樣本的其他離子剔除,僅留下作為判別礦井突水水源的離子數據,導入到SPSS中進行距離分析,運用Pearson系數計算各離子之間相關系數。兩類訓練水樣離子相關系數分別見表6與表7。

表6 Ⅰ類訓練水樣離子相關系數

表7 Ⅱ類訓練水樣離子相關系數

將判別水樣類型與實際水樣類型比對,結果如下:10組測試水樣中,僅第1、7兩組水樣判別錯誤,第1組測試水樣為Ⅰ類水樣,第7組測試水樣為Ⅱ類水樣,其余測試水樣判別結果均正確。共對10組測試水樣判別15次,正確率為86.7%。
錢家營礦與東歡坨礦均隸屬于開灤(集團)有限責任公司,兩礦相隔較近。錢家營礦局部可采5號煤層,曾多次發生5煤頂板水害事故,礦井開采受5號煤層頂板水害影響嚴重[19]。現根據錢家營礦突水水源臺賬,選取10組訓練水樣(Ⅲ)與5組測試水樣(Ⅳ),運用因子分析及距離分析模型判別其突水水源類型,水樣數據見表10。

表8 1—10組測試水樣判別結果

表9 1、7—10測試水樣判別結果

表10 錢家營礦水樣數據
因子分析及距離分析模型判別結果如下:表10中僅第三組測試水樣(水樣編號13)的離子相關系數小于0.8,該組水樣不是5煤頂板含水層水樣,其余均為5煤頂板含水層水樣。判別結果與實際情況一致。
由于SPSS因子分析模型需要從一定數量的水樣中篩選出一組合適的訓練水樣,使其在因子分析中的KMO指數不小于0.6,方可進行距離分析,因此對于水樣數據嚴重不足的礦井來說,該判別方法不一定適用,且篩選水樣過程較為繁瑣;該判別方法適用于單一突水水源判別,目前未嘗試對混合突水水源進行判別。
1)運用SPSS因子分析對水樣數據進行降維,有效降低了突水水源判別指標之間的交互影響,成功提取出水樣數據的主要信息;借助SPSS距離分析模型,成功計算出水樣離子相關系數,直觀地體現了水化學指標之間線性關系。
2)基于SPSS因子分析及距離分析判別模型,結合東歡坨礦含水層水樣數據,成功建立東歡坨礦突水水源判別模型,判別率達86.7%,判別結果顯著,可信度高。
3)該判別方法可推廣至與東歡坨礦相鄰的錢家營礦,成功判別其5煤頂板突水水源,判別結果準確無誤。