薛峰 李希建
摘? 要:為提高小樣本數據預測煤層底板突水狀態可靠性,結合主成分分析(Principal Component Analysis,PCA)與Fisher判別法構建煤層底板突水預測模型。以華北典型礦區為例,選取12項可直接測量指標作為煤層底板突水評價指標,采用主成分分析處理評價指標,用5項主成分代替原有12項指標,定性分析煤層底板突水狀態。利用Fisher判別法分析主成分分析處理結果,確定評價集與兩類突水狀態的距離,進行樣本歸類判別。研究表明:回判15組訓練樣本并預測3組待測樣本,誤判率為0%。PCA-Fisher判別模型可減弱指標間關聯度,在煤層底板突水樣本數據有限的情況下,可獲得良好的預測效果。
關鍵詞:煤層底板突水 主成分分析(PCA)判別法(Fisher)模型研究
由于我國煤田水文地質條件的復雜性,在煤層開采過程中極易受水害威脅。盡管采取了大量防治措施,但隨著開采深度的增加,煤層水壓逐漸升高,突水災害日益加深。煤層底板突水受多種因素的控制,其機理非常復雜,且突水數據難以獲得。因此,基于小樣本數據高效準確預測煤層底板突水狀態已成為目前研究的迫切需求。
近年來,諸多學者對煤層底板突水問題的研究取得了一定成果。劉磊、趙德康、申建軍、徐德寶等分別采用灰色理論、熵權-未確知測度理論、可拓物元模型和突變理論確定指標權重,對煤層底板突水危險性趨勢進行了預測,但對煤層底板突水影響因素重要程度賦值具有主觀性及隨意性,影響預測精度。LSTM(Long Short-Term Memory,長短時記憶)神經網絡、改進脆弱性指數法、未確知測度理論等方法利用現場實測數據,驗證預測煤層突水模型準確性;盡管上述研究方法可預測煤層底板突水狀態,但評價指標間重疊性強,計算過程復雜,在樣本數據有限的情況下,難以精準預測突水狀態。Fisher判別法可很好預測小樣本數據,周健、孫文潔、畢建武、侯恩科等利用Fisher判別法分別預測了地下礦山礦柱穩定性、礦井水文地質類型、煤與瓦斯突出類型、風化基巖富水性,減少樣本數據有限時對預測精度的影響。但預測模型中評價指標眾多且關聯性強,僅采用Fisher判別法預測,計算過程冗雜,影響預測精度。
為此,筆者基于主成分分析(PCA)和Fisher判別法建立煤層底板突水預測模型,選取12項可直接測量指標作為煤層底板突水評價指標,減少賦值主觀性,提取煤層底板突水評價指標特征信息,用少量主成分代替原有眾多評價指標,減弱指標間關聯度,簡化計算過程,確定評價集與兩類突水狀態距離,提高預測精度,以期在樣本數據有限情況下,得到更合理、可靠的煤層底板突水預測結果,為礦井防治煤層底板突水事故提供一定理論支撐。
1? 建立PCA-Fisher判別模型
1.1 主成分分析方法
主成分分析本質上是一種有效的降維手段,其核心是將原始數據通過線性組合,利用矩陣正交變換將初始信息提煉,用較少主成分線性函數與特定成分之和表達原有眾多指標,消除指標間相關性,降低預測樣本復雜度、提高預測精度。分析步驟如下:
1)建立原始數據矩陣,表達式為:
2)將原始數據標準化,可表示為:
3)求相關系數矩陣G,表達式為:
4)計算矩陣G特征值及特征向量,表達式為:
經計算得出特征值λi(i=1,2,3,,p),并按其大小順序進行排列后分別求出特征值所對應的特征向量。
5)確定主成分數目。計算單個主成分的貢獻率及主成分累計貢獻率,取累計貢獻率S≥85%所對應的前h個主成分。
第h個主成分的貢獻率,可表示為:
前h個主成分累計貢獻率,可表示為:
6)經線性組合后可得y=AX,即:
式(7)中線性變換要滿足以下條件:①;②;③yi是與y1,y2,…,yi-1都不相關的x1,x2,…,xi全部線性組合中方差最大者。
組合中方差最大者。
1.2 Fisher判別模型
Fisher判別法中心思想為投影,即將原始的n組p維數據依據方差分析原理投影到某方向,將原始的多維數據簡化為一維函數。設從總體中選取m組具有p項指標的樣本作為觀測數據,運用方差分析原理構造一個或多個判別函數為[15]。
預測煤層底板是否突水時Fisher判別準則如下:
煤層底板突水樣本共有2個類別,即突水與未突水。設樣本數為ni,每個樣本有p項指標,協方差矩陣及均值分別為x(i),。為判定新樣本是否突水,構建判別函數為:
式中。
y(x)在總體上的樣本均值及樣本方差為:
式中,和Si表示總體內x的樣本均值向量和樣本協方差陣。若為樣本總均值向量,則。
最大離差比γ可表示為:
式中,,為組內離差平方和;,為組間離差平方和。
根據極值存在必要條件,經代數計算,可構造t(t為E-1B非零特征值個數)個判別函數。
單個判別函數的判別能力定義為:
式中,λ為E-1B對應的特征值。
前h個判別函數的判別能力定義為:
若Ps≥85%,可采用前h判別函數進行判別。將新樣本p項指標函數帶入判別函數中即可求出y值,將其與判別臨界值進行比較,即可判定該樣本是否突水。
2? 煤層底板突水主成分分析
2.1 煤層底板突水預測指標的確定
煤層底板突水事故的影響因素多而復雜,所選取的指標將直接影響評價結果。為減少主觀性,提高預測準確性,根據華北典型礦區資料,結合前人研究結果選取12項可直接測量指標作為煤層底板突水評價指標,18組煤層底板樣本數據進行分析,編號為1~18。X1為含水層厚度、X2為水壓、X3為隔水層厚度、X4為砂石比、X5為泥石比、X6為煤層底板標高、X7為煤層傾角、X8為斷層落差、X9為距斷層距離、X10為開采高度、X11為開采深度、X12為采動速度。具體煤層底板突水樣本數據見表1。
2.2 主成分分析結果
利用SPSS(Statistical Product and Service Solutions),統計產品與服務解決方案軟件),對表1中18組樣本數據、12項評價指標進行主成分分析,由此得出煤層底板突水各主成分的特征值及貢獻率,見表2;煤層底板突水PCA碎石特征值及累計貢獻率圖,見圖2。由表2可知,前5項主成分的累計貢獻率為85.044%,說明前5項主成分包含原有指標數據85.044%的信息。由圖2可知,前5個主成分特征值散點圖呈陡坡形,后5個主成分特征散點圖趨于平緩,表明前5項主成分可以較好的解釋煤層底板突水原始指標的絕大部分信息,且各成分間的重疊性弱。因此,提取前5項主成分代替原有的12項指標更為合適。
利用SPSS軟件,求得煤層底板突水5個主成分的因子載荷矩陣,見表3。其中,第1主成分Y1與指標X6、X1、X12、X8、X4、X5、X10、X11顯著相關,表明Y1包含煤層底板標高、含水層厚度、采動速度、斷層落差、砂石比、泥石比、開采高度及開采深度的指標信息;第2主成分Y2與指標X2顯著相關,表明Y2包含水壓的指標信息。同樣可以確定,第3主成分Y3包含X3隔水層厚度的指標信息;第4主成分Y4包含X9距斷層距離的指標信息;第5主成分Y5包含X7煤層傾角的指標信息。
2.3 主成分分析煤層底板突水狀態
表4為主成分得分數據。根據主成分Y1和Y2得分數據,畫出樣本得分散點圖,如圖3所示。由表4和圖3可知:Y1和Y2主成分分別包含原始指標信息的38.632%和18.080%。樣本編號為1、5、11、15、17的5個樣本分布在主成分Y1、Y2的正向區間(第Ⅰ象限),Y1、Y2主成分得分較大,結合實際情況可知,這5個樣本都屬于突水狀態。樣本編號為4、12、13、16、18的5個樣本分布在主成分Y1、Y2的負向區間(第Ⅲ象限),結合實際情況可知,這5個樣本都屬于未突水狀態。
由表2和圖3可知:Y1和Y2主成分得分散點圖包含原始數據54.712%信息,且Y1、Y2特征值均大于2。除Y1、Y2外,其他主因子對原有信息涵蓋較少,無法定性描述煤層底板突水狀態。
3? 評價煤層底板突水狀態
3.1 預測煤層底板突水狀態
基于主成分分析法,將提取的5個主成分,即Y1~Y5作為Fisher判別指標輸入層,將樣本編號1~15組數據作為訓練樣本輸入,16~18組數據作為預測樣本輸出,輸出參數為煤層底板突水狀態。利用SPSS軟件,由Fisher判別法計算可得判別函數,見式(13)。
判別函數G對應的特征值為7.066,典型相關性達到0.936,大于0.85,說明其判別能力顯著,方差為100.00%,表明運用函數G即可解釋樣本全部信息。
煤層底板突水狀態中心值,見表5。在判別函數G中,未突水的中心值為-2.645,突水的中心值為2.315。通過比較預測樣本函數值與突水狀態中心值的距離,即取兩者差值絕對值,根據絕對值最小所在類別確定樣本最終突水狀態。
為檢驗PCA-Fsher判別模型的準確性及可靠性,將15組訓練樣本數據逐一回代,通過比較樣本函數值與突水狀態中心值的距離,確定樣本的突水狀態。1~15組回判函數、16~18組判斷函數值,結果見表6。
3.2 結果分析
PCA-Fisher判別對1~15組訓練樣本回判結果全部正確,16~18組預測樣本全部正確,回判及預測過程中都沒有造成誤判。主成分分析提取影響煤層底板突水指標主成分,減弱各指標間關聯性。Fisher判別模型預測煤層底板突水狀態,利用判別函數對訓練樣本進行回判,提高小樣本預測效率及精度。綜上表明:PCA-Fisher判別模型預測小樣本煤層底板突水穩定程度高且較為可靠,能滿足突水判別的實際要求。
4? 結論
1)采用主成分分析對影響煤層底板突水指標進行降維處理,確定5個主成分代替原有的12項評價指標,降低指標信息間關聯度,提高預測精度。
2)將確定的主成分,帶入Fisher判別中,前15組樣本數據逐一回判,后3組樣本數據進行預測,結果均與實際數據一致。
3)煤層底板突水預測的PCA-Fisher判別模型具有較高的穩定性及可靠性,簡化了判別模型,提高了預測效率。
參考文獻
[1]李博,武強,班文韜。 掘進巷道富水型斷層突水多場災變演化規律研究[J]。 煤炭科學技術,2019,47(12):161-167。
[2]陳星明,曹樹凱。 石炭-二疊系煤層底板高承壓巖溶水防治技術[J]。 煤炭科學技術,2018,46(3):182-187。
[3]劉磊,于小鴿,王丹丹等。 基于灰色理論的底板突水危險性評價[J]。 礦業安全與環保,2016,43(5):45-49+61。
[4]趙德康,張健。 基于熵權-未確知測度理論的煤層底板突水危險性評價數學模型[J]。 煤炭工程,2016,48(S2):121-124。
[5]申建軍,劉偉韜,許珂。 基于可拓物元模型的煤層底板突水危險性評價[J]。 河南理工大學學報(自然科學版),2016,35(4):451-457。
[6]徐德寶,曹始友,徐孚效等。 基于突變理論的煤層底板突水危險性評價[J]。 煤礦安全,2014,45(12):197-200。
[7]董麗麗,費城,張翔等。 基于LSTM神經網絡的煤礦突水預測[J]。煤田地質與勘探,2019,47(2):137-143。
[8]陳建平,李金柱,王雪冬等。 改進脆弱性指數法在煤礦底板突水評價中的應用[J]。 中國地質災害與防治學報,2019,30(3):67-74。
[9]葉世雄,賈明濤,潘傳鵬,陳建宏。 基于未確知測度理論的煤層底板突水危險性評價[J]。 安全與環境學報,2015,15(1):26-30。
[10]孫文潔,武強,董東林等。 礦井水文地質類型劃分的Fisher判別分析法-以開灤礦區為例[J]。 中國礦業大學學報,2012,41(2):231-235。
[11]畢建武,賈進章,趙博琦等。 煤與瓦斯突出預測的Fisher判別分析法及應用[J]。 安全與環境學報,2014,14(5):57-60。
[12]侯恩科,童仁劍,王蘇健等。 陜北侏羅紀煤田風化基巖富水性Fisher模型預測方法[J]。 煤炭學報,2016,41(9):2312-2318。
[13]任雪松,于秀林。 多元統計分析(第2版)[M]。 北京:中國統計出版社,2011:184-198。
[14]張紫昭,陳凱,程文瑜等。 基于Fisher判別分析法的井巷圍巖質量分類研究[J]。 煤炭科學技術,2016,44(11):36-41。